
-
能否多讲讲Transducer?
——来自《基于端到端的语音识别- 第一期》·6浏览
因为 rnnt 是在 ctc 的基础上做的改进,解决 ctc 独立假设的问题。
输入一帧音频则持续输出 token,直到输出结束符,再输入下一帧音频。
上一个输出的 token 也会作为当前的输入,解决了独立假设的问题(当前能看到历史的输出)
-
1. 可以尝试算一下公式
2. q, k, v 都跟顺序没有关系,所以顺序改变不影响最终的计算结果
-
解码器如何联合编码器工作的?
——来自《基于端到端的语音识别- 第一期》·7浏览
哪三个箭头呢?交叉注意力机制?query 来自 decoder,key 和 value 来自 encoder
-
强制对齐的作用和意思是什么?
——来自《基于端到端的语音识别- 第一期》·9浏览
对齐通常会用于字幕文件的生成,给定音频和对应的文本,得到具体的时间戳
-
这里的系数矩阵是怎么来的呢?
——来自《基于端到端的语音识别- 第一期》·8浏览
如果你指的是离散傅里叶变换的系数矩阵,是将公式写成了矩阵乘法的形式,从而进一步做变量替换。
-
@sasav6 不用深度神经网络的是 HMM+GMM,属于 2015 年以前的技术了,如果对传统这套技术感兴趣,可以学习学院的另外一门语音识别入门的课程。
-
跨平台部署
——来自《Docker 容器技术基础入门- 精品课》·9浏览
通过 docker pull 下载对应的镜像
-
可以尝试在 python 脚本中打印日志,并且查看容器的日志输出
-
有没有SRILM的安装教程
——来自《语音识别:从入门到精通- 第一期》·26浏览
我用的是 kaldi 里面的脚本装
-
关于第七章ppt最后的解码流程问题.....
——来自《语音识别:从入门到精通- 第一期》·42浏览
lexicon 文件里面有 <UNK>
-
使用srilm计算ppl时的一些疑惑
——来自《语音识别:从入门到精通- 第一期》·65浏览
引入外部词典,会导致词汇量变大吧,因此困惑度也大。多音字也类似
-
使用srilm计算ppl时的一些疑惑
——来自《语音识别:从入门到精通- 第一期》·65浏览
@chenpengfei 对于同样一个句子,你的训练数据就那么多,如果词汇量大,那你出现每个词的概率不就越小吗?模型就越困惑。对于更合理的句子,概率是应该越高。但是不管加没加多音字,词汇量扩大还是没扩大,你的测试集是一样的。
-
第七章作业:SRILM训练语言模型时报错
——来自《语音识别:从入门到精通- 第一期》·108浏览
简而言之就是:
因为 thchs30 训练集中的每条句子都至少重复 7 次,例如:“他 代表 俄语 学院 向 奈 娜 夫人 赠送 了 一 套 与 普希金 俄语 学院 合编 的 教材 东方 俄语”
导致 1gram,2gram 和 3gram,甚至 21gram(长度不足 21gram 的不算),出现次数最少的都不低于 7 次,即 n1=n2=n3=n4=0
-
第七章作业:SRILM训练语言模型时报错
——来自《语音识别:从入门到精通- 第一期》·108浏览
@chenpengfei 但是你把重复的句子去掉,就会影响这个句子里面词的计数
-
Fbank提取看不懂
——来自《语音识别:从入门到精通- 第一期》·113浏览
建议你输出一下 hz_points 和 bin 看看,就知道 bin 表示什么了。
我认为那个范围是根据人耳确定的。