我的问答 - randypeng的个人主页 - 深蓝学院 - 专注人工智能与自动驾驶的学习平台

randypeng

暂无个性签名

智能语音算法工程师，清华大学计算机系硕士，Wenet社区核心开发者，参与多领域大规模中文语音识别开源数据集WenetSpeech的开发。曾先后任职于出门问问、地平线等公司，从事语音识别算法和产品研发。

能否多讲讲Transducer？
——来自《基于端到端的语音识别- 第一期》·6浏览

因为 rnnt 是在 ctc 的基础上做的改进，解决 ctc 独立假设的问题。

输入一帧音频则持续输出 token，直到输出结束符，再输入下一帧音频。

上一个输出的 token 也会作为当前的输入，解决了独立假设的问题（当前能看到历史的输出）
为什么输入的顺序改变后得到的z是不变的？
——来自《基于端到端的语音识别- 第一期》·5浏览

1. 可以尝试算一下公式

2. q, k, v 都跟顺序没有关系，所以顺序改变不影响最终的计算结果
解码器如何联合编码器工作的？
——来自《基于端到端的语音识别- 第一期》·7浏览

哪三个箭头呢？交叉注意力机制？query 来自 decoder，key 和 value 来自 encoder
强制对齐的作用和意思是什么？
——来自《基于端到端的语音识别- 第一期》·9浏览

对齐通常会用于字幕文件的生成，给定音频和对应的文本，得到具体的时间戳
这里的系数矩阵是怎么来的呢？
——来自《基于端到端的语音识别- 第一期》·8浏览

如果你指的是离散傅里叶变换的系数矩阵，是将公式写成了矩阵乘法的形式，从而进一步做变量替换。
感觉就是简单过了一下概念，还是没太理解为啥叫端到端？相比传统的有啥优劣？端到端原理是什么？
——来自《基于端到端的语音识别- 第一期》·28浏览

@sasav6 不用深度神经网络的是 HMM+GMM，属于 2015 年以前的技术了，如果对传统这套技术感兴趣，可以学习学院的另外一门语音识别入门的课程。
跨平台部署
——来自《Docker 容器技术基础入门- 精品课》·9浏览

通过 docker pull 下载对应的镜像
部署python程序，container无法保持运行
——来自《Docker 容器技术基础入门- 精品课》·7浏览

可以尝试在 python 脚本中打印日志，并且查看容器的日志输出
有没有SRILM的安装教程
——来自《语音识别：从入门到精通- 第一期》·26浏览

我用的是 kaldi 里面的脚本装
关于第七章ppt最后的解码流程问题.....
——来自《语音识别：从入门到精通- 第一期》·42浏览

lexicon 文件里面有 <UNK>
使用srilm计算ppl时的一些疑惑
——来自《语音识别：从入门到精通- 第一期》·65浏览

引入外部词典，会导致词汇量变大吧，因此困惑度也大。多音字也类似
使用srilm计算ppl时的一些疑惑
——来自《语音识别：从入门到精通- 第一期》·65浏览

@chenpengfei 对于同样一个句子，你的训练数据就那么多，如果词汇量大，那你出现每个词的概率不就越小吗？模型就越困惑。对于更合理的句子，概率是应该越高。但是不管加没加多音字，词汇量扩大还是没扩大，你的测试集是一样的。
第七章作业：SRILM训练语言模型时报错
——来自《语音识别：从入门到精通- 第一期》·108浏览

简而言之就是：

因为 thchs30 训练集中的每条句子都至少重复 7 次，例如：“他代表俄语学院向奈娜夫人赠送了一套与普希金俄语学院合编的教材东方俄语”

导致 1gram，2gram 和 3gram，甚至 21gram（长度不足 21gram 的不算），出现次数最少的都不低于 7 次，即 n1=n2=n3=n4=0
第七章作业：SRILM训练语言模型时报错
——来自《语音识别：从入门到精通- 第一期》·108浏览

@chenpengfei 但是你把重复的句子去掉，就会影响这个句子里面词的计数
Fbank提取看不懂
——来自《语音识别：从入门到精通- 第一期》·113浏览

建议你输出一下 hz_points 和 bin 看看，就知道 bin 表示什么了。

我认为那个范围是根据人耳确定的。

服务协议反馈建议联系邮箱：service@shenlanxueyuan.com

友情链接：

在线咨询

常见问题

证书查询

返回顶部