• 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
  • 课程中心
  • 公开课
  • 面试题库
  • 企业服务
    • 企业内训
    • 企业招聘
  • 高校合作
    • 登录/注册
  • 登录/注册
    • 登录/注册
  • 登录 /注册
    • 课程中心
    • 公开课
    • 面试题库
    • 企业服务
      • 企业内训
      • 企业招聘
    • 高校合作

    randypeng

    暂无个性签名

    智能语音算法工程师,清华大学计算机系硕士,Wenet社区核心开发者,参与多领域大规模中文语音识别开源数据集WenetSpeech的开发。曾先后任职于出门问问、地平线等公司,从事语音识别算法和产品研发。
    • 0
      粉丝
      关注 已关注
    • 2
      关注
    • Ta的课程
    • Ta的在教课程
    • Ta的课程
    • 课程讨论
    • Ta的话题
    • Ta的问答
    • Ta发布的
    • Ta参与的
    • 能否多讲讲Transducer?

      ——来自《基于端到端的语音识别- 第一期》·6浏览

      因为 rnnt 是在 ctc 的基础上做的改进,解决 ctc 独立假设的问题。

      输入一帧音频则持续输出 token,直到输出结束符,再输入下一帧音频。

      上一个输出的 token 也会作为当前的输入,解决了独立假设的问题(当前能看到历史的输出)

    • 为什么输入的顺序改变后得到的z是不变的?

      ——来自《基于端到端的语音识别- 第一期》·5浏览

      1. 可以尝试算一下公式

      2. q, k, v 都跟顺序没有关系,所以顺序改变不影响最终的计算结果

    • 解码器如何联合编码器工作的?

      ——来自《基于端到端的语音识别- 第一期》·7浏览

      哪三个箭头呢?交叉注意力机制?query 来自 decoder,key 和 value 来自 encoder

    • 强制对齐的作用和意思是什么?

      ——来自《基于端到端的语音识别- 第一期》·9浏览

      对齐通常会用于字幕文件的生成,给定音频和对应的文本,得到具体的时间戳

    • 这里的系数矩阵是怎么来的呢?

      ——来自《基于端到端的语音识别- 第一期》·8浏览

      如果你指的是离散傅里叶变换的系数矩阵,是将公式写成了矩阵乘法的形式,从而进一步做变量替换。

    • 感觉就是简单过了一下概念,还是没太理解为啥叫端到端?相比传统的有啥优劣? 端到端原理是什么?

      ——来自《基于端到端的语音识别- 第一期》·28浏览

      @sasav6 不用深度神经网络的是 HMM+GMM,属于 2015 年以前的技术了,如果对传统这套技术感兴趣,可以学习学院的另外一门语音识别入门的课程。

    • 跨平台部署

      ——来自《Docker 容器技术基础入门- 精品课》·9浏览

      通过 docker pull 下载对应的镜像

    • 部署python程序,container无法保持运行

      ——来自《Docker 容器技术基础入门- 精品课》·7浏览

      可以尝试在 python 脚本中打印日志,并且查看容器的日志输出

    • 有没有SRILM的安装教程

      ——来自《语音识别:从入门到精通- 第一期》·26浏览

      我用的是 kaldi 里面的脚本装

    • 关于第七章ppt最后的解码流程问题.....

      ——来自《语音识别:从入门到精通- 第一期》·42浏览

      lexicon 文件里面有 <UNK>

    • 使用srilm计算ppl时的一些疑惑

      ——来自《语音识别:从入门到精通- 第一期》·65浏览

      引入外部词典,会导致词汇量变大吧,因此困惑度也大。多音字也类似

    • 使用srilm计算ppl时的一些疑惑

      ——来自《语音识别:从入门到精通- 第一期》·65浏览

      @chenpengfei 对于同样一个句子,你的训练数据就那么多,如果词汇量大,那你出现每个词的概率不就越小吗?模型就越困惑。对于更合理的句子,概率是应该越高。但是不管加没加多音字,词汇量扩大还是没扩大,你的测试集是一样的。

    • 第七章作业:SRILM训练语言模型时报错

      ——来自《语音识别:从入门到精通- 第一期》·108浏览

      简而言之就是:

      因为 thchs30 训练集中的每条句子都至少重复 7 次,例如:“他 代表 俄语 学院 向 奈 娜 夫人 赠送 了 一 套 与 普希金 俄语 学院 合编 的 教材 东方 俄语”

      导致 1gram,2gram 和 3gram,甚至 21gram(长度不足 21gram 的不算),出现次数最少的都不低于 7 次,即 n1=n2=n3=n4=0

    • 第七章作业:SRILM训练语言模型时报错

      ——来自《语音识别:从入门到精通- 第一期》·108浏览

      @chenpengfei 但是你把重复的句子去掉,就会影响这个句子里面词的计数

    • Fbank提取看不懂

      ——来自《语音识别:从入门到精通- 第一期》·113浏览

      建议你输出一下 hz_points 和 bin 看看,就知道 bin 表示什么了。

      我认为那个范围是根据人耳确定的。

    深蓝学院是专注于前沿科技的教育平台,目前在人工智能、机器人与自动驾驶领域搭建了完善的课程体系,并在积极探索嵌入式、物联网、增强现实领域的教育模式。学院致力于为企业培养踏实上进的工匠型人才,也愿与企业共同探索人才教育方案。

    关于我们 版权声明 联系电话:010-86226736
    服务协议 反馈建议 联系邮箱:service@shenlanxueyuan.com
    友情链接:
    • 中科院自动化所
    • 中国科学院大学
    官方微信公众号
    扫码下载APP
    ©2025 深蓝学院

    课程内容版权均归 北京深蓝前沿科技有限公司所有

    京ICP备19029074号| 京公网安备 11011402010666号
    在线咨询
    常见问题
    证书查询
    返回顶部