我的话题 - HangLyu的个人主页 - 深蓝学院 - 专注人工智能与自动驾驶的学习平台

HangLyu

暂无个性签名

请问，第七章作业里，thchs30里language model的训练语料在哪里？
——来自《语音识别：从入门到精通- 第一期》·41浏览

训练集的标注就是你训练语言模型的数据。
请问，第七章作业里，thchs30里language model的训练语料在哪里？
——来自《语音识别：从入门到精通- 第一期》·41浏览

实际中看情况。比如说你在做标准数据集和别人比结果，那你就只能用那数据集合(比如说swbd，如果只是比这个数据集，那通常只用原本语料；但是也可以用swbd+fisher数据，这样效果更好。看task)。但是如果你是大公司的线上系统，你能收集多少数据就收集多少数据，一般来说，越多越好。

只要你注意不把test集合加进去就好。

这个主要是让你们体验一下流程，熟悉一下工具包。因为实际工程对于成熟的算法，你用现成工具多；有新idea，才需要自己写。
kaldi资料共享
——来自《语音识别：从入门到精通- 第一期》·84浏览

http://kaldi-asr.org/doc/，可以看看官方文档。里面对术语，coding风格，io机制，HMM设计，等等等等都有介绍。

当然看多少博客都不如看看代码。
关于GMM-HMM训练的基本框架
——来自《语音识别：从入门到精通- 第一期》·69浏览

服务协议反馈建议联系邮箱：service@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部