-
训练集的标注就是你训练语言模型的数据。
-
实际中看情况。比如说你在做标准数据集和别人比结果,那你就只能用那数据集合(比如说swbd,如果只是比这个数据集,那通常只用原本语料;但是也可以用swbd+fisher数据,这样效果更好。看task)。但是如果你是大公司的线上系统,你能收集多少数据就收集多少数据,一般来说,越多越好。
只要你注意不把test集合加进去就好。
这个主要是让你们体验一下流程,熟悉一下工具包。因为实际工程对于成熟的算法,你用现成工具多;有新idea,才需要自己写。
-
kaldi资料共享
——来自《语音识别:从入门到精通- 第一期》·84浏览
http://kaldi-asr.org/doc/,可以看看官方文档。里面对术语,coding风格,io机制,HMM设计,等等等等都有介绍。
当然看多少博客都不如看看代码。
-
关于GMM-HMM训练的基本框架
——来自《语音识别:从入门到精通- 第一期》·69浏览