• 嗯嗯,对的,您说的这个理解是对的。低频上滤波器比较密集,人耳对这部分的分辨率是比较高的,高频信息,特别是谐波,对识别音素很有帮助

  • @soudAI_JY ,这个现在几乎所有的模型,还是会进行预加重的,并没有因为这个原因放弃这一步,我理解的是远场的时候,高频衰减比较厉害,应该更需要做一些预加重,而且现实的噪声信号,中低频的多,这样也能稍微减弱一下中低频的干扰

  • MFCC特征做过了DCT变换,我们说各维度之间的相关性变小了,而我们在训练GMM模型的时候,一般高斯模型的协方差矩阵是对角的,也就是说,变量的各维度之间是不相关的,而MFCC特征基本上有这个属性,特征的各维度之间相关性小了。

    但是fbank特征,因为各个滤波器之间的重叠,还有就是信号频率之间的相关性,比如谐波的存在,各维度之间相关性比较大,但是DNN的建模的时候不需要假设各维之间是不相关的,因此直接采用fbank特征就行。

  • 1)这个地方,并不是直接把之前dft的频域信号直接变回时域,是经过了梅尔滤波器、log之后的信号,再次变回“时域”。我们ppt里面用了伪频率轴,其实是说,这个idft之后的信号,并不是真的表示有明确意义的频率,我们实际上是把log X当作了一个时域信号处理(虽然他是频域的,但是如果我们把横轴看成时间轴呢?),是不是相当于又对log X做了一个DFT?因为这个信号是实数信号了,dft和idft其实一样

    2)语音信号的高频并不是噪声,比如元音,有很明显的谐波,但是高频信号由于衰减快,录制到的高频谐波能量很低,而人耳又对高频部分相对敏感,因此我们通过预加重,来提高高频部分的能量

    3)底部左边的图,确实是一个25ms的时域帧DFT之后的频谱,我们完全可以用语谱图在某一个时刻上的切面来理解语谱图的意义。

  • A1:从我们课件的第27页我们知道,我们的目的就是为了分开log |X|中“低频”和“高频”信号,log |X|本身就是一个频域上的信号了,但是如果我们忽略这个信号的本身表示的意义,就把它当成一个普通的波形来看,如果你想分析这个信号的频率成分,应该怎么做呢?很简单,就是对这个信号做一个DFT分析,这样,我们就知道这个信号里面低频和高频信号各有哪些了,这就是我们做了idft的作用,因为这个信号是实信号,idft和dft其实是一样的。27页的ppt中,log |H|变化缓慢,很显然,这个就是log |X|这个信号中的低频信号,也是我们需要的部分,那么,IDFT(log |X|)得到信号的前半部分就应该是这个信号的频率成分了,同理,后半部分就是对应的log |X|中频率较高的部分了,这样说可以理解吗?

    比如经过idft之后,我们只取了idft之后的第1-12位,那么这1-12位就是最原始12维MFCC特征,至于一阶,二阶,那就是用相邻帧的12维特征进行一阶差分和二阶差分进一步得到的。能量,就是原始时域信号x[n]的能量和 sum(x[n]^2)

    A2: 物理意义我上面回答解释了一下,还是要从DFT的物理意义出发去理解比较好理解,DFT的目标就是频率分析,分析信号中的频率成分。

  • 十分抱歉,我的笔误,班主任更新了ppt,里面对这里做了修正。

  • 不好意思哈,这个论文我没有看过,我觉得可能还是需要做预加重的,我看看这个论文之后,如果我能理解我再回答一下。

  • hi,目前来看,其实近讲和远讲在特征提取部分,是没有什么区别的,虽然远讲信号能量衰减快,一般是利用前端语音增强技术来增强语音,降噪、AEC、去混响等等,但处理之后的信号还和课程讲的一样进行特征提取。

  • 是的,这个确实是一个高通滤波器,如果你对传递函数不是很理解,那么你可以这样理解:公式y[n]=x[n]-a*x[n-1],试想,如果x[n]这个信号频率很低,那么x这个信号变化很缓慢,x[n]和x[n-1]的差别是不是应该特别小?当a这个参数接近1的时候,x[n]-a*x[n-1]是不是近似于0了,这样就把频率比较低的信号通过这种差分形式过滤了。如果x[n]这个信号变化很快,也就是频率高,那x[n] 和x[n-1]的差别应该很大,做差分就无法滤过这个信号了。这是一个通俗的说法。

  • 词汇量小的时候用HMM-GMM模型也是可以,就是一个词可以用一个多状态的HMM来建模,每个状态的发射概率用GMM表示,聚类一般就不用了,聚类是为了减少HMM-GMM的参数量,聚在一起的状态共享一套参数,这样可以减少需要估计的参数。

  • 连续语音识别的涉及的方面比较多,这个建议就是跑一下kaldi的例子,中文的话,aishell1就可以,数据量不大,170小时