-
补零是否影响频率分辨率?
——来自《语音识别:从入门到精通- 第一期》·43浏览
举个例子,比如一个离散信号x[n], 长度为K,这个离散信号中包含了两个频率为f0和f1的正弦波,两个频率很接近,并且原始的K个采样点已经包含了频率较低的那个正弦波的至少一个周期(当然也必然包含了较高频率的至少一个周期),那么此时增加DFT点数,补零的操作,使信号补0到N个点,如果fs/N < |f1-f0|,那么此时,肯定可以提高分辨率,把原来K个点DFT无法分离的两个频率成分给分开。这也是我个人的理解
-
1. 端到端的识别,所使用的特征其实还是我们目前讲的特征,fbank特征最常用
2. 其实还是需要的,目前直接用wav建模的模型,效果还是不如基于频域的特征,就算是相关研究,也还是利用CNN来学习滤波器的特性
-
一般来讲P(X)就是观测数据的先验概率分布,这个分布,与我们的参数无关,是一个正则化因子(满足概率为1),我们认为对所有的数据,P(X)都相同,所以一般都考虑。
-
多少维某语音声学特征中的“维”是具体指?
——来自《语音识别:从入门到精通- 第一期》·37浏览
特征本身就是一个向量,这个“维”,就是这个向量的维度,一个向量x=[x1,x2,x3],我们说它是3维向量.
-
鸡尾酒会问题现在的进展如何
——来自《语音识别:从入门到精通- 第一期》·51浏览
这个近两年的研究挺热的,要说具体进展怎么样,我也不好说,基于各种神经网络结构的说话人无关的语音分离,在MERL释放的基于WSJ的数据库上,那效果是很好,特别还有基于时域的TasNet,超过了很多频域的模型,但是这种有监督的学习都需要用仿真数据去训练,在实际测试的时候,数据由于受到噪声、录音设备、混响等影响,效果还不行。
现在大多数方法,可能还是基于深度聚类(deep cluster),置换不变性训练(permutation invariant training),TasNet,Deep attractor这些方法来的,有的还增加了多通道的数据,或者相位信息,但是大致方向应该就是这些(据我之前了解)