-
12-2中四个问题,在课程中有讲解吗?
——来自《基于端到端的语音识别- 第一期》·3浏览
四个问题目的是促进同学们做更多的思考并理解特征提取中的一些操作为什么要这么来,可以通过课外查阅一些资料和一起讨论来学习哈,当然一时不明白也不影响后面的学习。
-
12-1的附件下载后无法解压
——来自《基于端到端的语音识别- 第一期》·4浏览
试试看这里 zip 格式的压缩包能解压不
-
强制对齐的作用和意思是什么?
——来自《基于端到端的语音识别- 第一期》·9浏览
torchaudio中的强制对齐讲的是给定音频和音频文本,确定文本中每一个字在音频哪一段时间,相当于是把字和该字所在的时间点一 一对齐
-
重采样是将一个信号从一个采样率转换到另一个采样率的过程。不同的音频设备和处理标准可能要求不同的采样率。重采样使得在不同设备之间传输和存储音频数据变得可能。重采样分为两种情况:上采样(增加采样率)和下采样(减少采样率)。上采样:插入额外的零值样本来增加采样率。下采样:使用一个抗混叠低通滤波器预处理信号,以确保满足采样定理并防止混叠现象。然后丢弃部分样本以减少采样率。
-
这里的系数矩阵是怎么来的呢?
——来自《基于端到端的语音识别- 第一期》·8浏览
哪一个系数矩阵,求截图
-
哪一节的频率响应图,求截图或说明视频时间
-
帧移和帧长会受到说话速度快慢的影响吗?
——来自《基于端到端的语音识别- 第一期》·5浏览
标准设置通常是帧长度为0.025秒,帧移为0.01秒。这是研究者们基于时间分辨率、频率分辨率以及计算效率之间的平衡经验而选择的固定参数值。帧移和帧长不用因为说话速度快慢而改动,即使一帧的时长超出了一个发音单元,训练充分的语音识别模型也可以通过多帧特征上下文关系捕捉和识别其中的发音单元,通过在训练数据中加入不同速度的语音样本,可以训练模型更好地适应不同的说话速度。
-
精华 为什么要抑制低频加重高频?
——来自《基于端到端的语音识别- 第一期》·7浏览
在自然环境中,很多噪声(如风声、空调声等)主要集中在低频段。预加重可以减少这些低频噪声的影响,从而提高语音信号的信噪比。而且语音信号中的共振峰(Formant),特别是高频共振峰,对于辨识不同的音素非常重要。
由于声道和空气的传播特性,高频成分往往比低频成分衰减得更快,因此需要通过一个高通滤波器来限制低频信号,就相对增强了高频信号能量。可以参考 为什么要对语音信号「预加重」 - 知乎 (zhihu.com)
-
预加重的意思是“加重”(即强化)语音中的高频成分,是应用一个高通滤波器来实现的,由于声道和空气的传播特性,高频成分往往比低频成分衰减得更快,因此需要通过一个高通滤波器来限制低频信号,就相对增强了高频信号能量。α取值为 0.97 的原因是科学家们在经验上的选择,它在多数语音处理任务中表现良好,平衡了高频的增强和信号的自然感。这个值能够有效地补偿由声道和口腔形状引起的高频能量损失,同时不会使信号过度失真。
-
传统的语音识别需要特征提取(获得音频波形的特征,例如Fbank、MFCC)+声学模型(识别每个特征对应的音素)+发音词典(音素映射到字词)+语言模型(用统计学方法确定最大概率的单词序列)结合实现,无需采用深度神经网络,有数学理论支撑,可解释性强,但每一步需要单独训练和优化,过程复杂。而端到端语音识别通过深度学习技术(编码器-解码器架构),对提取的特征经过一系列非线性转换,这些转换都由模型在训练过程中学习。最终模型直接输出单词或字符序列,这整个过程把之前的多个步骤整合为一个流程,这就是端到端。
相比传统方法,端到端系统简化了训练和推理流程,不再需要独立的发音字典和语言模型,减少了系统复杂度,缺点是需要大量的标记数据来有效训练。具体细节主要会在第三章课程讲解。
-
@sasav6 学院之前开设过传统的语音识别课程,那个理论相对复杂,可以看老师推荐的课外资料大致知道是什么情况就行,现在都改端到端方法了,重点转移到了深度学习模型,基本不用再了解传统的架构。传统的方法可以参考 AI大语音(一)| 语音识别基础(深度解析) - 知乎 (zhihu.com) ,想看传统语音识别课程也可以跟班主任老师反映一下。
-
窄带滤波是只允许信号中一个非常狭窄的频率范围的成分通过,这种滤波方式的频率分辨率很高,可以让我们看到信号中的细节变化,如谐波和共振模式的变化,而宽带滤波允许一个较宽的频率范围通过,则可以让我们更好地理解声音的整体结构,如音节和词的边界。
语谱图(Spectrogram)是把每一帧的语音信号通过离散傅里叶变换转换为频域,然后横轴作为每一帧,纵轴作为每一个频段,颜色作为该频段的能量强度得到的彩色图。如课程视频中所示。
在端到端语音识别流程中不需要了解窄带滤波宽带滤波的原理,只需要知道语谱图是怎么来的,如果对傅里叶变换不了解的话参考:通俗易懂的理解傅里叶变换(一)[收藏] - 知乎 (zhihu.com)
-
将连续的语音信号分割成一段段时间相等的小段,这些小段被称为帧。每一帧都可以被看作是一个短时平稳的信号段。在实际应用中,相邻的帧往往有一定的重叠,这是为了减少帧边界处的突变引起的失真。
语音信号在很短的时间内(通常在10-30毫秒)是平稳的,这就是所谓的短时平稳性。这是因为在这样短的时间内,人的发音器官的运动速度相对较慢,因此产生的语音信号的特性(比如基频和共振峰)相对保持稳定。
如果一帧的时间越长,可以更精确地确定信号中的频率成分,而更短时间帧中包含的可能的频率成分更为模糊。帧的长度必须足够长以提供足够的频率分辨率,同时也要足够短以跟踪语音的快速变化。如果要了解帧长和其中的频率关系,可以参考:https://zhuanlan.zhihu.com/p/60638534
信号处理涉及通信相关的基础知识,建议先了解怎么做的,深究原理可能要花不少时间看一些专业书和课程。