我的话题 - randypeng的个人主页 - 深蓝学院 - 专注人工智能与机器人的学习平台

randypeng

暂无个性签名

智能语音算法工程师，清华大学计算机系硕士，Wenet社区核心开发者，参与多领域大规模中文语音识别开源数据集WenetSpeech的开发。曾先后任职于出门问问、地平线等公司，从事语音识别算法和产品研发。

QA
——来自《语音识别：从入门到精通- 第一期》·21浏览

「广州_松: 1. page27页提到”口腔、鼻腔、舌头的位置，嘴型等决定声音的内容（即音色）”。这里说声音的内容就是音色是不是不太严谨，page39也提到了”声音波形的谐波频率和包络决定音色”。韩纪庆老师的书上说”声音之间的区别在于和弦”，和”基音和倍音有关”。所以音色具体跟音频的哪部分有关呢？特别地，改变提取到的声学特征（MFCC和LPC等）里面的哪些参量可以改变音频音色？」
- - - - - - - - - - - - - - -
音色是一个主观的概念，没有太严格的定义。”口腔、鼻腔、舌头的位置，嘴型等决定声音的内容（即音色）” —》这里的内容就是指这些发音器官的运动组合主要决定了发出来音的音色，而音色主要决定语音的“内容”（可以狭义的讲”内容“就是决定语义的，就是不同人说出的“今天天气不错”，可能音量不一样，可能调不太一样，但是大家都能从“音色”感受到是同样的语义内容。”声音之间的区别在于和弦，和基音和倍音有关“，这句话也是对的，发不同音的时候，发音器官形状和运动性不一样，或者说声带特性不一样（比如震动频率，声门大小），且声道形状和发音器官位置不一样（即滤波器不一样），造成了倍音（共振）不一样。

「广州_松: 2. ppt里面提到的泛音和倍音是一个概念吧？」
- - - - - - - - - - - - - - -
可以这样理解。

「广州_松: 3.page39里面说的”包络的陡缓影响声音强度的瞬态特性”。这句话太能理解：什么是声音强度的瞬态特性？（网上查了下也没查到）以及包络的陡缓是怎么影响它的呢？」
- - - - - - - - - - - - - - -
声音强度的瞬态特性就是说（1）声音是时变的，temporal的，反映在频域里就是不同频率上的能量分布是瞬态的。（2）这里的强度是指在不同频率上的强度是瞬态的，但虽然是时变的，但是在一定时间段内又能保持一定的稳定性。比如我们语音识别声学建模的时候，选取音素状态（phone state），即子音素（sub phone）来建模，就是因为在子音素单位内，声音的瞬态特性可以看似是稳定不变的。

「广州_松: 谢谢老师的细致解答，基本都懂了。顺着再问一句，那如果我想改变音频的音色而不改变语义文本内容，是不是只要想办法改变基音和倍音在语谱图的相对位置就可以实现了呢？」
- - - - - - - - - - - - - - -
是类似”变声“，不过这种变比较机械。有一个voice transformation的技术叫frequency warping就是类似的想法。

「 cyb: 那一般在训练模型时是否有用到这些变声或变音色方法来扩充数据集呢」
- - - - - - - - - - - - - - -
如果是指ASR的data augmentation的话，变声（变速+变调）是一种常见的方法，还有就是加噪声和混响，目的是提升数据的多样性。kaldi里也有标准的做法。还有谷歌最新的specaugmentation方法，在输入上随机mask调一段（time or frequency masking），也是一种可以看做输入”dropout“的方法，算是overfitting的一种方案。

「 SUN: @谢磊西工大谢老师，还有一个理解希望您能确认与喜爱，在你们实验室公布的变声案列中（eg.谢老师->林志玲），应该算是语音转换了。这样理解合适否？」
- - - - - - - - - - - - - - -
是的。语音转换（voice conversion）的狭义定义是指：保留源说话人的内容信息，而让语音变得像是目标说话人的音色（内容信息不变）。广义的语音转换可以是：念歌词 —》唱歌（lyrics to singing）；中性情感—》高兴/生气（情感转换），口音转换（普通话—>四川口音普通话）…. 或者广义上叫 voice transformation

「白云悠悠: 老师，音调是不是可以理解为人耳所能感知到的频率？它是不是也与口腔、鼻腔、舌头的位置，嘴型等有关？」
- - - - - - - - - - - - - - -
可以这样理解，人耳感受到的音调（音高）和物理频率之间不是线性关系，近似一个log函数，这个是和整个发音过程都有关系（包括声带振动的频率和整个声道的滤波作用）。

音高：指人耳对声音调子高低的主观感觉。主要取决于频率的高低与响度的大小。频率低的调子给人以低沉、厚实、粗犷的感觉；频率高的调子给人以亮丽、明亮、尖刻的感觉。
2．音高音高也称音调，表示人耳对声音调子高低的主观感受。客观上音高大小主要取决于声波基频的高低，频率高则音调高，反之则低，单位用赫兹(Hz)表示。主观感觉的音高单位是“美”，通常定义响度为40方的1kHz纯音的音高为1000美。赫兹与“美”同样是表示音高的两个不同概念而又有联系的单位。人耳对响度的感觉有一个从闻阈到痛阈的范围。人耳对频率的感觉同样有一个从最低可听频率20Hz到最高可听频率别20kHz的范围。响度的测量是以1kHz纯音为基准，同样，音高的测量是以40dB声强的纯音为基准。实验证明，音高与频率之间的变化并非线性关系，除了频率之外，音高还与声音的响度及波形有关。音高的变化与两个频率相对变化的对数成正比。不管原来频率多少，只要两个40dB的纯音频率都增加1个倍频程(即1倍)，人耳感受到的音高变化则相同。在音乐声学中，音高的连续变化称为滑音，1个倍频程相当于乐音提高了一个八度音阶。根据人耳对音高的实际感受，人的语音频率范围可放宽到80Hz—12kHz，乐音较宽，效果音则更宽。
频率对音高是决定作用，但是也会和整个发音过程有关。

「黎塞留小公爵: @谢磊西工大老师如果想做语音的话我们是不是应该系统地学习语音学的知识」
- - - - - - - - - - - - - - -
对于语音识别来说，只需要语音发音和感知的基本的知识就行了，不需要特别深入。下一次课，语音的时、频表示，特征提取更为重要一些。

「广州_松: 中文里面的一个grapheme就是一个汉字，那英文的一个grapheme是一个单词还是一个字母？或者不一定一一对应？
———————————————
你是说的ppt里morpheme么？感觉英文morpheme应该是单词，单词是英文表征语义的最小单位，字母一般没有表征语义吧」
- - - - - - - - - - - - - - -
morpheme对英文来说，一般是小到词根的。

「王东宁: @谢磊西工大老师，我看到ppt里很多波形的例子都是上下不对称的，请问这是音频信号本身的性质还是其它原因导致的呢？我记得以前调用某些函数库visualize音频的时候，波形是根据采样率采到振幅后一正一负交替取值得到的。那这样的话似乎只要我把采样率取到无穷高，图形就是上下对称的。这个理解对么？」
- - - - - - - - - - - - - - -
是指上下不太对称吗？这个主要是硬件采集设备（如麦克风、声卡）采集导致的。和采样率没有太大关系

「王东宁: @谢磊西工大老师会不会跟采集设备把声音转成数字信号时候的采样率有关呢？」
- - - - - - - - - - - - - - -
拾音器采集声音的时候，本身就不会特别严格对称。和采样率没有太大关系。采样率只是影响音质和带宽。

「王东宁: @谢磊西工大老师我使用采样率这个词的时候也不确定是不是标准用法。我心里想的是离散化时候那个颗粒度（包括录音设备）。」
- - - - - - - - - - - - - - -
采样就是数字化过程中，在时间上抽取点的过程。采样率就是每秒采多少点。16KHz，就是1秒，16000个点。和图像的分辨率有些类似

「王东宁: @谢磊西工大老师我应该是明白了，所以这个概念既适用于录音设备也适用于音频文件对吧」
- - - - - - - - - - - - - - -
是的。数字化（编码）这套东西我们俗称为codec。

「王东宁: @谢磊西工大老师回到上一个问题，不知道有没有人试验过，如果把一个上下不对称的波形，手动改成上次对称的（比如只取上半部分，相应的下半部分取负），那声音听起来会不一样么？」
- - - - - - - - - - - - - - -
你可以试一试估计这样可能声音可能还有可懂度，但是听上去就比较机械了。【话说传统的语音合成技术，基于简化的发音机理（比如源滤波器）的数学合成方式，出来的波形应该比较机械，缺乏细节，听上去就比较机械】我们的语音之所以听上去自然，应该也有”不对称“和不规律之美吧（虽然有大致的规律）。

「王东宁: @彭震东 fft已经是离散化处理之后的函数了吧？一旦到了这一步，已经有了在哪些区间上做fft的人为选择。所以感觉这不能算是声音的原始定义，或者是等价定义了…… 」
- - - - - - - - - - - - - - -
声的原始定义就是能够引起听觉的振动。而fft只是把声音（包括语音）转换的频域里去观察，能够体现出很多特点来。两者不冲突。以前图像也是要在频域里观察的，但是目前深度学习已经在图像上像素做输入了（神经网络取代了信号处理，或者说充当了信号处理的作用）。声学的门类就很大了。我找一本基础的，稍后发一下。

「王东宁: @彭震东啊，你说的是数字化之后的音频，所以这时候自然的数学表达其实是在频域上对么？」
- - - - - - - - - - - - - - -
数字化和转频域是两个概念，数字化只是采样、量化、编码。任何信号进入计算机都要做的事情。频域是观察这些信号的手段。模拟信号有信号处理，数字信号也有信号处理，是数字信号处理了（傅里叶变换也变成了离散傅里叶变换）
不同工具可视化后不一样，但是离散化的波形，就是记录的一些点按照顺序的取值。
推荐大家使用adobe audition来观察语音。matlab也可以观察和处理语音。这个@孙思宁可以第二次课的时候稍微介绍下。

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

常见问题

证书查询

返回顶部