100steps/Blogs

语音识别系统大科普【长文预警】【第一章】

boji123 opened this issue · 0 comments

刚弄完与语音有关的毕业设计,对于语音识别系统算是入门了。
不同于图片识别,语音识别系统与其他时序系统一样,都是极度复杂的,为了让大家对这类系统有一定了解,特开此天坑。
//word图片不能直传,手动复制黏贴五十张图。。。辛酸
//word格式转换有点问题,因此部分公式不能较清楚地显示
//大部分图片取自网络,但所有文字均为手打

第一章特征提取
1.1智能识别任务的本质
在现今所有智能识别任务中,其本质都是对任务目标进行分类操作,例如成熟的手写数字识别任务,就是要将手写的字符分类到1~10这十个代表数字的类别中,在数学里,分类任务本质就是一个从输入特征向量X到分类结果向量Y的函数映射,即Y=f(X),这里Y的输出是特征X属于类别Y[i]的概率,对于语音识别,就是要做声音的时间幅度信号到代表音素的字符串的映射,为此,需要对声音波形进行特征提取

1.2语音时域波形与频谱特点
赵力的《语音信号处理》一书中提及,语音信号是由声门激励经过声道响应后产生的,通过对各种语音时域与频域图谱的分析可知,在时间上,汉语发音由元音与辅音构成,元音和辅音的时域波形有很大的区别,元音波形具有一定的周期性,而辅音则没有明显的周期性,如图1-1:

image

图1-1,汉语拼音“sou ke”的时域波形

语音对应的时域波形属于短时平稳信号,一般认为在10~30ms内语音信号基本不变或者变化缓慢,因此可以从中截取一小部分进行频谱分析,如图1-2:

image

图1-2 ,元音 ou 的频谱图
从图中可以看出,元音的频谱具有明显的共振峰,类似地可以对其他的音素进行分析。可以发现,每个音素都有其相对独特的频谱特性,因此,对语音信号进行建模可以从频谱入手。

1.3 MFCC特征(Mel Frequency Cepstral Coefficients)
在获得语音信号以后,由于信号会受到各种干扰,首先需要进行一定的预处理步骤以得到质量较好的语音信号。
预处理之后,便可对语音信号进行特征提取。由于语音信号具有短时平稳特性,因此可以将输入语音信号按一定时间间隔切分为语音帧以便提取语音信号的特征序列,方便接下来的分类任务。为了考虑帧与帧的衔接关系,分帧时,切分出来的语音帧应当存在一定的重叠,如图1-3:

image

图1-3 ,帧长,帧移与帧重叠
MFCC特征是一种语音领域常用的特征。为了提取MFCC特征,首先需要对语音帧序列s[n]进行短时傅立叶变换,得到语音的频谱DFT[s(n)]。
语音信号的倒谱定义为 S(n)=IDFT{ln|DFT[s(n)]|},根据语音信号s(n)由声门激励e(n)与声道响应v(n)滤波(卷积)得到,即s(n)=e(n)*v(n),故可推导出倒谱中S(n)=E(n)+V(n),而倒谱域中,实际上E(n)与V(n)的位置是相对分离的,通过对倒谱的分析,可以有效地辨别语音音素。
人耳对于声音频率的辨别是非线性的,Mel频率倒谱参数(MFCC)着眼于人耳的听觉特性,首先对频谱的频率进行了变换:Mel(f)=2595lg(1+f/700) ,然后对Mel(f)进行三角滤波,在频率轴上这些三角滤波器等间隔分布,且上/下限频率的位置刚好是前/后一个三角滤波器的中心频率,如图1-4:

image

图1-4 ,相邻三角滤波器之间的关系

根据语音信号幅度谱|X(k)|可以求取滤波输出:
image,其中
image

进一步对滤波器输出做离散余弦变换(DCT):
image

即可得到MFCC。在实际应用中,MFCC的维度通常是13维,即为最基础的MFCC特征,通常还进行一阶、二阶差分操作变为39维的MFCC特征。


参考文献
[1]赵力. 语音信号处理-第2版[M]. 机械工业出版社, 2009.
[2]吴军. 数学之美.第2版[M]. 人民邮电出版社, 2014.
[3]俞栋, 邓力, 俞凯,等. 解析深度学习语音识别实践[M]. 电子工业出版社, 2016.
[4]郑泽宇, 顾思宇. TensorFlow实战Google深度学习框架[M]. 电子工业出版社. 2017.
[5]卡拉特.苏彦捷.生物心理学[M].第10版.北京.人民邮电出版社,2012
[6]Rabiner L, Juang B H. Fundamentals of speech recognition[M]. Tsinghua University Press, 1999.
[7]Bishop C M. Pattern Recognition and Machine Learning (Information Science and Statistics)[M]. Springer-Verlag New York, Inc. 2006.
[8]Andrew NG, Jiquan Ngiam, Chuan YU Foo, et al. UFLDL tutorial. http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial. 2013.
[9]Young S J. Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems[J]. Help, 1994.
[10]Hinton G, Deng L, Yu D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.
[11]Young S. A review of large-vocabulary continuous-speech[J]. IEEE Signal Processing Magazine, 1996, 13(5):45.
[12]Miao Y, Metze F. Improving low-resource CD-DNN-HMM using dropout and multilingual DNN training[J]. Proc Interspeech, 2013.
[13]Rath S, Povey D, Veselý K, et al. Improved feature processing for Deep Neural Networks[C]. conference of the international speech communication association, 2013.
[14]Mohamed A R, Dahl G, Hinton G. Deep Belief Networks for phone recognition[J]. 2009, 4.