为了解决传统的语音增强算法只对语音幅值谱进行估计,而让语音相位谱保持不变的问题,提出了基于相位谱估计的监督性语音分离算法。首先,对传统的相位补偿理论进行分析,提出了一种同时考虑语音幅值谱和相位谱的理想组合掩码(ICM),并将其应用到监督性语音增强算法中。经过仿真实验,证实该算法能够有效地抑制背景噪声,并且能够显著地提高语音的可懂性和自动识别率。 In order to solve the problem that the traditional speech enhancement algorithms only estimate the speech amplitude spectrum, but make phase spectrum remain unchanged, the supervision of speech separation algorithm based on phase spectrum estimation is proposed. Firstly, after an analysis of the traditional phase compensation, an ideal combination of mask (ICM) considering amplitude spectrum and phase spectrum is proposed and applied to supervised speech enhancement algorithm. The simulation experiment proves the algorithm proposed can not only suppress background noise effectively, but also improve the intelligibility and automatic recognition rate of the speech significantly.
李保明,付小宁
西安电子科技大学机电工程学院,陕西 西安
收稿日期:2018年4月6日;录用日期:2018年4月23日;发布日期:2018年4月30日
为了解决传统的语音增强算法只对语音幅值谱进行估计,而让语音相位谱保持不变的问题,提出了基于相位谱估计的监督性语音分离算法。首先,对传统的相位补偿理论进行分析,提出了一种同时考虑语音幅值谱和相位谱的理想组合掩码(ICM),并将其应用到监督性语音增强算法中。经过仿真实验,证实该算法能够有效地抑制背景噪声,并且能够显著地提高语音的可懂性和自动识别率。
关键词 :相位谱估计,相位补偿,理想组合掩码,监督性语音增强
Copyright © 2018 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
在实际的语音通信系统中,语音信号总是不可避免的受到噪声的干扰。这些噪声的存在不仅极大地损害了语音的可懂性,还对原始语音的数学模型造成破坏,使得语音质量下降。因此,为了得到纯净语音,一些语音增强算法相继提出。从信号处理的角度来看,许多方法提出估计噪音的功率谱或者理想维纳滤波器, 比如谱减法、维纳滤波法、最小均方误差估计法和子空间法等 [
假设
经过短时傅里叶变换变换到频域,可表示为
其中,k表示频率,n表示帧数,N表示离散傅里叶变换长度,
其中,
其中,λ为补偿因子,
将相位谱补偿函数与混合语音的频谱相叠加,得到补偿后的频谱表达式:
则得到增强的语音频谱表达式为:
在传统相位谱补偿算法中,利用加噪语音经过短时傅里叶变换是共轭对称的性质,通过相位补偿函来实现相位的增强。但因为λ是一个经验常数,对语音增强增益是固定不变的,而实际希望可以根据不同的信噪比来实现不同的增益。其次,在相位补偿函数中,传统算法是直接应用带噪语音的幅度谱代替噪声幅度谱估计来实现相位谱补偿,这样,会使得语音信号严重失真,降低语音增强效果。针对以上两个问题,提出理想组合掩码(ICM),该分离目标表达式为
其中,α为可调因子,一般取值为0.5。本文通过监督性语音分离算法实现分离目标的估计。然后,将估计出的补偿因子代入补偿函数中,即
其中,C为经验常数。估计的相位谱表达式为
估计的幅值谱表达式为
将估计的相位谱和估计的幅值谱相结合,得到增强后的频谱表达式为
典型的监督性语音分离算法是通过监督性学习算法训练分离模型,从而实现从带噪语音特征到分离目标的映射函数 [
通过时频分解,可以将输入的一维语音信号分解为二维的时频信号。目前常见时频分解方法有gammatone听觉滤波和短时傅里叶变换。本文采用短时傅里叶变换进行时频分解,短时傅里叶变换表达式如下:
其中,
训练模型选择深层神经网络DNN,设置一个输入层,三个隐层和一个输出层,其中三个隐层都包含
1024个节点。激活函数采用Relu函数,表达式为
随着每层神经元的个数和层数增加,网络的结构会变得复杂,所以网络训练采用网络训练采用标准反向传播算法与Dropout [
为了证实本文算法的增强效果,实验过程中使用传统的谱减法、维纳滤波法和最小均方误差估计法作为对比算法。实验采用NOIZEUS语音库中的600句语音作为训练阶段的纯净语音,另外的120句语音作为测试阶段的纯净语音,实验噪声来自某种旋翼直升机的旋翼噪声。实验是在信噪比分别为−6 dB、−3 dB、0 dB、3 dB、6 dB的情况下进行测试的。
从图2可以看到,谱减法和维纳滤波法都能够抑制背景噪声,但语音信号中仍然残留大量噪声。最
图1. 监督性语音分离算法框图
图2. 语谱图
小均方差误差估计法在有效地抑制背景噪声的同时,也引起了严重的语音失真。相比于传统算法,监督性语音分离算法在有效地去除背景噪声的同时,能够保留语音的整体结构,增强的语音在保留较清晰的端点和较分明的频谱过渡的基础上,在语音细节上也有了较明显的提高。
语音分离系统主要针对人耳和语音信号处理设备两个目标受体,以提髙语音可懂度和语音感知质量为目的。目前,国外普遍使用短时客观可懂度评分(STOI) [
1) PESQ(Perceptual evaluation of speech quality),即主观语音质量评估,是ITU-TP.862建议书提供的客观MOS值评价方法。PESQ的取值范围是[−0.5 4.5],取值越高说明语音质量越好。PESQ计算框图3如所示。
2) STOI (Short-Time Objective Intelligibility),即短时客观可懂性,是用来评估在时域上经过掩蔽或经过短时傅里叶变换且频域上加权的带噪语音的可懂性。计算STOI时,用时间对其的纯净与混合语音信号来计算每个音频通道
STOI通过对纯净语音和待评价的语音进行比较从而得到评分,取值范围为0-1。取值越高语音质量越好。
3) 指标分析
从表1和表2可以得到,在低信噪比的情况下,传统的语音分离算法并不能有效地提高语音的可懂性和自动识别率。本文提出的算法在不同的信噪比下,对分离指标PESQ和STIO都有较明显的提高。
信噪比 (dB) | 混合语音 | 谱减法 | 维纳滤波法 | 最小均方差估计法 | 本文算法 |
---|---|---|---|---|---|
−6 | 1.303 | 1.462 | 1.291 | 1.336 | 1.856 |
−3 | 1.411 | 1.582 | 1.360 | 1.520 | 2.059 |
0 | 1.588 | 1.770 | 1.789 | 1.931 | 2.266 |
3 | 1.587 | 1.720 | 1.753 | 1.940 | 2.264 |
6 | 1.918 | 2.105 | 2.164 | 2.497 | 2.695 |
表1. PESQ指标对比
信噪比 (dB) | 混合语音 | 谱减法 | 维纳滤波法 | 最小均方差估计法 | 本文算法 |
---|---|---|---|---|---|
−6 | 0.567 | 0.505 | 0484. | 0.472 | 0.764 |
−3 | 0.632 | 0.567 | 0.553 | 0.551 | 0.813 |
0 | 0.702 | 0.645 | 0.642 | 0.677 | 0.860 |
3 | 0.701 | 0.631 | 0.623 | 0.632 | 0.859 |
6 | 0.830 | 0.765 | 0.763 | 0.779 | 0.928 |
表2. STIO指标对比
图3. PESQ计算流程图
传统语音增强算法的优势是计算容易,操作简单,具有很好的实时性。但在低信噪比下,并不能有效地抑制背景噪声。同时传统算法是用加噪语音相位信息直接代替纯净语音相位信息,并没有实现相位信息的增强。针对上述问题,提出理想组合掩码分离目标,并应用监督性语音分离算法进行估计,实现了语音幅值增强和相位谱同时增强。经过仿真实验证实该算法在不同的信噪比下,能够有效地抑制背景噪声和恢复相位信息,并且能够显著地提高语音的可懂性和自动识别率。
李保明,付小宁. 基于理想组合掩蔽的监督性语音增强算法 Supervised Speech Enhancement Algorithm Based on Phase Spectrum Estimation[J]. 计算机科学与应用, 2018, 08(04): 546-552. https://doi.org/10.12677/CSA.2018.84061