高斯混合模型–通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)是说话人识别技术中最为常用的模型,该模型在诸多试验中都取得了很好的效果。本设计探索把GMM-UBM模型用在异常声音检测中,通过对飞机发动机声音信号的处理,提取梅尔频率倒谱(MFCC)特征参数,训练UBM模型,用MAP自适应的算法得到GMM-UBM模型,用GMM-UBM模型检测识别发动机声音。实验证明,该方法优化了由于外界干扰变化导致的识别率下降的问题。 Gaussian mixture model-universal background model (GMM-UBM) is the most commonly used model in speaker recognition technology; the model has achieved very good results in many ex-periments. In this design, the GMM-UBM model is used in the abnormal sound detection. First, we process the aircraft engine sound signal, second extract the MFCC characteristic parameters, then train UBM model and last obtain the GMM-UBM model by MAP adaptive algorithm. The ultimate goal of the test indicates that the method could optimize the recognition rate decline due to interference change.
杨毫鸽,孙成立
南昌航空大学信息工程学院,江西 南昌
收稿日期:2017年8月6日;录用日期:2017年8月21日;发布日期:2017年8月28日
高斯混合模型–通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)是说话人识别技术中最为常用的模型,该模型在诸多试验中都取得了很好的效果。本设计探索把GMM-UBM模型用在异常声音检测中,通过对飞机发动机声音信号的处理,提取梅尔频率倒谱(MFCC)特征参数,训练UBM模型,用MAP自适应的算法得到GMM-UBM模型,用GMM-UBM模型检测识别发动机声音。实验证明,该方法优化了由于外界干扰变化导致的识别率下降的问题。
关键词 :说话人识别,GMM-UBM,MFCC,异常声音检测,MAP
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
随着科学技术的发展,用科学技术方法来保障人们所处环境的安全越来越得到重视。异常声音识别技术 [
本文研究的飞机发动机声音识别属于非语音的识别问题。一直以来,对语音识别的研究很多,但是对于非语音方面的研究却很匮乏,大多数是把基于单一的GMM, SVM (Support Vector Machine), HMM (Hidden Markov Model)等作为分类器,效果并不理想,因此本文考虑用GMM-UBM的方法作为识别模型,实验证明,识别率比单一的分类器模型高很多。
GMM-UBM [
一个完整的声音识别系统,第一步是要对声音做预处理,并提取出准确代表声音特性的特征,预处理一般有预加重、分帧、加窗和端点检测,把声音信号预处理之后,就要提取声音特征,常用的声音特征有基音周期 [
图1. GMM-UBM识别结构图
高斯混合模型就是对一定数量的高斯概率密度函数进行线性加权组合,M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间的分布 [
统一背景模型UBM也是高斯混合模型,它用很多各种环境下的声音数据训练获得,故UBM是所有声音特征及环境通道的共性反映。因此UBM的训练数据集越多、覆盖面越广,最终的识别效果越好。每一类声音的GMM模型是用该类训练声音由UBM自适应得到,本实验中用到的自适应方法是MAP自适应算法 [
高斯混合模型的学习方法和MAP自适应估计中,最大期望算法即EM算法(Expectation Maximization algorithm) [
设一组长度为T的音频特征序列为
第m个GMM模型的权重
图2. EM算法流程图
第m个GMM模型的均值
第m个GMM模型的方差
其中第m个GMM模型的后验概率为,
用EM算法修正UBM中各模型组件的参数结果如下:
修正之后的权重
修正后的均值
修正之后的方差
其中,
式中
经过以上几个步骤的,最终得到修正过的模型即为GMM-UBM模型。在识别阶段,将待识别的声音特征向量分别计算与UBM模型、目标声音模型的似然度输出比,采用对数评分时,待识别声音的似然度即为两个模型似然度对数之差。
式中,
通过对网上数据的搜集和整理,建立了一个飞机发动机声音数据库,数据库包含了民航波音727、军用战斗机F-15等十几种型号的飞机发动机声音,在本课题中,把发动机声音分为四种类型,包括发动机启动声音、停止声音、运行声音和一些发动机坠毁声音。在实验中用到的发动机声音的总时长为1474 s,其中发动机启动声音有347 s,停止声音有205 s,正常运行声音629 s,和293 s坠毁声音,声音信号的采样频率为16 KHz,单声道录音,采用16 Bit量化。声音特征采用MFCC特征。根据这些声音信息,进行了下面三个实验。
实验一比较相同的训练数据时,混合度对识别率的影响。选取61个发动机音频作为UBM训练,其中包括12个启动音频,8个熄火音频,30个正常运行音频以及11个坠毁音频,总时长为6分22秒,用于MAP自适应音频有39个包括8个启动音频,8个熄火音频,13个正常运行音频和10个坠毁音频总时长为5分32 s,待识别声音分别是6个启动音频,6个熄火音频,29个正常运行音频和11个坠毁音频。特征为9维MFCC参数时,各类声音的识别率结果如下表1:
由实验数据看出,在其他条件相同的情况下,混合度为256的时候总体识别效果较好,但是在该实验条件下启动声音识别率最高仅为50%,相比其他类型的声音识别率较低。针对特定的一类声音来说,随着混合度的增加,识别率也随之增加,但当混合度增加到一定值的时候,识别率不再增加,甚至开始下降。
识 | 别 | 率 | ||||
---|---|---|---|---|---|---|
混合度 | 8 | 16 | 32 | 64 | 128 | 256 |
启动 | 33.3% | 33.3% | 50% | 50% | 50% | 50% |
熄火 | 66.6% | 50% | 50% | 50% | 50% | 66.6% |
运行 | 89.6% | 96.5% | 96.5% | 96.5% | 96.5% | 93.1% |
坠毁 | 63.6% | 72.7% | 72.7% | 81.8% | 81.8% | 81.8% |
表1. 9维特征,不同混合度的识别率
实验二实验数据与实验一相同,不同的是选择12维的MFCC特征参数,识别结果如下表2:
与实验一相比,识别率整体上升了很多,启动声音识别率增加到66.6%,正常声音和坠毁声音识别率达到100%。由此可见,特征维数的增加可以提高声音的识别率。
根据实验一和实验二对比可知,选取12维MFCC特征参数,混合度为128时得到较高的识别率。所以下面的实验验证混合度为128的时候,选取MFCC静态系数、动态一阶差分系数和二阶差分系数以及它们的混合对识别率的影响,这几种特征分别用MFCC、DMFCC、DDMFCC和HMFCC来表示。实验结果如下表3所示。
由于MFCC系数只是梅尔倒谱特征的静态系数,只表征了音频谱的即时信息,所以识别率相对于一阶或二阶动态差分系数较低,音频谱的动态信息是表征音频特征参量随时间变化的规律,因而识别率比倒谱特征静态系数所得的识别率稍高。由实验结果可知,二阶系数的识别率和一阶系数的识别率只是在启动声音上有较大的提高,这是由于启动声音本身的特性决定的。实验中我们还可得知,倒谱特征静态系数和一阶差分系数结合得到的识别率比较单一的特征系数识别率明显有提高,而把静态系数和一阶、二阶差分系数组合得到的MFCC特征的识别率是最好的。
由实验可知,当选择9维MFCC特征参数的时候,随着混合度的增加,识别效果也有所提高,但当加到一定值后,识别效果反而开始下降。这是由于GMM模型本质上是概率模型,混合度越高模型越复杂,用于训练所必须的数据量也大大增加,而本实验的数据量相对较少,若混合度增加过多,会产生过度拟合,从而导致识别性能下降。当特征参数的维数增加到12维时,识别率有了明显的提高,而且在GMM混合度为128时,得到最好的识别效果。通过实验三对特征系数的选择来看,差分系数DMFCC和DDMFCC特征比静态系数MFCC特征识别率高,结果证明,用三个系数组合成的12维MFCC特征,混合度为128的时候,对发动机四种声音的识别率最高。
识 | 别 | 率 | ||||
---|---|---|---|---|---|---|
混合度 | 8 | 16 | 32 | 64 | 128 | 256 |
启动 | 33.3% | 50% | 50% | 66.6% | 66.6% | 66.6% |
熄火 | 66.6% | 66.6% | 66.6% | 83.3% | 83.3% | 83.3% |
运行 | 89.6% | 96.5% | 96.5% | 100% | 100% | 86.2% |
坠毁 | 63.6% | 72.7% | 100% | 100% | 100% | 100% |
表2. 12维特征,不同混合度的识别率
识 | 别 | 率 | |||
---|---|---|---|---|---|
特征 | MFCC | DMFCC | DDMFCC | MFCC-DMFCC | HMFCC |
启动 | 33.3% | 33.3% | 50% | 50% | 66.6% |
熄火 | 50% | 50% | 50% | 66.6% | 83.3% |
运行 | 31% | 17.2% | 27.6% | 96.5% | 100% |
坠毁 | 16.6% | 27.3% | 27.3% | 81.8% | 100% |
表3. 不同特征的识别率
GMM-UBM在说话认识别中运用的非常多,而且也取得了很好的识别效果,本文把说话人识别方法用在发动机声音识别中,提出了用GMM-UBM模型实现对发动机声音的识别,基于GMM的通用背景模型是一种自适应的过程,可以弥补声音数量有限所导致的GMM混合度低,辨识力差的缺点,而且通过仿真实验可知,把GMM-UBM模型用在飞机发动机声音识别是可行的,实验也得出了较好的识别效果。下一步将继续探究飞机发动机声音的识别方法,提高发动机启动声音和熄火声音的识别率。
本论文的工作是在我的导师孙成立副教授的悉心教导和亲切关怀下完成的,老师严肃的科学态度,严谨的治学精神,精益求精的工作作风深深地感染和激励着我,在此衷心的感谢老师对我的关心和指导。同时还要感谢国家自然科学基金项目(61362031)及航空科学基金(20145556011)对本文的资助。
杨毫鸽,孙成立. 基于GMM-UBM的飞机发动机声音识别方法研究Research of Aircraft Engine Sound Recognition Method Based on GMM-UBM[J]. 计算机科学与应用, 2017, 07(08): 781-787. http://dx.doi.org/10.12677/CSA.2017.78089