本文以基于关键词识别的语音检索技术为基础,结合自适应的相关性过滤模块,构建了优化的侦听系统。对基于语音检索的侦听系统从两方面进行了改进和优化:一是以上下文相关的声韵母作为关键词识别的声学建模基元,二是添加相关性判决模块对与主题无关的语音进行再过滤。实验数据证实,相关性判决模块能以召回率的小部分牺牲换取系统查准率的大幅度提升。<br/>Based on the technology of speech retrieval and combined with the adaptive correlation filter module, an optimized interception system is constructed. The interception system based on speech retrieval is improved and optimized from two aspects. One is using context related initial- final as the acoustic model of keyword recognition. The other is putting forward a correlation judgment module to re-filter the speech documents that have nothing to do with the subject. Confirmed by the experimental data, the great enhancement of system precision can be obtained by small sacrifice of recall rate while using correlation judgment module.
倪慧婷,赵晓群
同济大学电信学院,上海
Email: niht90@gmail.com, zhao_xiaoqun@tongji.edu.cn
收稿日期:2015年3月16日;录用日期:2015年3月25日;发布日期:2015年3月30日
本文以基于关键词识别的语音检索技术为基础,结合自适应的相关性过滤模块,构建了优化的侦听系统。对基于语音检索的侦听系统从两方面进行了改进和优化:一是以上下文相关的声韵母作为关键词识别的声学建模基元,二是添加相关性判决模块对与主题无关的语音进行再过滤。实验数据证实,相关性判决模块能以召回率的小部分牺牲换取系统查准率的大幅度提升。
关键词 :聚类分析,相关性判决,关键词识别,语音检索,侦听
作为一种难于浏览和搜索的媒体类型,语音信息的有效提取工具尚比较少,资源再利用率很低。面对离线语音库存储的海量语音文档,亟需一种方法能快速有效地检索出其中符合需求的语音资源。
语音检索技术的研究可追溯至上世纪60年代,贝尔实验室开发了一个10个数字的英文语音检索系统。随着大词汇量连续语音识别技术的发展,语音检索技术有了长足的进展,不再局限于对离散语音的检索。目前已有的语音检索系统有剑桥大学的Video Mail Retrieval Using Voice,Google公司的Google Voice Local Search等。但相比于成熟的文本文档检索技术,语音检索技术的鲁棒性较差、准确率较低等问题还有待进一步深入研究。
关键词识别技术作为语音识别的一个重要研究方向,其不同于连续语音识别之处在于,它并不试图将输入语流中的每个字词还原出来,而是在语音内容不受限的输入语流中只将使用者感兴趣的词辨认标记出来。由于用户对关键部分的发音通常都是清楚完整的,因此识别语音流中的关键词比识别语音流中的整个句子要容易得多。该项技术适用于只需要了解语音文档的部分关键信息就可解决问题的情景,与语音检索的需求正不谋而合。基于关键词识别的语音检索还可应用于军事安全和公共安全领域,作为情报获取、追踪的重要方法。
对于特殊的语音检索系统,如侦听系统,直接将仅经关键词识别过滤得到的语音文档作为检索结果输出,其中仍包含大量实际上与侦听主题无关的音频。本文针对此设计了优化策略,提出计分公式并结合文本聚类技术应用于关键词识别后的处理,以进一步过滤无关的语音文档,减少人工审听的工作量。
基于语音检索的侦听系统如图1所示。该系统分为关键词识别模块和相关性判决模块,其中关键词识别模块又分为离线训练部分和在线识别部分。
语音识别模块的各项技术相对较成熟。离线训练部分用于获取声学模型和语言模型,包含前端处理、特征计算等模块。前端处理模块用于连续语音做预加重、加窗、分段。特征计算模块用于提取语音帧的时域特征或频域特征。语音识别系统的识别率,很大一部分取决于提取出的特征对语音信号描述的准确性。在线识别部分首先由离线训练部分得到的声学模型、语言模型和即时定义的关键词表共同生成用作解码的搜索空间,再将待识别语音提取的特征输入关键词识别模块,采用Viterbi帧同步解码算法产生关键词的假想命中。后面的置信度计算模块将根据关键词候选结果和其它知识源计算这些假想命中的关键词的置信度,最终由置信度判决模块决策,给出识别结果。
图1. 系统原理结构图
相关性判决模块为本文根据侦听系统特性而设计。在获取关键词识别结果后,将识别结果(包括关键词流及关键词的时间位置信息)进行打分,这个分数一方面用作提供给监控人员直观了解语音文档的相关性,另一方面用作文本聚类选择簇中心的依据。文档聚类后,将相关簇和无关簇分别输出至判决结果。
在构建声学模型方面,采用文献 [
声学建模基元的选择决定了模型的精度和复杂度。选用较小的声学单元如音素,灵活性好,模型数量少(采用上下文无关策略建模,模型数量仅为32个),但由于某些音素语音段长度过短,其识别效果很不稳定[
本文的前景模型采用上下文相关的扩展声韵母基元,每个基元用自左向右无跳转的3状态HMM来描述,每个状态的混合高斯数为32;背景模型则由上下文相关的扩展声韵母基元作聚类后产生,每个基元用自左向右无跳转的3状态HMM来描述,每个状态的混合高斯数为16。较细致的前景模型和较粗略的背景模型结合在一起,构成了多尺度声学模型的系统。
一方面,关键词识别模块过滤掉了一部分不含关键词的语音文档,但在含关键词的文档中仍有大量同关注主题无关的语音文档。以足球比赛为例,解说词中提到“球进了”“球传到了1号队员脚下”,这些语音是确实和足球比赛相关的;亲子教育音频中提到“红红的太阳像圆圆的球挂在天上”,这些语音却是和足球比赛无关的。另一方面,关键词识别模块的输出为每个语音文档对应的关键词流,如表1所示,并不直观,需由监控人员根据个人经验借助语音时长、关键词出现次数等来判断被测音频与关注主题的相关程度,费时费力且其结果也不稳定。本文设计的相关性模块用于过滤那些含关键词但与关注主题无关的语音文档并对文档打分,为监控人员选择审听提供直观依据快速反应。
将经关键词识别过滤后的语音文档记为Set,对每篇文档按本文提出的式(1)计算关键词得分。此得分包含了关键词的集中度得分和绝对数量得分,能较好地反映文档属性。
式中F为语音文档的帧数,K为关键词个数,
图2所示为四类不同的语音文档,横轴代表时间,灰色方块代表关键词。其中A类语音文档中关键词数量相对较少,但较集中;B类语音文档中关键词相对较分散,但数量较多;C类语音文档关键词数量少,且分布稀疏;D类语音文档则没有关键词出现。
A、B、C、D四段语音时长均为25 s,以25 ms为一帧,得F = 1000帧。以帧为单位,其它数据如下:
对如图2所示的四类语音文档打分。
可见,A和B的得分较接近,C和D的得分较接近,AB和CD之间的分差则很大。这一结果符合直观预期。后文将以此得分为依据对语音文档进行进一步处理。
将文档按公式(1)得分排序,分别取得分最高和最低的文档作为聚类之初的中心。得分最高的文档代表了符合关注主题的文档集合的中心,得分最低的文档则代表其补集的中心。
检测音频文件名 | 内容 |
---|---|
20131228_1.wav | 会议 表决 会议 委员会…… |
20131228_2.wav | - |
20131228_3.wav | 表决 会议 人大 会议 委员会 会议 会议 会议 代表…… |
…… | …… |
表1. 关键词识别结果
图2. 不同类型语音文档的关键词分布图
可选用的文本聚类算法很多,有基于划分的的K均值算法,基于层次的BIRCH算法、ROCK算法、Chameleon算法,基于密度的DB-SCAN算法和基于网格的STING算法、CLIQUE算法、WAVE-CLUSTER算法等 [
文档聚类中,判断聚合方向的依据为文档相似度,常用文档特征向量夹角的余弦值表示 [
公式中
测试集为120篇16 kHz,16 bit采样的新闻类语音文档,选取与人民代表大会(后文简称人代会)相关的15个词作为关键词。将测试集Set中包含的三类语音文档以符号标记,Y为含关键词且符合关注主题的语音文档,N为含关键词但不符合关注主题的语音文档,
实验结果将以召回率(Recall)、查准率(Precision)两个指标来评价。召回率是指对于某个类别,被系统正确划分到这个类别中的文档数量与这个类别实际包含的文档数量的比值;查准率是指被系统正确划分到这个类别中的文档数量与所有被系统划分到这个类别中的文档数量的比值[
公式(3) (4)中,
公式(5)~(8)中,
实验中,经关键词识别模块识别后,检出的关键词流如表1所示。
如表1所示,一些语音文档含有部分关键词,一些则不含任何关键词。关键词识别模块可过滤如后者这样的无关文档。该模块结果显示,在79篇有关键词识别输出的文档中,Y类52篇,N类23篇,O类4篇。此时系统对含关键词的文档查准率较高(94.94%),但对关注语音文档的查准率仅为65.82%。关键词识别过滤得到的文档中仍有将近半数是无关语音文档,这表明仅以关键词识别模块过滤,仍将浪费许多人力物力。
将识别结果的关键词流及时间信息送交相关性判决模块判决,所得结果如表2所示。
检测音频文件名 | 相关程度得分 | 归簇 | 检测音频文件名 | 相关程度得分 | 归簇 |
---|---|---|---|---|---|
20131228_1.wav | 9.65 | 相关 | 20131228_5.wav | 0 | 无关 |
20131228_2.wav | 0 | 无关 | 20131229_1.wav | 0 | 无关 |
20131228_3.wav | 16.31 | 相关 | 20131229_2.wav | 1.13 | 无关 |
20131228_4.wav | 0 | 无关 | …… | …… | …… |
表2. 相关性判决结果
在表2中显示,相关簇的文档数量为56篇,其中Y类51篇,N类11篇,O类0篇。此时系统对关注语音文档的召回率为98.08%,查准率高达82.26%。本实验中,查准率的显著提升主要是因为测试集中含关键词的无关语音文档数量较多。
增加了相关性判决模块的侦听系统较原系统相比,其对关注语音文档的召回率略有减少(不到2%),但查准率却明显增加(超过16%)。如果测试集中含关键词的无关语音文档的比重加大,则对关注语音的查准率会有更好表现。以牺牲一小部分召回率换取查准率的大幅提升,对减轻监控人员的工作量非常有益。同时由于关注语音文档的比重增加,监控人员审听无关语音文档的时间比重减少,侦听系统的实时性和可靠性得到显著改善。此即本文设计的优化策略的意义所在。
倪慧婷,赵晓群, (2015) 基于语音检索的侦听系统的实现与优化Implementation and Optimization of Interception System Based on Speech Retrieval. 电路与系统,01,15-21. doi: 10.12677/OJCS.2015.41003