客观语音质量评估算法的研究 Study on Objective Speech Quality Assessment Algorithm

doi:10.12677/HJWC.2013.36024

设为首页加入收藏期刊导航网站地图

期刊菜单

文章导航

Hans Journal of Wireless Communications 无线通信, 2013, 3, 149-154

http://dx.doi.org/10.12677/hjwc.2013.36024 Published Online December 2013 (http://www.hanspub.org/journal/hjwc.html)

Study on Objective Speech Quality Assessment Algorithm

Leilei Xiao, Weiwei Zhang

WT & T, Beijing University of Posts and Telecommunications, Beijing

Email: bernabeu_147@foxmail.com

Received: Nov. 13th, 2013; revised: Nov. 15th, 2013; accepted: Nov. 18th, 2013

permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract: The aim of this paper is to investigate the performance of the latest objective speech quality assessment

algorithm. In the communication system, the quality of speech is an important factor to evaluate the performance of the

system. In order to achieve speech quality assessment, it is necessary to develop effective speech quality assessment

method. The perceptive speech quality objective assessment algorithm is the most useful and convenient method. In this

paper we will discuss the PESQ (Perceptual Evaluation of Speech Quality) and POLQA (Perceptual objective listening

quality assessment) algorithm, which are the latest ITU standard for evaluating speech quality for communication

systems and networks. POLQA is a technology upgrade covering the latest speech coding and network transport

technology, with higher accuracy for 3G, 4G/LTE and VoIP networks. We analyze the performance of POLQA, and

make a comparison between POLQA and PESQ. From the result of the experiment data, we can conclude that the

POLQA performance is better than the PESQ, and the POLQA will replace the PESQ in the future.

Keywords: Objective Speech Quality Assessment Algorithm; PESQ Algorithm; POLQA Algorithm

客观语音质量评估算法的研究

肖累累，张伟伟

北京邮电大学无线理论与技术实验室，北京

Email: bernabeu_147@foxmail.com

收稿日期：2013 年11月13 日；修回日期：2013 年11月15 日；录用日期：2013 年11月18 日

摘要：本文的目的是研究最新客观语音质量评估算法的表现。在通信系统中，语音的质量对于评估系统的表

现是一个主要的因素。为了达到评估语音质量的目的，开发有效的语音质量评估算法是必须的。感知的语音质

量客观评估算法是最有用和最便捷的方法。在这篇论文里，我们将要讨论评估通信系统和网路中的语音质量的

最新的 ITU 标准PESQ (语音质量的感知评估)和POLQA (感知客观语音质量评估)算法。POLQA 是一个技术升

级，它能够覆盖最新的语音编码和网络传输技术，对于3G，4G/LTE和Vo I P网络有了更高的准确度。我们分析

了POLQA 的表现，并且将 POLQA 和PESQ 作了对比。从实验数据的结论来看，我们得出了如下结论：POLQA

相较于 PESQ 有更好的表现，并且即将替代PESQ。

关键词：客观语音质量评估算法；PESQ 算法；POLQA 算法

1. 引言

随着通信技术的发展，现代通信网络提供了大量

的语音服务。语音通信成为了现代生活中最重要的部

分之一[1]。由于技术和语音服务的快速发展，通信系

统的传输特性的评估和优化变得越来越重要[2]。服务

供应商面临着提供高质量的语音通信系统[3]。系统表

现的有效的评估变得关键。发展可靠的、便捷的、灵

活的语音评估系统成为了一个共同的目标。

Open Access 149

客观语音质量评估算法的研究

语音通信评有两种方法，即主观评估方法和客观

评估方法[4]。主观评估是通过主观语音测试获得的。

这些测试通常昂贵、耗时并且需要大量的语音测试。

所以它不适合实时通信[5]。客观质量评估替代了主观

方法[6][7]。并且，它已经成为了主要的质量评估方法。

PESQ 算法是一种应用于通信系统和语音编码的

端对端语音质量评估的客观语音质量评估方法。它被

核准为 ITU-T Rec. P.862[8]。PESQ是一个出名的用于

语音评估的客观语音质量评估方法。它对于通信延迟

和环境噪音具有较好的鲁棒性[9]。

但是，PESQ 算法对于语音质量评估具有一定的

局限性[10]。为了结局 PESQ的局限性，ITU 发展了新

的POLQA 标准，并核准为 ITU-T Rec. P.863[11]。

POLQA 是下一代移动语音质量评估标准并且被发展

应用于超宽带高清语音，3G，VoLTE (4G)，Vo HSPA

和Vo IP。

本文，我们首先介绍了主观语音质量评估方法。

并且给出了主观 MOS (平均意见得分)的计算过程和

PESQ 算法的过程。然后我们给出了 POLQA 算法的

一个概览。最后，我们通过实验数据分析了 POLQA

算法的表现。

2. 语音质量评估方法

2.1. 主观语音质量评估

MOS (平均意见得分)是应用最广的评估语音质

量的一种度量。它是 ITU (国际电信联盟)推荐的。ITU

逐步地提出了一些音视频服务的主观评估方法。比如

ITU-T Rec. P.800[12]，ITU-T Rec.P.830并且ITU-T Rec.

P. 8 3 5给出了语音服务的主观评估方法。

ITU-T Rec.P.800 是最为流行的主观语音质量评

估方法。我们简要地解释 ITU-T Rec.P.800 的主观

ACR(绝对等级分)测试方法。ACR 测试方法分为四部

分。

第一部分是录制音源。它包括录音环境，录音系

统、发送系统，语音材料，录音过程和录音者选择。

第二部分是条件选择。这部分包括语音输入和参考条

件的选择。第三部分是实验的设计。最后一部分是语

音测试过程。它包括语音环境，语音系统，听者选择，

意见分标准，数据分析和结果报告。在一个主观测试，

测试者试听每个语音样本[13]。之后，测试者根据图1

Figure 1. The score grade of MOS

图1. MOS的分数等级

对语音样本进行打分。

最终的 MOSLQS (Mean Opinion Score Listening

Quality Subjective)分数是由下式计算得出：

LQS

MOS

N

 (1)

其中 N是总票数，Ni是一个特定分的数量，Wi是每个

投票的得分，i是每个等级的得分，p是总的得分等级，

p的值为 5。

主观评估方法可以直接、准确地反映出用户的

主观感受。但是它要求考虑许多因素，实施步骤也

较为复杂，而且它耗时、昂贵。近年来，客观质量

评估代替了主观质量评估，并且编委了主要的质量

评估方法。下面，我们将要讨论客观评估方法。

2.2. 客观语音质量评估

现在有各种各样的客观语音质量评估方法。但是

感知域的评估方法是最为成功的客观语音质量方法。

典型的感知评估方法有PSQM (Perceptual Speech

Quality Measure)，PAMS (Perceptual Assessment of

Speech Quality)，PESQ (Perceptual Evaluation of

Speech Quality)和应用于通信系统和网络中评估语音

质量的最新的ITU标准 POLQA (Perceptual objective

listening quality assessment)。

PESQ 可以用于不同类型通信网络的评估。它考

虑了网络延迟，并且应用了听觉和认知建模技术。

PESQ的结构如图 2所示。

P. 8 6 2提供的原始PESQ 得分为 0.5 到4.5 分。为

了获得可以与 MOS分值相比较的得分，需要将原始

得分映射为 MOS-LQO (MOS-Listening Quality

Objective)。映射公式如下[14]：

1.4945 4.6607

0.999 1e x

y



 (2)

Open Access

150

客观语音质量评估算法的研究

Open Access 151

Figure 2. The structure of the PESQ algorithm

图2. PESQ算法的结构

Loops=0

Sample rate estimation

(degraded signal only)

and Loop<1

Choose the result with the

best average reliable

MOS-LQO

Loop=L oop+1

Down sampling of the

signal with the higher

sample rate

Store the result

Reference sigual

(sample rate, fs,Ref )

Reference sigual

(sample rate,fs,Def )

Temporal alignment

Core model

,,,

sRefsDegest

sRef



PESQ 算法在许多情况下有缺陷。它应用于

CDMA 编码(如EVRC)时不够准确并且在特定的

GSM/WCDMA网络条件下过于敏感。PESQ 应用于语

音处理(增强)设备(降噪自动增益控制)时同样具有局

限性。

此外，语音通信从窄带到宽带甚至是超宽带，

PESQ 不能处理超宽带语音信号。为了解决 PESQ 的

这些局限性，ITU-T的12 研究组自2006 开始发展新

的POLQA 标准。

POLQA 将提供一个决定移动网络服务的语音质

量的新的基准等级。POLQA 已被出版为 ITU-T

Rec.P.863。POLQA 是可以覆盖最新的语音编码和网

络传输技术的技术升级，在用于 3G，4G/LTE和Vo I P

网络时具有更高的准确性，并且支持传输高质量语音

的网络，而这些语音是之前的电信网络所不能传输。

3. POLQA算法概览

POLQA 算法概览如图 3所示。有两个输入信号，

即参考信号和衰减信号。二者均为 16 比特PCM样本。

POLQA 处理包括三个步骤：时间对齐，采样率预估

和感知模型。 Figure 3. The overview of the POLQA algorithm

图3. POLQA算法概览

3.1. 第一步：时间对齐限和下限。第二步是估计整体延迟和标识解析点。第

三步是获得每个解析点的初始延迟并且计算每个宏

帧的信息。

时间对齐的目的是将信号分割为帧，以计算每一

个帧对的时延。时间对齐包括 5个模块，即滤波，预

对齐，粗略对齐，精确对齐和部分组合。粗对齐：粗对齐是基于每帧得出的。第一部是细

分每个信号为特征帧，并且计算每部分的特征。特征

帧的长度是独立于宏观帧的长度。粗对准的结果是一

个包含了用样本表示的每个宏帧延迟的向量。

滤波：参考和衰减信号都需要带通滤波。滤波形

状取决于工作模式是窄带模式还是宽带模式。

预对齐：衰减信号需要和参考信号对齐。首先，

确定延迟极限，即整体延迟搜索范围的一些合理的上细对齐：细对准直接在参考信号和衰减信号可能

客观语音质量评估算法的研究

的最高分辨率上进行并且它确定每一样本帧的准确的

延迟。细对齐的结果是每个宏帧的精确样本延迟值。

部分组合：在这一步，所有具有相同延迟的部分

将结合，这意味着整个部分的一套信息(延迟、可靠性、

启动、停止、语音活动)被存储。由此产生的信息将被

传递给心理声学模型。

3.2. 第二步：采样率估计

由于失真，采样率是不同。这可能导致延迟变化

的分离。因此需要估计采样率以补偿播放的参考信号

和衰减信号的感知无关差异。采样比率的检测是基于

每帧向量和每个语音信号中探测到的活跃部分的延

迟所得出的。

3.3. 第三步：感知模型

在感知模型参考信号和衰减信号都转换为内置

表示。处理过程中感知模型的细节如下：

常数设置的预计算：参考信号和衰减信号用一个

由采样频率决定窗口长度的 FFT 变换到特定的频率

域。在转换频率轴到巴克范围后，音高功率密度的峰

值振幅就通过乘以一个功率比例因子而被归一化到

一个 104级的功率值。

音高功率密度的计算：将赫兹域的频率刻度映射

到巴克域内的音高刻度的曲线函数近似于文献中给

出的值。作为结果的参考信号和衰减信号分别为音高

频率密度 PPX(f)n和PPY(f)n，其中 f是巴克域频率，

脚标 n代表了帧序。

参考信号的比例调整：参考信号现在处于一个理

想的标准而衰减信号代表了回放标准。参考信号向衰

减信号按比例调整以补偿标准不同所带来的影响。

噪音补偿：为了解决引入了无声线性频率响应失

真的测试系统中的滤波，参考信号在音高功率密度域

已被部分过滤。为了进一步纠正线性失真比非线性失

真影响较小这一事实，参考信号现在在音高响度域被

部分过滤。

最终扰动密度的计算：最终扰动和附加扰动密度

每一帧都是整合的，在每一帧通过音高轴得到了两个

不同的扰动，一个由扰动得出，一个由附加扰动得出。

最终 MOS-LQO POLQA 分数的计算：原始

POLQA分数由类似 MOS 的运用了 4种不同补偿的中

间指标得出来的。然后，原始 POLQA 分数通过运用

一个优化 ITU-T P.863数据库组的三阶多项式映射到

MOS-LQO 分数。

4. POLQA算法性能分析

4.1. POLQA性能指标

客观准则的准确性通过运用被称为均方根误差的

rmse*标准来评估[15]。均方根误差考虑了每个 MOS 分

数的置信区间。rmse*值的计算只考虑了和目标值附近

ξ宽带有关的差异。这里的 ξ定义为主观 MOS 值的 95%

置信区间。rmse*值通过预测误差计算得出。 Perror





 



LQSLQO 95

max0,MOSMOS

Perror i

iici



i

(3)

其中脚标 i表示测试环境或者语音样本，是置信

区间。它是基于所有评分都是针对同一文件或者测试

环境这一考虑计算得出的。



95 0.05,ci tM



 (4)

标准偏差 σ和单个分数的数量 M决定了置信区

间。对于给定的M，建议使用精确的T值。

最终修正的 rmse*值照例计算，但是计算时需通

过下面的公式基于得出。

Perror



rmsePerrori









 (5)

计算每个数据库的 rmse*值，并给出预测误差如

何超出了。

这篇论文里，我们使用rmse*值来评估POLQA 算

法的性能。

4.2. POLQA和PESQ 性能对比

ITU-T 实施了 POLQA 和PESQ 算法的性能测试。

实验数据从 ITU-T POLQA中提取[11]。语音数据库包

括了窄带语音和宽带语音。rmse*值反映了POLQA 和

PESQ算法在每种情况下的性能。当rmse*值增加时，

预测准确度下降。

ITU-T P.862提出的 PESQ 和ITU-T P.863提出的

POLQA 的rmse*值如图 4，图 5和图 6所示。图4和

图5的实验数据是基于窄带信号的，图6的实验数据

则是基于宽带信号。

Open Access

152

客观语音质量评估算法的研究

为了更清楚地展示结果，PESQ 和POLQA 的

rmse*值展示于图 7，8，9。由图，我们可以发现，POLQA

Figure 4. Performance of PESQ compared to POLQA, NB1

图4. PESQ和POLQA的性能对比，窄带 1

Figure 5. Performance of PESQ compared to POLQA, NB2

图5. PESQ和POLQA的性能对比，窄带 2

的rmse*值小于PESQ 的rmse*值。这就是说，POLQA

算法的性能要比PESQ 算法的性能更为准确。

5. 结论

本文，我们研究了客观语音质量评估算法。我们

Figure 6. Performance of PESQ compared to POLQA, WB

图6. PESQ和POLQA的性能对比，宽带

Figure 7. rmse* of PESQ compared to POLQA, NB1

图7. PESQ和POLQA的rmse*对比，窄带 1

Figure 8. rmse* of PESQ compared to POLQA, NB2

图8. PESQ和POLQA的rmse*对比，窄带 2

Open Access 153

客观语音质量评估算法的研究

Open Access

154

Figure 9. rmse* of PESQ compared to POLQA, WB

图9. PESQ和POLQA的rmse*对比，宽带

概览了最新一代的客观算法 POLQA 算法，它是被设

计用于克服之前诸如 PESQ 等算法中存在的缺陷的最

新算法。然后我们运用了被称为均方根误差的 rmse*

标准测试了 POLQA 的性能。为了知道 POLQA 算法

的准确性，我们比较了 POLQA 和PESQ算法的rmse*。

从实验数据的结果来看，我们可以得出结论，即

POLQA 的性能比PESQ 更好，并且 POLQA 即将取代

PESQ。

参考文献 (References)

[1] Shaikh, J., Fiedler, M. and Collange, D. (2010) Quality of

Experience from user and network perspectives. Annals of Tele-

communications, 65, 47-57.

[2] Jelassi, S., Rubino, G., Melvin, H., Youssef, H. and Pujolle, G.

(2012) Assessing the quality of voice communications over internet

backbones. IEEE Communications Surveys & Tutorials, 14, 1.

[3] Taal, C.H., Hendriks, R.C., Heusdens, R. and Jensen, J. (2011)

An algorithm for intelligibility prediction of time-frequency

weighted noisy speech. IEEE Transactions on Audio, Speech,

and Language Processing, 19, 2125-2136.

[4] Mowlaee, P., Saeidi, R., Christensen, M.G. and Martin, R. (2012)

Subjective and objective quality assessment of single-channel

speech separation algorithms. IEEE International Conference on

Acoustics, Speech and Signal Processing (ICASSP), Kyoto,

25-30 March 2012, 69-72.

[5] Rix, A.W., Beerends, J.G., Kim, D.-S., Kroon, P. and Ghitza, O.

(2006) Objective assessment of speech and audio quality—

Technology and applications. IEEE Transactions on Audio, Speech ,

and Language Processing, 14, 1890-1901.

[6] Ma, J. and Loizou, P.C. (2011) SNR loss: A new objective

measure for predicting the intelligibility of noise-suppressed

speech. Speech Communication, 53, 340-354.

[7] Brooks, P. and Hestnes, B. (2010) User measures of quality of

experience: Why being objective and quantitative is important.

IEEE Network, 24, 8-13.

[8] ITU-T Recommendation P.862 (2001) Perceptual evaluation of

speech quality (PESQ), an objective method for end-to-end

speech quality assessment of narrowband telephone networks

and speech codecs. International Telecommunication Union, Ge-

neva.

[9] Chen, W.-E. (2011) Real-time VoIP quality measurement for

mobile devices. IEEE Systems Journal, 5, 538-544.

[10] ITU-T Study Group 12 (2008) PESQ limitations for EVRC

family of narrowband and wideband speech codecs. Qualcomm

Inc., San Diego.

[11] ITU-T Recommendation P.863 (2011) Perceptual objective listen-

ing quality assessment (POLQA). International Telecommuni-

cation Union, Geneva.

[12] ITU-T Recommendation P.800 (1996) Methods for subjective

determination of transmission quality. International Telecom-

munication Union, Geneva.

[13] Zhang, W., Chang, Y., Liu, Y., et al. (2013) A new method of

objective speech quality assessment in communication system.

Journal of Multimedia, 8, 291-298.

[14] ITU-T Rec. P.862.1 (2003) Mapping function for transforming

P.862 raw result scores to MOS-LQO. International Telecom-

munication Union, Geneva.

[15] ITU-T Recommendation P.1401 (2012) Methods, metrics and

procedures for statistical evaluation, qualification and compare-

son of objective quality prediction models. International Tele-

communication Union, Geneva.