本研究提出一种基于马氏距离的分类准则实现对三种室间隔缺损(VSD)的诊断。与诊断方法对应的三个阶段概括如下。第一阶段,通过电子听诊器采集心音,然后利用小波分解进行预处理。在第二阶段提取时频特征并进行主成分分析(PCA)降维。第三阶段,描述了基于马氏距离分类准则的VSD诊断方法。最后,通过与其它诊断VSD的分类方法进行比较来评价本方法效果。分析研究结果,本研究对三种室间隔缺损与正常心音的分类精度分别为95.2%、94.4%、97.1%、99.1%,优于其它知名分类器。因此本研究可为医护人员或患者诊断VSD提供一种有效的方法。 This study proposes a criterion based on the Mahalanobis distance for diagnosing three-type ventricular septal defects (VSDs). The three stages corresponding to the diagnostic method are generally summarized as follows. In the first stage, the heart sound is collected via an electronic stethoscope and preprocessed using the wavelet decomposition. The time-frequency features are extracted in the second stage. And finally, the third stage describes the Mahalanobis distance classification criterion-based diagnostic method used to diagnose the VSD. The performance of this proposed method is evaluated by comparing with other well-knows classification methods in diagnosing sounds from patients with VSDs. The classification accuracy of three-kind of VSDs and normal heart sound are 95.2%, 94.4%, 97.1%, and 99.1%, respectively, which are greater than other well-known classifier methods. Therefore, the proposed method can provide an efficient way to diagnose VSD for medical staff or patients.
孙树平,李肖航,陈豪,张弼强,黄婷婷,庞宏祥
南阳理工学院,河南 南阳
收稿日期:2020年2月27日;录用日期:2020年3月13日;发布日期:2020年3月20日
本研究提出一种基于马氏距离的分类准则实现对三种室间隔缺损(VSD)的诊断。与诊断方法对应的三个阶段概括如下。第一阶段,通过电子听诊器采集心音,然后利用小波分解进行预处理。在第二阶段提取时频特征并进行主成分分析(PCA)降维。第三阶段,描述了基于马氏距离分类准则的VSD诊断方法。最后,通过与其它诊断VSD的分类方法进行比较来评价本方法效果。分析研究结果,本研究对三种室间隔缺损与正常心音的分类精度分别为95.2%、94.4%、97.1%、99.1%,优于其它知名分类器。因此本研究可为医护人员或患者诊断VSD提供一种有效的方法。
关键词 :马氏距离,卡方分布,高斯混合模型,室间隔缺损,主成分分析
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
先心病是患病率最高的先天性缺损疾病,而室间隔缺损(VSD)是最常见的先心病类型。据研究 [
而近几年来,在模式识别领域中,高斯混合模型(GMMs)作为一种常用的模式识别方法,被广泛应用于分类和聚类分析。有大量研究 [
本研究提出一种基于马氏距离分类准则的室间隔缺损诊断研究,能够实现对三种室间隔缺损(VSDs)心音信号进行分类诊断。最后通过分类精度,灵敏度,特异性值来验证所提方法的有效性。其算法总体流程图如图2所示。
图1. 1970~2017五种先心病全球患病率变化趋势图
图2. 马氏距离分类准则算法流程图
在临床医学上,心音听诊区 [
提取心音信号特征是采用心音信号数据的统计学参数,根据研究 [
图3. 心音听诊区
图4. 预处理实验结果图
图5. 频域特征提取结果图
Features | Principal components | |||
---|---|---|---|---|
υ1 | υ2 | υ3 | υ4 | |
t12 | 0.3601 | 0.6662 | 0.6551 | −0.0312 |
t11 | 0.5131 | 0.4501 | −0.7216 | −0.0759 |
fg | −0.5327 | 0.4520 | −0.1821 | 0.6901 |
fw | −0.5723 | 0.3836 | −1123 | −0.7226 |
表1. 主成分时频特征表
图6. 主成分分析结果图
鉴于主成分分析(PCA)是一种线性降维技术,可为高维数据进行降维处理获取新的主成分,在大量研究中被广泛应用于诊断系统。如图6(a)所示为帕累托图,代表了各个主成分比重,明显看出主成分为 γ 1 和 γ 2 。而图6(b)为第一主成分和第二主成分的散点图,可明显确定 γ 1 和 γ 2 的分布区间有四个区域,其中青色方框代表SVSDs,绿色星号代表MVSDs,蓝色圆圈代表LVSDs,红色加号代表正常心音(NM)。从图中可以看出,各类心音信号特征之间是具有一定差别区分的,且两个主成分 γ 1 和 γ 2 所占有的信息量占据总体的92.75%,可以代表整个心音特征,因此,将 γ 1 和 γ 2 作为主成分,将其数据提取作为马氏距离分类准则的分类原始数据,并为进行下一节中的建立高斯混合模型以及成分参数估计做准备。
作为一种模式识别方法,高斯混合模型(GMMs)在统计学中具有重要作用,被广泛用于分类识别或聚类分析算法 [
第一步:寻找估计目标函数 f ( x ) ,采用极大似然估计理论获取高斯混合参数。能够作为n维标准高斯分布的混合,尽可能产生每个成分的训练模型,并对每个成分进行参数估计。如下公式(1) (2):
f ( x ) = ∑ k = 1 K ω k p ( x | μ k , Σ k ) (1)
p ( x | μ k , Σ k ) = 1 ( 2 π ) n | Σ k | e − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) (2)
其中 p ( x | μ k , Σ k ) 是每个成分的后验概率,K是成分数量, ω k 对应于第k个混合模型的加权系数且 ∑ k = 1 K ω k = 1 , μ k 和 Σ k 分别是第k个成分的样本均值和协方差矩阵。根据图6(b)所示的散点图,可明显观察到有四个成分。而又根据公式(1) (2)所示,因此设置高斯混合成分数量K = 4,并利用Matlab2017b的软件平台,采用fitgmdist将生成的特征拟合,建立一个GMM结构。根据经验设置正则化值为0.01,优化迭代数目为1000。利用高斯混合参数估计获得 ω k 、 μ k 和 Σ k ,具体参数数值如表2所示。并且对四个成分的高斯混合参数估计所获得的网格图如图7所示,其中成分编号1~4分别对应SVSD、MVSD、LVSD和NM。由图可知这四个随机成分没有重叠区域,也就表明每个成分之间是相互独立的。而在二维平面上可以观测到对于每个独立成分的马氏距离平方都具有一个椭圆轮廓,服从 χ 2 分布。
Components | Components number | Gaussian mixture parameter estimates | ||||
---|---|---|---|---|---|---|
wk | μk | Σk | ||||
SVSD Classifier | k = 1 | 0.1213 | −2.1707 | 2.3246 | 0.2770 | 0.1244 |
0.1244 | 0.3301 | |||||
MVSD Classifier | k = 2 | 0.1332 | −1.6615 | 0.3677 | 0.1841 | 0.1166 |
0.1166 | 0.1793 | |||||
LVSD Classifier | k = 3 | 0.1326 | −1.6764 | −2.1499 | 0.3230 | 0.2118 |
0.2118 | 0.4625 | |||||
NM Classifier | k = 4 | 0.6129 | 1.0554 | 0.0838 | 0.3043 | 0.1617 |
0.1617 | 0.3875 |
表2. 高斯混合成分参数估计表
图7. 网格图与等高线图
第二步:为获得对待测数据分类的决策区间,通过第一步成分的参数估计,样本点到第k个成分的马氏距离的平方( MD k 2 )计算公式如公式(3):
MD k 2 = ( x − μ k ) T Σ k − 1 ( x − μ k ) (3)
观察公式(2)与公式(3),公式(2)满足标准正态分布的形式,所以可得马氏距离的平方服从 χ 2 分布如下:
MD k 2 ~ χ 2 ( μ k , Σ k ) (4)
室间隔缺损诊断的分类区间,可以通过指定需要的置信水平 α k ,利用 χ 2 分布特性来获得。
第三步:确定每个成分的置信水平( α k )。通过设定指定的置信水平得到每个成分的置信区间,每个成分的分类区间可由一个椭圆区域所确定,表示为:
其中,
对于
第四步:通过上一步确定的
第五步:基于马氏距离分类准则定义室间隔缺损诊断方法如公式(7):
最后,为评估这些椭圆模型的性能,其分类精度(CA),灵敏度(Se)和特异性值(Sp)通过公式(8)计算。其中TP、FP、TN和FN分别是真阳性、假阳性、真阴性和假阴性的数量。
按照2.3节步骤在Matlab2017b中运行马氏距离分类准则算法,获得三种室间隔缺损心音(SVSD、MVSD、LVSD)和正常心音(NM)的马氏距离分类准则(MDCCk),分别为:7.01、7.38、6.54、5.99。同时,根据置信水平为
类别 | MDCC | CA (%) | Se (%) | Sp (%) |
---|---|---|---|---|
SVSD | 7.01 | 95.2 | 96.7 | 94.9 |
MVSD | 7.38 | 94.4 | 95.1 | 94.3 |
LVSD | 6.54 | 97.1 | 97.7 | 96.5 |
NM | 5.99 | 99.1 | 98.8 | 99.5 |
表3. 室间隔缺损诊断结果
图8. 室间隔缺损分类结果图
本研究针对心音特征构建了高斯混合模型的最佳置信区间,用于诊断室间隔缺损(VSD)。为此,提出了马氏距离分类准则与基于PCA的心音特征生成相结合的方法。为简化时频特征,通过PCA生成前两个主要分量
孙树平,李肖航,陈 豪,张弼强,黄婷婷,庞宏祥. 基于马氏距离分类准则的室间隔缺损诊断研究On the Mahalanobis Distance Classification Criterion for a Ventricular Septal Defect Diagnostic System[J]. 医学诊断, 2020, 10(01): 42-50. https://doi.org/10.12677/MD.2020.101007