针对乳腺癌智能诊断中的分类器欠稳定,样本分布适应性差等问题。本文提出一种基于Adaboost集成BP、RBF及Naïve Bayess三网的分类器构建算法。首先,采用三种不同的分类算法训练出不同的弱分类器;然后,通过权重在分配策略,增加患病样本被错分健康样本的权重,减小健康样本被错分的患病样本的权重;最后,通过调整后的权重重组弱分类器,达到构成一种强分类器。利用UCI (University of California, Irvine)数据库中的威斯康星乳腺癌数据进行算法对比验证,实验结果表明:本文所提出分类模型优于单一算法。 In the intelligent diagnosis of breast cancer, the classifier is not stable and the sample distribution adaptability is poor. This paper proposes a classifier construction algorithm based on AdaBoost ensemble BP, RBF and Naïve Bayes. First, three different classification algorithms are used to train different weak classifiers. Then, by means of weight redistribution strategy, the weight of the diseased samples in which are misclassified is increased and reduces the weight of healthy samples misclassified to diseased samples. Finally, a strong classifier is constructed by reorganizing the weak classifier with the adjusted weights. The comparison and verification of the algorithm based on the Wisconsin breast cancer data in UCI database show that the proposed classification model is superior to the single algorithm.
刘静1,陈旭2,刘士亚1,张君1,张志飞1*
1佛山科学技术学院自动化学院,广东 佛山
2广东立胜综合能源服务有限公司,广东 佛山
收稿日期:2019年11月20日;录用日期:2019年12月3日;发布日期:2019年12月10日
针对乳腺癌智能诊断中的分类器欠稳定,样本分布适应性差等问题。本文提出一种基于Adaboost集成BP、RBF及Naïve Bayess三网的分类器构建算法。首先,采用三种不同的分类算法训练出不同的弱分类器;然后,通过权重在分配策略,增加患病样本被错分健康样本的权重,减小健康样本被错分的患病样本的权重;最后,通过调整后的权重重组弱分类器,达到构成一种强分类器。利用UCI (University of California, Irvine)数据库中的威斯康星乳腺癌数据进行算法对比验证,实验结果表明:本文所提出分类模型优于单一算法。
关键词 :欠稳定,适应性差,权值,弱分类器
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
近期,根据全球癌症统计数据,乳腺癌仍然是导致女性死亡的主要原因之一,每年新增病例大约有24.2% (210万),死亡病例有626,697例 [
数据挖掘和机器学习技术为开发旨在减少诊断错误的辅助诊断系统提供了可能。数据挖掘是发现可能无法直接识别的隐藏信息的过程,该技术已成功应用于预测肝脏疾病 [
我们在文献 [
乳腺癌数据集样常常伴随变量冗余,无论是从减少计算量提高诊断速度,还是寻找影响疾病的主要因素对样本降维处理是必不可少的工作。样本的降维可描述如下:
给定样本 { x i j ( 0 ) , y i ( i = 1 , ⋯ , p ; j = 1 , ⋯ , q ) } ,寻找一种映射 F : R q → R d ( d ≤ q ) ,使映射前后,样本与结果的关联关系保持不变。
常用的降维方法有主成份分析法(PCA principal Component Analysis)、非线性回归法等,对于非线性回归,在样本数据标准化处理后,样本中各元素的绝对值均不大于1,因此非线性回归的显著性检索常常只需要在二阶范围内进行,即:
y i ⇒ ∑ j = 1 q β i j x i j + ∑ j 1 = 1 q ∑ j 2 = 1 q γ i j 1 j 2 x i j 1 x i j 2 。 (1)
PCA方法根据阀值可直接确定出主影响因素,非线性回归则是检测各影响因素的置信度来决定主要影响变量,具体的操作方法见文末实例分析。
设有n种算法,对应第 k ( k ≤ n ) 种算法的弱分类器总数为 T k ,则第k种算法的集成分类器为
H k = ∑ i = 1 T k α k i g k i , (2)
其中 α k i 为第k种算法第i弱分类器 g k i 的集成权重。
对不同算法得到的结果,选择合适的判决策略,得到最后的诊断结果。
S = f ( H 1 , H 2 , ⋯ , H n ) , (3)
这里 f ( • ) 表判决策略。图1给出了算法的示意图。
图1. 混合集成分类
在众多神经网络中BP神经网络应用较为广泛,但由于BP神经网络利用梯度下降算法求解权值,可能陷入局部最优。RBF网络具有全局逼近能力,从根本上解决了BP网络的局部最优问题,因此本文用RBF网络优化BP网络的局部最优问题。本研究数据规模较小,且Naïve Bayes网络对小规模数据分类有良好的性能,在混合模型时加入了Naïve Bayes网络,使得模型分类效果更为良好。因此,本文混合模型的弱分类器算法由BP、RBF、Naïve Bayes三网组成。本研究的混合模型采用AdaBoost算法进行集成,在处理数据权重时选择了误差的指数函数作为权重的修改函数,这是因为指数函数,一使得分类器结果稳定;二是使模型是收敛的;三是使误差率不断减小,以致最后的基分类器误差最小。混合模型算法流程如下:
For k = 1 to n,
For t = 1 to ,
1) 输入数据 X = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } ,样本的初始分布权值 D t ( i ) = 1 / m 。
2) 弱分类器预测。
用训练数据调用算法k,训练T轮后得到 T k 组弱分类器函数 h T k ( x ) ,并且得到m组训练样本输出结果 g ( i ) ( i = 1 , ⋯ , m ) ,计算加权误差 e t :
e t = ∑ i = 1 m D t ( i ) | g ( i ) − y ( i ) | , i = 1 , 2 , 3 , ⋯ , m , (4)
式中yi为样本i的期望分类结果。
3) 根据弱分类器预测误差et计算弱分类器权重αt:
α t = 1 2 ln ( 1 − e t e t ) 。 (5)
4) 更新样本的分布权值,调整公式为:
IF (模型输出 ≠ 期望输出) and (期望输出为患病类别)
D ( t + 1 ) ( i ) = k 1 D t ( i ) exp [ − α t y i g t ( x i ) ] , i = 1 , 2 , ⋯ , m , k 1 ≥ 1 。 (6)
IF (模型输出 ≠ 期望输出) and (期望输出为健康类别)
D ( t + 1 ) ( i ) = k 2 D t ( i ) exp [ − α t y i g t ( x i ) ] , i = 1 , 2 , ⋯ , m , 0 < k 2 < 1 。 (7)
ELSE D ( i + 1 ) = D i 。 (8)
然后对D值进行归一化处理:
D s u m = s u m ( D t + 1 ( i ) ) (9)
D t + 1 ( i ) = D t + 1 ( i ) / D s u m 。 (10)
Next t;
5) 得到由 T k 组弱分类函数组合得到第k种算法的强分类函数 H k ( x ) :
H k ( x ) = s i g n [ ∑ t = 1 T α t h T k ( x ) ] (11)
Next k。
本文实验使用乳腺癌威斯康星州诊断(WDBC)数据集作为仿真数据。该数据集来自UCI的机器学习知识库。它包括569名实验对象的32个肿瘤特征。这32个特征由30个实际的肿瘤特征、一个实验对象的ID号和一个表明每个研究对象为良性或恶性肿瘤的类标签组成。如表1所示在这个数据集中,每个细胞核评估10个实值因子。由于医疗数据均比较冗余,导致计算工作量增多,冗余数据的误差传导也影响诊断结果的准确率,需要对数据进行预处理即数据降维。本文采用主成分分析和逐步回归分析对数据进行降维。
特征编号 | 特征 | 特征编号 | 特征 |
---|---|---|---|
1 | 半径(中心到圆周上各点距离的平均值) | 6 | 紧密度 |
2 | 纹理(灰度值的标准差) | 7 | 凹陷度(轮廓凹部的严重程度) |
3 | 周长 | 8 | 凹陷点数(轮廓凹面部分的数量) |
4 | 面积 | 9 | 对称度 |
5 | 平滑度(半径长度的局部变化) | 10 | 断裂度 |
诊断结果 恶性为1,良性为−1 |
表1. 数据集属性
PCA是运用最广泛的线性降维方法之一,主成分分析的实质是:通过正交变换将数据转换为相等数量的线性不相关变量,尽可能保留原始数据特征。PCA算法的主要步骤如下:
1) 输入样本数据 X = { X 1 , X 2 , ⋯ , X n } 为n行m列,对数据进行标准化得到矩阵M,
M = X i j − X ¯ j v a r ( X j ) , i = 1 , 2 , ⋯ , n ; j = 1 , 2 , ⋯ , m , (12)
其中:
X ¯ j = 1 n ∑ i = 1 n X i j , v a r ( X j ) = 1 n − 1 ∑ i = 1 n ( X i j − X ¯ j ) 2 , j = 1 , 2 , ⋯ , m 。 (13)
2) 求矩阵M对应的协方差矩阵:
M b = 1 n − 1 M T M 。 (14)
3) 求矩阵Mb的非负的特征根 λ 1 > λ 2 > ⋯ > λ P ≥ 0 ,p为非负特征根的数量, λ i 对应的特征向量记为:
v i = ( v i 1 , v i 2 , ⋯ , v i P ) , i = 1 , 2 , ⋯ , P 。 (15)
且满足
v i v j T = ∑ k = 1 P v i k v j k = { 1 i = j 0 i ≠ j 。 (16)
4) 计算累计贡献率即某个特征值占全部特征值合计的比重:
η = ∑ λ i ∑ i = 1 P λ i 。 (17)
本文取 η 的取值范围为85%~100%,得到贡献率与准确率之间的关系图,如图2所示,准确率随着贡献率大小先升后降,其临届值为95%,此时准确率最高为0.9714。因此本文选取 η 为95%,得到贡献率最大的前10个主成分,即21, 22, 23, 24, 25, 26, 27, 28, 29, 30这10个属性。其主成分贡献率直方图如图3所示。
图2. 贡献率与准确率关系图
图3. 贡献率直方图
逐步回归分析通过逐个引入变量进行F检验(检测过程参见文献 [
为检验模型有效性,本研究以准确率、误差、漏诊率、灵敏度、特异度和Youden指数作为分类评价指标。假设样本总数为sum,TP是将恶性肿瘤诊断为恶性肿瘤数量,FN是将恶性肿瘤诊断为良性数量, FP是将良性诊断为恶性肿瘤数,TN是将良性类诊断为良性数。
a) 准确性:相对于测试的样本总数sum,正确分类为给定类别的肿瘤的百分比,公式为:
Accury = TP + TN sum 。 (18)
b) 漏诊率MDR (Missed diagnosis rate):漏诊率是实际为恶性肿瘤的样本中,预测为良性的占比,公式为:
MDR = TP TP + FP 。 (19)
c) 灵敏度Sen (Sensitivity):研究对象诊断为恶性肿瘤的概率,公式为:
Sen = TP TP + FN 。 (20)
d) 特异度Spe (Specificity):实际上良性被诊断为良性的概率,公式为:
S e n = T P T P + F N 。 (21)
e) 约登指数:是评价筛查试验真实性的方法,公式为:
Y o u d e n = T P T P + F N + T N T N + F P − 1 。 (22)
f) 误差率:相对于测试的总样本数sum,错误分类为给定类别的肿瘤的百分比,公式为:
E r r o r = F P + F N s u m 。 (23)
为了研究主成分分析和逐步回归分析对准确率的影响,表2列出了10折交叉验证100次两种模型的准确率,误差率,漏诊率,灵敏度,特异度和约登指数,可见在约登指数上,逐步回归归分析相对于主成分分析提高了0.007,在漏诊率上,逐步回归归分析相对于主成分分析降低了了0.196,其原因可能是主成分分析降维为10个属性,丢失的信息较多,且其降维后得到的属性也有差距,每个属性代表的信息不同,因此主成分分析的约登指数略低,漏诊率略高。因此本文选用逐步回归方法对数据进行预处理。
预处理方法 | 属性 | 准确率 | 灵敏度 | 特异度 | 约登指数 | 误差率 | 漏诊率 |
---|---|---|---|---|---|---|---|
逐步回归分析 | 13 | 0.973 | 0.962 | 0.981 | 0.944 | 0.027 | 0.037 |
主成分分析 | 10 | 0.971 | 0.954 | 0.981 | 0.937 | 0.028 | 0.046 |
表2. 逐步回归与主成分分析
为了验证提出的混合集成模型的有效性,将混合集成模型与单一算法统一采用逐步回归对数据进行约简,并将其准确率,误差率,漏诊率,灵敏度,特异度和约登指数做比较。各指标10折交叉验证100次的平均值如图4所示。
图4. 贡献率直方图。(a) 四种模型的特异度盒图;(b) 四种模型的灵敏度盒图;(c) 四种模型的漏诊率盒图;(d) 四种模型的准确率盒图;(e) 四种模型的误差盒图;(f) 四种模型的Youden指数盒图
如图4(a)和图4(b)所示,BP、RBF和本文的混合模型都具有较高的特异度和灵敏度,这表明三种网络能更好的逼近函数,使模型的特异度和灵敏度较高。在灵敏度上本文的混合模型均值为0.962,BP均值为0.951,RBF均值为0.958,Naïve Bayes均值为0.892,可见本文的混合模型均优于其他三种模型,说明本文的算法能更好的检测出患病的样本。在特异度上本文的混合模型均值为0.981略低于BP网络0.983,可能是由于本文降低了健康样本被错分为患病样本的权重,以致降低了检测出健康样本的概率。
如图4(c)和图4(d)所示,在准确率上本文的混合模型均值为0.973,BP均值为0.970,RBF均值为0.970,Naïve Bayes均值为0.935。在漏诊率上本文的混合模型均值为0.037;BP模型的均值为0.048;RBF模型的均值为0.043;Naïve Bayes模型的均值为0.107;可见在准确率和漏诊率上本文的混合模型都优于单一的算法,说明本文的混合模型提高了单一算法的准确率,且能更容易的检测出患病样本。
如图4(e)和图4(f)所示,在误差率上本文的混合模型均值为0.027,BP均值为0.030,RBF均值为0.032,Naïve Bayes均值为0.065;在Youden指数上本文的混合模型上均值为0.944,BP均值为0.933,RBF均值为0.936,Naïve Bayes均值为0.855;由此说明本文的混合模型增强了模型的真实性,提高了综合诊断能力。
综上所述BP、RBF和本文的混合模型由于可以任意精度的逼近任何非线性函数,各指标均比Naïve Bayes高。本文的混合模型在准确率、误差、漏诊率、灵敏度和Youden指数方面都优于这些单一算法,但在特异度上略低于BP网络,可能是本文降低了健康样本被错分为患病样本的权重,以致降低了检测出健康样本的概率。
本文提出了一种新的混合集成方法,且该方法在处理数据权重时,加重了被错分的患病样本的权重,减小被错分的健康样本的权重,以此来改进乳腺癌早期诊断的分类算法。研究结果表明,使用混合集成技术将提高单一算法检测乳腺癌的性能。
本研究提出的算法在准确率上还有待提高,未来我们将以各种集成技术和分类算法扩展提出新的方法,以提高分类的准确率。
本篇论文从选题,润色以及最后的投稿我的导师张志飞教授都给了我很多的指导和建议,这篇文章才得以圆满完成。在学习生涯中,能遇到张老师,是我一生的幸运。张志飞教授和蔼可亲,科学态度严谨。在生活上给予我无微不至的关怀,在学术上也以严谨的态度要求我,给予我富有前瞻性和启发性的指导,跟着张老师使我在分析和独立解决问题能力等方面都得到了提高,尤其是在以后的人生方向更使我目标明确。在此,我要向张老师表达衷心的感谢。同时还要感谢师姐刘士亚,小组成员张君以及立胜公司的陈旭给予我的宝贵建议。祝愿他们身体健康。
刘 静,陈 旭,刘士亚,张 君,张志飞. 一种数据融合的乳腺癌分类模型A Data Fusion Model of Breast Cancer Classify Cation[J]. 计算机科学与应用, 2019, 09(12): 2293-2302. https://doi.org/10.12677/CSA.2019.912255