Modeling and Simulation
Vol. 12  No. 04 ( 2023 ), Article ID: 68616 , 10 pages
10.12677/MOS.2023.124323

基于M超图像的气胸自动诊断方法

马一博1*,陈益2#,刘思言2,闫士举2

1苏州大学附属第三医院超声医学科,江苏 常州

2上海理工大学健康科学与工程学院,上海

收稿日期:2023年4月26日;录用日期:2023年7月6日;发布日期:2023年7月13日

摘要

目的:气胸是一种可危及生命的呼吸急症,超声是气胸诊断常用方法。本文研究基于机器学习的M模式超声图像(M超)分类,以辅助医生进行气胸诊断。方法:采用包括肺滑、肺点和肺滑消失三类样本在内共600幅M超图像,由超声医学科医生划分为典型和非典型两个子集。提取出图像的灰度特征、LBP特征、GLCM特征和HOG特征,对特征数据降维,再运用SVM、逻辑回归、XGBoost、LGBM、随机森林五种算法进行图像分类。结果和结论:在典型数据集上,灰度特征 + 逻辑回归分类算法组合的分类效果最佳,其准确度、特异性、敏感性分别为99%、0.9714、0.99;在非典型数据集上,灰度特征 + SVM分类算法组合的分类效果最佳,其准确度、特异性、敏感性分别为98.33%、0.9714、0.99;在混合数据集上,灰度特征 + SVM分类算法组合的分类效果最佳,其准确度、特异性、敏感性分别为94.58%、0.8417、0.95,故采用灰度特征 + SVM分类算法组合对M超图像进行分析有助于辅助医生进行气胸诊断。创新点:通过尝试多种特征提取算法和分类算法的不同组合找出了适合进行气胸自动诊断的算法组合。

关键词

气胸检测,SVM,XGBOOST,Logistic Regression,随机森林,LGBM

Automatic Diagnosis Method of Pneumothorax Based on M-Ultrasound Image

Yibo Ma1*, Yi Chen2#, Siyan Liu2, Shiju Yan2

1Department of Ultrasound Medicine, The Third Affiliated Hospital of Soochow University, Changzhou Jiangsu

2School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai

Received: Apr. 26th, 2023; accepted: Jul. 6th, 2023; published: Jul. 13th, 2023

ABSTRACT

Objective: Pneumothorax is a life-threatening respiratory emergency. Ultrasound is a common diagnostic method for pneumothorax. This paper studies M-mode ultrasound image classification based on machine learning to assist doctors in pneumothorax diagnosis. Data and METHODS: A total of 600 M ultrasound images were used, including three types of samples of lung slip, lung spot and disappearance of lung slip, which were divided into two subsets, typical and atypical, by doctors in the department of ultrasound medicine. The gray feature, LBP feature, GLCM feature and HOG feature of the image are extracted, the dimension of the feature data is reduced, and then SVM, logistic regression, XGBoost, LGBM and random forest algorithms are used for image classification. Results: On the typical data set, the combination of gray feature and logistic regression classification algorithm had the best classification effect, and its accuracy, specificity and sensitivity were 99%, 0.9714, 0.99, respectively. On the atypical data set, the combination of gray feature and SVM classification algorithm has the best classification effect, and its accuracy, specificity and sensitivity are 98.33%, 0.9714 and 0.99, respectively. On the mixed data set, the combination of gray feature and SVM classification algorithm has the best classification effect, and its accuracy, specificity and sensitivity are 94.58%, 0.8417 and 0.95, respectively. Conclusion: The combination of gray feature and SVM classification algorithm to analyze M-ultrasound images is helpful to assist doctors in the diagnosis of pneumothorax.

Keywords:Pneumothorax Detection, SVM, XGBOOST, Logistic Regression, Random Forest, LGBM

Copyright © 2023 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 前言

气胸是由气体进入胸腔膜造成积气状态引起,属肺部急症,常表现为呼吸困难,严重者会危及生命,而尽早诊疗对患者极为重要 [1] 。

图像检查是常用的气胸诊断手段之一,其中超声检查因其良好的方向性和敏感度,可清晰显示患者体内的情况,常被医生用于鉴别患者是否罹患气胸 [2] 。肺点和肺滑消失是诊断气胸的主要征象。若患者的M超(M模式超声)图像中胸膜线以下部分同时存在沙滩征和条纹征,则诊断为肺点,如果仅存在沙滩征,则诊断为肺滑,如果仅存在条纹征,则诊断为肺滑消失 [1] [3] 。然而,部分患者的M超图像特征不典型,凭医生肉眼难以分辨出沙滩征及条纹征,需要重复阅片,导致医生工作量增加,诊断效率和准确率降低 [2] 。

在20世纪60年代,就已经有学者开始研究计算机数字图像分析 [4] 。近年来,计算机辅助诊断技术(Computer-Aided Diagnosis, CAD)更是广泛应用于X射线、超声等医学影像领域 [5] ,如乳腺肿瘤及肝脏疾病的辅助诊断等 [6] [7] [8] 。现代肺部超声检查具有无辐射、便捷、可实时检测肺部动态等优点 [9] ,且在检测间质性肺疾病、肺实变与肺不张、肺炎和急性呼吸窘迫综合征等方面提供了重大帮助 [10] 。目前,超声CAD的相关研究日益增多。研究的目标从浅表器官到深层脏器,研究方向从图像识别到功能探索。随着技术的发展,借助现代计算机的强大计算能力可完成大批量的工作 [10] 。性能好的CAD技术可以快速有效地检测出图像肉眼不易觉察的有用信息。但到目前为止,基于CAD技术采用M模式超声图像进行气胸辅助诊断的研究较少。本研究将计算机辅助诊断技术与肺部超声相结合,计算机经过对图像的一系列处理后输出特定的结果,可辅助医生提高读片效率,防止因视觉疲劳和精神恍惚造成的人工阅片失误,减小不同阅片者对图像解读的差异性,提高诊断的准确率。

2. 材料与方法

2.1. 研究材料

研究所用M超图像样本均来自苏州大学附属第三人民医院超声医学科。样本包括肺滑、肺点和肺滑消失三类,每类样本又由超声医学科医生根据征象典型程度划分为典型和不典型两个子集(如图1所示)。超声检查采用的仪器为柯尼卡美能达SONIMAGE HS1彩色超声诊断仪,探头频率4~18 MHz;超声检查时受检者仰卧位或坐位,以锁骨中线第二肋间纵切和肋间隙横切作为常规切面,超声探头垂直患者皮肤。调节机器使胸膜显示清晰。气胸M超诊断由2名从事超声诊断工作有5年以上工作经验的医师操作完成。

为了探究样本典型与否对实验结果的影响,在典型、非典型和混合数据集上分别进行了实验。研究所用样本的类型及数量如表1所示。

Table 1. Types and quantities of data sets

表1. 数据集类别及数量

(a) 肺滑典型 (b) 肺点典型 (c) 肺滑消失典型(d) 肺滑不典型 (e) 肺点不典型 (f) 肺滑消失不典型

Figure 1. Lung image

图1. 肺部影像

2.2. 研究方法

典型图像表征明显,不典型图像表征模糊,借助计算机辅助诊断是本研究的目的,同时要关注到图像典型与否对研究结果的影响。研究方法分为三个模块(如图2所示):特征提取模块、数据处理模块和图像分类模块。首先需要根据肺部超声图像的特征来选取对应特征提取算法对数据进行处理,再用分类算法来训练样本,得到所需算法组合,根据这些算法组合的性能来选取最优者,以满足气胸辅助诊断的需求。

Figure 2. Diagram of research methods

图2. 研究方法图解

2.2.1. 特征提取

特征提取部分,用特征提取算法提取出M超图像的特征数据。判断气胸典型图像的类别主要依据是胸膜线以下部分的颗粒状态分布和纹理变化,颗粒状的沙滩征表示肺滑存在,条纹征表示肺滑不存在,肺滑不存在(肺点或肺滑消失)即为气胸,故需要选择对图像纹理和明暗变化较为敏感的特征提取算法。基于此,选择了以下四种算法:灰度特征、LBP、GLCM和HOG。灰度特征可对图像的明暗分布进行表征,LBP、GLCM、HOG可对图像纹理变化进行表征。

灰度特征是图像的基本特征 [11] ,图像分辨率大小为300 × 300,每张图片的灰度数据有90,000个。

线性反投影算法(Local Binary Pattern, LBP)可用来描述图像局部纹理特征,以邻域中心像素为阈值,相邻的像素的灰度值与邻域中心的像素值进行比较,比较产生的二进制数依次排列形成一个二进制数字作为中心像素的LBP值,中心像素的LBP值反映了该像素周围区域的纹理信息,在图像处理领域常用来描述纹理信息,在医学图像处理领域有着良好的应用 [12] [13] [14] 。LBP特征即取中心像素的LBP值作为特征矩阵转化为特征向量存储为LBP特征,本研究中,每张图片可提取出3775个LBP数据。

灰度共生矩阵能够反映图像灰度的方向、相邻间隔、变化幅度等综合信息,凭借其可对纹理变化进行表征广泛地应用于图像分析、医学图像处理等领域 [15] [16] 。本研究将对比度、能量、熵值和逆方差拼接成特征向量存储为GLCM特征,每张图片共有4个特征数据。

梯度方向直方图通过计算和统计图像局部区域的梯度方向直方图来构成特征,在模式识别、医学图像处理等领域表现良好 [17] [18] 。本研究中,每张图片可提取出90,000个HOG特征数据。

2.2.2. 数据处理

为了防止提取的特征向量数据溢出影响研究结果,对特征数据进行最值归一化处理,再采用主成分分析算法(PCA)进行特征降维。将处理好的特征向量加上标签,即此特征向量所对应的肺部图像表征为肺滑、肺点或肺滑消失。

2.2.3. 图像分类

将特征向量分为训练集和测试集,训练集在不同的分类算法中训练得到训练模型,然后采用测试集验证各分类算法性能的优劣,从而选择综合分类性能最佳的分类算法组合。

为了对比实验,选择逻辑回归和支持向量机两种单分类器和GBDT、XGBOOST和LGBM三种集成分类器对比分类效果,以选取表现较好的分类模型。

支持向量机(Support Vector Machines, SVM)通常用来进行分类及回归分析。SVM的核技巧使它成为非线性分类器,是求解凸二次规划的最优化算法,在文本分类和图像处理领域有着良好应用 [19] [20] ;逻辑回归是多元统计分析模型,其回归函数是任意阶可导的凸函数,具有良好的求解性质,广泛应用于文本分类、图像和生物医学的分类 [21] ;XGBoost是基于Boosting算法的回归决策树集成学习算法,其对数据中的噪声、多重共线性等问题敏感度较低,在数据分类,图像分类领域有良好表现 [22] ;轻型梯度提升机(Light GBM)是以决策树为基分类器的集成算法,支持并行训练,具有更快的迭代速度,更低的内存消耗、更好的准确率,在图像分类、数据回归及特征重要度排序等领域有广泛应用 [23] ;随机森林其基分类器是决策树,将N个结果中出现次数最多的作为最终结果,以其优异性能常用于医学图像处理、辅助治疗诊断等领域 [24] 。

3. 实验结果

实验中训练集占比60%,测试集占比40%。在典型、混合和非典型数据集上,各算法组合分类准确度如图3所示:

Figure 3. Accuracy of each algorithm combination

图3. 各算法组合准确度

图3所示实验结果整体上看,故典型数据集的分类准确度高于非典型数据集,非典型数据集的分类准确度高于混合数据集,这是因为典型数据集相较于非典型数据集表征更加明显,而混合数据集综合了典型与非典型两种数据集的特征,不利于分类算法对特征的学习与分类,故分类准确度最低。在几个数据集中,灰度 + SVM、灰度 + 逻辑回归、灰度 + XGB、灰度 + LGBM、灰度 + 随机、GLCM + XGB、GLCM + LGBM等算法组合的分类准确度较高。根据图3所示的分类准确度,挑选其中表现较好的算法组合分三个数据集进一步详细考察,以选择出各数据集上的表现最好的算法组合并考察样本图像特征典型与否对各组合分类性能的影响。

3.1. 典型样本

在典型样本上,共有九种特征提取 + 图像分类算法组合的准确度达到了90%及以上。灰度特征 + 逻辑回归分类算法的组合准确度最高,为99.67%,特异性为0.95、敏感性和F1值均为0.99,其次是灰度特征 + SVM分类算法的组合,分类准确度为99.17%,特异性为0.974、敏感性和F1值均为0.99。可见,在典型样本中,灰度特征对肺滑、肺点、肺滑消失三类图像的表征更敏感,灰度特征 + SVM和灰度特征 + 逻辑回归两种算法组合在典型样本上均有良好的性能。典型样本上分类性能较好的几种特征提取 + 图像分类算法组合,其性能指标如表2所示:

Table 2. Algorithm combinations with good performance on typical samples

表2. 典型样本上性能较好的算法组合

3.2. 非典型样本

非典型样本上,共有四种算法组合的准确度达到了90%及以上,全部为利用了灰度特征的算法组合。其中,灰度特征 + SVM分类算法的组合准确度最高,为98.33%,特异性为0.9714,敏感性为0.99,F1值为0.98,其次是灰度特征 + 逻辑回归分类算法的组合,分类准确度为97.5%,特异性为0.95、敏感性和F1值均为0.98。可见,在非典型样本中,灰度特征对肺滑、肺点、肺滑消失三类图像的表征更敏感,灰度特征 + 逻辑回归和灰度特征 + SVM两种算法组合在非典型样本上均有良好的性能。非典型样本上的性能较好的算法组合具体表现如表3所示。

各算法在典型和非典型两个样本集上的准确度、特异性、敏感性、F1值对比分别如图4~图7所示。将典型数据集上性能较好的算法组合和其在非典型数据集上的性能做对比,发现其在典型数据集上性能要好于非典型数据集。各算法组合在典型样本上的准确度、特异性、敏感性和F1值均高于其在非典型样本上的表现,可见,非典型样本使得实验准确度降低,分类算法分类精度降低,部分分类效果较好的分类算法组合变化不大,但性能仍是略有降低。

Table 3. Combination of algorithms with good performance on atypical samples

表3. 非典型样本上性能较好的算法组合

Figure 4. Comparison of accuracy

图4. 准确度对比图

Figure 5. Comparison of sensitivity

图5. 特异性对比图

Figure 6. Comparison of sensitivity

图6. 敏感性对比图

Figure 7. Comparison of F1 values

图7. F1值对比图

3.3. 混合样本

在混合样本上,灰度特征 + SVM分类算法的组合准确度最高,为94.58%,特异性为0.8471、敏感性、F1值均为0.95。混合样本上的性能较好的算法组合具体表现如表4所示。

在典型、非典型和混合样本上,表现最好的特征均是灰度特征,故灰度特征对肺滑、肺点、肺滑消失三类图像的表征敏感。在典型数据集上,逻辑回归分类算法表现最好,SVM次之,两种算法分类准确度相差0.5%,在非典型和混合数据集上,SVM分类算法表现最好,逻辑回归次之。由于混合数据集的泛化能力更强,故SVM分类算法对肺滑、肺点、肺滑消失三类样本最具分类效果。

Table 4. Combination of algorithms with good performance on mixed samples

表4. 混合样本上性能较好的算法组合

特异性越高则健康样本被预测为患病的概率越小,敏感性越高则患病样本被预测为健康的概率越小。混合样本实验中灰度特征 + SVM算法组合的特异性为0.881,敏感性为0.94,表现最好,故灰度特征 + SVM分类算法组合对样本健康与否的误诊率较低,性能在这些算法组合中最好。

4. 讨论

本研究将600例样本分成典型、非典型和混合三类分别进行研究。使用四种特征提取方法进行特征提取,对数据进行归一化和降维处理后使用六种分类算法对特征数据进行学习和分类处理,并将标签值与分类结果进行比对,研究结果表明,灰度特征与SVM分类器具有较好的M超图像分类性能。

不论是在肺滑诊断,还是在肺点、肺滑消失诊断中,典型样本的预测准确度均高于非典型样本的预测准确度,进而将典型数据集上表现较好的模型和其在非典型数据集上的表现做对比,发现这些算法组合在典型数据集上表现要好于非典型数据集,其中灰度加SVM算法组合的性能表现最好,即在临床应用上采用种组合进行预测,误诊率和漏诊率均较低,可以有效的避免误诊和漏诊情况的发生。现实应用中,医生遇到的肺部图像既可能是特征典型的也可能是特征不典型的,故混合数据集的实验结果较符合实际辅助诊断应用场景,更具参考价值。在混合数据集上表现较好的算法模型为灰度特征 + SVM和灰度特征 + 逻辑回归算法组合。

综上所述,考虑到气胸辅助诊断临床实际需求,灰度特征 + SVM算法组合是最佳选择;灰度特征在逻辑回归和SVM分类算法上的性能相差并不大,故同时用两种分类算法来辅助诊断具有更高的可信度。超声气胸自动诊断方法的研究对于辅助临床医生进行气胸病症的诊断具有较高的应用价值,随着人工智能和机器学习的不断发展和深化,将会有更适合更高效的技术用于临床诊疗的辅助诊断。

文章引用

马一博,陈 益,刘思言,闫士举. 基于M超图像的气胸自动诊断方法
Automatic Diagnosis Method of Pneumothorax Based on M-Ultrasound Image[J]. 建模与仿真, 2023, 12(04): 3512-3521. https://doi.org/10.12677/MOS.2023.124323

参考文献

  1. 1. 朱晓宁, 杨斐, 魏文鑫, 等. 原发性自发性气胸CT表现征象及在胸膜固定术前后中的应用价值分析[J]. 中国CT和MRI杂志, 2021, 19(9): 78-79, 85.

  2. 2. 徐艳, 刘馨, 蔡腊梅, 等. 肺部超声诊断腹腔镜肝脏切除术中气胸1例[J]. 重庆医学, 2021, 50(14): 2518-2520.

  3. 3. Mohamed, E.M. (2018) In Diagnosis of Pleural Effusion and Pneumothomx in the Inten-sive Care Unit Patients: Can Chest Us Replace bedside Plain Radiogmphy. The Egyptian Journal of Radiology and Nuclear Medicine, 49, 346-351. https://doi.org/10.1016/j.ejrnm.2018.02.006

  4. 4. Mendelsohn, M.L., Kolman, W.A., Perry, B., et al. (1965) Morphologi-cal Analysis of Cells and Chromosomes by Digital Computer. Methods of Information in Medicine, 4, 163-167. https://doi.org/10.1055/s-0038-1636244

  5. 5. 李义兵, 余大昆, 刘晓东, 等. 计算机在超声医学图像处理中的应用[J]. 医学信息, 2005, 18(9): 1035-1037.

  6. 6. Pierluigi, R., Laura, M., Marco, M., Giovanna, P. and Pasquale, M. (2003) Comput-er-Aided Diagnosis. Rays, 28, 103-108.

  7. 7. 程勇, 牛艳坤, 陈卫国. CAD技术在医疗诊断中的应用研究进展[J]. 中国医师杂志, 2006, 8(9): 1295-1296.

  8. 8. 李晓峰, 沈毅, 王强. 超声乳腺肿瘤图像计算机辅助诊断系统[J]. 吉林大学学报(工学版), 2009, 39(3): 770-775. https://doi.org/10.13229/j.cnki.jdxbgxb2009.03.045

  9. 9. 张琳, 朱永胜. 肺部超声的临床应用及进展[J]. 临床超声医学杂志, 2021, 23(2): 142-144..

  10. 10. 毕珂, 王茵. 计算机辅助诊断技术在超声医学中的应用进展[J]. 肿瘤影像学, 2019, 28(5): 296-300.

  11. 11. 俞雨溪, 王宗秀, 程明, 等. 页岩微观结构灰度图像的标准化方法[J]. 煤炭学报, 2019, 44(7): 2178-2187.

  12. 12. 李根, 李文辉. 主方向旋转LB P特征的平面旋转人脸检测[J]. 电子学报, 2015, 43(1): 198-202.

  13. 13. 孙伟, 赵玉普. 增强旋转不变LBP算法及其在图像检索中的应用[J]. 计算机科学, 2019, 46(7): 263-267.

  14. 14. 徐先传, 张琦. 基于LBP算子与EMD距离的医学图像检索[J]. 微计算机信息, 2009, 25(9): 275-276, 295.

  15. 15. 李玥灵, 吴国平, 耿秀秀, 等. 基于LBP-GLCM纹理特征提取的服装图像检索[J]. 电视技术, 2015, 39(12): 99-103.

  16. 16. 汪娟, 刘哲, 宋余庆, 等. 基于改进的GLCM甲状腺纹理特征提取与分析[J]. 计算机工程与应用, 2018, 54(23): 176-182.

  17. 17. 谢维信, 赵田. 多特征自适应融合的相关滤波目标跟踪算法[J]. 信号处理, 2021, 37(4): 603-615.

  18. 18. 吴秀明, 王霞丽, 吕国荣, 等. 计算机辅助系统在诊断乳腺良恶性肿瘤中的应用[J]. 中国医学物理学杂志, 2020, 37(3): 374-378.

  19. 19. 朱景宝, 宋晋东, 李山有. 基于支持向量机的地震预警震级快速估算研究[J]. 振动与冲击, 2021, 40(7): 126-134.

  20. 20. 孙璐. SVM的发展与应用[J]. 考试周刊, 2013(81): 138.

  21. 21. 胡艳梅, 杨波, 多滨. 基于网络结构的正则化逻辑回归[J]. 计算机科学, 2021, 48(7): 281-291.

  22. 22. 周荣喜, 彭航, 李欣宇, 等. 基于XGBoost算法的信用债违约预测模型[J]. 债券, 2019(10): 61-68.

  23. 23. 卢锦玲, 郭鲁豫, 张梦雪, 等. 基于MGS-LGBM算法的电力系统暂态稳定评估[J]. 电力科学与工程, 2020, 36(3): 52-60.

  24. 24. 王坤, 张学良, 张岁霞, 等. 基于机器学习方法的肝癌X射线相衬CT图像分类研究[J]. 中国生物医学工程学报, 2020, 39(5): 621-625.

期刊菜单