番茄枯萎病是番茄病害中最严重的一种,枯萎病的早期识别具有重要意义。本研究以患枯萎病番茄的根部为实验对象,通过图像处理技术,首先将番茄根部用扩展高斯差分(XDoG)进行边缘检测,在HSV色彩空间中对番茄枯萎病进行检测。对于根系没有颜色变化的样本,提取与病害相关的根部形状参数,并结合从根系扫描仪获取的参数,建立随机森林(RF)检测模型,识别率为92.64%。为了缩短该方法的运行时间并提高准确率,引入主成分分析法(PCA),建立PCA-RF模型,该模型的运行时间提高了62.13%,平均识别率提高了2.62%。结果表明,与常用的识别算法相比,PCA-RF模型具有更高的检测准确率。本研究为番茄枯萎病识别提供了一种高效稳定的方法。 Tomato Fusarium wilt is one of the most serious tomato diseases, and early identification of tomato Fusarium wilt is of great significance. In this study, the roots of tomatoes with Fusarium wilt were used as the experimental object. Through image processing technology, the tomato roots were edge detected by using the extended difference of Gaussian (XDoG), and the tomato Fusarium wilt was detected in the HSV color space. For samples with no color change at the root, the root shape parameters related to the disease were extracted, and combined with the parameters obtained from the root system scanner, a Random Forest (RF) detection model was established, and the recognition rate was 92.64%. In order to shorten the running time of the method and improve the accuracy, Principal Component Analysis (PCA) was introduced and a PCA-RF model was established. The running time of the model was increased by 62.13% and the average recognition rate was increased by 2.62%. The results show that the PCA-RF model has higher detection accuracy than the commonly used recognition algorithms. This study provides an efficient and stable method for tomato Fusarium wilt identification.
番茄枯萎病是番茄病害中最严重的一种,枯萎病的早期识别具有重要意义。本研究以患枯萎病番茄的根部为实验对象,通过图像处理技术,首先将番茄根部用扩展高斯差分(XDoG)进行边缘检测,在HSV色彩空间中对番茄枯萎病进行检测。对于根系没有颜色变化的样本,提取与病害相关的根部形状参数,并结合从根系扫描仪获取的参数,建立随机森林(RF)检测模型,识别率为92.64%。为了缩短该方法的运行时间并提高准确率,引入主成分分析法(PCA),建立PCA-RF模型,该模型的运行时间提高了62.13%,平均识别率提高了2.62%。结果表明,与常用的识别算法相比,PCA-RF模型具有更高的检测准确率。本研究为番茄枯萎病识别提供了一种高效稳定的方法。
番茄,枯萎病,病害检测,图像处理,PCA-RF
Qiongjie Zheng1, Jingrui Li2, Ying Ji1,3*
1College of Information Science and Technology, Hebei Agricultural University, Baoding Hebei
2College of Horticulture, Hebei Agricultural University, Baoding Hebei
3Hebei Key Laboratory of Agricultural Big Data, Baoding Hebei
Received: Feb. 20th, 2022; accepted: Apr. 13th, 2022; published: Apr. 20th, 2022
Tomato Fusarium wilt is one of the most serious tomato diseases, and early identification of tomato Fusarium wilt is of great significance. In this study, the roots of tomatoes with Fusarium wilt were used as the experimental object. Through image processing technology, the tomato roots were edge detected by using the extended difference of Gaussian (XDoG), and the tomato Fusarium wilt was detected in the HSV color space. For samples with no color change at the root, the root shape parameters related to the disease were extracted, and combined with the parameters obtained from the root system scanner, a Random Forest (RF) detection model was established, and the recognition rate was 92.64%. In order to shorten the running time of the method and improve the accuracy, Principal Component Analysis (PCA) was introduced and a PCA-RF model was established. The running time of the model was increased by 62.13% and the average recognition rate was increased by 2.62%. The results show that the PCA-RF model has higher detection accuracy than the commonly used recognition algorithms. This study provides an efficient and stable method for tomato Fusarium wilt identification.
Keywords:Tomato, Fusarium Wilt, Disease Monitoring, Image Processing, PCA-RF
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
番茄是世界上第二大经济作物,目前我国的番茄产量占到世界蔬菜生产总量的10%左右 [
根系是植物的重要器官,它吸收土壤中的养分 [
目前,一些学者综合比较了根系特征对根系生长状况的影响 [
在国内,赵来宾等 [
植物根系图像处理技术的应用目前还未达到成熟状态,为了更好地应用于实际环境,还需要进行进一步的研究。目前学者们的研究都是围绕怎么提取根系参数来展开,如果能将提取的根系参数用于植物病害的识别,那将更有实用价值。本文提出了一种将提取的根系参数用于判断植物是否患病的新思路。
番茄枯萎病 [
本实验番茄品种为草莓番茄,实验样品取自河北农业大学园艺学院实验室,主要取患有枯萎病番茄和健康番茄的根部扫描图像。播种期为2021年4月6日,首先将番茄种子播种在穴盘中,每个穴盘种植72株番茄,穴盘中的基质按照7:2:1的比例将草炭、椰糠和蛭石混合配制而成。温室每天进行12小时左右的光照,白天温度在23℃左右,夜间保持在13℃左右,相对湿度为60%。
待幼苗长到两叶一心时,采用浸根法进行枯萎病病菌接种处理。实验一共进行了28天,每天在相同时间段内将番茄从穴盘中取出,然后将番茄根部的基质清洗干净,晾干之后采集番茄根部的扫描图像。一共采集110株植株的数据,其中患枯萎病的番茄根部数据有52幅,对照组的番茄根部数据有58幅。
为了准确的提取根系特征,首先需要将根系扫描图像进行边缘提取。扩展高斯差分 [
D σ , k , τ ( x ) = G σ ( x ) − τ ⋅ G k , σ ( x ) = ( 1 − τ ) ⋅ G σ ( x ) + τ ⋅ D k , σ ( x ) (1)
高斯模糊图像具有与输入图像相同的平均亮度,所以图像的平均亮度将随着 τ 的增加而降低,增加 τ 是增加边缘强调线权值的唯一方法。
为了简化XDoG滤波器的参数控制,进行具有以下属性的重新参数化:去除先前参数的紧密相互依赖性;需要调整的参数可以更加符合我们的直觉;可逆性,即可以在新旧参数空间来回转换。通过将公式(1)除以 τ − 1 ,就可以找到满足这些需求的参数,使得XDoG滤波器表示为调整后的图像锐化运算符,得到公式(2)。
S σ , k , p ( x ) = D σ , k , p ( x ) τ − 1 = ( 1 + p ) ⋅ G σ ( x ) − p ⋅ G k , σ ( x ) (2)
用 p 替换 τ 使得可以通过这个变量控制边缘的锐化效果而不会对模板产生影响。 p 是与像素值相关的阈值,可以更加直观的设置相应的参数值。
本文在实验过程中将公式(2)的参数 σ 从0~2依次测试,将参数 ε 从−0.1~0.08依次测试,选择效果最佳且最适合后续图像处理的参数。图1和图2展示了由一些参数的变化而引起的图像变化。
在图1中,(a)图为原图,随着 σ 的增大,图像黑色边缘的厚度在随之增大,即图像边缘的形状结构也随之发生变化, σ = 0.2 和 σ = 2 的情况下无法准确还原原图根系的结构,当 σ = 1.2 时,不仅边缘定位准确,而且噪声抑制能力强,所以本文将 σ 的值设置为1.2。图2展示了参数 ε 的变化引起的图像变化,通过对 ε 的调整可以创建不同的线条外观,根据实验需求,本文选择将 ε 的值设置为−0.1。
图1. 参数σ从0.2到2引起的图像变化
图2. 参数ε从−0.1到0.08引起的图像变化
番茄枯萎病是根系病害,枯萎病先从番茄植株的根部开始发病,然后从下到上依次慢慢地侵染番茄植株的茎部和叶片。一般来说,番茄植株感染枯萎病后其根系受损,从颜色方面来看,患病严重的番茄根部颜色变深褐色,而健康番茄根部颜色理论上为白色。所以本文首先通过颜色特征来进行番茄枯萎病检测。由于样品是从基质中取出的,洗干净后的番茄根部不可避免的附着有基质,基质中的草炭是浅褐色的,所以对照组的番茄根部为浅褐色。而患枯萎病的番茄表现症状为深褐色,在RGB空间难以区分,所以本文使用HSV [
HSV颜色空间是基于颜色直观特性的,相比于面向硬件的RGB空间,HSV颜色空间更面向用户。HSV空间是由A. R. Smith创建的一种以人眼视觉的直观反映为依据的颜色空间,HSV模型中的参数分别代表:色调、饱和度以及亮度。色调 是指在不同的波长的光照下,人眼感受的颜色的不同;饱和度 是指色彩的纯度,在不同种类的色彩模型中,饱和度有不同的量化模式;亮度 是指的色彩的亮度,黑色最暗,白色最亮。将颜色从RBG颜色空间转换为HSV颜色空间如公式(3)、(4)和(5)所示:
V = max ( R , G , B ) (3)
S = { V − min ( R , G , B ) V , V ≠ 0 0 , V = 0 (4)
H = { 60 ( G − B ) V − min ( R , G , B ) , V = r 120 + 60 ( B − R ) V − min ( R , G , B ) , V = g 240 + 60 ( R − G ) V − min ( R , G , B ) , V = b (5)
公式(3)、(4)和(5)中,R、G、B分别为红、绿、蓝分量。H、S、V分别为色调、饱和度、亮度分量,其中max为R、G、B中的最大值,min为R、G、B中的最小值。
本文所采用的检测方法主要分为两大部分:一是进行HSV色彩空间变换,对亮度通道进行同态滤波处理,对饱和度通道进行自适应直方图均衡处理,将处理之后的特征灰度图按照一定的权重逆转换回RGB色彩空间;二是对变换之后的图像进行阈值分割。
图3和图4分别展示了对照组和枯萎病番茄根系在RGB模型和HSV模型下的图像。由图3和图4的对比可知,在RGB模型下难以区分的颜色经过HSV模型的增强,特征更加突出。经过阈值分割检测出了三株番茄患有枯萎病。分析其原因为:在枯萎病病情加重时番茄根系会表现出颜色变褐色,发病初期颜色特征并不明显,所以将检测结果显示正常的107个番茄根系样本进行下一步的检测。
图3. RGB模型下的根系扫描图像
图4. HSV模型下的根系扫描图像
根据枯萎病发病规律和特征,本文选择在根系扫描图像中提取像素面积、分叉数、平均长度、根系轮廓特征即最小外接矩形,并以最小外接矩形的中心为圆心画圆,提取圆外面积来实现枯萎病的检测。
在数字图像中,图像的面积与其所占的总像素数呈完全直线关系,所以图像的面积可以用图像所占像素数表示。在相同的拍摄条件下,即相同的角度和焦距等,物体面积越大,则在图像中所占的像素就越多。由于实验的样本都是扫描图像,不存在拍照设备和样本距离以及角度不同造成的误差,所以可以用像素点的个数来近似于表示面积。
分叉数顾名思义就是根系分叉点的个数,本文采用遍历搜索的方式来计算根系交叉数。首先从图像中找到目标区域,即确定白色像素值的位置,将目标像素值的位置按照行递增的顺序存入矩阵中。遍历矩阵中的元素,当某像素的右边、下边或右下位置的像素至少有一个在矩阵中时,说明该像素为一个分叉点,当搜索到行数大于该像素行数加一时,停止搜索。对每一个像素都依次进行上述操作,即可获得分叉点的个数即分叉数。
由于番茄根系结构复杂,有的根系存在闭合,所以本文用目标区域的像素与分叉数的比值来近似根系平均长度。
本文采用旋转卡壳算法来计算最小外接矩形 [
1) 计算多边形的四个端点,分别为xminP,xmaxP,yminP,ymaxP。
2) 通过第一步的四个端点来构造P的四条切线。
3) 如果切线与一条边重合,那四条线刚好可以确定一个矩形,记录下此时矩形的面积,并且将其作为最小值保存下来,否则最小值为无穷大。
4) 顺时针旋转线,直到其中一条线和多边形的一条边重合。
5) 计算新矩形的面积,并且和当前最小值比较。如果小于当前最小值则更新,并保存最小值的矩形信息。
6) 重复步骤4和步骤5,直到线旋转过的角度大于90度。
根据上述步骤求最小外接矩形,每旋转一次矩形,计算一次矩形的面积,比较计算出来的面积,其中面积最小的外接矩形就是通过旋转卡壳算法求得的最小外接矩形,效果图如图5所示。
计算出最小外接矩形的几何中心,然后以几何中心为中心画圆。经过反复调整半径值的大小来确定圆的大小。当圆的半径为132时,效果较好,患枯萎病番茄的根部基本上都在圆内,对照组的根部在圆外的部分很多。即圆基本能覆盖枯萎病番茄的根部,无法覆盖对照组的根部,效果图如图6和图7所示。
将所有样本的圆内像素都变为黑色,计算其圆外面积。
通过根系扫描仪可得到的参数一共有9个,分别为:长度、投影面积、表面积、体积、连接数、节点数、根尖数、交叉数、分形维数。将根系扫描仪分析出来的9个参数和之前从图像中提取出来的6个参数整合到同一个表中,这些数据将作为分类器的输入。
图5. 最小外接矩形效果图
图6. 对枯萎病番茄根部画圆
图7. 对对照组番茄根部画圆
为了将患有枯萎病的番茄从样本中筛选出来,本文使用随机森林建立了番茄根系检测模型。将数据分为两类,分别是枯萎病番茄和对照组番茄,将3.3节提取的15个参数作为随机森林 [
样本 | 标签 |
---|---|
枯萎病 | 1 |
对照组 | 0 |
表1. 分类标签
对训练集中的72条数据构建随机森林模型,图8为五次测试中Test1的随机森林算法对测试集的分类结果,图中用“○”来表示样本的实际类别,用“*”来表示随机森林分类结果,由图8可以看出,有两个枯萎病样本被误判为是对照组,有一个对照组样本被误判为枯萎病。
图8. 测试样本标签类别
表2为五次测试中,使用随机森林模型进行根系检测的识别率。
测试组 | 识别率/% |
---|---|
Test1 | 92.11 |
Test2 | 94.74 |
Test3 | 92.11 |
Test4 | 92.11 |
Test5 | 92.11 |
averge | 92.64 |
表2. 随机森林模型分类的准确率
从表2可以看出,使用随机森林算法进行根系检测的五次测试的平均准确率为92.64%,随机森林核心算法平均运行时间为28.5367秒,如果数据量足够大,算法运行耗时将非常大,下节将对此缺点进行改进。
通过主成分分析 [
为了方便表示,将圆外面积像素个数记为A,最小外接矩形面积记为B,最小外接矩形周长记为C,长度记为L,投影面积记为PA,像素面积记为P,表面积记为SA,体积记为V,平均直径记为D,连接数记为NC,节点数记为N,根尖数记为TN,分叉数记为BN,交叉数记为CN,分形维数记为FD。记下累积贡献率大85%的特征值的序号,计算主成分荷载和得分。最后得到的结果是选取了两个主成分,分别为PC1和PC2,根据PC1和PC2的特征向量得到主成分数学模型。
PC1 = 0.96 * A + 0.92 * B + 0.92 * C + 0.97 * L + 0.95 * PA + 0.973 * P + 0.94 * SA + 0.91 * V + 0.84 * D + 0.92 * NC + 0.87 * N + 0.58 * TN + 0.90 * BN + 0.88 * CN + 0.77 * FD;
PC2 = −0.11 * A − 0.21 * B − 0.21 * C − 0.03 * L − 0.216 * PA − 0.15 * P − 0.23 * SA − 0.25 * V − 0.23 * D + 0.30 * NC + 0.44 * N + 0.70 * TN + 0.28 * BN + 0.08 * CN + 0.15 * FD;
F = 12.1 * PC1 + 1.2 * PC2 + 0.6 * PC3 + 0.5 * PC4 + 0.2 * PC5 + 0.1 * PC6 + 0.09 * PC7 + 0.08 * PC8 + 0.03 * PC9 + 0.02 * PC10 + 0.009 * PC11 + 0.006 * PC12 + 0.002 * PC13 + 0.0013 * PC14 + 0.0012 * PC15。
表3为主成分分析的特征值、贡献率和累计贡献率。
PC 1 | PC 2 | PC 3 | PC 4 | PC 5 | PC 6 | PC 7 | PC 8 | |
---|---|---|---|---|---|---|---|---|
特征值 | 12.1000 | 1.2000 | 0.6000 | 0.5000 | 0.2000 | 0.1000 | 0.0900 | 0.0800 |
贡献率 | 80.46% | 8.24% | 3.94% | 3.13% | 1.63% | 0.99% | 0.59% | 0.53% |
累积贡献率 | 80.46% | 88.70% | 92.64% | 95.77% | 97.40% | 98.39% | 98.98% | 99.51% |
表3. 主成分分析的特征值和贡献率
PC 9 | PC 10 | PC 11 | PC 12 | PC 13 | PC 14 | PC 15 | |
---|---|---|---|---|---|---|---|
特征值 | 0.0300 | 0.0200 | 0.0090 | 0.0060 | 0.0020 | 0.0013 | 0.0012 |
贡献率 | 0.22% | 0.13% | 0.06% | 0.04% | 0.02% | 0.01% | 0.01% |
累积贡献率 | 99.73% | 99.86% | 99.92% | 99.96% | 99.98% | 99.99% | 100.00% |
表4. 主成分分析的特征值和贡献率(续表)
表3和表4可以看出,特征值1和特征值2大于1,两个主成分的累计贡献率达到88.7%,说明两个主成分可以更好地替换原始15个特征指标的信息,从而将15维信息简化为两维,把PC1和PC2作为随机森林的输入,分类标签作为输出,构建随机森林模型。
本实验一共有107条数据,其中包括患枯萎病的番茄根部数据有49条,对照的番茄根部数据有58条,将这107条数据按照2:1的比例随机分成训练集和测试集,对训练集中的69条数据构建PCA-RF模型。图9为五次测试中Test4的PCA-RF对测试集的分类结果,图中用“○”来表示样本的实际类别,用“+”来表示PCA-RF分类结果,由图9可以看出,有一个对照组样本被误判为枯萎病。
图9. PCA-RF 测试结果
选取识别率和Kappa系数来评价模型对根系病害检测的影响。识别率是指样本正确分类的个数占样本总数的百分比;Kappa指标主要用于检验一致性,Kappa的计算公式如公式(6)和公式(7)所示:
K = P o − P e 1 − P e (6)
P o = ∑ i = 1 N a i n (7)
其中K表示Kappa系数, P o 为识别的准确率, P e 为实际和预测样本的乘积之和除以样本总数的平方,n为样本总数,N为类数, a i 为样本中i类正确分类个数。
选择识别率和Kappa评价PCA-RF模型的检测效果,并与随机森林(RF)、支持向量机 [
表5可以看出,PCA-RF模型在所有5次测试中检测准确率在94%以上,平均准确率94.74%,在识别率和Kappa系数上,PCA-RF模型在测试集上明显优于其他三种算法。且使用随机森林算法进行根系检测的核心算法平均运行时间为28.537秒,使用PCA-RF模型进行根系检测的核心算法平均运行时间为10.806秒,运行时间提高了62.13%。结果表明,主成分分析可以对根系病害参数进行敏感筛选,基于主成分的随机森林模型具有根系病害分类能力。
测试组 | 识别率/% | Kappa | ||||||
---|---|---|---|---|---|---|---|---|
RF | SVM | KNN | PCA-RF | RF | SVM | KNN | PCA-RF | |
Test1 | 92.11 | 84.21 | 81.58 | 94.74 | 0.70 | 0.40 | 0.35 | 0.8 |
Test2 | 94.74 | 86.84 | 84.21 | 94.74 | 0.50 | 0.50 | 0.40 | 0.75 |
Test3 | 92.11 | 84.21 | 81.58 | 94.74 | 0.50 | 0.40 | 0.35 | 0.80 |
Test4 | 92.11 | 81.58 | 81.58 | 97.36 | 0.40 | 0.35 | 0.35 | 0.85 |
Test5 | 92.11 | 81.58 | 81.58 | 94.74 | 0.70 | 0.35 | 0.35 | 0.80 |
average | 92.64 | 83.68 | 82.11 | 95.26 | 0.56 | 0.40 | 0.36 | 0.80 |
表5. 四种模型的识别率和Kappa对比
番茄根系病害的快速检测对番茄及时诊断和防治具有重要意义。本文用PCA-RF模型实现病害根部的分类,从中检测出枯萎病样本。与随机森林模型相比,PCA-RF模型的平均识别率提高了2.62%,核心算法平均运行时间提高了62.13%。将PCA-RF模型与支持向量机和K近邻算法作对比,在识别率和Kappa系数上,PCA-RF模型在测试集明显优于其他算法。本研究证明,PCA-RF模型简化了复杂的问题,继承了随机森林的优势,具有很强的泛化能力和鲁棒性,可以作为检测的有效解决方案。由于样本数量有限,本文采用了机器学习的方法将病害类型识别分类,在今后的工作中,应该增大番茄病害样本引入深度学习机制。
1) 河北省科技厅农业节水科技创新专项(项目编号:21326903D);
2) 鲜食型口感番茄绿色生产与品质提升关键技术研究与示范(项目编号:20326901D)。
郑琼洁,李敬蕊,籍 颖. 基于根系图像处理的番茄枯萎病检测研究Research on Tomato Fusarium Wilt Detection Based on Root Image Processing[J]. 软件工程与应用, 2022, 11(02): 308-319. https://doi.org/10.12677/SEA.2022.112033