为快速有效地评估烟草病害等级,需要合理准确地估计烟草叶绿素含量。分别利用ASD Field Spec4地物光谱仪和HSY-051叶绿素仪测定黑胫病烟草旺长期叶片高光谱及其SPAD值,以叶片光谱原始反射率及其8种变换处理分别与叶绿素含量进行相关分析,然后利用多元统计分析方法(逐步回归和主成分回归)分别建立叶绿素含量估测模型。结果表明:1) 原始光谱的8种变形与叶绿素含量的相关性都高于原始光谱反射率;2) 各变换的一阶导数和二阶导数与叶绿素含量的相关性都明显高于其原始形式;3) 利用逐步回归方法建立的模型估测效果最好,其决定系数R 2为0.8715。经验证,模型精度较好。本研究可为高光谱技术监测烟草叶片叶绿素含量提供一定的参考。 The content of chlorophyll is a very important assessment index in the growing situation of to-bacco. Thus, estimating the content of chlorophyll in tobacco accurately is effective for rating to-bacco disease. By use of the ASD Field Spec4 spectrometer to determine hyperspectral data of tobacco leaves infected by Phytophthora parasitica var. nicotianae in the vigorous growing period and HSY-051 chlorophyll meter to measure the SPAD value. Then, the correlation analysis of chlorophyll content with hyperspectral reflectance and its eight transforms was proceeded. On this basis, the chlorophyll content estimation models were established with the method of multivariate statistical analysis (stepwise regression and principal component regression). The results indicate that 1) the correlation between chlorophyll content and the eight transforms of original spectra was higher than that of the original spectral reflectance; 2) the correlation between chlorophyll content and the first derivative or second derivative of each transform was significantly higher than that of original form; 3) the best model was: Y = 22.415 + 39249.31X 1 − 13943.06X 2 − 24807.33X 3 + 296102.44X 4 − 309086.89X 5 + 130909.69X 6 − 7751.45X 7, and this model with a correlation coefficient of 0.9335 and R2 of 0.8715 was based on stepwise regression. After verification, the precision of the model is good. Therefore, the research will provide a reference for the better application of hyperspectral technology in monitoring the chlorophyll content of tobacco leaves.
为快速有效地评估烟草病害等级,需要合理准确地估计烟草叶绿素含量。分别利用ASD Field Spec4地物光谱仪和HSY-051叶绿素仪测定黑胫病烟草旺长期叶片高光谱及其SPAD值,以叶片光谱原始反射率及其8种变换处理分别与叶绿素含量进行相关分析,然后利用多元统计分析方法(逐步回归和主成分回归)分别建立叶绿素含量估测模型。结果表明:1) 原始光谱的8种变形与叶绿素含量的相关性都高于原始光谱反射率;2) 各变换的一阶导数和二阶导数与叶绿素含量的相关性都明显高于其原始形式;3) 利用逐步回归方法建立的模型估测效果最好,其决定系数R2为0.8715。经验证,模型精度较好。本研究可为高光谱技术监测烟草叶片叶绿素含量提供一定的参考。
叶绿素,高光谱,黑胫病,多元统计分析,估测模型
Tiancai Chen1, Lunfei Chen1, Qiujuan Fu2*, Dongyun Xu3, Hongmei Geng1, Zhenguo Wang1
1Chongqing Fengjie Branch of China National Tobacco Co., Ltd., Chongqing
2Tobacco Research Institute of Chinese Academy of Agricultural Sciences, Qingdao Shandong
3College of Resources and Environment, Shandong Agricultural University, Tai’an Shandong
Received: Jun. 13th, 2022; accepted: Sep. 10th, 2022; published: Sep. 21st, 2022
The content of chlorophyll is a very important assessment index in the growing situation of tobacco. Thus, estimating the content of chlorophyll in tobacco accurately is effective for rating tobacco disease. By use of the ASD Field Spec4 spectrometer to determine hyperspectral data of tobacco leaves infected by Phytophthora parasitica var. nicotianae in the vigorous growing period and HSY-051 chlorophyll meter to measure the SPAD value. Then, the correlation analysis of chlorophyll content with hyperspectral reflectance and its eight transforms was proceeded. On this basis, the chlorophyll content estimation models were established with the method of multivariate statistical analysis (stepwise regression and principal component regression). The results indicate that 1) the correlation between chlorophyll content and the eight transforms of original spectra was higher than that of the original spectral reflectance; 2) the correlation between chlorophyll content and the first derivative or second derivative of each transform was significantly higher than that of original form; 3) the best model was: Y = 22.415 + 39249.31X1 − 13943.06X2 − 24807.33X3 + 296102.44X4 − 309086.89X5 + 130909.69X6 − 7751.45X7, and this model with a correlation coefficient of 0.9335 and R2 of 0.8715 was based on stepwise regression. After verification, the precision of the model is good. Therefore, the research will provide a reference for the better application of hyperspectral technology in monitoring the chlorophyll content of tobacco leaves.
Keywords:Chlorophyll, Hyper Spectrum, Phytophthora parasitica var. nicotianae, Multivariate Statistical Analysis, Estimation Model
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
烟草黑胫病(Phytophthora parasitica var. nicotianae)是烟草生长过程中危害最为严重的病害之一,它主要通过土壤传播,大田一旦侵染,往往会造成成片烟株凋萎死亡,给烟农带来巨大的损失 [
逐步回归是一种较为常用的统计方法。当被预测变量(因变量)为一个,预测变量(自变量)有多个时,我们可以采用逐步回归的方法建立模型。该方法的优点是所有自变量都会被逐个考虑,对提高预测准确度无贡献或贡献极小的自变量会被淘汰;当自变量间存在相关性时,贡献小的自变量会被淘汰。因此,能够用较少的自变量来建立模型,但模型的预测准确度不会比用所有自变量建立的模型低。主成分回归也可以用来建立多重回归模型,其基本思路是提取所有自变量的主成分(注:原始自变量数目不会减少),用主成分来构建回归方程。由于原始自变量间可能存在自相关,自变量太多反而会影响预测的准确度,所建立的模型可能还不如逐步回归的准确度高。
综上所述,国内外已有众多学者研究利用高光谱技术监测小麦、玉米、水稻、苹果等的叶绿素含量,但对烟草叶绿素含量高光谱监测的研究还比较少,因此该研究具有一定的现实性和必要性。本研究利用逐步回归和主成分回归分析两种多元统计分析方法,探讨黑胫病烟草原始光谱反射率及其一阶微分、二阶微分等8种变换处理与叶绿素之间的关系,建立叶绿素含量最佳估测模型,从而为烟草黑胫病监测提供有效手段。
试验于2015年在山东沂水的沂城镇和道托镇进行,供试品种为NC102,烟草种植和田间管理由当地烟草公司统一实施。试验于烟草旺长期,选择黑胫病发病典型地块进行实地数据采集,两个乡镇共选择六个病害小区,每个小区分别选择60株典型发病植株进行数据采集。其中5个小区用于建立模型,1个小区用于验证模型。
地物波谱仪ASD Field Spec4 (美国ASD公司),配有ViewSpecPro光谱处理软件;HSY-051叶绿素测定仪(杭州汇尔公司)。
采用ASD Field Spec4便携式地物波谱仪进行黑胫病植株光谱反射率数据的测定,ASD Field Spec4地物波谱仪的测量波长范围为350~2500 nm,其中,350~1050 nm 采样间隔为1.4 nm,光谱分辨率为3 nm,1000~2500 nm采样间隔为2 nm,光谱分辨率为10 nm。观测时必须选在晴朗无云无风的天气,测定时间应选在北京时间11:00~14:00。测量时,传感器探头垂直正对烟株,高度设置为1 m,每株烟测量3次,每次记10组数据,最后取其平均值作为冠层光谱。测定过程中,每隔10株用标准白板矫正一次白板,确保测量结果的准确性。
研究表明植物叶绿素含量和叶片绿色度(SPAD)值具有明显的相关性,SPAD值能够表现植物叶绿素含量的变化,因此,利用叶绿素测定仪测定的SPAD值在一定条件下可代替叶绿素含量的直接测定,使用叶绿素测定仪测定植物叶绿素含量是完全可行的 [
将每株烟采集的光谱数据利用光谱处理软件ViewSpecPro剔除异常值后求取平均值并输出dat文件,在光谱采集过程中,由于外界环境的影响以及光谱仪不同波段对能量响应上的差异,会导致光谱曲线存在一些噪声,为减少噪声影响提高建模精度,必须对光谱数据进行平滑处理。常用的方法有移动平均法、拟合多项式法、小波变换及各种回归平滑方法 [
R i = 0.04 × R i − 4 + 0.08 × R i − 3 + 0.12 × R i − 2 + 0.16 × R i − 1 + 0.2 × R i + 0.16 × R i + 1 + 0.12 × R i + 2 + 0.08 × R i + 3 + 0.04 × R i + 4 (1)
九点平滑处理完成后,再分别求取原始光谱反射率的一阶导数、二阶导数、对数以及对数的一阶微分和二阶微分、平方根以及平方根的一阶微分和二阶微分 [
在Excel 2003中完成原始光谱8种变换的计算并与叶绿素含量进行相关分析,各相关性的横向对比图如图1所示。
由图1可以看出,原始光谱的8种变形与叶绿素的相关性都高于原始光谱反射率,各种变换的一阶导数和二阶导数与叶绿素相关性都明显高于其原始形式,这表明微分处理可以增加光谱信息量,为利用
图1. 原始光谱及其8种变换与叶绿素含量相关分析
微分处理技术估测作物叶绿素等生理生化参数提供了基础。因此,在选择建模因子时可以将原始光谱以及原始光谱的对数和平方根舍弃。分别对比各变换的一阶微分和二阶微分,可以看出一阶微分和二阶微分内部的变化趋势基本一致;对比一阶微分和二阶微分可以看出,二者与叶绿素相关性较高区域集中在450~750 nm之间。将6种微分变换的相关系数绝对值最大的反射率筛选出来作为建模备选因子,具体结果见表1。
波长 | 变换形式 | 相关系数 |
---|---|---|
713 | R' | 0.623 |
562 | R'' | 0.654 |
703 | logR' | 0.685 |
713 | logR'' | 0.664 |
705 | ( R ) ′ | 0.686 |
686 | ( R ) ′ ′ | 0.658 |
表1. 各变换形式与叶绿素相关性最高组合
表1显示,经过对数和平方根变换后的一阶微分与二阶微分与叶绿素相关性绝对值的最大值都高于原始光谱的一阶微分和二阶微分,表明对数和平方根变换有放大局部光谱信息的作用。
将各变换相关性绝对值大于0.64的数据挑选出来作为可供选择变量,经统计共有76个可供选择变量,为提高回归方程精度和稳定性,增强回归方程预测的可靠性,需要对76个可供选择变量进行筛选,选择出对因变量贡献大的变量,从而建立最优回归方程。而利用逐步回归方法就可以实现这一目的,逐步回归是一种“有进有出”的分析方法,利用逐步回归可以理想的挑选出对因变量贡献大的变量,从而减少数据冗余,提高建模精度。该过程可在DPS平台下实现。
经分析当自变量数为7时,所建回归模型最好,所建方程中不存在对因变量影响不显著的变量,而且其相关系数和决定系数均较大,该回归方程为:
Y = 22.415 + 39249.31 X 1 − 13943.06 X 2 − 24807.33 X 3 + 296102.44 X 4 − 309086.89 X 5 + 130909.69 X 6 − 7751.45 X 7 (2)
相关系数R = 0.9335,决定系数R2 = 0.8715,F = 49.4128,P < 0.0001,Durbin-Watson = 2.0462。
方程中各X值含义及其偏相关性和p值见表2,
X值 | 偏相关 | t检验值 | p-值 | |
---|---|---|---|---|
X 1 = ( R 706 ) ′ | r(Y, X1) = | 0.6590 | 6.2575 | 0.0001 |
X 2 = ( R 702 ) ′ | r(Y, X2) = | −0.6040 | 5.4117 | 0.0001 |
X 3 = ( R 710 ) ′ | r(Y, X3) = | −0.7087 | 7.1727 | 0.0001 |
X 4 = log R ″ 712 | r(Y, X4) = | 0.6273 | 5.7520 | 0.0001 |
X 5 = log R ″ 714 | r(Y, X5) = | −0.6351 | 5.8716 | 0.0001 |
X 6 = R ″ 562 | r(Y, X6) = | 0.7684 | 8.4772 | 0.0001 |
X 7 = ( R 684 ) ′ ′ | r(Y, X7) = | −0.3174 | 2.3902 | 0.0205 |
表2. 各系数的显著性分析
对回归模型的诊断主要涉及三个方面:一是方程的显著水平p必须小于等于0.05;二是各系数的偏相关系数的显著水平也要小于等于0.05;三是,Durbin-Watson统计量d是否接近于2。对此方程来说,方程的显著水平p < 0.0001,满足方程诊断的第一点要求,统计量d = 2.0462 ≈ 2同样满足上述要求。由表2可得,方程各系数的偏相关系数的显著水平均小于0.05,并且前6个系数的p值均达到0.0001,表明该模型回归极显著。
主成分回归(Principal Component Regression, PCR)是一种减少数据集维数的回归分析方法,同时它能保持数据集的对方差贡献最大的特征,因此被广泛应用于数据分析和模型建立。
应用主成分回归建模时选取了两类数据,第一类是表1中的相关性绝对值最大值,第二类是利用逐步回回筛选出的7个变量。
根据特征值大于1的原则 [
NO | 特征值 | 百分率% | 累计百分率% |
---|---|---|---|
1 | 4.5809 | 91.62 | 91.62 |
2 | 0.2863 | 5.73 | 97.35 |
3 | 0.0867 | 1.73 | 99.08 |
表3. 自变量主成分分析表
表中3个主成分累计百分率达99.08%,代表了烟叶99.08%的信息。
主成分回归方程为:
Y = 17.645 + 4313.61 ( R 686 ) ′ ′ + 276.24 ( R 705 ) ′ + 3348.83 log R ″ 713 + 174.03 log R ′ 703 + 229.69 R ′ 713 (3)
该模型中,由于 R ″ 562 中出现较多0值,故将 R ″ 562 剔除。
该方程中,F = 16.938,P < 0.0001,相关系数R = 0.693,决定系数R2 = 0.480,Durbin-Watson = 2.222。
从以上数据可得,由各变换相关系数最大值组成的第一类数据所建模型预测效果并不理想。
采用第二类数据,即利用逐步回归筛选出的7个变量进行主成分回归分析。当累积方差贡献百分率达99%时,主成分个数为4,各主成分特征值及贡献率见表4。
NO | 特征值 | 百分率% | 累计百分率% |
---|---|---|---|
1 | 6.1823 | 88.32 | 88.32 |
2 | 0.5031 | 7.19 | 95.50 |
3 | 0.2073 | 2.96 | 98.47 |
4 | 0.0837 | 1.20 | 99.66 |
表4. 自变量主成分分析表
由表4可以看出,表中4个自变量包含了烟叶99.66%的信息,完全可以代表整个烟叶信息。
根据主成分回归所得方程为:
Y = 20.071 + 18.32 X 1 − 313.41 X 2 + 219.96 X 3 − 5898.88 X 4 − 7582.90 X 5 + 59389.72 X 6 + 959.25 X 7 (4)
相关系数R = 0.81158,决定系数R2 = 0.6587,F = 20.7437,P < 0.0001,Durbin-Watson = 2.3346。各变量显著性分析见表5。
可以看出,变量b0~b6的p值都是0.0001,说明与因变量均是极显著相关,而b7的p值虽然大于其他变量但也小于0.05,因此也与因变量显著相关。
比较回归方程(3)、(4)可以看出,利用逐步回归分析筛选出的变量所建立的主成分回归方程预测效果优于利用各变换相关系数最大值组成的变量所建模型。所以,首先采用逐步回归筛选出变量,再利用筛选出的变量建立模型可提高模型预测效果。比较回归方程(2)、(4),方程(2)的决定系数R2和F值均大于方程(4),并且(2)的统计量d更接近于2,因此,在该研究中基于逐步回归方法建立的模型优于基于主成分回归所建模型。
变量 | 回归系数 | 标准系数 | 偏相关 | 标准误 | t值 | p值 |
---|---|---|---|---|---|---|
b0 | 22.0583 | 2.8951 | 7.6193 | 0.0001 | ||
b1 | 35357.7076 | 23.3803 | 0.4416 | 6885.9644 | 5.1348 | 0.0001 |
b2 | −11673.8724 | −7.4684 | −0.3611 | 2879.3799 | −4.0543 | 0.0002 |
b3 | −23628.4143 | −16.5947 | −0.4762 | 3704.6679 | −6.3780 | 0.0001 |
b4 | 353445.1977 | 10.3182 | 0.5050 | 54431.3604 | 6.4934 | 0.0001 |
b5 | −373685.4075 | −11.0700 | −0.4689 | 56285.7918 | −6.6391 | 0.0001 |
b6 | 136642.5752 | 1.0477 | 1.2411 | 15618.9253 | 8.7485 | 0.0001 |
b7 | −6663.8284 | −0.5638 | 0.1976 | 3786.3573 | −1.7600 | 0.0359 |
表5. 各变量显著性分析
经以上分析,黑胫病烟草叶绿素含量预测最佳模型为:
Y = 22.415 + 39249.31 X 1 − 13943.06 X 2 − 24807.33 X 3 + 296102.44 X 4 − 309086.89 X 5 + 130909.69 X 6 − 7751.45 X 7
式中,各X值如表2中所示。
模型精度主要是通过估测值与实测值的相关系数r和估测的误差均方根RMSE (Root Mean Square Error)来验证。利用第六个小区的60个数据对所建模型进行检验与测定,并作叶绿素实测值与估测值1:1关系图。
图2. 黑胫病烟草叶片叶绿素含量监测检验结果
实测值与估测值之间的相关关系r = 0.8178,决定系数R2 = 0.6887,RMSE = 1.97。
由图2可以看出,建立的黑胫病烟草叶绿素含量监测模型具有良好的拟合效果,决定系数R2达到 0.6887。表明模型对黑胫病烟草叶绿素含量具有较好的估测效果。
本研究分析了黑胫病烟草叶片原始光谱及其8种变换与叶绿素含量相关性,在此基础上运用逐步回归和主成分回归建立叶绿素含量估测模型,通过对比选出叶绿素含量最佳估测模型并对模型进行了检验。经分析研究主要得出以下结论:
1) 对光谱数据进行微分处理可以增加其信息量,对比原始光谱及其8种变换可以得出,原始光谱及各变换的一阶导数和二阶导数与叶绿素相关性都明显高于其原始形式;并且,各变换的一、二阶导数与叶绿素显著相关区域集中在450~750 nm之间。
2) 研究采用两类数据进行主成分回归,结果表明,先采用逐步回归筛选出变量,再利用筛选出的变量建立模型可提高模型预测效果。
3) 对比逐步回归模型和主成分回归模型可以得出,在本研究中,利用逐步回归方法所建模型预测效果优于主成分回归方法,最佳估测模型是以 ( R 706 ) ′ 、 ( R 702 ) ′ 、 ( R 710 ) ′ 、 log R ″ 712 、 log R ″ 714 、 R ″ 562 和 ( R 684 ) ′ ′ 为自变量,利用逐步回归方法所建,该模型的相关系数R为0.9935,决定系数R2为0.8715。经验证,该模型实测值与估测值的相关系数r为0.8178,决定系数为0.6887,说明利用逐步回归方法所建模型精度较好,可以反映黑胫病烟草叶绿素含量。
国家自然科学基金(41171425),山东省烟草公司重点项目( 2014-7-1 ),重庆市烟草公司重点项目(B20211NY1310)。
陈天才,陈伦飞,付秋娟,徐冬云,耿红梅,王振国. 基于多元统计分析的黑胫病烟草叶绿素含量高光谱估测Hyperspectral Estimation of Chlorophyll Content of Tobacco Influenced by Phytophthora parasitica var. nicotianae Based on Multivariate Statistical Analysis[J]. 植物学研究, 2022, 11(05): 569-578. https://doi.org/10.12677/BR.2022.115068