以遵义红茶为研究对象,基于可见–近红外光谱技术的红茶等级判别,并检验模型对红茶的判别效果。首先,将获取的原始光谱数据分别在经过卷积平滑、多元散射校正、去趋势法等8种方法预处理后,比较了八种光谱预处理方法,得到偏最小二乘判别模型为最优光谱预处理方法。然后采用连续投影算法,结合竞争自适应重加权算法和移动窗口法的连续投影算法筛选整个光谱区域的光谱特征波长变量,建立偏最小二乘辨识模型。经过比较模型质量的评价指标,结果显示,以卷积平滑预处理后的光谱数据的偏最小二乘法结合竞争性自适应重加权算法挑选特征波长建立的鉴别模型最优。该方法能较为准确、快速地鉴别出红茶的等级。 Taking Zunyi black tea as the research object, the Black tea grade discrimination based on visible-near infrared spectroscopy technology was used, and the discrimination effect of the identification model on black tea was examined. Firstly, the obtained raw spectral data are preprocessed by 8 methods such as SG-Smoothing method, multivariate scattering correction method, detrending method and so on. Comparing these eight spectral preprocessing methods, the results show that the partial least squares discriminant model is the best spectral preprocessing method. Then, the competitive adaptive re-weighting algorithm, combined with the competitive adaptive re-weighting algorithm and the moving window method of continuous projection algorithm is used to filter the spectral characteristic wavelength variables of the entire spectral region, to establish a partial least squares identification model. After comparing the evaluation indexes of model quality, the results show that the partial least squares method of the SG-smoothing pre-processed spectral data combined with the competitive adaptive re-weighting algorithm is the best way to select the characteristic wavelength and establish the identification model. This method can identify the grade of black tea more accurately and quickly.
欧家杰,姜仕程,张成,袁荔,于建成,唐延林*
贵州大学物理学院,贵州 贵阳
收稿日期:2019年4月26日;录用日期:2019年5月8日;发布日期:2019年5月15日
以遵义红茶为研究对象,基于可见–近红外光谱技术的红茶等级判别,并检验模型对红茶的判别效果。首先,将获取的原始光谱数据分别在经过卷积平滑、多元散射校正、去趋势法等8种方法预处理后,比较了八种光谱预处理方法,得到偏最小二乘判别模型为最优光谱预处理方法。然后采用连续投影算法,结合竞争自适应重加权算法和移动窗口法的连续投影算法筛选整个光谱区域的光谱特征波长变量,建立偏最小二乘辨识模型。经过比较模型质量的评价指标,结果显示,以卷积平滑预处理后的光谱数据的偏最小二乘法结合竞争性自适应重加权算法挑选特征波长建立的鉴别模型最优。该方法能较为准确、快速地鉴别出红茶的等级。
关键词 :近红外光谱技术,红茶,等级判别,偏最小二乘回归
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
中国在2000年前开始种植茶叶,现在已经遍布世界各地。茶是中国的传统饮料,受到全世界的喜爱。茶能减轻人体的炎症和疼痛,能有效降低体内的血压和胆固醇含量,还能在一定程度上降低人体脂肪含量 [
可见–近红外光谱的鉴别技术具有无损、高效、简单、低成本等优势 [
本文利用近红外光谱技术对不同等级的红茶进行判别,通过比较多种不同的光谱预处理方法对茶叶等级判别的影响,从而确定合适的近红外光谱分析茶叶等级的预处理方法,以达到简化模型的运算过程。利用特征波长提取方法进行原光谱数据降维,最后挑选出最优的红茶等级判别模型。并利用鉴别模型预测红茶的等级,为红茶等级判别提供了一种快速、高效的鉴别途径。
Avantes公司生产的Avaspec-2408标准光纤光谱仪,测量范围为400~1000 nm,光谱采样的波数间隔为5 cm−1,扫描次数为10次,探头视场角为15˚。微型植物破碎机,由天津泰斯特仪器有限公司生产。实验仪器的系统框图如图1所示。
图1. 实验仪器的系统框图
实验样品为贵天下红茶,茶叶等级分为一级、二级和三级,每个等级取40份样本,总共包含120份样本。使用微型样本粉碎机粉碎茶叶样本, 放在直径2.2 cm,高0.4 cm的培养皿中。为了减小实验误差,每次测量前都进行仪器黑白矫正,实验中探头与样品茶叶间距为2.4 cm。利用光谱仪采集茶叶样本数据,对每个样本采集3次光谱,以3次光谱数据的平均值作为原始光谱建模。样本按3:1的比例分为校正集(90份样品)和预测集(30份样品) (表1)。
红茶等级 Hongcha level | 样本数 Number of samples | 校正集 Calibration set | 预测集 Prediction set |
---|---|---|---|
一级level 1 (C1) | 40 | 30 | 10 |
二级level 2 (C2) | 40 | 30 | 10 |
三级level 3 (C3) | 40 | 30 | 10 |
表1. 实验样本
在实验中,由于仪器老化、环境变化,样品颗粒度较大等原因会造成样品光谱基线漂移,散粒噪声及白噪声较大,从而影响光谱数据的正确性及稳定性。为消除光谱中的噪音,提高光谱的信噪比,实验采用多种数据预处理方式对光谱数据进行降噪。实验采用的预处理方法有移动平均平滑(Moving Average Smoothing)、高斯滤波平滑(Gaussian Filter Smoothing)、中值滤波平滑(Median Filter Smoothing)、卷积平滑(SG Smoothing)、多元散射校正(Multiplicative Scatter Correction)、去趋势(De-Trending)、标准正态变换(Standard Normal Variate)、正交信号校正(Orthogonal Signal Correction)。
其中,卷积平滑是平滑和导数处理方法的结合,可以消除光谱中的高频噪音及位移变化 [
偏最小二乘回归(PLSR)是一种新的多变量统计分析方法,它结合了多元线性回归分析,变量主成分分析和变量之间的典型相关分析,实现了回归建模和数据结构简化。两组变量的相关分析。此外,PLSR允许自变量的数量大于样本数量,这对于变量之间的多重相关性或样本点过少的回归问题是一个很好的解决方案。
以矩阵表示的回归模型如下
Y = X β + ε (1)
其中Y是 n × 1 阶的观测值向量,X是 n × k 阶设计矩阵, β 是 k × 1 阶的回归系数向量, ε 是 n × 1 阶的随机误差向量 [
本文采用以下参数评价模型预测效果:校正集相关系数 R C 2 、预测集相关系数 R P 2 、校正集均方根误差RMSEC、预测集均方根误差RMSEP。其中,相关系数越大,均方根误差越小,模型的预测性能越好。
三种红茶的可见–近红外光谱曲线如图2所示。从图中可以看出,不同等级红茶的原始光谱曲线趋势基本相似,即红茶中含有的物质基本相同。由于1级和3级茶的光谱吸收峰强度大致相同,因此原始光谱无法区分红茶的等级,因此可以通过分析和处理原始光谱数据来建立不同等级的鉴别模型。
图2. 3个不同等级的红茶可见–红外光谱曲线
近红外光谱分析时,原始光谱数据主要受到电子噪声、光散射、基线漂移、光程变化等因素的干扰,为了提高信噪比和消除基线漂移,得到更优的光谱数据,通常进行数据预处理。本文采用八种不同的预处理方法对原始光谱数据进行预处理,建立了不同预处理方法下的PLSR模型,比较并选择最佳的预处理方法。预处理方法的建模结果如下:由表2可以看出,对红茶进行SG-smoothing预处理的模型效果最好,其预测集决定系数( R P 2 )最高(0.9854),均方根误差(RMSEP)最低(0.2882)。因此,使用SG-smoothing平滑后的数据进行后续的建模。
预处理方法 Pretreatment methods | 训练样本 Calibration set | 预测样本 Predication set | ||
---|---|---|---|---|
R C 2 | RMSEC | R P 2 | RMSEP | |
卷积平滑SG Smoothing | 0.9892353 | 0.0847141 | 0.985372 | 0.1004048 |
多元散射矫正MSC | 0.9592933 | 0.2179308 | 0.928403 | 0.2881965 |
中值平滑Median Filter Smoothing | 0.9024838 | 0.3418428 | 0.689631 | 0.6115478 |
移动平滑Moving Average Smoothing | 0.9384855 | 0.2715044 | 0.6706 | 0.6410697 |
高斯平滑Gaussian Filter Smoothing | 0.9722419 | 0.1293897 | 0.96002 | 0.1560798 |
去趋势De-Trending | 0.8912079 | 0.3100288 | 0.80169 | 0.4247900 |
标准正态变换Standard Normal Variate | 0.9555639 | 0.0112498 | 0.9307313 | 0.0141579 |
正交信号校正Orthogonal Signal Correction | 0.7995838 | 0.3176799 | 0.7067301 | 0.3845197 |
表2. 不同预处理PLSR/SVMR建模
连续投影算法(SPA)通过确定数据矩阵中具有最小冗余信息的变量集来最小化变量之间的共线性,从而可以通过使用几列原始数据来概括大多数样本的光谱信息,减少信息重叠 [
在本实验中,利用MATLAB自编程连续投影算法程序提取光谱数据的特征波长,最终确定的变量数量如图所示。从图3中可以看出,提取了六个特征波长,图中的白色小方块表示特征波长的位置,分别为413.266,429.733,439.133,443.243,446.177和955.601 nm。因此,与原始光谱波段(1057个波段)的总数相比,波段的总数减少了99.43%,大大简化了模型。
图3. SPA提取特征波长图
竞争自适应加权算法(CARS)是一种基于达尔文进化论的“适者生存”蒙特卡罗采样和偏最小二乘回归(partial least squares regression,PLSR)方法的特征波长优化方法。首先,使用蒙特卡罗采样方法从校正集中选择样本,并执行PLSR处理。波长变量的回归系数的绝对值用作索引,选择具有大索引值的变量以去除索引值小的变量。要消除的变量数由衰减指数法确定(Exponentially Decreasing Function,EDF),剩余波长变量使用自适应加权算法(Adaptive Reweighted Sampling,ARS)来选择波长,执行PLSR建模,以及选择具有最小均方根误差的模型(Root Mean Square Error of Crossvalidation,RMSECV)。相应的波长变量作为所选择的特征波长变量 [
在该实验中,使用MATLAB编译的CARS程序提取光谱数据的特征波长。图4是提取CARS的特征波长变量的过程。图4(a)表示出变量提取的个数与采样次数的关系。从图中可以看出,随着采样次数的增加,特征波长选择的趋势从快逐渐到慢,表示出变量提取的个数与采样次数的关系:先粗选再精选。图4(b)中显示出交互验证均方根误差随采样次数增加而发生变化的情况。可以看出,在1~17次采样过程中,RMSECV的值不断下降,表明筛选过程中去除的变量与红茶的等级无关。然而,在17次采样后,RMSECV的值逐渐增加,表明在筛选过程中除去了与红茶等级相关的重要变量,最终导致RMSECV值的增加。图4(c)为波长变量筛选过程中各波长变量回归系数的变化趋势。不同颜色的曲线代表不同采样变量的回归系数,曲线的条数为采样变量的个数,图中虚线所对应的位置为交互验证均方根误差最低的点,各线表示各个变量随采样次数的增加,其回归系数的变化情况。根据RMSECV最小原则,当采样次数为17时,交互验证均方根误差达到最小,此时的变量提取个数为200。在17次采样后,表明在筛选过程因为采样变量的重叠和抽样变量的减少,导致波长吸收峰的平均值和实际值的相差变大,相关性变小,所以回归系数逐渐增加。
图4. CARS提取特征波长图
首先采用竞争自适应加权CARS算法首次选择光谱变量,然后采用连续投影算法SPA第二次提取关键变量。CARS算法可以消除共线性信息,同时消除无信息变量。SPA算法可用于校准特征样本的优化 [
光谱数据筛选出的特征波长如图所示。由图5可知,通过二次筛选最终提取了11个特征波长,分别为415.026、426.794、429.733、431.497、439.721、445.59、456.732、702.249、823.613、947.358、997.753 nm。分析下图发现,在波长约为450 nm~700 nm之间没有特征波长点,而该波长区间为色素的光谱吸收区间。这表明该红茶不能通过色素的吸收光谱特征进行等级判别。
图5. CARS + SPA提取特征波长图
MWPLSR选择一定的窗口宽度值,移动窗口宽度,并使用窗口范围内的光谱数据进行建模,然后选择RMSECV值最小的区间作为最佳建模波段。
本次试验将窗口宽度设置为90~190的范围,窗口宽度间隔为10。在不同窗口宽度下筛选的原始光谱数据的波段组合和模型结果如表3所示。可以看出,当窗口时宽度为180,建模效果最佳,达到92%。
窗口宽度 | 光谱范围/cm−1 | 主因子数(Rank) | 预测标准偏差(RMSEP) | 决定系数(R2) |
---|---|---|---|---|
90 | 798.5~843.5 | 6 | 0.4411836 | 0.7138322 |
100 | 770.5~854.5 | 6 | 0.3622627 | 0.8085771 |
110 | 772.5~853.5 | 6 | 0.3518059 | 0.8193895 |
120 | 777.5~859.5 | 6 | 0.3594466 | 0.8111282 |
130 | 779.5~871.5 | 7 | 0.2815012 | 0.8835243 |
140 | 777.5~893.3 | 7 | 0.2473274 | 0.9096269 |
150 | 760.5~881.5 | 7 | 0.2347383 | 0.9182303 |
160 | 755.5~841.5 | 8 | 0.3506788 | 0.8176704 |
170 | 752.5~892.5 | 8 | 0.288771 | 0.8939719 |
180 | 754.5~894.5 | 8 | 0.2189412 | 0.9289605 |
190 | 749.5~840.5 | 9 | 0.3357593 | 0.834475 |
表3. SG-smoothing预处理后的光谱数据在 MWPLS 下获得的最佳波段及相关结果
实验最后对基于SPA、CARS、CARS-SPA和MWPLSR算法筛选的特征波长数据和全波段数据进行PLSR建模,结果如表4所示。由表可知,通过四种算法筛选的特征波长数目,降低了模型的复杂度。CARS算法的选择的特征波长建立的模型预测效果较优,预测集相关系数达到了0.9907358以上。CARS,SPA都是挑选的波长点,但具有信息的光谱通常具有连续性,一般来说波段建模应该比波长建模的效果要好,SPA的特征波长点集中在400 nm左右和900 nm;CARS + SPA叠加挑选的特征波长也大部分集中在400 nm左右;同样的MWPLSR所选择的特征波段为754.5 nm~894.5 nm;以上三种方法所挑选的特征波长点没有完全覆盖整个400 nm到1000 nm波段,所以不能完整拟合整个光谱图的信息。而CARS所挑选的200个波长点完整覆盖了整个400 nm到1000 nm波段,能够较高保真地拟合整个光谱图的信息。综上分析得出,CARS算法建模的方法对于红茶等级具有更好的鉴别能力。
特征波长选择方法 Variable selection algorithm | 变量 Variable | 训练样本 Calibration set | 预测样本 Prediction set | ||
---|---|---|---|---|---|
R C 2 | RMSEC (%) | R P 2 | RMSEP (%) | ||
连续投影算法SPA | 6 | 0.9107638 | 0.243908 | 0.9060008 | 0.255425 |
竞争性自适应重加权算法CARS | 200 | 0.9921178 | 0.07249 | 0.9907358 | 0.079443 |
SPA + CARS | 11 | 0.9561416 | 0.170604 | 0.94577 | 0.191747`` |
MWPLS | 180 | 0.9289605 | 0.2189412 | 0.9573071 | 0.1687067 |
表4. 不同特征波长的选择方法的PLSR建模
将茶叶样本预测集中30份样品的光谱通过鉴别模型进行检验,30份样品中等级分别为一、二、三的样本各占10份。分析图6可知,通过模型预测的等级与样本真实等级进行比较,得到真实值与预测值的相关系数( R P 2 )达到0.9907358,表明预测等级近似等于真实等级,模型效果较好。
图6. 茶叶等级鉴别模型的真实值与预测值分布
实验采用AvaSpec-2408标准型光纤光谱仪,获得3种不同等级的红茶可见–近红外光谱数据,采用8种不同的预处理方法处理原始光谱数据,然后使用SPA,CARS,CARS-SPA和MWPLSR这4种波长选择方法对预处理后的光谱数据降维。分别比较了4种模型建模的结果,发现4种模型都取得了很好的预测效果,其预测集相关系数均达到了0.9以上。
其中CARS模型预测效果最优, R P 2 、RMSEP分别为0.9907358、0.079443,其原因是CARS挑选的有效波长数目较多,能较大程度上重现原始光谱信息,因此将基于CARS-PLSR模型作为红茶等级鉴别的预测模型。SPA与CARS-SPA特征波长挑选方法虽然都极大程度上降低了光谱数据的维度,但由于其挑选的有效波长具有不完整性,不能完全表达出光谱信息,在460~700 nm波段无特征波长点,所以其 R P 2 值不能达到最优。MWPLS方法保证了建模光谱的连续性,但其缺点是只能表达某一窗口波段上的光谱信息,从样品的光谱曲线来看,光谱曲线简单,但在可见–近红外光谱区域都具有小的反射峰,仅仅选择某一波段用来建立模型,具有一定的局限性。综上所述,基于可见–近红外光谱的CARS-PLSR模型可用于区分该红茶的等级。
国家自然科学基金(11164004)和贵州大学SRT项目。
欧家杰,姜仕程,张 成,袁 荔,于建成,唐延林. 基于可见–近红外光谱技术的红茶等级判别研究 Discrimination Research on Black Tea Grade Based on Visible-Near Infrared Spectroscopy[J]. 应用物理, 2019, 09(05): 233-242. https://doi.org/10.12677/APP.2019.95028