基于机器学习的多特征融合高分辨率遥感影像土地利用分类研究 Research on Land Use Classification of Multi-Feature Fusion High-Resolution Remote Sensing Images Based on Machine Learning

为了提高土地利用分类精度，本文以高分二号遥感影像作为基础实验数据，融合影像光谱信息、归一化植被指数(NDVI)和纹理信息形成多特征融合影像，分别采用神经网络分类方法和支持向量机分类方法对高分辨率遥感影像进行土地利用分类研究，并对两种分类方法结果进行分类精度对比。研究结果发现：1) 多特征融合影像分类精度优于单独使用研究区遥感影像波段光谱信息进行分类取得的精度，很大程度上提高了土地利用分类准确度。2) 与神经网络分类方法相比，基于多特征融合的支持向量机分类法分类斑块碎化程度较小，图斑完整性较好，地物错分漏分现象较少，并且从总体精度和Kappa系数来看，支持向量机分类法优于神经网络分类，且基于多特征融合影像的SVM分类总体精度达到了93.98%，Kappa系数为0.8981。因此基于多特征融合影像的SVM分类能够有效提高土地利用分类精度，可为土地利用监测和土地整治提供有效的数据和技术支持。

关键词

机器学习，多特征影像融合，土地利用分类，精度评价

Research on Land Use Classification of Multi-Feature Fusion High-Resolution Remote Sensing Images Based on Machine Learning

Dan Wu^1,2,3,4, Hui Kong^1,2,3,4

¹Shaanxi Provincial Land Engineering Construction Group Co., Ltd., Xi’an Shaanxi

²Shaanxi Land Construction Land Engineering Technology Research Institute Co., Ltd., Xi’an Shaanxi

³Key Laboratory of Degraded and Unused Land Remediation Engineering, Ministry of Natural Resources, Xi’an Shaanxi

⁴Shaanxi Provincial Land Consolidation Engineering Technology Research Center, Xi’an Shaanxi

Received: Mar. 1^st, 2022; accepted: Apr. 6^th, 2022; published: Apr. 12^th, 2022

ABSTRACT

In order to improve the accuracy of land use classification, this paper uses Gaofen-2 remote sensing images as the basic experimental data, and fuses image spectral information, normalized vegetation index (NDVI) and texture information to form multi-feature fusion images, using neural network classification methods respectively. The land use classification of high-resolution remote sensing images is studied with the support vector machine classification method, and the classification accuracy of the results of the two classification methods is compared. The research results show that: 1) The classification accuracy of multi-feature fusion images is better than that obtained by using the spectral information of remote sensing image bands in the study area alone, which greatly improves the accuracy of land use classification. 2) Compared with the neural network classification method, the support vector machine classification method based on multi-fea- ture fusion has less fragmentation degree, better patch integrity, less misclassification and omission of ground objects, and from the overall. In terms of accuracy and Kappa coefficient, support vector machine classification is better than neural network classification, and the overall accuracy of SVM classification based on multi-feature fusion images reaches 93.98%, and the Kappa coefficient is 0.8981. Therefore, SVM classification based on multi-feature fusion images can effectively improve the accuracy of land use classification, and can provide effective data and technical support for land use monitoring and land remediation.

Keywords:Machine Learning, Multi-Feature Image Fusion, Land Use Classification, Accuracy Evaluation

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在城市开发利用和环境变化研究中，其中一项重要的方向是土地利用变化研究 [1] [2]，遥感影像是土地利用信息获取的重要手段，是目前遥感技术研究中的热点内容 [3] [4]。近年来随着城镇的快速发展，土地利用方式的变化呈现出范围广、速度快两大特点，通过遥感影像进行土地利用分类是获取土地覆盖信息最省力、最准确的方式，并且遥感影像成像具有空间连续性，能够保证数据观测的持续性和时效性，因此利用遥感影像分类成为土地利用分类研究的重要方向 [5] [6]。

近年来国内外学者将机器学习的各类算法逐步引入遥感影像的应用领域，如随机森林算法、神经网络算法、支持向量机算法、深度学习算法等 [7]。但仅利用单一特征提取地物信息具有一定的局限性，因此多特征融合影像在分类时扮演的角色越来越重要 [8]。对于神经网络算法的遥感影像应用研究相对比较成熟，近年来在遥感影像分类处理领域中取得了很好的成果 [9]，但在复杂环境的应用机器学习进行多源遥感影像融合的土地利用信息提取的分类效果仍有待研究 [10]。

本文基于GF-2遥感影像的多特征融合影像，分别采用支持向量机分类方法和人工神经网络方法进行土地利用分类研究。综合考虑其高空间分辨率的特征，主要采用了突出表现植被的归一化植被指数特征、不同地物光谱特征和纹理特征多特征的融合影像，更大的丰富了地物信息，实现了易混淆地物信息的区分，为识别城市的发展，以及城市的建设与发展具有一定的指导和借鉴意义，提高分类精度进而提供实时准确的土地覆盖信息对于土地利用、城乡规划、精准农业、土地变化监测、土地卫片执法检查、军事等各个行业以及全球环境可持续至关重要。

2. 数据来源及预处理

2.1. 数据来源

文中所采用的高分辨率遥感影像数据为我国国产高分二号卫星所获取的影像，影像星下点空间分辨率可达0.8 m。所选研究选取的影像时相为2018年10月18日，数据级别为传感器校正级，数据云量为0，无噪声条带，色彩正常，无偏色情况存在。对遥感影像进行波段组合、几何校正、重采样和影像融合等处理获得分类影像数据。

2.2. 研究区概况

研究区域位于陕西省榆林市定边县，其生态环境脆弱。近年来，随着能源和资源开发程度的不断增大，该地区的土地利用的变化较为显著，涉及到的土地利用类型也比较丰富，而土地利用分类是否准确严重影响着地利用动态变化及现状研究。

2.3. 影像预处理

对具有高空间分辨率的全色影像PAN2 (1米)和多光谱影像MSS2 (4米)进行融合，增强光谱遥感影像的空间分辨率。可保证全色影像和多光谱影像相互匹配、地物相互重叠，在进行遥感影像融合前，需要对正射校正和大气校正后的全色影像和多光谱影像进行图像配准，以全色影像为基准，对多光谱影像进行校正。融合后的影像对于地物的光谱、纹理及色彩等信息均能很好的保留。融合前后对比图如图1所示，为能够使图像显示清晰，图中截取了研究区域的部分影像进行对比。通过比较可以看出，影像的空间分辨率有所提高，地物轮廓、纹理等信息更加清晰。

(a) 融合前 (b) 融合后

Figure 1. Comparison before and after fusion

图1. 融合前后对比图

3. 研究方法

3.1. 支持向量机

支持向量机(Support Vector Machine，简称SVM)是以统计学习理论为基础的一种新机器学习方法。与传统学习方法相比较，它可将低维空间线性不可分的数据通过变化映射到高维特征空间，构造最优超平面使数据变得线性可分 [11]。其最优分类函数为：

$f (x) = sign [\sum_{i = 1}^{n} a_{i}^{*} y_{i} K (x_{i}, x) + b^{*}]$ (1)

式中， $a_{i}^{*}$ 为Lagrange乘子，y_i为类别标签， $K (x_{i}, x)$ 为核函数类型， $b^{*}$ 为分类阈值。

在相同核函数参数条件下，不同的特征组合也会造成不同的分类结果。不同核函数所构造的超平面不同，产生的支持向量机也不同，由此获得的分类结果也不同。目前普遍使用的核函数有线性核函数、多项式核函数、径向基核函数(RBF核函数)及Sigmoid核函数四大类 [12]。RBF核函数相比其他核函数具有参数设置较少、模型较为简单、应用最广泛等优势，并在早前分类研究中已证实其精度相对较高 [13]。因此，本研究选择RBF核函数，其表达式为 [14]：

$K (x_{i}, x) = \exp (- γ {‖ x_{i} - x ‖}^{2})$ (2)

式中 $γ$ 为Gamma参数且 $γ > 0$ 。

3.2. 人工神经网络

BP神经网络为人工神经网络(ANN)的算法之一，是遥感影像分类中常用的神经网络模型。学习过程有两个阶段：第一阶段是正向传播阶段，即由给定的输入信息通过各中间隐藏层的逐层处理，计算出每个单元的实际输出值；第二阶段为反向传播过程，即当输出层得到的实际输出值与期望的输出值不符时，采用逐层递归的方法计算出实际输出值与期望输出值之间的误差，并通过梯度下降的方法来修改各权值参数，使得总误差函数值最小。

3.3. 特征提取与选择

3.3.1. 归一化植被指数

为了突出表现地物的类别，采用地物的光谱特征统计值。主要光谱特征统计值包括均值、标准差、归一化水体指数、归一化植被指数、比值植被指数等。对研究区GF-2影像地物光谱进行统计计算，发现GF-2遥感影像的NDVI值对于研究区中的植被具有较好的分类特性，故研究区影像的分类研究选取了其归一化植被指数NDVI作为其中一维特征向量，以准确区分植被信息。其表达式如下

$NDVI = \frac{NIR - R}{NIR + R}$ (3)

其中，NIR表示地物在近红外波段的反射率，R表示地物在红波段的反射率。研究区影像经归一化植被指数运算结果如图2所示，NDVI可将研究区内植被与其他地物较好的分离，准确区分了研究区内植被信息。

3.3.2. 光谱特征

地物光谱特性可通过光谱特性曲线来表征。图3所示为研究区中地物的光谱曲线分布图。从图中不同地物光谱特征发现，草地和耕地在四个波段上光谱特征值比较相近，草地和林地在第四波段(近红外波段)上特征值比较相近，其他几类地物间在不同波段的光谱曲线特征差异均比较明显。光谱特征曲线相近的地物在分类中较难区分，根据地物光谱特性采用不同模型对地物进行分离。

Figure 2. Normalized vegetation index in the study area

图2. 研究区归一化植被指数

Figure 3. Spectral curve distribution of ground objects

图3. 地物光谱曲线分布图

3.3.3. 纹理特征

目前最常用的纹理特征分析方法是采用灰度共生矩阵的方法。在纹理特征分析中方差描述的是图像灰度的变化程度；差异性是用来描述矩阵中元素的差异程度；熵表示图像中所含信息量多少的度量；二阶矩是矩阵元素值的平方和，也称为能量，反映了图像灰度分布的均匀程度以及纹理的粗细程度。通过主成分分析得到纹理分析16个主成分特征向量，如图4。本研究选取了PCA分析中的前7个主成分，包含了所提取的纹理信息中99.9%以上的信息量。

Figure 4. Principal component eigenvectors after texture analysis

图4. 纹理分析后主成分特征向量

4. 实验结果与分析

4.1. 训练样本的选取

训练样本的选取影响着遥感影像的分类精度，因此本研究在对研究区进行地物分析后，确定了本次分类研究分类的样本类别，主要包括林地、草地、耕地、水体、建设用地和未利用土地和六个类别。样本的选取遵循满幅均匀选取的原则，共选取376个兴趣区域，共计像元1,681,231个。其中包括林地共计96,281个像元；水体共计8113个像元；草地共计98,312个像元；建设用地共计399,362个像元，耕地共计854,238个像元，未利用土地共计224,925个像元。

4.2. 方法对比与分类结果分析

根据样本数据集，分别将提取的光谱特征(包括影像四个原始波段、归一化植被指数NDVI)及纹理特征(包括方差、熵、差异性、二阶矩四个纹理特征的前7个主分量)经归一化处理，进行多特征融合，采用支持向量机和人工神经网络方法两种分类方法进行分类，并且研究分别考虑了只采用影像四波段的影像分类及多特征融合影像分类两种情况进行遥感影像分类实验，得到分类结果对比如下。

从表1中可以看出，采用SVM方法进行土地利用分类，基于原始影像直接分类地物边界比较模糊，小像元和混合像元较多，草地和耕地未能区分，建设用地错分为未利用土地较为明显，用多特征融合影像进行分类地物边界明显，分类几乎成快出现，混合像元较少。

对于神经网络分类法，基于原始影像分类效果较差，林地、草地和耕地混淆严重，地物边界模糊，未利用土地错分为建设用地像元较多。而基于多特征融合影像的分类相对来说边界比较清晰，土地利用类型分类基本准确，但小像元较多，未利用土地错分为建设用地较为严重。

根据两种分类方法的原始影像分类和多特征融合影像分类比较发现，多特征融合影像分类比原始影像分类效果更好，下面将会通过精度评价对比基于支持向量机分类方法和人工神经网络分类准确度的高低。

Table 1. Comparison of land use classification results

表1. 土地利用分类结果对比

4.3. 精度评价

分类精度评价的目的是通过运用统计学方法对分类后的结果进行分析，目前最常用的是利用Congalton提出的混淆矩阵(Confusion Matrix)计算生产精度(Product Accuracy)、用户精度(User’s Accuracy)、总体精度(Overall Accuracy)、Kappa系数。Kappa系数的取值范围为[−1, 1]，实际应用中，Kappa系数的值一般介于[0, 1]之间。Kappa系数值在[0.21, 0.4]，表示分类结果一致性一般；[0.41, 0.6]之间表示分类结果一致性中等；[0.61, 0.8]表示分类结果一致性较高；[0.81, 1.00]之间表示一致性很高，几乎完全一致。分类结果精度评定如表2。

Table 2. Accuracy evaluation table of multi-feature fusion image classification results in the study area

表2. 研究区多特征融合影像分类结果精度评定表

精度评价结果表明，综合多特征的分类方法表现出基于支持向量机的分类方法优于神经网络分类法。与神经网络分类法相比，采用基于支持向量机SVM的分类方法取得的分类结果，无论是从总体精度还是Kappa系数的方面来说都是优于其他两个分类器的，其分类效果较好，精度很高。

5. 结论

本研究采用的基于多特征的SVM分类法，从基于影像波段光谱值和综合考虑影像光谱信息NDVI和纹理信息两种方案对研究区进行了分类研究，得到以下结论：

1) 融合多特征影像的分类精度优于单独使用研究区遥感影像波段光谱信息进行分类取得的精度，并通过与神经网络分类方法的对比发现，支持向量(SVM)分类结果更好，精度更高。2) 从分类结果图和精度评价中各类别斑块的对比，基于多特征的SVM分类法产生的斑块碎化程度最小，图斑完整性最优，地物错分漏分现象较少。从总体上来说，本文中采用的基于多特征的SVM分类法适用于研究区GF-2高空间分辨率遥感影像的分类研究，且取得的精度较高，分类效果较好。3) 与神经网络分类法相比，采用SVM的分类方法无论是从总体精度还是Kappa系数的方面来说都是优于神经网络，且融入多特征的SVM分类总体精度为93.98%，Kappa系数为0.8981，总体精度较神经网络分类法最少12%，Kappa系数较神经网络分类法提升了最少近0.13。

本文研究方法仅在所选研究区开展了研究，虽然研究方法取得了较好的结果，但是由于受到研究区范围、研究区土地覆被类型、遥感数据源、遥感数据时相和质量等方面的局限性，会对分类结果造成一定的影响。在以后的研究中计划布设更多不同类型、涉及范围更广的研究区域进行对比研究，对分类方法的普适性开展更深入的分析和探讨。

基金项目

陕西省土地工程建设集团内部项目：DJNY2022-28。

文章引用

武丹,孔辉. 基于机器学习的多特征融合高分辨率遥感影像土地利用分类研究
Research on Land Use Classification of Multi-Feature Fusion High-Resolution Remote Sensing Images Based on Machine Learning[J]. 测绘科学技术, 2022, 10(02): 43-50. https://doi.org/10.12677/GST.2022.102005

参考文献

1. Townshend, J., Masek, J., Huang, C.Q., et al. (2012) Global Characterization and Monitoring of Forest Cover Using Landsat Data: Opportunities and Challenges. International Journal of Digital Earth, 5, 373-397. https://doi.org/10.1080/17538947.2012.713190

2. 彭立, 杨武年, 黄瑾. 川西高原多时相干涉雷达土地覆盖分类研究[J]. 西南大学学报(自然科学版), 2016, 38(5): 125-132.

3. 赵静, 王崇倡, 王家海, 陈艳玲. 基于云理论的遥感影像分类方法分析[J]. 测绘工程, 2014, 23(12): 21-24+30.

4. 杜国明, 匡文慧, 孟凡浩, 等. 巴西土地利用/覆盖变化时空格局及驱动因素[J]. 地理科学进展, 2015, 34(1): 73-82.

5. Chen, Y., Su, W., Li, J., et al. (2009) Hierarchical Object Oriented Classification Using Very High Resolution Imagery and LIDAR Data over Urban Areas. Advances in Space Research, 43, 1101-1110. https://doi.org/10.1016/j.asr.2008.11.008

6. 蔡博文, 王树根, 王磊, 邵振峰. 基于深度学习模型的城市高分辨率遥感影像不透水面提取[J]. 地球信息科学学报, 2019, 21(9): 1420-1429.

7. 刘晓双, 龚直文, 吴见. 基于多特征的高光谱遥感土地利用信息提取[J]. 南京林业大学学报(自然科学版), 2018, 42(4): 141-147.

8. 陈磊士, 赵俊三, 李易, 朱祺夫, 许可. 基于机器学习的多源遥感影像融合土地利用分类研究[J]. 西南师范大学学报(自然科学版), 2018, 43(10): 103-111.

9. 业巧林, 许等平, 张冬. 基于深度学习特征和支持向量机的遥感图像分类[J]. 林业工程学报, 2019, 4(2): 119-125.

10. Sun, Z., Guo, H., Li, X., et al. (2011) Estimating Urban Impervious Surfaces from Landsat-5 TM Imagery Using Multilayer Perceptron Neural Network and Support Vector Machine. Journal of Applied Remote Sensing, 5, 913-917. https://doi.org/10.1117/1.3539767

11. 张波, 胡亚东, 洪津. 基于多特征融合的层次支持向量机遥感图像云检测[J]. 大气与环境光学学报, 2021, 16(1): 58-66.

12. 李梦颖, 邢艳秋, 刘美爽, 王铮, 姚松涛, 曾旭婧, 谢杰. 基于支持向量机的Landsat-8影像森林类型识别研究[J]. 中南林业科技大学学报, 2017, 37(4): 52-58.

13. 周晓宇, 陈富龙, 姜爱辉. 基于SVM雷达卧龙大熊猫栖息地森林成图[J]. 国土资源遥感, 2017, 29(3): 85-91.

14. 杜培军, 夏俊士, 薛朝辉, 谭琨, 苏红军, 鲍蕊. 高光谱遥感影像分类研究进展[J]. 遥感学报, 2016, 20(2): 236-256.

期刊菜单