Computer Science and Application
1广东工业大学计算机学院,广东 广州
2广东工业大学机电工程学院,广东 广州


因为遥感图像背景复杂,所以提取判别性强特征是遥感图像检索的一个核心技术。本文引入双重自注意力模块,利用空间和通道上的长距离上下文信息,编码局部特征,从而增强特征的表达能力。本文分别在3个典型的数据集上做了实验,在UC Merced Land Use、Satellite Remote Sensing Image Database、NWPU-RESISC45的平局检索精度分别为0.92、0.90和0.89。实验表明,双重自注意力深度学习网络对遥感图像检索性能的提升有显著的作用。
A Dual Attention Deep Neural Network for Remote Sensing Image Retrieval
Guangming Chen1, Zhuowei Wang1, Liyi Chen1, Junhao Qiu2, Junlin He1
1School of Computer Science, Guangdong University of Technology, Guangzhou Guangdong
2School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou Guangdong
Received: Feb. 15th, 2021; accepted: Mar. 9th, 2021; published: Mar. 16th, 2021
Extracting discriminative features is a core technology for remote sensing image retrieval due to the complex background of the remote sensing image. In order to enhance the expressive ability of the features, the paper introduces dual attention module to encode the long-distance length information on the spatial and the channel dimensions into local features. Experiments were carried out on three typical datasets. We have conducted experiments on three typical datasets to ascertain the effectiveness of our method. The retrieval precisions on UC Merced Land Use, Satellite Remote Sensing Image Database, and NWPU-RESISC45 are 0.92, 0.90 and 0.89. The experiment shows the self-attention deep learning network gets a significant effect on the improvement of remote sensing image retrieval performance.
Keywords:Remote Sensing Image Retrieval, Attention Mechanism, CNN, Deep Learning
1. 引言
随着遥感图像技术的高速发展,遥感图像的数量急剧增加。如何在大型遥感数据库中有效地组织,管理和检索遥感图像,已经成为遥感图像应用中的紧迫而迫切的问题。其中,基于内容的遥感图像检索(CBRSIR) [1] [2] 是遥感应用中最关键的技术。CBRSIR可以概括为两个步骤:特征提取和相似性度量。CBRSIR的性能通常取决于从遥感图像中提取的判别特征 [3]。因此,作为CBRSIR的最关键步骤,特征提取是大多数CBRSIR研究的重点 [4]。
特征提取主要有两种方法:基于手工特征的方法和基于学习特征的方法 [5]。基于手工特征包括颜色、纹理、形状等全局特征和基于SIFT [6] 和SURF [7] 的局部特征。此外,词袋模型(BOW) [8] [9] 和局部聚集描述符的向量(VLAD) [10] 用于编码局部特征,可以进一步增强特征的表达能力。无论是全局特征还是局部特征,它们都不能很精确地表达图像,所以在高级语义和低级语义之间存在“语义鸿沟”。随着深度学习的发展,卷积神经网络(CNN),在计算机视觉领域,例如分类 [11] [12] [13]、检测 [14] [15] [16]、分割 [17] [18] 等方面,展现了优异的性能优势,CNN已经广泛应用于图像特征提取。CNN可以通过大量的卷积层堆叠来提取高级语义特征。GE等人 [19] 将在ImageNet上训练得到预训练模型应用到遥感图像数据集上,表明CNN的特征明显优于传统的手工特征。
针对上述问题,在Fu的研究 [20] 的启发下,本文提出了一种双重注意力模型。本文的主要贡献分为两个部分:
1) 本文设计了一种双重注意力深度学习网络,通过捕获空间和通道的特征依赖关系,提取具有复杂背景的遥感图像的显著性特征,以准确反映真实类别信息。
2) 本文引入的双重注意力模块包括空间注意力模块和通道注意力模块。对于空间注意力模块,使用自注意力机制来捕获特征图上任意两个位置上的依赖关系。对于通道注意力模块,我们引入自注意力机制来捕获特征图上任意两个通道的依赖关系。
2. 相关工作
2.1. 基于学习的特征提取
在特征提取领域,CNN逐渐取代了传统的方法,变得越来越流行了。CNN通过深层网络结构中的非线性函数,从训练数据中学习参数权重。但是,遥感图像数据集数据量小,导致了不能从零开始训练CNN模型。即使大型基准数据集与遥感图像数据集有很大差异,但是使用大型基准数据集上训练得到的预训练模型可以在一定程度上解决因为遥感图像数据集数据量不足而带来的问题。一些研究 [21] [22] [23] [24] 已经比较了在不同网络和不同层之间提取的特征的性能。Mnih等人 [21] 使用预训练模型的特征和简单的聚合特征,提高了检索性能。Wang等人 [24] 提出了对遥感图像数据集上微调预训练模型的方法,同时提出了一种基于三层感知器的CNN网络结构。该感知器不仅参数较少,而且可以学习底层局部特征。Shao等人 [25] 研究了在多标签遥感图像检索框架下研究了不同深度学习架构的有效性,并获得较好的检索效果。Roy等人 [26] 提出三元组深度度量学习深度卷积神经网络,利用三元组损失函数,使得在语义空间中,来自同一类别的图像彼此接近,而来自不同类别的图像则彼此远离。
2.2. 注意力机制
注意力机制通过学习不同区域的权重分布,来为不同区域分配不同的“关注度”。注意力机制的有效性已在许多任务中得到证明,包括机器翻译和文本等基于序列的任务以及分类和分割等计算机视觉任务。一些研究 [27] [28] [29] 将学习到的权重应用于原始图像,Yuan等人 [30] 将权重学习应用于特征图。Huang等人 [31] 考虑了特征通道之间的关系,在特征通道上加入了注意力机制。Fu等人 [20] 结合了特征通道和特征空间两个维度的注意力机制。Wang等 [32] 提出多头注意机制,引入额外的特征映射和实现了自注意力机制。所有这些工作都被用于自然图像处理方面,其中在分类,检测等方面表现出了出色的性能。目前比较少应用于遥感图像处理的注意力模型。Du等人 [33] 将结合了特征通道和特征空间两个维度的注意力机制应用于遥感图像处理。Maxim等人 [34] 采用注意力机制提取遥感图像的深层局部特征,在图像背景内容复杂情况下,依然实现较好的检索性能。
3. 本文方法
Figure 1. The overall architecture of the model
图1. 模型的整体结构
3.1. 网络结构与池化
我们使用ResNet-50 [13] 作为模型的骨架。ResNet-50包括五个卷积层,每个卷积层包括一个卷积操作、一个修正线性单元和最大池化操作。输入一个图像,我们只需要ResNet-50最后的一个卷积层的输出的特征图,不需要全连接层的输出。我们从最后一个卷积层得到一个张量 ,其中N表示通道数,W表示特征图的宽度,H表示特征图的高度。
SPoC [35] 使用的是平均池化操作,,如公式(1)所示。MAC [36] 使用的是最大池化操作,如公式(2)所示。这两种池化方法已经在标准数据库中已经取得较好的结果。
相比这两种池化方法,GeM [37] 使用的是一种广义平均池化操作,,如公式(3)所示。GeM性能更好,可以提升检索精度。所以,我们使用GeM来聚合特征,获得更紧凑的特征。假设 表示 的第k个特征图。
其中O是双重注意力模块输出的特征。SPoC和MAC是GeM特殊情况。在公式中,当 时,公式(3)会转化为公式(2),即最大池化操作;当 时,公式(3)会转化为公式(1),即平均池化操作。最后得到的特征图的维数等于M。在我们的模型中,M等于2048。最后,对特征图进行 归一化操作。
3.2. 双重注意力模块
Figure 2. The overall architecture of the double attention module
图2. 双重注意模块的整体结构
3.2.1. 空间注意力模块
我们将 变换为 ,然后将其输入到一个卷积层,生成两个特征J、K和L,其中 。我们将它们变换成二维矩阵 ,其中N为像素个数, 。我们对J做多一个转置操作。如公式(4),在将J和K进行乘操作之后,我们将得到的矩阵经过一个softmax层,得到空间注意力矩阵 ,如公式(4)所示。
其中 表示第i个位置对第j个位置的影响。两个位置的特征越相似,它们之间的相关性就越高。同时,我们对变换过的L与S进行乘操作,并将结果转换为矩阵 。最后,我们将T乘以比例系数 后,与A进行加操作,得到最后的输出 ,如公式(5)所示。
其中 初始化为0,并随着学习,逐渐增大权重。P的每个位置的最终特征是所有位置的特征与原始特征的加权和。因此,它具有全局上下文信息,并根据空间注意力选择性地聚合上下文,从而提高了类内的紧凑性和语义一致性。
3.2.2. 通道注意力模块
通道注意力模块和空间注意力模块是基本一样的操作,但有两点不同。在通道注意力模块中,我们直接没有使用卷积层来处理,而是直接将I转换,并和通道注意力特征矩阵 。我们将I转换成矩阵 ,然后将对I和I的转置矩阵进行乘操作。最后,我们将得到的矩阵经过一个softmax层,得到通道注意力矩阵 ,如公式(6)所示。
其中 表示第i个通道对第j个通道的影响。同时,我们对变换过的X与A进行乘操作,并将结果转换为矩阵 。最后,我们将T乘以比例系数 后,与A进行加操作,得到最后的输出 ,如公式(7)所示。
其中 初始化为0,并随着学习,逐渐增大权重。Q是对通道间的长距离信息进行建模,从而提高了特征的可判别性。
3.3. 损失函数
Radenović等人 [37] 发现使用对比损失函数的情况比使用三元组损失函数的情况,使用对比损失函数时的检索精度更高。所以,我们也使用对比损失函数,如公式(8)所示。
其中每个输入包括一组图片 和一组标签 。当i和j匹配时, ;否则, 。 是边距超参数。
4. 实验与分析
4.1. 数据集
使用3个不同的数据集来评估所提出的方法在不检索性能。数据集分别为UCMerced Land Use (UCM) [38]、Satellite Remote Sensing Image Database (SATREM) [39] 和NWPU-RESISC4 (NWPU) [40]。表1列出了每个数据集的详细信息(图像大小,图像数量等)。实验使用80%的数据集图像用于训练,20%图像用于测试。
Table 1. Details of the datasets
表1. 数据集的细节
4.2. 评估标准
其中,B为查询次数,Q为检索结果中最相似的Q幅图像,T为检索N幅图像时真正与须茶图像相似的图像个数, 表示检索结果中真正与待查询图像相似的排序。
4.3. 实验结果
将我们的方法,与ResNet-50、DBOW [9]、D-CNN [41]、V-DELF [29] 这4个性能好的基于深度学习的方法作对比,以评估我们方法的检索性能。表2为每个方法在各个数据集上的平均检索精度。我们可以很明显观察到,除了在SATREM数据集上,我们的方法基本比其他方法的平均检索精度都要高。在NWPU数据集上,在其他方法的平均检索精度都有明显的精度下降的现象,但我们的方法的精度下降得不明显。图3是一个定性的检索结果,展示了在NWPU数据集上的一些检索示例。
Figure 3. Example queries and retrieved images for the NWPU dataset
图3. NWPU数据集的查询示例查询
Table 2. Comparison of average retrieval accuracy of different methods
表2. 不同方法的平均检索精度对比
同时,我们使用加权梯度类激活映射(Grad-CAM) [42] 可视化了模型提取到的特征。图4中,可以观察到使用了双重注意力模块的方法提取的特征比原始ResNet-50提取的特征,更接近显著区域。这表明双重注意力模块可以充分利用显着区域中的信息并聚合特征。因此,实验结果表明了我们引入的双重注意力模块的有效性。
Figure 4. Features extracted from the visualisation model using Grad-CAM in the UCM, SATREM and NWPU datasets
图4. 使用Grad-CAM分别可视化模型在UCM、SATREM和NWPU数据集中提取的特征
综上所述,我们的方法提高了遥感图像检索的平均检索精度。但是还有存在不足。在 NWPU数据集上表现出的检索性能不如在其他三个数据集上的检索性能。原因可能是,NWPU数据集的遥感图像数量多,是其他三个数据集的图片数量的10倍,类别也比其他三个数据集的类别多。NWPU数据集同类别的视觉差异比其他三个数据集的大,而且一些类别之间区分度较小,例如在池塘类中的两幅图像,两者之间的视觉差异性较大,有些与农田类的图像有较大视觉相似性。而其他三个数据集中,同类别的视觉差异较小,不同类别图像区分度较好。
5. 结论
广东省信息物理融合重点实验室(2016B030301008);国家自然科学基金(61701123);国家高分地球观 测主要项目(83-Y40G33-9001-18/20);广东省农业科学与技术创新团队项目(2019KJ147);广东省科技计划 项目,水资源大数据项目(2016B010127005);广东省自然科学基金项目(2018A030313195);广州市科技 计划项目(201804010262)。
