领域自适应是解决跨域识别的有效方法,它是迁移学习在计算机视觉方面的有效应用,将源域学到的知识迁移到目标域的识别任务中,有效解决目标域标注数据不足的问题。本文提出了一种新的基于交叉重构的领域自适应方法(Cross Reconstruction-based Domain Adaptation, CRDA),通过对原始源域和目标域的交叉重构来构造新的源域与目标域,使得同类数据相互交织,缩短同类数据间的距离。并通过对重构矩阵施加低秩约束,将两个域的同类数据对齐,以此来充分挖掘源域和目标域同类数据之间的内在结构信息,并利用该结构信息来学习分类器,从而取得更好的跨域识别效果。在五个公开数据集上的实验结果表明CRDA有着较高的跨域识别准确率。 Domain adaptation is an effective method to solve the problem of cross-domain recognition. It is an effective application of transfer learning in computer vision, which transfers the knowledge learned in the source domain to the recognition task of the target domain, and effectively solves the problem of insufficient labeled data in the target domain. In this paper, a new Cross Reconstruction-based Domain Adaptation (CRDA) method is proposed, which constructs a new source domain and target domain through the cross reconstruction of the original source domain and target domain, so as to make the same kind of data intersect with each other and shorten the distance between the same kind of data. By applying low-rank constraints to the reconstruction matrix, the same kind of data in the two domains are aligned, so as to fully mine the internal structure information between the same kind of data in the source domain and the target domain, and use the structure information to learn the classifier, so as to achieve better cross-domain recognition effect. The experimental results on five open datasets show that CRDA has a high cross-domain recognition accuracy.
领域自适应是解决跨域识别的有效方法,它是迁移学习在计算机视觉方面的有效应用,将源域学到的知识迁移到目标域的识别任务中,有效解决目标域标注数据不足的问题。本文提出了一种新的基于交叉重构的领域自适应方法(Cross Reconstruction-based Domain Adaptation, CRDA),通过对原始源域和目标域的交叉重构来构造新的源域与目标域,使得同类数据相互交织,缩短同类数据间的距离。并通过对重构矩阵施加低秩约束,将两个域的同类数据对齐,以此来充分挖掘源域和目标域同类数据之间的内在结构信息,并利用该结构信息来学习分类器,从而取得更好的跨域识别效果。在五个公开数据集上的实验结果表明CRDA有着较高的跨域识别准确率。
领域自适应,交叉重构,跨域识别
Weiying Guo
School of Computers, Guangdong University of Technology, Guangzhou Guangdong
Received: Mar. 28th, 2021; accepted: Apr. 21st, 2021; published: Apr. 28th, 2021
Domain adaptation is an effective method to solve the problem of cross-domain recognition. It is an effective application of transfer learning in computer vision, which transfers the knowledge learned in the source domain to the recognition task of the target domain, and effectively solves the problem of insufficient labeled data in the target domain. In this paper, a new Cross Reconstruction-based Domain Adaptation (CRDA) method is proposed, which constructs a new source domain and target domain through the cross reconstruction of the original source domain and target domain, so as to make the same kind of data intersect with each other and shorten the distance between the same kind of data. By applying low-rank constraints to the reconstruction matrix, the same kind of data in the two domains are aligned, so as to fully mine the internal structure information between the same kind of data in the source domain and the target domain, and use the structure information to learn the classifier, so as to achieve better cross-domain recognition effect. The experimental results on five open datasets show that CRDA has a high cross-domain recognition accuracy.
Keywords:Domain Adaptation, Cross Reconstruction, Cross-Domain Recognition
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着在线自媒体和短视频的快速发展,对图像和其他多媒体数据的自动识别和分析的需求越来越大。然而,由于科技的飞速发展,很多领域却没有足量的有效标注数据,而通过人为进行数据的标注是十分昂贵并且耗费时间的,这导致了传统机器学习的局限性。因此,利用现有领域中充足的有标注数据来促进相关目标领域的模型学习的迁移学习方法是更经济、高效的方法。领域自适应是迁移学习在计算机视觉中对图片进行跨域识别的一种十分有效的方法 [
在这一节中,将介绍和本文相关的工作,潜在的低秩表征方法(Latent low-rank representation, LatLRR) [
潜在低秩表征(Latent low-rank representation, LatLRR)是一种基于低秩表征的子空间学习方法,它能利用大量未观测样本来更好地表示原样本,它的原始目标函数如下:
min Z ‖ Z ‖ * s . t . X = [ X O , X H ] Z (1)
其中, X O 代表能够观察到的数据, X H 代表着不能被直接观察到的数据,通过贝叶斯引理 [
min Z , E ‖ Z ‖ * + λ ‖ C ‖ 1 s . t . X = X Z + C X (2)
其中, ‖ ⋅ ‖ * 表示矩阵的核范数,它的值是矩阵所有奇异值之和, ‖ ⋅ ‖ 1 表示矩阵的 l 1 范数,它的值为矩阵中的每个元素绝对值之和。Z是低秩约束的重构矩阵,C是投影矩阵,为了减少噪声的影响,LatLRR中引入了噪声矩阵E,最终的目标函数如下:
min Z , C , E ‖ Z ‖ * + ‖ C ‖ * + λ ‖ E ‖ 1 s . t . X = X Z + C X + E (3)
在传统的领域自适应方法中,一般是把源域和目标域投影到一个子空间中,在这个子空间中,它们的分布差异较小 [
通过数据的交叉重构,原始数据的每一个类都得到了很好地对齐,再通过LatLRR方法,我们能够把源域和目标域的主要信息提取出来,使它们相同类可以做到相互表征,这样就很好的把源域和目标域数据中相同标签类数据做到了很好的局部对齐。如此,得到新构成数据域的相互表示 X = Y Z + C Y + Z 。只要再把分类器的学习统一到框架中,就得到了我们的交叉重构领域自适应方法。
这一章节,将详细介绍交叉重构的领域自适应(Cross Reconstruction-based Domain Adaptation, CRDA)方法。第一小节介绍它的目标函数。第二小节介绍它的优化方法和主要步骤。
由于低秩矩阵C能够很好的提取出数据的显著特征,考虑用C来作为的跨域识别分类器。于是,得到CRDA的目标函数如下:
min P , Q , Z , E , W ‖ L − C Y ‖ F 2 + λ 1 ‖ Z ‖ * + λ 2 ‖ E ‖ 2 , 1 + λ 3 ‖ C ‖ F 2 s . t . X = Y Z + C Y + E (4)
其中, ‖ ⋅ ‖ F 表示矩阵的Frobenius范数,值为矩阵中每个元素的平方和再开平方的值。 ‖ ⋅ ‖ 2 , 1 表示矩阵的2,1范数,它的值是矩阵每一行的 l 2 范数之和 [
基于凸优化理论,可知本文的目标函数整体是非凸的,但是每个变量 Z , C , E 的优化都是凸优化问题 [
min A , H , Z , C , E ‖ L − A Y ‖ F 2 + λ 1 ‖ H ‖ * + λ 2 ‖ E ‖ 2 , 1 + λ 3 ‖ A ‖ F 2 s . t . X = Y Z + C Y + E , Z = H , C = A (5)
式子(5)的增广拉格朗日函数为:
F ( A , H , Z , C , E ) = ‖ L − A Y ‖ F 2 + λ 1 ‖ H ‖ * + λ 2 ‖ E ‖ 2 , 1 + λ 3 ‖ A ‖ F 2 + 〈 τ 1 , X − Y Z − C Y − E 〉 + 〈 τ 2 , Z − H 〉 + 〈 τ 3 , C − A 〉 + μ 2 ( ‖ X − Y Z − C Y − E ‖ F 2 + ‖ Z − H ‖ F 2 + ‖ C − A ‖ F 2 ) (6)
其中, τ 1 , τ 2 , τ 3 是拉格朗日乘子, μ > 0 是惩罚系数。变量通过交替方向乘子法(Alternating Direction Method of Multipliers, ADMM) [
步骤1 (更新A):固定H,Z,C,E,并求解以下式子:
min A ‖ L − A Y ‖ F 2 + λ 3 ‖ A ‖ F 2 + μ 2 ‖ C − A + τ 2 μ ‖ F 2 (7)
令 F ( A ) = ‖ L − A Y ‖ F 2 + λ 3 ‖ A ‖ F 2 + μ 2 ‖ C − A + τ 2 μ ‖ F 2 ,通过令偏导 ∂ F ( A ) ∂ A = 0 ,可以得到A的解如下:
A = [ 2 L Y T + μ ( C + τ 3 μ ) ] [ 2 Y Y T + ( 2 λ 3 + μ ) E ] − 1
步骤2 (更新H):固定A,Z,C,E,可以通过求解以下式子:
min H λ 1 ‖ H ‖ * + μ 2 ‖ Z − H + τ 2 μ ‖ F 2 (8)
可以得到H的解如下:
H = Θ λ 1 / μ ( Z + τ 2 μ )
步骤3 (更新Z):固定A,H,C,E,并求解以下式子:
min Q μ 2 ( ‖ X − Y Z − C Y − E + τ 1 μ ‖ F 2 + ‖ Z − H + τ 2 μ ‖ F 2 ) (9)
令 F ( Z ) = min Q μ 2 ( ‖ X − Y Z − C Y − E + τ 1 μ ‖ F 2 + ‖ Z − H + τ 2 μ ‖ F 2 ) ,通过求 ∂ F ( Z ) ∂ Z = 0 ,得到Z的解为:
Z = ( Y T Y + E ) − 1 [ Y T ( X − C Y − E + τ 1 μ ) − τ 2 μ + H ]
步骤4 (更新C):固定A,H,Z,E,并求解以下式子:
min C μ 2 ( ‖ X − Y Z − C Y − E + τ 1 μ ‖ F 2 + ‖ C − A + τ 3 μ ‖ F 2 ) (10)
令 F ( C ) = min Q μ 2 ( ‖ X − Y Z − C Y − E + τ 1 μ ‖ F 2 + ‖ C − A + τ 3 μ ‖ F 2 ) ,通过求 ∂ F ( C ) ∂ C = 0 得到C的解为:
C = [ ( Y Z + E − X − τ 1 μ ) Y T + A − τ 3 μ ] ( I + Y Y T ) − 1 (I为单位矩阵)
步骤5 (更新E),固定A,H,Z,C,并求解以下式子:
min E λ 2 ‖ E ‖ 2 , 1 + μ 2 ‖ X − Y Z − C Y − E + τ 1 μ ‖ F 2 (11)
对于(11),可以根据以下引理来求解 [
引理1:对于问题:
min w α ‖ W ‖ 2 , 1 + 1 2 ‖ W − Q ‖ F 2
其中Q是一个已知矩阵,如果该问题的最优解是 W * ,那么 W * 的第i列的值如下:
[ W * ] : , i { ‖ Q : , i ‖ 2 − α ‖ Q : , i ‖ 2 Q : , i , 当 ‖ Q : , i ‖ 2 > α 时 0 , 其 他 情 况
用 τ 2 μ 替换其中的 α ,用 X − Y Z − C Y + τ 1 μ 替换其中的Q,就能够得到E的解
算法1总结了CRDA的优化框架如下:
为了验证交叉重构领域适应方法(CRDA)的有效性,这一节将让CRDA在COIL20, MNIST & USPS, MSRC & VOC2007, Office & Caltech 和Office-Home这5个基准数据集上分别进行实验。从这些数据集的源域和目标域的每一类中随机抽取5个样本来构造新的数据域,剩下的数据作为测试样本使用。通过CRDA得到分类矩阵A,使用AX来作为最后的分类标签。如果第i个测试样本的特征向量为 x i ∈ R m ,通过计算得到它的标签向量 l i = A x i ∈ R c = { l i 1 , l i 2 , ⋯ , l i c } ,则标签向量 l i 中最大值所处位置为该样本所属标签类。例如,我们得到了第i个测试样本的标签向量 l i = { l i 1 , l i 2 , ⋯ , l i c } ∈ R c ,并且 max { l i 1 , l i 2 , ⋯ , l i c } = l i k ,其中 1 ≤ k ≤ c ,则我们把这个样本划分到第k类数据当中。实验在Matlab2019b, Intel(R) Core(TM) i7-6700 CPU @3.40GHz环境下进行,为了保证实验结果的有效性,CRDA算法的最终的识别效率为20次实验的平均值。
COIL 20数据集:该数据集包含20个不同对象以360度旋转成像。每旋转5度收集一张物体的图像,即每个物体有72幅图像,均为不同角度,共1440张图像。所有的图片裁剪并转换为32 × 32像素的灰度图像。
MSRC & VOC2007数据集:MSRC包含了18个层次的4323幅图像,而VOC 2007包含了20个概念的5011幅图像,它们分别共享了飞机、羊、汽车、牛、鸟、自行车6个语义类,并且将所有图像调整为256像素。
MNIST & USPS数据集:该数据集中有7291幅训练图像和2007幅测试图像;MNIST数据集中有60,000幅训练图像和10,000幅测试图像,这两个数据集共有10个语义类,每个语义类对应数字0~9,所有的图片都被转换为16 × 16像素的灰度图像。
Office & Caltech256数据集:Office数据集是视觉对象识别的基准数据,包括来自三个不同领域的常见对象类别,即A(Amazon)、W(Webcam)和D(DSLR),每个领域共有31个对象类别。例如笔记本电脑、键盘、显示器、自行车等,一共含有4652张图片。在Amazon域中,每个类别平均有90张图片,而在DSLR或Webcam域中,每个类别平均有30张图片。Caltech-256数据集是用于目标识别的标准数据集,有30,607幅图像和256个类别。
Office-Home数据集:该数据集由来自4个不同领域的图像组成:艺术图像、剪辑艺术、产品图像、现实世界图像,对于每个领域,数据集包含65个对象类别的图像,通常在办公室和家庭中发现。实验中的数据特征是由预先训练好的ResNet50模型提取得到的。
如式(5)所示,CRDA中包3个超参数,他们分别是 λ 1 , λ 2 , λ 3 ,它们的取值范围都设定为 { 1 e − 8 , 1 e − 7 , ⋯ , 1 } ,超参数的最后取值通过网格搜索策略确定。对于数据集COIL 20,最终参数选择为 λ 1 = 1 e − 6 , λ 2 = 1 e − 5 , λ 3 = 1 e − 3 ;对于数据集MSRC & VOC2007,最终参数选择为 λ 1 = 1 e − 8 , λ 2 = 1 e − 6 , λ 3 = 1 ;对于数据集MNIST & USPS,最终参数选择为 λ 1 = 1 e − 1 , λ 2 = 1 e − 5 , λ 3 = 1 - 3 ;对于数据集Office & Caltech,最终参数的选择为 λ 1 = 1 e − 2 , λ 2 = 1 e − 6 , λ 3 = 1 ;对于Office-Home数据集,最终参数选择为 λ 1 = 1 e − 6 , λ 2 = 1 e − 6 , λ 3 = 1 e − 7 。
为了验证CRDA算法的有效性,我们选取了几个迁移学习和领域适应的基线方法做对比,它们分别是Geodesicflow Kernel (GFK) [
表1展示了CRDA与对比算法在COIL20、MSRC & VOC2007、MNIST & USPS这三个数据集上的识别准确率。表2展示了CRDA与对比算法在Office + Caltech256数据集上的识别准确率。表3展示了CRDA与对比算法在Office-Home数据集上的识别准确率。
Dataset | GFK | LTSL | FDDL | JGSA | WSCDDL | MEDA | CRDA |
---|---|---|---|---|---|---|---|
C O I L 1 → C O I L 2 | 91.02 | 36.38 | 41.93 | 91.83 | 84.90 | 90.00 | 92.68 |
C O I L 2 → C O I L 1 | 90.38 | 39.27 | 39.97 | 90.39 | 85.60 | 90.83 | 84.61 |
M S R C → V O C | 29.04 | 24.62 | 29.97 | 29.98 | 30.40 | 36.08 | 33.01 |
V O C → M S R C | 58.11 | 46.63 | 60.98 | 60.55 | 64.52 | 54.85 | 72.05 |
M N I S T → U S P S | 72.03 | 36.32 | 75.85 | 72.90 | 74.05 | 39.94 | 78.40 |
U S P S → M N I S T | 63.04 | 39.13 | 60.54 | 62.97 | 62.88 | 45.40 | 64.50 |
Average | 67.33 | 37.06 | 51.54 | 63.73 | 66.97 | 59.52 | 70.88 |
表1. 在三个不同数据集上的实验结果
Dataset | GFK | LTSL | FDDL | JGSA | WSCDDL | MEDA | CRDA |
---|---|---|---|---|---|---|---|
A → C | 36.97 | 34.99 | 37.65 | 37.65 | 38.97 | 43.99 | 42.25 |
A → D | 53.63 | 38.49 | 51.23 | 55.76 | 53.24 | 45.86 | 54.49 |
A → W | 59.34 | 39.58 | 59.79 | 59.98 | 58.83 | 53.22 | 61.72 |
D → A | 45.78 | 42.41 | 45.64 | 47.10 | 46.51 | 41.23 | 50.33 |
D → C | 33.64 | 34.94 | 36.20 | 34.96 | 34.43 | 34.91 | 37.79 |
D → W | 79.12 | 70.12 | 78.60 | 79.69 | 76.60 | 87.46 | 78.70 |
C → A | 46.70 | 40.29 | 48.70 | 48.90 | 50.29 | 56.58 | 53.30 |
C → D | 57.43 | 40.49 | 58.03 | 58.29 | 56.62 | 50.32 | 56.44 |
C → W | 57.16 | 42.01 | 62.97 | 57.87 | 68.32 | 53.90 | 71.02 |
W → A | 45.11 | 44.16 | 45.78 | 47.89 | 47.45 | 42.69 | 49.03 |
W → C | 32.50 | 36.44 | 34.79 | 35.60 | 36.44 | 34.28 | 37.36 |
W → D | 67.22 | 69.09 | 69.78 | 70.25 | 62.33 | 88.54 | 73.97 |
Average | 51.22 | 43.75 | 52.41 | 52.93 | 52.68 | 52.75 | 55.53 |
表2. 在Office + Caltech数据集上的实验结果
Dataset | GFK | LTSL | FDDL | JGSA | WSCDDL | MEDA | CRDA |
---|---|---|---|---|---|---|---|
A r → C l | 39.74 | 33.30 | 43.89 | 44.51 | 45.56 | 39.62 | 47.51 |
A r → Pr | 61.83 | 54.01 | 67.40 | 65.86 | 67.62 | 57.09 | 67.81 |
A r → R w | 61.28 | 36.25 | 65.50 | 65.11 | 65.48 | 65.43 | 67.46 |
C l → A r | 33.63 | 21.56 | 42.70 | 41.00 | 43.76 | 39.28 | 45.73 |
C l → Pr | 54.16 | 42.52 | 57.63 | 56.31 | 59.72 | 50.45 | 60.38 |
C l → R w | 49.67 | 31.04 | 55.64 | 53.40 | 54.28 | 52.10 | 55.75 |
Pr → A r | 35.60 | 32.48 | 47.80 | 46.23 | 48.10 | 42.09 | 48.48 |
Pr → C l | 36.42 | 32.08 | 42.89 | 43.74 | 43.74 | 31.83 | 44.25 |
Pr → R w | 60.46 | 40.50 | 63.64 | 64.46 | 65.82 | 63.92 | 66.94 |
R w → A r | 49.20 | 34.23 | 59.86 | 58.22 | 60.07 | 55.43 | 58.40 |
R w → C l | 41.56 | 39.99 | 48.89 | 47.23 | 49.27 | 41.27 | 48.70 |
R w → Pr | 69.56 | 54.63 | 72.65 | 72.37 | 73.42 | 70.44 | 73.32 |
Average | 49.42 | 37.71 | 56.12 | 54.87 | 56.40 | 50.75 | 57.06 |
表3. 在Office-Home数据集上的实验结果
对于上述实验结果,我们进行如下分析:
1). 该方法在大多数数据集上的性能都优于与之比较的方法。这表明,使用改进的类PCA正则化项,CRDA能够很好地保存数据信息。此外,通过对重构矩阵施加低秩约束,可以将来自不同领域但共享同一标签的数据很好的对齐。这就保证了新的特征表示的识别性,因此我们的方法可以显著提高识别准确率。
2). 在高维数据集 Office-home上的实验结果表明,CRDA在大多数高维数据集上表现良好。结果表明,我们的方法能够很好的处理高维度数据。
3). 在半监督领域适应中,人工添加伪标签的对抗式方法是很常见的。在本文中,我们使用原始数据重构代替伪标签来提高分类精度。通过实验,我们发现CRDA的性能比MEDA更好,证明了我们方法的有效性。
ADMM在只有两个或更少块时的收敛性已经被证明。算法1有7个分块,没有严格的理论收敛性支持。然而,一些理论可以扩展ADMM的收敛性的范围。例如,Jia等人在单个函数是强凸函数和线性函数复合 [
图1. 模型收敛性分析
从图2中我们可以发现,在CRDA中,随着 λ 1 的变化,识别准确率的变化不大,这是因为 λ 1 控制的是低秩矩阵的权重,而低秩矩阵本身就很小, λ 1 使得它更小,所以对识别准确率的影响不大。随着 λ 2 的增大,识别准确率会有一个先减小再增大再减小的趋势,这是因为 λ 2 控制的是噪声矩阵所占的比重,随着它的变化,分类器的比重会相应的变化,所以对识别准确率的影响是波动的。 λ 3 控制的是分类器权重,从图中我们可以知道,对于不同的数据集,随着 λ 3 的增长,准确率的变化是不同的,说明分类器矩阵和数据集是十分相关的。
图2. 超参数 λ 1 , λ 2 , λ 3 对识别准确率的影响
本文提出了一种基于交叉重构的领域自适应算法用于跨域识别。该算法通过将源域和目标域数据进行交叉重构来使原始源域和目标域做到相互表示,同时对重构矩阵施加低秩约束来对齐同类数据,从而挖掘同类数据间的相似性,以最大程度保留数据主要信息。最后对分类矩阵施加稀疏约束,来去除数据冗余信息,达到提高模型性能的目的。在5个常用的数据集COIL20,MNIST & USPS, MSRC&VOC2007, Office & Caltech, Office-Home上验证模型的有效性。实验结果显示,与其他相关的传统领域自适应方法相比,CRDA算法能更好地保留投影数据信息,取得更好的跨域识别效果。
郭蔚颖. 基于交叉重构的领域自适应算法Cross Reconstruction-Based Domain Adaptation[J]. 计算机科学与应用, 2021, 11(04): 1113-1122. https://doi.org/10.12677/CSA.2021.114115