多视角学习是以不同方法获得的特征集表示的数据中学习的问题,其中双视角学习是一种仅由双视角数据组成的多视角学习。由于多视角学习可能会忽略一些多视角数据的原始信息,这些数据之间存在着内在的联系和不同视角之间的差异。因此,为了解决多视角数据之间存在的问题,我们引入了既不属于正类又不属于负类的无标签数据Universum数据。本文提出了一种基于Universum数据的多视角学习算法,将Universum数据和多视角学习结合到一个目标模型中,其中Universum数据被认为是该模型的先验知识。为了解决提出的算法模型,我们推导了该算法模型的对偶问题并得到了预测分类器。最后,通过大量的实验对该方法的性能进行了研究,结果表明,所提算法的性能优于传统的方法。 Multi-View Learning (MVL) focuses on the problem of learning from the data represented by feature sets obtained from different approaches, in which two-view learning is a kind of MVL which only consists of two-view data. Since multi-view learning may ignore the original information of some multi-view data, there are inherent connections between these data and the differences between different perspectives. Therefore, in order to solve the problems between multi-view data, we introduce the unlabeled data Universum data that neither belongs to the positive category nor the negative category. This paper proposes a multi-perspective learning algorithm based on Universum data, which combines Universum data and multi-perspective learning into a target model, in which Universum data is considered as the prior knowledge of the model. In order to solve the proposed algorithm model, we derive the dual problem of the algorithm model and get the predictive classifier. Finally, the performance of the method is studied through a large number of experiments, and the results show that the performance of the proposed algorithm is better than that of the traditional method.
多视角学习是以不同方法获得的特征集表示的数据中学习的问题,其中双视角学习是一种仅由双视角数据组成的多视角学习。由于多视角学习可能会忽略一些多视角数据的原始信息,这些数据之间存在着内在的联系和不同视角之间的差异。因此,为了解决多视角数据之间存在的问题,我们引入了既不属于正类又不属于负类的无标签数据Universum数据。本文提出了一种基于Universum数据的多视角学习算法,将Universum数据和多视角学习结合到一个目标模型中,其中Universum数据被认为是该模型的先验知识。为了解决提出的算法模型,我们推导了该算法模型的对偶问题并得到了预测分类器。最后,通过大量的实验对该方法的性能进行了研究,结果表明,所提算法的性能优于传统的方法。
多视角学习,Universum数据,支持向量机
Bo Zeng1, Yanshan Xiao1, Bo Liu2
1Department of Computer, Guangdong University of Technology, Guangzhou Guangdong
2Department of Automation, Guangdong University of Technology, Guangzhou Guangdong
Received: Feb. 25th, 2021; accepted: Mar. 19th, 2021; published: Mar. 29th, 2021
Multi-View Learning (MVL) focuses on the problem of learning from the data represented by feature sets obtained from different approaches, in which two-view learning is a kind of MVL which only consists of two-view data. Since multi-view learning may ignore the original information of some multi-view data, there are inherent connections between these data and the differences between different perspectives. Therefore, in order to solve the problems between multi-view data, we introduce the unlabeled data Universum data that neither belongs to the positive category nor the negative category. This paper proposes a multi-perspective learning algorithm based on Universum data, which combines Universum data and multi-perspective learning into a target model, in which Universum data is considered as the prior knowledge of the model. In order to solve the proposed algorithm model, we derive the dual problem of the algorithm model and get the predictive classifier. Finally, the performance of the method is studied through a large number of experiments, and the results show that the performance of the proposed algorithm is better than that of the traditional method.
Keywords:Multi-View Learning, Universum Data, Support Vector Machine
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
在传统机器学习的分类问题中,总是利用样本的单一视角特征来建立机器学习模型,进而对未知的样本进行预测,该模型也可以称为单视角学习 [
图1. 多视角数据示意图
多视角学习最初由De sa [
近年来,国内外研究者对Universum学习也逐渐广泛关注。Vapnik等人 [
综上所述,为了解决多视角学习可能会忽略一些不同视角之间存在差异的多视角数据的原始信息,我们引入了Universum数据,提出了一种基于Universum数据的多视角学习方法。使得算法更加正则化,提高了多视角分类器的性能,此外,为每个视角引入正则化项意味着每个视角中都有先验知识。我们工作的主要贡献总结如下:
1) 我们首次提出了一种新颖的算法模型,基于Universum数据的多视角学习算法,以提高多视角学习的分类性能。对于Universum数据,我们首先在每个视角上有相应的特征,考虑原始数据和Universum数据的特征构建超平面,并让Universum数据分布在正类和负类之间,从而得到一个准确的预测分类器。
2) 构造拉格朗日函数讲算法模型转化为对偶问题,求解相应的优化问题。
3) 我们进行了大量的实验来评估我们提出的算法的性能。统计结果表明,提出的算法比现有的方法更能提高分类精度。
假设给定相同数据的两个视角,一个视角可以通过相应的内核函数 k A 的特征投影 ϕ A 表示,另一个通过具有相应的内核函数 k B 的特征投影 ϕ B 表示。对于分类任务,每个数据项还应该包含标签 [
S = { ( ϕ A ( x 1 ) , ϕ B ( x 1 ) ) , ⋯ , ( ϕ A ( x l ) , ϕ B ( x l ) ) } (1)
通过引入Universum数据,我们将多视角学习和Universum数据相结合。假设除了多视角训练数据外,我们还获得了另一组数据,称为Universum数据,该数据是一组不属于任何感兴趣类别的未标记样本,被用作输入信息,一个Universum数据可以表示为 { ϕ ( x μ 1 ) , ϕ ( x μ 2 ) , ⋯ , ϕ ( x μ μ ) , ϕ ( x μ μ + 1 ) , ⋯ , ϕ ( x μ 2 μ ) } , x μ m ( m = 1 , 2 , ⋯ , 2 μ ) ,每一个多视角数据都包含一个Universum数据。所以训练数据可以被表示为:
T = { ( ϕ A ( x 1 ) , ϕ B ( x 1 ) ) , ⋯ , ( ϕ A ( x l ) , ϕ B ( x l ) ) } ∪ { ϕ ( x μ 1 ) , ϕ ( x μ 2 ) , ⋯ , ϕ ( x μ μ ) , ϕ ( x μ μ + 1 ) , ⋯ , ϕ ( x μ 2 μ ) } (2)
对于使用Universum数据进行多视角学习的问题,我们首次提出了以下学习模型。我们将有标签的多视角数据与另一组没有标签的Universum样本结合起来,该算法模型可以表示为:
min w , b , ξ i , ψ m 1 2 ( ‖ w A ‖ 2 + ‖ w B ‖ 2 ) + C A ∑ i = 1 l ξ i A + C B ∑ i = 1 l ξ i B + C ∑ i = 1 l η i + D ∑ m ( ψ m + ψ m * ) (3)
约束条件:
| ( w A ⋅ ϕ A ( x i ) + b A ) − ( w B ⋅ ϕ B ( x i ) + b B ) | ≤ ε + η i y i ( w A ⋅ ϕ A ( x i ) + b A ) ≥ 1 − ξ i A y i ( w B ⋅ ϕ B ( x i ) + b B ) ≥ 1 − ξ i B
− δ − ψ m * ≤ ( w A x μ m + b A ) ≤ δ + ψ m − δ − ψ m * ≤ ( w B x μ m + b B ) ≤ δ + ψ m ξ i A ≥ 0 , ξ i B ≥ 0 , η i ≥ 0 , i = 1 , ⋯ , l ψ m , ψ m * ≥ 0 , m = 1 , 2 , ⋯ , μ , μ + 1 , ⋯ , 2 μ
对于上述提出的算法,我们给出如下详细解释。 ‖ w A ‖ 和 ‖ w B ‖ 分别是视角A和视角B的正则化项,用于防治过拟合。参数 C A , C B , C , D 是惩罚参数。参数 η i 是非负松弛变量,用于控制两个分类器之间的间隙,希望两个视角的预测相似。 ξ i A 和 ξ i B 是视角A和视角B的非负松弛变量。 ψ m 和 ψ m * 是Universum样本的非负松弛变量。参数 δ 是用户定义的参数,代表Universum样本的不敏感损失。约束 − δ − ψ m * ≤ ( w A x μ m + b A ) ≤ δ + ψ m 和 − δ − ψ m * ≤ ( w B x μ m + b B ) ≤ δ + ψ m 表示的是Universum数据定义了不敏感损耗区域,Universum数据位于支持超平面之间的不敏感区域。
为了解决公式(3)的优化问题,首先构造拉格朗日函数,对于公式(3)中的每个不等式约束,通过引入拉格朗日乘子 α i A , α i B , μ i A , μ i B , β i A , β i B , β m ( ∗ ) , γ m ( ∗ ) , k m ( ∗ ) , λ 。拉格朗日函数被定义为:
L ( Θ ) = 1 2 ( ‖ w A ‖ 2 + ‖ w B ‖ 2 ) + C A ∑ i = 1 l ξ i A + C B ∑ i = 1 l ξ i B + C ∑ i = 1 l η i + D ∑ m ( ψ m + ψ m * ) − ∑ i α i A ( y i ( w A ⋅ ϕ A ( x i ) + b A ) − 1 + ξ i A ) − ∑ i α i B ( y i ( w B ⋅ ϕ B ( x i ) + b B ) − 1 + ξ i B ) + ∑ i β i A ( ( w A ⋅ ϕ A ( x i ) + b A ) − ( w B ⋅ ϕ B ( x i ) + b B ) − ε − η i ) + ∑ i β i B ( ( w A ⋅ ϕ A ( x i ) + b A ) − ( w B ⋅ ϕ B ( x i ) + b B ) + ε + η i )
+ ∑ m β m ( w A x μ m + b A − δ − ψ m ) − ∑ m β m * ( w A x μ m + b A + δ + ψ m * ) + ∑ m γ m ( w B x μ m + b B − δ − ψ m ) − ∑ m γ m * ( w B x μ m + b B + δ + ψ m * ) − ∑ i μ i A ξ i A − ∑ i μ i B ξ i B − ∑ m k m ψ m − ∑ m k m * ψ m * − ∑ i λ η i (4)
根据朗格朗日的对偶性,原始问题的对偶性是极大极小问题,因此,为了解决对偶问题,我们首先对拉格朗日函数 L ( Θ ) 对 w , b , ξ i , ψ m , η i 进行求偏导并设置等式为0,拉格朗日函数的微分如下:
w A = ∑ i α i A y i ϕ A ( x i ) − ∑ i β i A ϕ A ( x i ) + ∑ i β i B ϕ A ( x i ) − ∑ m β m x μ m + ∑ m β m * x μ m , w B = ∑ i α i B y i ϕ B ( x i ) − ∑ i β i A ϕ B ( x i ) + ∑ i β i B ϕ B ( x i ) − ∑ m γ m x μ m + ∑ m γ m * x μ m , C A = α i A + μ i A , C B = α i B + μ i B , D = β m + γ m + k m , D = β m * + γ m * + k m * , C = β i A + β i B + λ (5)
将公式(5)代入公式(4)中,得到对偶问题:
max W = − 1 2 ∑ i ∑ j ( g i A g j A ( ϕ A ( x i ) ϕ A ( x j ) ) ) − 1 2 ∑ i ∑ j ( g i B g j B ( ϕ B ( x i ) ϕ B ( x j ) ) ) + 1 2 ∑ m ∑ n ( β m β n + γ m γ n ) x μ m x μ n + 3 2 ∑ m ∑ n ( β m * β n * + γ m * γ n * ) x μ m x μ n + ∑ i ∑ j ( α i A β j A − α i A β j B ) y i y j ϕ A ( x i ) ϕ A ( x j ) − ∑ i ∑ j ( α i B β j A − α i B β j B ) y i y j ϕ B ( x i ) ϕ B ( x j ) − 2 ∑ m ∑ n ( β m β n * + γ m γ n * ) x μ m x μ n + ∑ i ( α i A + α i B ) − δ ∑ m ( β m + γ m ) − δ ∑ m ( β m * + γ m * ) (6)
约束条件:
g i A = α i A y i − β i A + β i B , g i B = α i B y i + β i A − β i B , ∑ i g i A = ∑ i g i B = 0 , 0 ≤ α i A / B ≤ C A / B , 0 ≤ β m + γ m ≤ D , 0 ≤ β m * + γ m * ≤ D i = 1 , ⋯ , l , m = 1 , 2 , ⋯ , μ , μ + 1 , ⋯ , 2 μ
基于上述具有Universum数据的多视角学习模型,我们提出了该算法的完整过程,具体的算法实现步骤如表1所示。
输入:带有标签的训练集和Universum样本 输出: w A , w B , b A , b B |
---|
1:通过相应的核函数得到训练集的特征投影; |
2:融合多视角数据与Universum数据; |
3:初始化 ξ i A , ξ i B , C , C A , C B , D ; |
4:构造并求解凸二次规划问题(6); |
5:通过求解Quadratic programming问题得到解 α A , β B , β m , β m * , γ m , γ m * ; |
6:通过公式(5)计算 w A , w B , b A , b B ; |
7:返回结果 w A , w B , b A , b B ; |
表1. 算法实现步骤
我们将讨论该算法的时间复杂度并给出一个估计。该算法可以归结为凸二次规划问题(Convex quadratic programming problem),所以该算法的时间复杂度为 O ( ( l + m ) 3 ) (l为训练样本个数,m为Universum样本个数)。
我们已经试验了多个数据集,这些数据集广泛应用于多视角学习中。数据集包括Pascal Visual Object Classes、NUS-WIDE-OBJECT、Handwritten Digit和Image Segmentation,其详细描述如下:
• Pascal Visual Object Classes (VOC2007):该数据集是图像数据集,其中包含9963个真实世界的图像,这些图像分为20类,例如人,鸟,自行车,椅子等。在本实验中,该数据集被划分为5011张训练图像和4952张测试图像。
• NUS-WIDE-OBJECT:该数据集包含30,000个对象图像,并被分为30类,例如玩具,花朵,山脉,旗帜等。在本实验中,该数据集被随机分为17,927个训练图像和12,073个测试图像。
• Handwritten Digit:该数据集由手写数字(‘0’-‘9’)组成,手写数字有2000个图像,共10个类别,每个类别有200个图像。每张图片均已用二进制图像进行数字表示。在此实验中,我们从每个数字中随机选择50%的图像进行训练。其余图像是测试图像。
• Image Segmentation:是从7个户外图像的数据库中随机抽取的图像数据集,该数据库由2310个随机选择的对象组成,这些对象分为7个类,即砖墙,天空,树叶,水泥,窗户,路径和草。数据集包含19个连续属性,可以自然分为多个视角数据。
对于Universum数据而言,有几种方法可以收集Universum样本 [
Subdataset | Data Set | Positive | Negative | Universum |
---|---|---|---|---|
dataset 1 | Pascal VOC2007 | bird | cat, cow, dog | horse, sheep |
dataset 2 | Pascal VOC2007 | boat | bus, car, train, aeroplane | motorbile, bicycle |
dataset 3 | NUS-WIDE-OBJECT | bear | birds, cat, tiger | cow, sun |
dataset 4 | NUS-WIDE-OBJECT | boats | cars, plane, train | vehicle, sand |
dataset 5 | NUS-WIDE-OBJECT | flags, sign | whales, cars, plane, train | tower, toy |
dataset 6 | Handwritten Digit | Number 3 | Number 5, Number 0 | Number 9 |
dataset 7 | Handwritten Digit | Number 2 | Number 6 | Number 7 |
dataset 8 | Image Segmentation | brickface | cement, path | window |
dataset 9 | Image Segmentation | sky | grass | foliage |
表2. 实验数据组合
为了验证所提算法的有效性,在实验设置阶段我们采用与其他四种多视角学习算法进行对比,对比算法如下:
• SVM-2K [
• USVM [
• MvTSVMs [
• MvNPSVM [
在实验中,我们对所有实验在两个视角上使用高斯RBF核,并且将RBF核参数 σ 设置为 { 0.25 , 0.5 , 0.75 , 1 } 。在提出的方法中,我们设置惩罚参数 C A = C B = C 和D为 { 10 − 3 , 10 − 2 , 10 − 1 , 1 , 10 , 10 2 } 和 { 0.05 , 0.5 , 1 , 3 , 5 } ,参数 ε 在 { 0.01 , 0.1 } 集合中调整。
对于四个对比算法,我们设置与他们的研究相似的参数,并且实验中算法的配置如下。在USVM算法中,惩罚参数C和D分别设置为 { 10 − 2 , 10 − 1 , 1 , 10 , 10 2 } 和 { 0.05 , 0.5 , 1 , 3 , 5 } 。在SVM-2K算法中,在 { 10 − 2 , 10 − 1 , 1 , 10 , 10 2 } 集合中均等设置惩罚参数 C A 和 C B ,参数D和 ε 分别在 { 0.05 , 0.5 , 1 , 3 , 5 } 和 { 0.01 , 0.1 } 上调整。对于MvTSVM和MvNPSVM算法,我们将惩罚参数 C 1 = C 2 = C 3 = C 4 和 D = H 分别从 { 10 − 3 , 10 − 2 , 10 − 1 , 1 , 10 , 10 2 } 和 { 0.05 , 0.5 , 1 , 3 , 5 } 集合中选择。参数 ϵ 和 ε 的取值范围为 { 0.01 , 0.1 } 。对于所有方法,为了避免实验中的采样偏差,我们使用五次交叉验证,选择四层作为训练集,另一层被视为每一轮的测试集。另外,五次交叉验证用于确定实验中的适当参数。例如,对于提出的方法,我们在表2中填写适当的参数,该参数在五次训练和测试集中处于最高性能。
在本节中,我们将比较提出的方法和四个对比方法的性能。表3汇总了四个数据集中不同方法的分类准确性以及标准差。
Subdataset | SVM-2K | USVM | MvTSVMs | MvNPAVM | 所提方法 |
---|---|---|---|---|---|
dataset 1 | 82.60 ± 1.35 | 83.50 ± 1.26 | 81.65 ± 1.95 | 86.50 ± 1.62 | 90.45 ± 1.01 |
dataset 2 | 86.00 ± 1.86 | 82.60 ± 1.06 | 80.90 ± 1.76 | 85.80 ± 1.75 | 88.50 ± 1.25 |
dataset 3 | 74.60 ± 1.78 | 77.65 ± 1.68 | 72.50 ± 2.29 | 84.45 ± 1.59 | 83.02 ± 1.84 |
dataset 4 | 72.50 ± 1.94 | 78.60 ± 1.64 | 74.90 ± 1.95 | 80.60 ± 1.78 | 84.50 ± 1.28 |
dataset 5 | 73.60 ± 1.36 | 76.40 ± 1.28 | 74.90 ± 1.46 | 79.90 ± 1.89 | 83.90 ± 1.34 |
dataset 6 | 76.65 ± 1.76 | 80.60 ± 1.95 | 75.50 ± 2.05 | 79.45 ± 1.80 | 81.00 ± 1.54 |
dataset 7 | 77.50 ± 1.89 | 78.80 ± 1.26 | 74.00 ± 1.95 | 78.50 ± 1.57 | 80.65 ± 1.05 |
dataset 8 | 82.50 ± 1.20 | 83.00 ± 1.34 | 85.30 ± 1.91 | 89.02 ± 1.25 | 90.50 ± 0.81 |
dataset 9 | 84.52 ± 1.54 | 83.60 ± 1.25 | 82.50 ± 2.08 | 91.50 ± 1.24 | 89.80 ± 1.02 |
表3. 分类准确度和标准差结果统计
我们可以观察到,提出的方法始终可以比其他方法表现更好。例如,对于数据集1,SVM-2K,USVM,MvTSVMs和MVNPSVM方法分别获得“82.60”,“83.50”,“81.65”,“86.50”的精度;但是,提出的方法可以达到“90.45”的精度,优于其他方法。发生这种情况的原因是,这是因为提出的方法将Universum数据考虑到多视角学习中,从而可以修改多视角学习的决策边界。但是,在构造分类器时,SVM-2K,MvTSVMs和MVNPSVM方法不会考虑Universum数据。因此,提出的方法可以比其他方法执行得更好。对于USVM方法和提出的方法,它们都考虑了Universum数据。但是,提出的方法仍然比USVM具有更好的性能。发生这种情况是因为所提出的方法将多视角数据合并到学习中,可以提供更好的特征表示,因此,所提出的方法比USVM方法更好。对于标准偏差比较,我们可以进一步观察到,对于大多数数据集,所提出的方法可以提供比其他方法更少的标准偏差。例如,对于数据集1,所提出的方法的标准偏差为1.01,而其他方法则大于1.01。这表明,提出的方法可以提供相对稳定的性能。
本文在Pascal VOC2007,NUS-WIDE-OBJECT,Handwritten Digit和Image Segmentation的不同大小的训练集,实现了SVM-2K,USVM,MvTSVMs,MVNPSVM和所提出的方法。我们以上述四个数据集为例。对于NUS-WIDE-OBJECT数据集,训练大小从{6000, 8000, 10,000, 12,000, 14,000}集合变化。同样,我们改变Pascal VOC2007,Handwritten Digit和Image Segmentation训练样本大小,如图2的x轴所示,Universum样本的数量是恒定的。另外,图2显示了根据上述变化的训练量数据集的SVM-2K,USVM,MvTSVMs,MVNPSVM和所提出的方法的分类精度。我们可以发现,在几乎所有情况下,提出的方法显然都优于其他比较算法,并且随着训练样本数量的增加,所有已实现算法的分类精度都会提高。
图2. 不同训练样本数量下的分类准确率
研究结果表明,Universum样本的大小不同也会影响算法的性能 [
图3. 不同Universum样本数量下的分类准确率
在本文中,我们提出了一种基于Universum数据的多视角学习算法。新提出的方法借助于不属于任何一类分类问题的Universum示例,既继承了先前的多视角学习的优势,而且可以获取更多的关于整个数据分布的先验知识。为了有效的求解该算法,我们推导了该算法的对偶形式,为了得到更有效的预测模型。为了验证所提出方法的有效性,我们在真实的数据集上进行了实验。在图像数据集的情况下,我们讨论了所有方法的分类准确率,并分析了不同训练规模下的分类性能。在未来,我们希望研究在数据流环境中的多视角学习和Universum数据的结合。
本文得到国家自然科学基金资助项目(No.62076074)的资助。
曾 博,肖燕珊,刘 波. 基于Universum数据的多视角学习算法Multi-View Learning Algorithm Based on Universum Data[J]. 计算机科学与应用, 2021, 11(03): 672-681. https://doi.org/10.12677/CSA.2021.113069