Advances in Applied Mathematics
Vol. 09  No. 09 ( 2020 ), Article ID: 37858 , 12 pages
10.12677/AAM.2020.99192

条件梯度法求解非线性分裂可行问题

宇振盛,王子伦

上海理工大学理学院,上海

收稿日期:2020年9月1日;录用日期:2020年9月19日;发布日期:2020年9月27日

摘要

本文研究了分裂可行问题的条件梯度算法,该算法将求解迭代方向转化成求解一线性子问题,并以线搜索得到的步长作为凸因子,当前方向与上一步迭代点的凸组合作为新的迭代点。算法在迭代的更新步中不使用投影,并且得到的解有较好的稀疏性和低秩性。我们获得了算法的收敛性并给出数值实验对比分析了本文的算法与相关算法在同一算例下的表现情况,得到了良好的结果。

关键词

非线性分裂可行问题,条件梯度法,替代函数,稀疏约束集,IMRT问题

Solving Nonlinear Split Feasibility Problem via Conditional Gradient Method

Zhensheng Yu, Zilun Wang

College of Science, University of Shanghai for Science and Technology, Shanghai

Received: Sep. 1st, 2020; accepted: Sep. 19th, 2020; published: Sep. 27th, 2020

ABSTRACT

In this paper, we consider a conditional gradient algorithm for the split feasibility problem. We get the iterative direction by solving a linear subproblem, use the step size obtained by the line search as the convex factor, and get the new iteration point by the convex combination of the current direction and the previous step iteration point. The algorithm does not use projection in the update step. And the obtained solution has good properties of sparsity and low rank. The numerical experiment compares the performance of the proposed algorithm with other algorithms under the same calculation example.

Keywords:Nonlinear Split Feasibility, Conditional Gradient Method, Surrogate Function, Sparse Constraint, IMRT

Copyright © 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

本文主要研究欧几里得空间中的单集分裂可行问题(Nonlinear Split Feasibility Problem),即找一个 x * R n 使其满足

x * C 并且 A x * Q (1.1)

其中 C R n Q R m 都为非空闭凸集,A代表矩阵或者线性变换。该问题由Censor等人 [1] 提出,它在放射治疗(IMRT)计划领域有着重要的作用 [2] [3],在工程技术领域,例如信号和图像恢复,基因调控网络推论以及用于处理高维稀疏数据的LASSO和Dantzig Selector方法 [4] [5] [6] 中也有广泛应用。

循环投影法是最先被提出用于求解分裂可行问题的一种迭代算法,其迭代公式为:

x k + 1 = A 1 ( I + A A T ) 1 ( A P C ( x k ) + A A T P Q ( A x k ) ) (1.2)

这里, P C P Q 分别表示向非空闭凸集C和Q上的正交投影。该方法显然不是很理想,因为在每次迭代中都需要计算矩阵的逆。当将该方法应用于大规模的实际问题时,求解逆矩阵非常困难,这也可能导致算法花费太长时间。因此,Byrne给出了著名的CQ算法 [7]。在之后的分裂可行问题算法的发展中,CQ算法得到更多的关注。假设C和Q分别是欧几里得或希尔伯特空间 H 1 H 2 上的闭合凸子集,并且A是有界线性算子。CQ算法的迭代格式如下

x k + 1 = P C ( x k θ A * ( I P Q ) A x k ) (1.3)

学者们还提出了一些其他的方法 [8] [9] [10] [11],将分裂可行问题等价于不动点问题或变分不等式问题进行求解,因此应用于其等效问题的算法可以作适应性调整并应用于分裂可行问题,例如Krasnosel’skii-Mann (KM)算法 [12] [13] 在解决分裂可行问题方面取得了重大突破。Zhao将KM迭代形式应用于扰动CQ算法。由于KM迭代算法具有较弱的收敛性,因此作为一种特殊形式,CQ算法也具有较弱的收敛性。Xu [14] 改进了上述算法,并很好地解决了这一缺点,改进算法具有较强的收敛性。

考虑对分裂可行问题的一种情况:在欧式空间中存在集合 C i R n Q j R m 其中 i = 1 , 2 , , p j = 1 , 2 , , r 并满足(1.1)式条件,这个问题称为多集分裂可行性问题(MSSFP),更进一步,我们设矢量值函数或非线性函数 F : R n R m 代替A。本文中我们考虑双集合非线性分裂可行性问题,即

x * C and F ( x * ) Q (1.4)

在2005年,Censor等人 [2] 提出了一种投影梯度算法,最小化一个使用最大最小法(Majorize-Minimize Method)构建的目标函数如下

f ( x ) = 1 2 i v i d i s t ( x , C i ) 2 + 1 2 j w j d i s t [ H ( x ) , Q j ] 2 (1.5)

其中 d i s t ( x , y ) 表示向量x和y之间的欧氏距离。权重系数或者凸系数 v i w j 为正数且满足 v i + w j = 1 。算法的迭代公式为:

x k + 1 = P Ω { x k + s ( i = 1 t α i ( P C i ( x k ) x k ) + j = 1 r β j A T ( P Q j ( A x k ) A x k ) ) } (1.6)

所以问题转化为最小化问题 min f ( x ) 。我们的目标是找到一个解 x * ,使在此点的目标函数的梯度满足 f ( x * ) < ε 。根据上面的替代函数,我们可以推导出非线性分裂可行问题的目标函数和梯度函数分别为

f ( x ) = 1 2 x P C ( x ) 2 + 1 2 F ( x ) P Q ( F ( x ) ) 2 (1.7)

f ( x ) = ( x P C x ) + F ( x ) T ( F ( x ) P Q ( F ( x ) ) ) (1.8)

其中 F ( x ) : R m R n 是映射F在x点处的雅可比矩阵。

李志宝 [15] 提出了一种自适应投影类型方法,其文章算法基于投影梯度法加上自适应的技术求解非线性分裂可行问题。作者基于一阶信息使用了新的步长搜索,迭代公式为 x k + 1 = P Ω [ x k β k + 1 p ( x k ) ] ,其中步长 β k + 1 满足

β k + 1 f ( x k ) f ( x k + 1 ) 2 ( 2 δ ) ( x k x k + 1 ) T ( f ( x k ) f ( x k + 1 ) )

2014年A. Gibali [16] 提出了一种求解非线性分裂可行问题的信赖域方法也展现出了良好的收敛性与数值实验结果。

本文,我们给出非线性分裂可行问题的一个条件梯度算法,我们考虑等价的无约束优化问题

min f ( x ) = 1 2 x P C ( x ) 2 + 1 2 F ( x ) P Q ( F ( x ) ) 2

该算法将求解迭代方向转化成求解一线性子问题,并以线搜索得到的步长作为凸因子,当前方向与上一步迭代点的凸组合作为新的迭代点。算法在迭代的更新步中不使用投影,并且得到的解有较好的稀疏性和低秩性。我们获得了算法的收敛性并给出数值实验对比分析x了本文的算法与相关算法在同一算例下的表现情况,得到了良好的结果。

2. 预备知识

2.1. 欧式空间上的投影的性质

设向量x为 R n 空间的任意向量,内积定义为 , ,x的范数定义为 x = x , x 。向量x向C集上的投影用 P C 表示,定义式为

P C x = arg min y C y x , y C (2.1)

定理2.1 [17] P C I P C 是非扩张映射,有以下结论成立:

P C x P C y x y (2.2)

( I P C ) ( x y ) x y (2.3)

其中 x , y C

若算子T满足 F i x T = { x D : x = T x } ,则T是一非扩张算子,称作不动点映射。我们定义

T Q T C : = { x C : x = P C x } T Q : = { H ( x ) = y Q : y = P Q y } (2.4)

引理2.1 若迭代点 x k 满足

x k T C T Q (2.5)

则说明 x k 为最优解。

证明:若 x = x k T C T Q ,则 x k = P C x k y k = F ( x k ) = P Q ( x k ) ,所以

f ( x k ) = 1 2 x k P C ( x k ) 2 + 1 2 F ( x k ) P Q ( F ( x k ) ) 2 = 0

显然 f ( x ) 0 ,所以当 x = x k 时,目标函数达到最小值0。根据投影定理,当向量与其投影之间的差为0时,我们可以得出结论:向量 x k 在集合C的内部或边界上,并且 F ( x k ) 也同时位于集合Q的内部或边界上,即上述两向量满足非线性分裂可行性问题的约束,因此获得了一个解,这意味着向量 x k 为问题的最优解。

引理2.2 设C是Rn上的闭凸集,则存在

( v P C ( v ) ) T ( u P C ( v ) ) 0 (2.6)

此不等式关系以二维为例如图1所示如下:

Figure 1. Lemma 2.2 schematic diagram of projection inequality

图1. 引理2.2投影不等式示意图

向范数球 N D = z H : z z 0 r 上投影的解析表达式为

P C x = { x , x C z 0 + r ( x z 0 ) x z 0 , x C

推论1:假设K是空间X中的闭凸子集。定义任何满足 x X 的唯一元素为 π K ( x ) K ,有

x π K ( x ) = min y K x y (2.7)

其性质为如下变分不等式

π K ( x ) x , π K ( x ) y 0 , y K (2.8)

命题1:假设K是一个非空闭凸集,而 d K 2 是在X上由 d K 2 ( x ) inf = x y 2 | y K 定义的函数。 d K 2 是连续可微的,其梯度为

d K 2 ( x ) = 2 ( x π K ( x ) ) (2.9)

定义等式约束集:

E = { x R n : ( α 1 , α 2 , , α r ) T x = ( β 1 , β 2 , , β r ) } { x R n : α i T x = β i }

与不等式约束集:

J = { x R n : ( α 1 , α 2 , , α r ) T x ( β 1 , β 2 , , β r ) } { x R n : α i T x β i }

向量x向集合 E 与集合 J 的投影解析表达式为:

P E ( x ) = x + ( b i a i T x ) a i a i 2

P J ( x ) = x + min { 0 , b i a i T x } a i a i 2

在本文中,我们还将考虑稀疏约束下的非线性分裂可行问题 [18]

S r : = { x R t | x 0 r , 0 r t }

定义向量x的指标集 I ( x ) = { i 1 , i 2 , , i r } { 1 , 2 , , n } ,例如 x = { x I 1 , x I 2 , , x I n } ,则其指标集为 I ( x ) = { I 2 , I 4 , , I 2 n } x = { x I 2 , x I 4 , , x I 2 n } ,且有

max i I ( x ) x i min i I ( x ) x i

定义x在稀疏集 S r 上的投影为 P S r ( x ) ,根据投影的性质,记 M s ( x ) 为向量x中最大的分量,我们有:

P C S ( x ) = { x i x i > M s ( | x | ) 0 x i x i = M s ( | x | ) 0 x i < M s ( | x | )

由于0范数约束问题是一个NP难问题,我们使用范数和范数的最优凸近似 [19] 在问题(1.1)中,如果集合C是一稀疏集合 C s = { x R n | x 0 r } ,则其可以与下述问题等价

min x f ( x )

s .t . x 1 μ

2.2. 条件梯度法

Marguerite Frank和Philip Wolfe [20] 在1956年首次提出条件梯度法,方法的思想是在每一次迭代中通过求解一个线性的子问题得到最优的下降方向,在更新步时与上一步的迭代点凸组合得到下一步的迭代点。条件梯度法由于其非常好的稀疏性与低秩性,在大数据与机器学习热门的近几年里收货了极大的关注 [21] [22],其算法描述如下:

max λ h ( λ )

s .t . λ Q

在当前迭代点 x k 处,该算法考虑目标函数的线性化,并求解出该线性函数的最小值(定义域相同)。通过LO oracle解决线性子问题,也可根据不同的问题适当调整子问题的处理方法,从而大大提高了整个算法的灵活性。

以下两个图是条件梯度法的迭代过程的示意图。图2左边表示集合C中的迭代过程。每个迭代方向都来自当前迭代向量,沿着C集合的边界向量的方向。步长可以控制每个迭代向量与边界向量之间的距离以实现更合适的下降。图2右侧图是在分裂可行问题下的,我们的解集是图中的集C和集Q的交集。使用FW方法解决分裂可行问题是非常行之有效的。

Figure 2. Conditional gradient method iteration diagram

图2. 条件梯度法迭代示意图

2.3. 对偶间隙

定义目标函数的对偶间隙 [23] [24]

G ( x ) = max x s , f ( x ) , s C (2.10)

对偶间隙是作为算法每次迭代的副产品,无需进行额外的计算。同时我们记在 x k 处的下降方向为 d k F W = s k x k

定义2.1 (下降方向)若目标函数在集合C上是连续可微的,则 d k F W 为下降方向的充要条件是 G ( x k ) < 0 ,并且当 G ( x k ) = 0 时,目标函数达到最小值, x k 为最优解。

证明:由于

s ( k ) : = arg max s , f ( x ( k ) )

s k x k 处梯度内积最小,所以

s k , f ( x k ) x k , f ( x k )

s k , f ( x k ) x k , f ( x k ) 0

s k x k , f ( x k ) 0

f ( x k ) T d k F W 0

因此,可以看出, d k F W 是下降方向,当且仅当 x k 是最优解时,等号成立。

引理2.4 为一收敛序列,并且有 lim i G ( x i ) = 0

证明略。

3. 算法

以下是条件梯度法解决非线性分裂可行问题的算法步骤:

引理3.1 对于 x , x i C f ( x i ) , x * f ( x i ) , x

证明:目标函数 f ( x ) x * 处与任意 x r C 的泰勒展开式为

f ( x * ) = f ( x i ) + f ( x i ) ( x * x i ) + O ( x ) = 0

f ( x r ) = f ( x i ) + f ( x i ) ( x r x i ) + O ( x ) = ϵ r

其中 ϵ r > 0 ,因此我们有

f ( x i ) ( x * x i ) < f ( x i ) ( x r x i )

所以

f ( x i ) , x * f ( x i ) , x r , x r , x i C

证毕。我们自然推导出以下引理

引理3.2 f ( x k ) f ( x k 1 ) < 0

证明

f ( x k ) f ( x k 1 ) = f ( x i ) + f ( x i ) ( x k x i ) [ f ( x i ) + f ( x i ) ( x k 1 x i ) ] = f ( x i ) ( x k x i ) f ( x i ) ( x k 1 x i ) = f ( x i ) , x k f ( x i ) , x k 1 = f ( x i ) ( x k x k 1 ) = λ k 1 f ( x i ) d k 1 F W 0

其中 λ k 1 ( 0 , 1 ) 。当且仅当 x i 是最优解时,等号成立。

4. 数值实验

4.1. 数值结果

论文应采在本节中我们将通过如下的例子对算法2进行数值实验,并与其他的算法进行对比。

考虑非线性分裂可行问题:

F ( x ) : = [ x 1 , x 2 , 2 x 1 2 + 2 x 2 2 + 1 ]

非空闭凸集 C N L , C S Q N L 分别是:

(问题1) C N L : = { x R 2 | | x | 2 1 } , Q N L : = { y R 3 | | y d | 2 1 }

(问题2) C S : = { x R 2 | | x | 0 1 } , Q N L : = { y R 3 | | y d | 2 1 }

其中 d = [ 0 , 1.8 , 3 ] T

本文的数值实验是使用MATLAB2018a在同一台计算机上进行的。图3是针对上述问题,三种算法的迭代路径示意图。对于问题1,本文比较了最大值最小值法(MM),传统投影梯度算法(Projected Gradient Method)和本文提出的算法2在不同初始点的迭代次数与计算时间的差异。从表1可以看出,与其他两种算法相比,MM法需要更多的迭代才能到达求解区域。与算法2相比,PGM的迭代路径明显更“曲折”。图4中迭代次数与目标函数值的比较图。可以看出,算法2,PGM和MM方法可以使目标函数值在先前的迭代中迅速减小到较小的值,但是MM需要更多的迭代次数,PGM在迭代的上一步中,函数值将反弹,算法2迅速收敛到0,从而获得良好的结果。表1列出了一些特殊的初

Figure 3. Comparison of iterative paths of the three algorithms under different initial points

图3. 不同初始点下三种算法的迭代路径比较图

始点对三种算法的迭代次数,迭代时间和最终目标函数值的影响。可以看出,不同的初始点对MM方法有很大的影响,PGM也显示出一定的波动性。在这种情况下,本文提出的算法2具有良好的性能,影响最小。

Table 1. Comparison table of solving efficiency of three methods for more special initial points

表1. 较特殊初始点的三种方法求解效率比较表

Figure 4. The change of the objective function value of different algorithms in the iterative process

图4. 不同算法在迭代过程中目标函数值的变化情况

4.2. 不同步长选取策略

算法中步长的选取方式有所不同 [25],本文主要考虑如下求解步长的方法

1) 经典条件梯度法步长: λ ω = 2 / k + 2

2) 简单平均步长: λ α = 1 / k + 1

3) 常数步长: λ c = λ ^

4) 线搜索步长(算法2): λ L S

5) 最小步长选取法: λ min = { 1 , ( x k s k ) T f ( x k ) 2 x k s k 2 }

我们分析了五种步长选择策略在非线性分裂可行问题中的表现情况,不同步长下的迭代次数比较表如表2所示,图5则对比了迭代过程中目标函数的变化过程情况。

Table 2. Comparison table of various algorithm values under different step length

表2. 不同步长下算法各项数值的比较表

Figure 5. Schematic diagram of the iterative process under asynchronous length

图5. 不同步长下迭代过程示意图

5. 结论

本文主要研究利用带线搜索的条件梯度法求解非线性分裂可行问题,根据理论和数值实验的结果,算法在迭代次数、运算时间和实现的可行性方面,优于其他投影类算法,并且灵活性更强。本文仅使用MATLAB中的优化工具箱,没有针对本算例使用特定的方法求解,在求解迭代方向时,可以运用不同的方法,以实现对不同问题的更有效解决方案。对于步长的线搜索,本文使用Armijo线搜索。在以后的研究中,对于更复杂的高纬度问题,可尝试使用非单调线搜索来避免迭代向量非常接近集合的交点时出现的折线步太多的情况。

文章引用

宇振盛,王子伦. 条件梯度法求解非线性分裂可行问题
Solving Nonlinear Split Feasibility Problem via Conditional Gradient Method[J]. 应用数学进展, 2020, 09(09): 1652-1663. https://doi.org/10.12677/AAM.2020.99192

参考文献

  1. 1. Censor, Y. and Elfving, T. (1994) A Multiprojection Algorithm Using Bregman Projections in a Product Space. Numerical Algorithms, 8, 221-239. https://doi.org/10.1007/BF02142692

  2. 2. Censor, Y., Elfving, T., Kopf, N. and Bortfeld, T. (2005) The Multiple-Sets Split Feasibility Problem and Its Applications for Inverse Problems. Inverse Problems, 21, 2071-2084. https://doi.org/10.1088/0266-5611/21/6/017

  3. 3. Censor, Y., Bortfeld, T., Martin, B. and Trofimov, A. (2006) A Unified Approach for Inversion Problems in Intensity-Modulated Radiation Therapy. Physics in Medicine & Biology, 51, 2353-2365. https://doi.org/10.1088/0031-9155/51/10/001

  4. 4. Byrne, C. (2003) A Unified Treatment of Some Iterative Algorithms in Signal Processing and Image Reconstruction. Inverse Problems, 20, 103-120. https://doi.org/10.1088/0266-5611/20/1/006

  5. 5. Xu, H.-K. (2014) Properties and Iterative Methods for the Lasso and Its Variants. Chinese Annals of Mathematics, Series B, 35, 501-518. https://doi.org/10.1007/s11401-014-0829-9

  6. 6. He, H.J. and Xu, H.-K. (2017) Splitting Methods for Split Feasibility Problems with Application to Dantzig Selectors. Inverse Problems, 33, Article ID: 055003. https://doi.org/10.1088/1361-6420/aa5ec5

  7. 7. Byrne, C. (2002) Iterative Oblique Projection onto Convex Sets and the Split Feasibility Problem. Inverse Problems, 18, 441-453. https://doi.org/10.1088/0266-5611/18/2/310

  8. 8. Guélat, J. and Marcotte, P. (1986) Some Comments on Wolfe’s “Away Step”. Mathematical Programming, 35, 110-119.https://doi.org/10.1007/BF01589445

  9. 9. Shang, M. and Zhang, C. and Xiu, N.H. (2014) Minimal Zero Norm Solutions of Linear Complementarity Problems. Journal of Optimization Theory and Applications, 163, 795-814. https://doi.org/10.1007/s10957-014-0549-z

  10. 10. Byrne, C., Censor, Y., Gibali, A. and Reich, S. (2012) The Split Common Null Point Problem. Journal of Nonlinear and Convex Analysis, 13, 759-775.

  11. 11. Masad, E. and Reich, S. (2007) A Note on the Multiple-Set Split Convex Feasibility Problem in Hilbert Space. Journal of Nonlinear and Convex Analysis, 8, 367-371.

  12. 12. Krasnoselskii, M.A. (1955) Two Remarks about the Method of Successive Approximations. Uspekhi Matematicheskikh Nauk, 10, 123-127.

  13. 13. Robert, M.W. (1953) Mean Value Methods in Iteration. Proceedings of the American Mathematical Society, 4, 506-510. https://doi.org/10.1090/S0002-9939-1953-0054846-3

  14. 14. Xu, H.-K. (2006) A Variable Krasnosel’skii-Mann Algorithm and the Multiple-Set Split Feasibility Problem. Inverse Problems, 22, 2021. https://doi.org/10.1088/0266-5611/22/6/007

  15. 15. Li, Z.B., Han, D.R. and Zhang, W.X. (2013) A Self-Adaptive Projection-Type Method for Nonlinear Multiple-Sets Split Feasibility Problem. Inverse Problems in Science and Engineering, 21, 155-170. https://doi.org/10.1080/17415977.2012.677445

  16. 16. Gibali, A., Küfer, K.H. and Süss, P. (2014) Successive Linear Programing Approach for Solving the Nonlinear Split Feasibility Problem. Journal of Nonlinear and Convex Analysi, 15, 345-353.

  17. 17. Xu, J., Chi, E.C., Yang, M. and Lange, K. (2018) A Majorization-Minimization Algorithm for Split Feasibility Problems. Computational Optimization and Applications, 71, 795-828. https://doi.org/10.1007/s10589-018-0025-z

  18. 18. 畅含笑, 孙军, 屈彪. 带稀疏约束的分裂可行问题的算法[J]. 应用数学进展, 2016, 5(2): 269-275.

  19. 19. Censor, Y., Gibali, A. and Reich, S. (2012) Algorithms for the Split Variational Inequality Problem. Numerical Algorithms, 59, 301-323. https://doi.org/10.1007/s11075-011-9490-5

  20. 20. Frank, M. and Wolfe, P. (1956) An Algorithm for Quadratic Programming. Naval Research Logistics Quarterly, 3, 95-110. https://doi.org/10.1002/nav.3800030109

  21. 21. Freund, R.M. and Grigas, P. (2016) New Analysis and Results for the Frank-Wolfe Method. Mathematical Programming, 155, 199-230. https://doi.org/10.1007/s10107-014-0841-6

  22. 22. Goncalves, M.L.N. and Melo, J.G. (2017) A Newton Conditional Gradient Method for Constrained Nonlinear Systems. Journal of Computational and Applied Mathematics, 311, 473-483. https://doi.org/10.1016/j.cam.2016.08.009

  23. 23. Jaggi, M. (2013) Revisiting Frank-Wolfe: Projection-Free Sparse Convex Optimization. Proceedings of the 30th International Conference on Machine Learning, Atlanta, 17-19 January 2013, 427-435.

  24. 24. Hearn, D.W. (1982) The Gap Function of a Convex Program. Operations Research Letters, 1, 67-71. https://doi.org/10.1016/0167-6377(82)90049-9

  25. 25. Bauschke, H.H. and Borwein, J.M. (1996) On Projection Algorithms for Solving Convex Feasibility Problems. SIAM Review, 38, 367-426. https://doi.org/10.1137/S0036144593251710

期刊菜单