Advances in Applied Mathematics
Vol. 11  No. 03 ( 2022 ), Article ID: 49493 , 9 pages
10.12677/AAM.2022.113119

Stiefel流形上非光滑优化的一种带外推的可变度量邻近梯度算法

张金超

河北工业大学,理学院,天津

收稿日期:2022年2月18日;录用日期:2022年3月14日;发布日期:2022年3月21日

摘要

本文针对Stiefel流形上一类目标函数为光滑损失函数与非光滑函数之和的非凸优化问题,提出了一种基于收缩的可变度量惯性邻近梯度算法。所提出的算法在已有的加速黎曼邻近梯度算法基础上,引入了对角Barzilai-Borwein类步长策略,该策略可以更好的捕获问题的局部几何信息,进一步加速算法的收敛。理论上,证明了算法全局收敛到稳定点。最后,本文给出了稀疏主成分分析问题的数值结果,验证了该方法的有效性。

关键词

非凸非光滑优化,变尺度,惯性邻近梯度算法,Stiefel流形

A Variable Metric Proximal Gradient Method with Extrapolation for Nonsmooth Optimization over the Stiefel Manifold

Jinchao Zhang

School of Science, Hebei University of Technology, Tianjin

Received: Feb. 18th, 2022; accepted: Mar. 14th, 2022; published: Mar. 21st, 2022

ABSTRACT

In this paper, we propose a retraction based variable metric inertial proximal gradient method for solving a class nonconvex optimization problem over the Stiefel manifold whose objective function is the summation of a smooth cost function and a nonsmooth function. Based on existing inertial Riemannian proximal gradient method, the proposed method introduces a metric changing called diagonal Barzilai-Borwein step-size strategy at each iteration, which can better capture the local geometric of this class problem and accelerate the convergence of the algorithm. Theoretically, we show that the proposed method globally converges to a stationary point. Numerical results on solving sparse PCA problem is reported to demonstrate the efficiency of the proposed method.

Keywords:Nonconvex Nonsmooth Optimization, Variable Metric, Inertial Proximal Gradient Method, Stiefel Manifold

Copyright © 2022 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

本文主要考虑以下具有Stiefel流形约束的一类非凸非光滑优化问题:

min F ( x ) : = f ( x ) + g ( x ) s .t . x M (1)

其中函数 f : M 是可微的但可能是非凸的,函数 g : M 是连续的但也可能是非光滑的。可行集 M : = S n , p = { X : X n × p , X T X = I p } 称为Stiefel流形,也称为正交约束,其中 I p 记为p阶单位阵( p n )。

Stiefel流形上的非光滑优化问题由于其在各个领域的广泛应用引起了许多研究者的注意。例如,在统计与数据科学中的稀疏主成分分析问题 [1];物理中的压缩模问题 [2];图像领域中的盲去卷积问题 [3] 以及机器学习中的无监督特征选取 [4] 等问题,其本质都是Stiefel流形上的非光滑优化问题。更多的相关应用,我们推荐读者参考文献 [5]。

通常情况下,由于其目标函数的不可微性和流形约束的非凸性,问题(1)是较难求解的。对于部分问题已经证明是NP-难的 [6]。求解问题(1)的数值算法相较于目标函数是光滑形式的算法是有限的,目前已有的算法包括次梯度类算法 [7] [8]、算子分裂算法 [9] [10] 以及邻近梯度算法 [11] [12]。然而,上述所提到的算法存在着寻找下降方向成本高、缺乏收敛性分析、对参数敏感等问题。众所周知,对于目标函数为光滑损失函数与非光滑连续函数之和的复合结构,当其对应的邻近算子容易求解时,邻近梯度算法是求解该类问题的最有效方法之一。然而,由于问题(1)中Stiefel流形的约束,此时邻近算子是没有显式解的。针对这一问题,最近Chen等 [13] 提出了一种基于收缩的邻近梯度算法,其中下降方向是由限制在Stiefel流形切空间中的邻近子问题决定。尽管该子问题没有显示解,作者通过将其转换为一个非线性方程系统,进而采用正则的半光滑牛顿法 [14] 高效求解。随后,Huang等 [15] 将快速迭代收缩阈值算法(FISTA)从欧氏空间推广到黎曼空间中。进一步,Huang等 [16] 在2021年针对一般的黎曼流形研究了邻近梯度算法及其Nesterov加速版本,作者进一步借助Kurdyka-Łojasiewicz不等式性质分析了所提出算法的局部收敛率。虽然上述文献中均假设目标函数中光滑部分是梯度Lipschitz连续的,然而在实际问题中,其Lipschitz常数的精确计算并不是容易的。

受文献 [17] [18] 的启发,本文基于上述研究成果,提出了一种可变度量的惯性邻近梯度算法求解问题(1),所提出的算法采用对角化的Barzilai-Borwein (BB)步长估计Lipschitz常数,同时结合Nseterov动量项进一步加速算法收敛,并给出收敛性分析。最后,在稀疏主成分分析问题中的数值结果验证了我们的方法是有效的。

2. 预备知识

本节引入一些流形优化的基本定义和概念。

定义 1 (收缩映射) 一个光滑映射 Retr X : T X M M 满足

1) Retr X ( 0 ) = X , X M ,其中0定义为 T X M 的零元素;

2) 对于任意的 X M ,有如下极限成立:

lim 0 ξ T X M Retr X ( ξ ) ( X + ξ ) F ξ F = 0 ,

Retr X 被称为收缩映射。

定义2 (广义Clarke次微分)对于一个定义在 M 上的局部Lipschitz函数F,则F在 X M 处方向V上的黎曼方向导数定义为:

F ( X , V ) = lim Y X , t 0 sup F ϕ 1 ( ϕ ( Y ) + t D ϕ ( X ) [ V ] ) F ϕ 1 ( ϕ ( Y ) ) t ,

其中 ( ϕ , U ) 是在X处的坐标卡。则函数F在 X M 处的广义梯度或者Clarke次微分表示为 ^ F ( X ) = { ξ T X M : ξ , V F ( X , V ) V T X M }

由于F是正则函数,本文有 ^ F ( X ) = Proj T X M ( F ( X ) ) ,其中 Proj T X M 是正交投影。进一步我们可以得出问题(1)的一阶最优性条件,即 0 g r a d f ( X ) + Proj T X M ( g ( X ) ) ,其中 ( · ) 表示为欧式空间中的次微分。

3. 可变度量的惯性邻近梯度算法

本节中,我们提出Stiefel流形约束优化问题可变度量的惯性邻近梯度算法。

为了满足约束,本文的算法通过更新迭代

X k + 1 = Retr X k ( α k d k ) (2)

来保持可行性,其中 α k 是由Armijo条件决定的, d k 是搜索方向。如同文献 [13] 中所示,搜索方向 d k 是由如下限制在切空间中的邻近子问题所决定

d k = arg min d T X k M g r a d f ( X k ) , d + L 2 d F 2 + g ( X k + d ) , (3)

其中L为可微函数f的梯度Lipschitz常数。

具体地,本文类似于无约束优化中的情况,首先给出如下的长和短BB步长:

α k + 1 B B 1 = arg min α α 1 S k Y k F = t r ( S k T S k ) | t r ( S k T Y k ) | ,

α k + 1 B B 2 = arg min α S k α Y k F = t r ( S k T Y k ) | t r ( Y k T Y k ) |

其中 S k = X k + 1 X k Y k = d k + 1 d k 。这里下降方向 d k + 1 d k 分别是限制在不同切空间中邻近子问题的解。为了更好的获取函数f的Hessian信息,采用如下在第k次迭代中计算得出的度量 U k = D i a g ( u k ) u k = [ u 1 k , , u n k ] n ,其中

u i k = { 1 α k B B 1 S k i Y k i + υ u i k 1 ( S k i ) 2 + υ < 1 α k B B 1 1 α k B B 2 S k i Y k i + υ u i k 1 ( S k i ) 2 + υ > 1 α k B B 2 S k i Y k i + υ u i k 1 ( S k i ) 2 + υ (4)

此时,邻近子问题(3)就变为

d k = arg min d T X k M g r a d f ( X k ) , d + L 2 d , U k d + g ( X k + d ) (5)

该子问题仍采用半光滑牛顿法求解。接下来,我们给出求解问题(1)的可变度量惯性邻近梯度算法。

算法1. 可变度量惯性邻近梯度法

VM-AManPG算法:

步0:初始化 X 0 M ,线搜索参数 δ σ ( 0 , 1 ) ,超参数 υ > 0 ,保护步中正整数M, t 0 = 1

步1: Y 0 = X 0 Z 0 = X 0

步2:for k = 0 , do

步3: ifmod(k, M)=0 then

步4: 调用算法2: [ Z k + M , X k , Y k , t k ] = Alg 2 ( Z k + M , X k , Y k , t k , F ( X k ) )

步5: end if

步6:通过半光滑牛顿法求解子问题(5)得出下降方向 d k

步7:步通过式(2)更新 X k + 1

步8: t k + 1 = 4 t k 2 + 1 + 1 2

步9:计算 Y k + 1 = Retr X k + 1 ( 1 t k t k + 1 Retr X k + 1 1 ( X k ) )

步10:end for

注1. 其中VM-AManPG算法步骤9中的收缩映射 Retr ( · ) 本文考虑使用极分解,

Retr X p o l a r ( ξ ) = ( X + ξ ) ( I p + ξ T ξ ) 1 / 2 ,且该收缩的逆是存在的。众所周知,惯性邻近梯度法是非单调的,

基于文献 [15],本文同样采用重启策略使得算法VM-AManPG是满足下降性的。

算法2. 算法1.的保护步

VM-AManPG算法:

步0:输入 ( Z k , X k , Y k , t k , F ( X k ) )

步1:计算子问题(5)得到下降方向 d Z k

步2:令 α = 1

步3: while F ( Retr Z k ( α d Z k ) ) > F ( Z k ) σ α d Z k F 2 do

步4: α = δ α

步5: end while

步6:若 F ( Retr Z k ( α d Z k ) ) < F ( X k )

步7: X k = Retr Z k ( α d Z k ) Y k = Retr Z k ( α d Z k ) t k = 1

步8:否则 X k Y k t k 若保持不变;

步9:输出 Z k + M = X k

4. 收敛性分析

本节中分析了VM-AManPG算法的收敛性质。在正式给出结论之前,本文需要做出如下的假设。

假设1. 函数f是可微的,且其梯度 f 是Lipschitz连续的有常数L。函数g是凸非光滑的,并且是Lipschitz连续的。

假设2. 函数F是强制的,即当 X F F ( X ) +

假设3. 存在两个正常数 0 < γ < γ ¯ ,使得对角矩阵U在任意点 X k 处的特征值满足在 γ , γ ¯ 范围内。

引理1:序列 { Z k } , { d k } 分别是由算法VM-AManPG生成的迭代序列,当假设1成立时,存在常数 α ¯ 使得对任意的 0 < α min ( 1 , α ¯ ) ,满足

F ( Retr Z k ( α d k ) ) F ( Z k ) α L 2 d k F 2

上述引理说明算法1是有定义的。事实上,算法1中序列 { Z k } 的下标为 k + M 。当本文中所采用的对角BB步长矩阵 U k 为单位阵时,子问题(5)退化为文献 [13] 中所求解的子问题,此时,文献 [13] 中的结论在本文中都成立。进一步假设3成立的条件下,无论 U k 是否为单位阵,上述引理都是成立的。

定理1:在假设1、2和假设3成立的条件下,序列 { Z k } 是由算法1产生的迭代序列。令 Z * 是序列 { Z k } 的任意聚点,则有

0 Proj T Z M F ( Z * )

即序列 { Z k } 的任意聚点是问题(1)的一个稳定点。

证明:在假设1和假设2条件下,由于Stiefel流形是紧集,则次水平集 Ω X 0 = { X M | F ( X ) F ( X 0 ) }

是紧的,由于假设函数F是强制的,所以次水平集 Ω X 0 是有界的。进一步由于F是连续函数,则F在次水平集 Ω X 0 是有界的。

当下降方向 d k = 0 时,根据子问题(5)的最优性条件有

0 g r a d f ( Z k ) + 1 t U k d k + Proj T Z M g ( Z k + d k ) (6)

成立,这恰好是原问题(1)的一阶必要性条件。接下来我们就说明序列 { d k } 是满足 lim k d k F = 0

根据算法2中步骤3的Armijo条件,有 F ( Z k + 1 ) < F ( Z k ) ,即函数序列 { F ( Z k ) } 是单调下降的,进一步,由于函数F是有下界的,则序列 { F ( Z k ) } 的极限存在,有

lim k F ( Z k ) F ( Retr Z k ( α d k ) ) = 0

结合引理1,则有 lim k d k F = 0 成立。

由子问题(5)的最优性条件(6),在式(6)两边分别加上 g r a d f ( Z k + d k ) ,可得

g r a d f ( Z k + d k ) g r a d f ( Z k ) 1 t U k d k Proj T Z M g ( Z k + d k ) + g r a d f ( Z k + d k ) = Proj T Z M F ( Z k + d k ) (7)

且有

g r a d f ( Z k ) g r a d f ( Z k + d k ) + 1 t U k d k F = Proj T Z M f ( Z k ) Proj T Z M f ( Z k + d k ) + 1 t U k d k F ( L + 1 t ) d k U k 0 (8)

k 时,其中 Proj T Z M ( · ) 为光滑映射,满足范数不等式。

{ Z k i } { Z k } 的子序列且收敛到 Z * 。接下来我们证明 0 Proj T Z M F ( Z * ) 。根据式(7),存在序列 { τ k } N Z k M ,其中 N Z k M 为流形 M 在点 Z k 处的法空间,于是有

g r a d f ( Z k + d k ) g r a d f ( Z k ) 1 t U k d k + τ k F ( Z k + d k )

进一步结合当 i 时, { Z k i } Z * ,则有

g r a d f ( Z k i + d k i ) g r a d f ( Z k i ) 1 t U k i d k i + τ k i F ( Z k i + d k i )

由于目标函数F在紧集 Ω X 0 上是连续的,则存在常数 G > 0 使得 max Z Ω X 0 max ω F ( Z ) ω F < G ,于是有 τ k i F < G ,存在收敛子列 { τ k i j } 且极限点为 τ * 。则当 j 时,有

g r a d f ( Z k i j + d k i j ) g r a d f ( Z k i j ) 1 t U k i j d k i j + τ k i j τ *

以及 Z k i j + d k i j Z * 。因此有 0 F ( Z * ) ,进一步根据投影 Proj N Z M 是光滑的,有

Proj N Z k i j M τ k i j Proj N Z * M τ *

所以,我们可以得出 0 Proj T Z * F ( Z * )

5. 数值实验

本节中,我们将在数据分析领域中的稀疏主成分分析问题上验证算法的有效性。所有的数值实验均是通过运行环境为64bit Ubuntu platform,CPU (Intel Core i5-5200U)为2.20GHz的Matlab R2019a实现。

稀疏主成分分析(SPCA)已经成为一种强大的数据分析技术,通过识别数据中的本地空间结构和消除不同时间尺度之间的歧义,提供对低秩结构的改进描述。该问题在文献 [1] 中经过离散化,可以转化为如下的模型:

min Tr ( X T A T A X ) + μ X 1 s .t . X S n , p ,

其中矩阵 A m × n X 1 = i j | X i j | μ > 0 是正则化参数,可以控制上述模型的稀疏性。

本文通过与最新的算法ManPG-Ad [13],AManPG [15],ARPG [16] 进行比较来验证所提出算法的有效性。在数值实验中,算法VM-AManPG的参数设置如下:上述算法的终止条件均设置为

d k / t F 2 ε : = 10 8 n p 。超参数 υ = 2 ,线搜索参数 δ = 0.5 σ = 0.001 ,常数 L = 4 A F 2 ,参数 M = 5 。另

外,算法ManPG-Ada,AManPG ,ARPG 的相关参数均保持为文献中的默认值。

在数值试验中,通过两类不同的数据测试算法。第一类是采取随机数据,即矩阵A和变量X都是随机生成的,对于数据矩阵A,其生成方式为:首先产生随机矩阵 A = randn ( m , n ) ,且使该矩阵的列均值为0,最后使其列的欧氏范数等于1。在所有的测试中均令 m = 50 。第二类是采用文献 [15] 中真实的DNA数据集,其变量维数 n = 24589 m = 113 p = 4

本文首先基于随机生成的数据,通过选取不同的变量维数n,p和正则化参数 μ 来测试算法VM-AManPG的性能。分别从表1表2表3中我们可以发现,VM-AManPG无论在CPU时间上还是在迭代次数上都明显的优于算法ManPG-Ada、AManPG和ARPG。数值结果表明,VM-AManPG具有明显的加速效果,并且说明了对角BB步长策略的有效性。

Table 1. Comparison on SPCA model with varies n with p = 5 and regular parameter μ = 0.5

表1. 在SPCA模型上不同变量维数n,其中维数 p = 5 ,正则化参数 μ = 0.5 地比较

Table 2. Comparison on SPCA model with varies p with n = 5000 and regular parameter μ = 0.5

表2. 在SPCA模型上不同变量维数p,其中维数 n = 5000 ,正则化参数 μ = 0.5 地比较

Table 3. Comparison on SPCA model with varies regular parameter μ with n = 3000 and p = 5

表3. 在SPCA模型上不同正则化参数 μ ,其中维数 n = 3000 p = 5 地比较

接下来我们采用真实DNA数据集,通过选取不同的正则化参数 μ 评估算法性能。数值结果如表4所示,我们所提出的算法与已有的算法相比较,满足相同终止条件所需的CPU时间和迭代次数都具有明显的优势。

Table 4. Comparison on SPCA model with varies regular parameter μ , DNA data n = 24589 , m = 113 , p = 4

表4. 在SPCA模型上不同正则化参数 μ ,DNA 数据 n = 24589 m = 113 p = 4 地比较

6. 总结

本文针对一类在Stiefel流形上的非凸非光滑优化问题,提出了一种可变度量的惯性邻近梯度算法。通过将欧氏空间中的对角Barzilai-Borwein类步长策略推广到Stiefel流形上可以进一步加速算法收敛,在一定的假设条件下,可以证明算法全局收敛到原问题的一个稳定点。数值实验表明,无论是在随机数据还是在真实数据集中的数值结果,我们所提出的算法在求解效率上都具有一定的优势。

文章引用

张金超. Stiefel流形上非光滑优化的一种带外推的可变度量邻近梯度算法
A Variable Metric Proximal Gradient Method with Extrapolation for Nonsmooth Optimization over the Stiefel Manifold[J]. 应用数学进展, 2022, 11(03): 1107-1115. https://doi.org/10.12677/AAM.2022.113119

参考文献

  1. 1. Erichson, N.B., Zheng, P., Manohar, K., Brunton, S.L., Kutz, J.N. and Aravkin, A.Y. (2020) Sparse Principal Compo-nent Analysis via Variable Projection. SIAM Journal on Applied Mathematics, 80, 977-1002. https://doi.org/10.1137/18M1211350

  2. 2. Barekat, F. (2014) On the Consistency of Compressed Modes for Variational Problems Associated with the Schrödinger Operator. SIAM Journal on Mathematical Analysis, 46, 3568-3577. https://doi.org/10.1137/130942747

  3. 3. Zhang, Y., Lau, Y., Kuo, H.-W., Cheung, S., Pasupathy, A. and Wright, J. (2017) On the Global Geometry Ofsphere-Constrained Sparse Blind Deconvolution. 2017 IEEE Con-ference on Computer Vision and Pattern Recognition, Honolulu, 21-26 July 2017, 4381-4389. https://doi.org/10.1109/CVPR.2017.466https://par.nsf.gov/biblio/10203504

  4. 4. Tang, J. and Liu, H. (2012) Unsupervised Feature Selection for Linked Social Mediadata. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, 12-16 August 2012, 904-912. https://doi.org/10.1145/2339530.2339673https://dl.acm.org/doi/10.1145/2339530.2339673

  5. 5. Absil, P.-A. and Hosseini, S. (2019) A Collection of Nonsmooth Riemannian Optimization Problems. In: Hosseini, S., Mordukhovich, B. and Uschmajew, A., Eds., Nonsmooth Optimization and Its Applications, International Series of Numerical Mathematics, Vol. 170, Birkhäuser, Cham, 1-15. https://doi.org/10.1007/978-3-030-11370-4_1

  6. 6. Hu J, Jiang, B., Liu, X. and Wen, Z.W. (2016) A Note on Semidenite Programming Relaxations for Polynomialoptimization over a Single Sphere. Science China Mathematics, 59, 1543-1560. https://doi.org/10.1007/s11425-016-0301-5

  7. 7. Li, X., Chen, S., Deng, Z., Qu, Q., Zhu, Z. and So, A.M.-C. (2021) Weakly Convex Optimization over Stiefel Manifold Using Riemannian Subgradient-Type Methods. SIAM Journal on Optimization, 31, 1605-1634. https://doi.org/10.1137/20M1321000https://epubs.siam.org/doi/10.1137/20M1321000

  8. 8. Hosseini, S. and Uschmajew, A. (2017) A Riemannian Gradient Sampling Algorithm for Nonsmooth Optimization on Manifolds. SIAM Journal on Optimization, 27, 173-189. https://doi.org/10.1137/16M1069298https://epubs.siam.org/doi/abs/10.1137/16M1069298

  9. 9. Lai, R. and Osher, S. (2014) A Splitting Method for Orthogonality Constrained Problems. Journal of Scientific Computing, 58, 431-449. https://doi.org/10.1007/s10915-013-9740-x

  10. 10. Chen, W., Ji, H. and You, Y. (2016) An Augmented Lagrangian Method for -Regularized Optimization Problems with Orthogonality Constraints. SIAM Journal on Scientific Com-puting, 38, B570-B592. https://doi.org/10.1137/140988875https://epubs.siam.org/doi/abs/10.1137/140988875

  11. 11. Ferreira, O.P. and Oliveira, P.R. (2002) Proximal Point Algorithm on Riemannian Manifold. Optimization, 51, 257-270. https://doi.org/10.1080/02331930290019413

  12. 12. Bento, G.C., Cruz Neto, J.X. and Oliveira, P.R. (2016) A New Approach to the Proximal Pointmethod: Convergence on General Riemannian Manifolds. Journal of Optimization Theory and Applications, 168, 743-755. https://doi.org/10.1007/s10957-015-0861-2

  13. 13. Chen, S., Ma, S., Man-Cho So, A. and Zhang, T. (2020) Proxi-mal Gradient Method for Nonsmooth Optimization over the Stiefel Manifold. SIAM Journal on Optimization, 30, 210-239. https://doi.org/10.1137/18M122457Xhttps://epubs.siam.org/doi/abs/10.1137/18M122457X

  14. 14. Xiao, X., Li, Y., Wen, Z. and Zhang, L. (2018) A Regularized Semi-Smooth Newton Method with Projection Steps for Composite Convex Programs. Journal of Scientific Computing, 76, 364-389. https://doi.org/10.1007/s10915-017-0624-3

  15. 15. Huang, W. and Wei, K. (2022) An Extension of Fast Iterative Shrinkage-Thresholding Algorithm to Riemannian Optimization for Sparse Principal Component Analysis. Numerical Linear Algebra with Applications, 29, Article No. e2409. https://doi.org/10.1002/nla.2409

  16. 16. Huang, W. and Wei, K. (2021) Riemannian Proximal Gradient Methods. Mathematical Programming, 1-43. https://doi.org/10.1007/s10107-021-01632-3

  17. 17. Bonettini, S., Porta, F. and Ruggiero, V. (2016) A Variable Metric Forward-Backward Method with Extrapolation. SIAM Journal on Scientific Computing, 38, A2558-A2584. https://doi.org/10.1137/15M1025098https://epubs.siam.org/doi/10.1137/15M1025098

  18. 18. Park, Y., Dhar, S., Boyd, S. and Shah, M. (2020) Variable Metric Proximal Gradient Method with Diagonal Barzilai-Borwein Stepsize. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, Barcelona, 4-8 May 2020, 3597-3601. https://doi.org/10.1109/ICASSP40776.2020.9054193https://ieeexplore.ieee.org/document/9054193

期刊菜单