Operations Research and Fuzziology
Vol. 09  No. 01 ( 2019 ), Article ID: 28772 , 7 pages
10.12677/ORF.2019.91008

GEP-MSCRA for a Kind of Zero-Norm Regularized Composite Optimization Problem

Peiwen Lv

South China University of Technology, Guangzhou Guangdong

Received: Jan. 14th, 2019; accepted: Jan. 26th, 2019; published: Feb. 2nd, 2019

ABSTRACT

This article starts from the variational characterization of zero-norm, then changes such a combination optimization problem to an equivalent model which has bi-linear structure and global Lipschitz continuous. This article also designed multi-stage convex relaxation methods to solve the zero-norm regularized composite optimization problem, and analyzed the convergence for it.

Keywords:Zero-Norm Regularization, MPEC Problem, Exact Penalty, Multi-Stage Convex Relaxation

一类零模正则复合优化问题的多阶段 凸松弛法

吕佩雯

华南理工大学,广东 广州

收稿日期:2019年1月14日;录用日期:2019年1月26日;发布日期:2019年2月2日

摘 要

本文从零模函数的变分刻画入手,将这类带有组合性质的优化问题等价转化为具有拟双线性结构且全局Lipshitz连续的优化模型,以此设计了求解零模正则化复合优化问题的多阶段凸松弛方法,并对该方法进行了收敛性分析。

关键词 :零模正则化,MPEC问题,精确罚,多阶段凸松弛

Copyright © 2019 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在过去几十年,高维回归在基因学、金融、图像处理、气候科学、传感器网络等领域有着广泛应用。经典的高维线性回归模型假设预测变量的维数n总是大于样本的数量m,尽管有效的预测变量的维数s总是远小于n的。零模正则化在统计、机器学习、信号与图像处理、稀疏模型选择和误差修正、金融工程及量子计算等领域中有着广泛的应用。这种非凸正则为稀疏恢复提供了一种有效的方法。然而,在高维的问题中却很难分析。

2. 零模正则复合优化问题

2.1. 零模正则问题

R n 是赋予了内积 , 及诱导范数 的有限维向量空间。考虑零模正则规划:

(1)

其中 ν > 0 是正则项系数, ψ : R m ( , + ] 为连续可微强凸函数, A : = [ a 1 T , a 2 T , , a m T ] T R m × n 为设计矩阵, c 为已知向量, μ > 0 为任意小的常数, x R n 为系数向量, x 0 为向量 x 中非零元个数。该模型将为以后的逻辑回归研究作铺垫 [1] [2]。记,则函数 f 是全局Lipschitz连续的,记其Lipschitz常数为 L f [3]。由于零模函数的不连续性和非凸性质,(1)这种问题通常是NP难的,难以求得其全局最优解。一个常用的处理方法是使用凸松弛技术,这种方法通过解一个或一系列在数值上易于处理的凸优化问题来产生一个理想的局部最优解或至少一个可行解。

2.2. 零模问题的等价Lipschitz替代

本文将从问题(1)的等价MPEC问题和这个MPEC问题的全局精确罚问题中得到解估计 x ^ ,并证明 x ^ 可以通过求解一个精确罚问题得到。令 Φ 代表闭适当凸函数 φ : R ( + ] [ 0 , 1 ] int ( d o m ϕ ) 的函数

族,其中 ϕ 满足下面的条件: ϕ ( 1 ) = 1 1 > t = arg min 0 t 1 ϕ ( t ) 且这样的 t 是唯一的。

t ¯ ( ϕ ) 1 ( 1 1 t ) [ t , 1 ) 中的最小元素,由下面引理(参考文献 [4] 引理5)可知这样的 t ¯ 存在:

引理1:令 ϕ Φ ,存在 使得 ,且对任意给定的 ω 0 ρ > 0 ,最优值 v : = min t [ 0 , 1 ] { ϕ ( t ) + ρ ω ( 1 t ) } 满足:

{ v = 1 , v ρ ω ( 1 t 0 ) ϕ ( 1 ) ( 1 t ) , v ρ ω ( 1 t 0 ) , ρ ω ( ϕ ( 1 ) , + ) ; ρ ω [ 1 1 t , ϕ ( 1 ) ] ; ρ ω [ 0 , 1 1 t ) .

下面将说明对任意 ϕ Φ ,问题(1)可以重写为一个等价MPEC问题。不难验证:对任意给定的 x R n ϕ Φ

x 0 = min θ R n { i = 1 n ϕ ( θ i ) : x 1 θ , | x | = 0 , 0 θ e } (2)

因此问题(1)等价于:

min x R n , θ R n { ν f ( x ) + i = 1 n ϕ ( θ i ) : e θ , | x | = 0 , 0 θ e } (3)

假设问题(1)有非空全局最优解集且最优值为 ϖ ,由文献 [4] 可得如下引理:

引理2:令 ϕ Φ ,零模正则问题(1)等价于问题(3)。当 x 是问题(1)的全局最优解时, ( x , max ( s i g n ( | x | ) , t e ) ) 是问题(3)的全局最优解且最优值等于 ϖ ;相反的,若 ( x , θ ) 是问题(3)的全局最优解,那么 x 是问题(1)的全局最优解且 x 0 = i = 1 n ϕ ( θ i )

问题(3)的可行集中包含着如下互补约束: e θ 0 | x | 0 e θ , | x | = 0 。这说明零模正则化问题也是一个带有互补约束的数学规划问题(MPEC),但是MPEC在优化中也是一类很难的问题。虽然(3)的目标函数比原问题(1)简单,但却含有非凸互补约束 e θ , | x | = 0 ,这将比非凸目标函数更难处理。为解决这个非凸约束,考虑问题(3)的罚问题:

min x R n , θ [ 0 , e ] { v f ( x ) + i = 1 n [ ϕ ( θ i ) + ρ ( 1 θ i ) | x i | ] } (4)

其中 ρ > 0 是罚参数。下面的定理将说明问题(4)是问题(3)的全局精确罚,即它们有相同的全局最优解集 [4]。

定理1:令 ϕ Φ 。对所有 ρ > ρ ¯ = v L f ( 1 t ) ϕ ( 1 ) 1 t ¯ ,有 S ρ = S 。这里 S ρ 是与 ρ 相关的问题(4)的全局最优解集, S 是问题(3)的全局最优解集。

由定理1,零模正则问题(1)的解估计量 x ^ 可在 ρ > ρ ¯ 时,由求解问题(4)得到,即:

( x ^ , θ ^ ) min x R n , θ [ 0 , e ] { v f ( x ) + i = 1 n [ ϕ ( θ i ) + ρ ( 1 θ i ) | x i | ] } ,其中 ρ > ρ ¯ (5)

由于 [ 0 , 1 ] int ( d o m φ ) ,函数 [ 0 , e ] 上是Lipschitzian连续的,所以问题(5)在其可行集 上也是Lipschitzian连续的。对任意 ϕ Φ ,定义相应的函数 ϕ : = R ( , + ] :若 φ ( t ) = ϕ ( t ) ;若 t [ 0 , 1 ] φ ( t ) = + 。问题(5)可以重新写为更简便的形式:

min x R n , θ R n { v f ( x ) + ρ x 1 + i = 1 n [ ϕ ( θ i ) ρ θ i | x i | ] }

由共轭函数的定义和以上讨论,可以得到:

x ^ arg min x R n { v f ( x ) + ρ x 1 i = 1 n φ ( ρ | x i | ) } ,其中 ρ > ρ ¯ (6)

这意味着下面的函数是 x 0 的等价DC替代: Θ ( x ) : = ρ x 1 i = 1 n φ ( ρ | x i | )

3. 多阶段凸松弛法

从上一节可知,求解零模正则化问题的解估计 x ^ ,对于 ϕ Φ ρ > ρ ¯ 时,可由求解罚问题(5)得到。当给定 v > 0 时,阀值 ρ ¯ > 0 是容易计算得到的。对一个给定的 ρ > ρ ¯ ,虽然罚问题(5)是非凸的,但是这种结构使得它比零模正则化问题更好解决。特别的,当变量 θ 选定时,问题(5)退化为关于 x 的凸的极小化问题;当变量 x 选定时,问题(5)退化为关于 θ 的凸的极小化问题,后面将看到这样的问题是有闭式解的。基于此,本文将通过使用多阶段凸松弛法交替求解问题(5)来得到解估计 x ^ [5]。

算法1. (GEP-MSCRA求解 x ^ )

Step 0:取 ϕ Φ v > 0 和初始点 θ 0 [ 0 , t ¯ e ] 。置 k : = 1

Step 1:令 v k 1 = e θ k 1 并计算下面的极小化问题: x k arg min x R n { f ( x ) + λ i = 1 n v i k 1 | x i | } (7)

k = 1 ,由 x 1 的取值选取参数并使 λ = ρ v 1

Step 2:计算下面的极小化问题: θ k arg min θ [ 0 , e ] { i = 1 n [ ϕ ( θ i ) ρ θ i | x i k | ] } (8)

Step 3:置 k k + 1 ,返回(S. 1)步。

注1:由函数 φ 的定义, θ k 是(8)的最优解当且仅当 θ i k φ ( ρ | x i k | ) i = 1 , , n 。由于 φ 是R上的凸函数,次微分 φ ( ρ | x i k | ) 是容易求得的。因此,多阶段凸松弛法每次迭代的计算难度都在于解决问题(7),即一个加权 L 1 范数正则化问题 [6] [7] [8]。这是一类凸优化问题,它可以通过标准的凸优化方法求解,比如:增广拉格朗日法,内点法 [9],IRLS-LARS [10],路径跟踪法,迭代加权最小二乘法等。对于多阶段凸松弛法,下面的命题(参考文献 [4] 注释3.1)说明一旦满足互补条件,迭代点 x k 就是原问题(1)的局部最优解。

命题1:对任意的 k 1 ( x k , θ k ) 为算法1生成的迭代点。若 i = 1 n ( 1 θ i k 1 ) | x i k | = 0 ,则 x k 是原问题(1)的局部最优解;且当 i = 1 n ϕ ( θ i k 1 ) = x k 0 时,对于 ρ > ρ ¯ ( x k , max ( s i g n ( | x k | ) , t e ) ) 是问题(5)的局部最优解。

4. 理论分析

这节内容主要关注在限制强凸条件下,针对 f ( x ) : = ψ ( A x ) + c , x + μ 2 x 2 ,多阶段凸松弛法的收敛性分析。假设 x ¯ 是真实解,本文将建立迭代点 x k 到真实解 的误差界,并证明误差数列随着 k 的增长是严格下降的。记 S ¯ : = { i : x ¯ i 0 } r ¯ = | S ¯ | = x ¯ 0 < n ,则 S ¯ c : = { i : x ¯ i = 0 } 。对 S ¯ 和整数 ,定义集合:

C ( S ¯ , l ) : = { x R n : S S ¯ | S | l , 使 i S c | x i | 2 1 t ¯ i S | x i | }

若矩阵A满足:对任意 x C α 2 A x 2 κ x 2 成立,则称矩阵A在集合 C 上满足 ,其中 κ > 0 。假设噪音向量 ε 中的元素是独立次高斯的,则下面的假设成立:

假设1:假设 ε i ( i = 1 , , m ) 是独立次高斯分布的,即:存在 σ > 0 ,使得对所有 i t R

E [ exp ( t ε i ) ] exp ( σ 2 t 2 2 )

为给出每一迭代步 x k 到真实解 x ¯ 的误差界,需要将参考文献 [4] 引理7,8拓展为下面一些引理:

引理3:对于 k 1 ,记 Δ k = x k x ¯ 。若存在一个指标集 S k 1 S ¯ ,使得 min i ( S k 1 ) c θ i k 1 t ¯ ,则当 λ ( 3 t ¯ ) ε ^ 1 t ¯ 时,下式成立: i ( S k 1 ) c | Δ i k | 2 1 t ¯ i S k 1 | Δ i k |

证明:对于问题(7), x ¯ 分别代表最优解和可行解,则有:

ψ ( A x k ) + c , x k + μ 2 x k 2 + λ i = 1 n v i k 1 | x i k | ψ ( A x ¯ ) + c , x ¯ + μ 2 x ¯ 2 + λ i = 1 n v i k 1 | x ¯ i |

由于 ε ^ = A T ψ ( A x ¯ ) + c + μ x ¯ ,所以:

ψ ( A x k ) ψ ( A x ¯ ) + c , Δ k + μ 2 ( x k 2 x ¯ 2 ) ε ^ , Δ k ε ^ , Δ k + λ i = 1 n v i k 1 ( | x ¯ i | | x i k | ) i = 1 n | ε ^ i | | Δ i k | + λ i S ¯ v i k 1 ( | x ¯ i | | x i k | ) λ i S ¯ c v i k 1 | x i k | i = 1 n | ε ^ i | | Δ i k | + λ i S ¯ v i k 1 | Δ i k | λ i ( S k 1 ) c v i k 1 | Δ i k | i S k 1 \ S ¯ | ε ^ i | | Δ i k | + ( λ + ε ^ ) i S ¯ | Δ i k | + ( ε ^ λ ( 1 t ¯ ) ) i ( S k 1 ) c | Δ i k | (9)

由于 R m 上是强凸的,即: ψ ( A x k ) ψ ( A x ¯ ) A T ψ ( A x ¯ ) , Δ k α / 2 A Δ k 2 0 ,且 μ / 2 ( x k 2 x ¯ 2 ) μ x ¯ , Δ k = μ / 2 Δ k 2 ,所以,

( λ ( 1 t ¯ ) ε ^ ) i ( S k 1 ) c | Δ i k | i S k 1 \ S ¯ | ε ^ i | | Δ i k | + ( λ + ε ^ ) i S ¯ | Δ i k | ( λ + ε ^ ) i S k 1 | Δ i k | (10)

再由引理条件 λ ( 3 t ¯ ) ε ^ 1 t ¯ ,即可得到不等式。证毕。

引理4:对于 k 1 ,若存在一个指标集 S k 1 S ¯ ,使得 min i ( S k 1 ) c θ i k 1 t ¯ ,且矩阵A在集合 C ( S ¯ | S k 1 | ) 上满足常数 γ k > 0 的限制强凸条件(RSC),则当 λ ( 3 t ¯ ) ε ^ 1 t ¯ 时,下式成立:

Δ k 1 γ k ( ε ^ S k 1 + λ i S ¯ ( v i k 1 ) 2 )

证明:由引理3可知, Δ k C ( S ¯ , | S k 1 | ) ,再由(9)式得到:

γ k Δ k 2 ( γ k + μ / 2 ) Δ k 2 i = 1 n | ε ^ i | | Δ i k | + λ i S ¯ v i k 1 | Δ i k | λ i ( S k 1 ) c v i k 1 | Δ i k | i = 1 n | ε ^ i | | Δ i k | + λ i S ¯ v i k 1 | Δ i k | λ ( 1 t ¯ ) i ( S k 1 ) c | Δ i k | i S k 1 | ε ^ i | | Δ i k | + λ i S ¯ v i k 1 | Δ i k | i S k 1 | ε ^ i | 2 Δ k + λ i S ¯ ( v i k 1 ) 2 Δ k (11)

因此,结论得证。证毕。

下面给出迭代点到真实解的误差界。由参考文献 [4] 定理4.1可得:

定理2:令 ε ^ = A T ψ ( A x ¯ ) + c + μ x ¯ ,假设矩阵A在集合 C ( S ¯ , 1.5 r ¯ ) 上满足常数 κ > 0 的限制强凸条件(RSC),且 3 ( 4 2 t ¯ ) ( 1 t ) ( 3 t ¯ ) κ v 1 t ¯ ( 3 t ¯ ) ε ^ 。若 v ( 3 t ¯ ) ε ^ 1 t ¯ ρ ( 3 t ¯ ) κ v 3 ( 4 2 t ¯ ) ( 1 t ) ,则

x k x ¯ { v 1 ( 4 2 t ¯ ) κ ( 3 t ¯ ) 1.5 r ¯ , k = 1 ; ρ v 1 ( 4 2 t ¯ ) κ ( 3 t ¯ ) 1.5 r ¯ , k = 2 , 3 , .

定理2虽然给出了多阶段凸松弛法产生的迭代点的误差界,但是依然不清楚当前迭代点 x k 的误差界是否优于先前迭代点 x k 1 ,即误差界数列是否下降。下面的定理3(参考文献 [4] 定理4.2)对所有 i S ¯ ,通过 Ι Λ ( i ) Ι F k ( i ) 界定 ( v i k 1 ) 2 解决了这一问题,其中 Λ : = { i : | x ¯ i | 2 ϕ ( 1 ) / ρ } F k : = { i : | | x i k | | x ¯ i | | [ ( 1 t ) ρ ] 1 } k = 1 , 2 , F 0 = S ¯ 。首先对 i S ¯ ,通过 Ι F k ( i ) ,给出 ( v i k 1 ) 2 的上界(参考文献 [4] 引理9)。

引理5:对每一个,令 F k 为上面定义的指标集,则有: i S ¯ ( v i k 1 ) 2 i S ¯ Ι Λ ( i ) + i S ¯ Ι F k 1 ( i )

定理3:假设矩阵A在集合 C ( S ¯ , 1.5 r ¯ ) 上满足常数 κ > 0 的限制强凸条件(RSC),若参数 ρ 的选取与定理2一样,则对所有的 k 1

x k x ¯ 3 κ ( 3 1 ) [ ε ^ S ¯ + ρ v 1 i S ¯ Ι Λ ( i ) ] + ( 1 3 ) k 1 x 1 x ¯

由定理3可知: x 1 的误差界与 x k ( k 2 ) 的误差界紧密相关,且若前者充分小,则后者也将很小。然而,若 ρ 选择恰当,即使 x 1 的误差界很大, x k ( k 2 ) 的误差界也将很小。定理还说明误差数列随着 k 增大而递减,递减到 3 κ ( 3 1 ) [ ε ^ S ¯ + λ i S ¯ Ι Λ ( i ) ] ,称之为统计误差。统计误差包含两部分:第一部分是由噪声引起的,第二部分是由 ϕ ρ λ 的选择产生的。

5. 结论

本文从零模函数的变分刻画入手,将这类带有组合性质的优化问题等价转化为具有拟双线性结构且全局Lipshitz连续的优化模型,以此设计了求解零模正则化复合优化问题的多阶段凸松弛方法,并对该方法进行了收敛性分析。在理论方面,本文证实了将文献 [4] 的理论结果即:在比限制等距性质(RIP)更弱的限制强凸条件下,定量刻画了多阶段凸松弛法每阶段最优解的误差界,且每阶段最优解的误差界递减拓展到复合模型的有效性,将为以后研究逻辑回归奠定理论基础。以后将证明当阶段数达到一定条件后,误差界保持不变且精确识别真实解的支撑集。

致谢

感谢贲树军师兄给予的帮助。

文章引用

吕佩雯. 一类零模正则复合优化问题的多阶段凸松弛法
GEP-MSCRA for a Kind of Zero-Norm Regularized Composite Optimization Problem[J]. 运筹与模糊学, 2019, 09(01): 65-71. https://doi.org/10.12677/ORF.2019.91008

参考文献

  1. 1. Loh, P.L. and Wainwright, M.J. (2015) Regularized M-Estimators with Nonconvexity: Statistical and Algorithmic Theory for Local Optima. Journal of Machine Learning Research, 16, 559-616.

  2. 2. Casasaya, J. and Llibre, J. (2009) Large-Scale Sparse Logistic Regression. ACM Press, New York, 547-556.

  3. 3. Rockafellar, R.T. (1970) Convex Analysis. Princeton University Press.

  4. 4. Bi, S.J., Liu, X.L. and Pan, S.H. (2014) Exact Penalty Decomposition Method for Zero-Norm Minimization Based on MPEC Formulation. SIAM Journal on Scientific Computing, 36, 1451-1477. https://doi.org/10.1137/110855867

  5. 5. 贲树军. 低秩优化问题的多阶段凸松弛法研究[D]: [博士学位论文]. 广州: 华南理工大学, 2014.

  6. 6. Candes, E.J., Wakin, M.B. and Boyd, S.P. (2008) Enhancing Sparsity by Reweighted l1 Minimization. Journal of Fourier Analysis and Applications, 14, 877-905. https://doi.org/10.1007/s00041-008-9045-x

  7. 7. Schmidt, M., Fung, G. and Rosales, R. (2007) Fast Optimization Methods for l1 Regularization: A Comparative Study and Two New Approaches. Lnai, 4701, 286-297. https://doi.org/10.1007/978-3-540-74958-5_28

  8. 8. Loh, P.L. and Wainwright, M.J. (2015) Regularized M-Estimators with Nonconvexity: Statistical and Algorithmic Theory for Local Optima. Journal of Machine Learning Research, 16, 559-616.

  9. 9. Casasaya, J. and Llibre, J. (2009) Large-Scale Sparse Logistic Regression. ACM Press, New York, 547-556.

  10. 10. Rockafellar, R.T. (1970) Convex Analysis. Princeton University Press.

  11. 11. Bi, S.J. and Pan, S.H. (2017) GEP-MSCRA for Computing the Group Ze-ro-Norm Regularized Least Squares Estimator. arXiv.org.

  12. 12. Park, M.Y. and Hastie, T. (2008) L1 Regularized Path Algorithm for Gen-eralized Linear Models. Journal of the Royal Statistical Society: Series B, 69, 659-677. https://doi.org/10.1111/j.1467-9868.2007.00607.x

  13. 13. 贲树军. 低秩优化问题的多阶段凸松弛法研究[D]: [博士学位论文]. 广州: 华南理工大学, 2014.

  14. 14. Candes, E.J., Wakin, M.B. and Boyd, S.P. (2008) Enhancing Sparsity by Reweighted l1 Minimization. Journal of Fourier Analysis and Applications, 14, 877-905. https://doi.org/10.1007/s00041-008-9045-x

  15. 15. Koh, K., Kim, S. and Boyd, S. (2007) An Interior-Point Method for Large-Scale l1-Regularized Logistic Regression. Journal of Machine Learning Research, 8, 1519-1555.

  16. 16. Schmidt, M., Fung, G. and Rosales, R. (2007) Fast Optimization Methods for l1 Regularization: A Comparative Study and Two New Approaches. Lnai, 4701, 286-297. https://doi.org/10.1007/978-3-540-74958-5_28

  17. 17. Park, M.Y. and Hastie, T. (2008) L1 Regularized Path Algorithm for Generalized Linear Models. Journal of the Royal Statistical Society: Series B, 69, 659-677. https://doi.org/10.1111/j.1467-9868.2007.00607.x

  18. 18. Koh, K., Kim, S. and Boyd, S. (2007) An Interior-Point Method for Large-Scale l1-Regularized Logistic Regression. Journal of Machine Learning Research, 8, 1519-1555.

  19. 19. Lee, S., Lee, H., Abbeel, P. and Ng, A.Y. (2006) Efficient l1 Regularized Logistic Regression. National Conference on Artificial Intelligence, 1, 401-408.

  20. 20. Lee, S., Lee, H., Abbeel, P. and Ng, A.Y. (2006) Efficient l1 Regularized Logistic Regression. National Conference on Artificial Intelligence, 1, 401-408.

期刊菜单