基于Huber损失和Capped-L1正则的线性不等式约束稀疏优化问题研究 On Sparse Optimization Problems with Linear Inequality Constraints Based on Huber Loss and Capped-L1 Regularization

doi:10.12677/PM.2022.1211219

Pure Mathematics
Vol. 12 No. 11 ( 2022 ), Article ID: 58579 , 12 pages
10.12677/PM.2022.1211219

基于Huber损失和Capped-L1正则的线性不等式约束稀疏优化问题研究

田梦达，彭定涛^*，张弦

●How to Cite this Article

贵州大学数学与统计学院，贵州贵阳

收稿日期：2022年10月23日；录用日期：2022年11月22日；发布日期：2022年11月30日

摘要

对多元线性回归中回归系数的估计问题，本文考虑了基于Huber损失和线性不等式约束的稀疏优化模型。首先，给出了稀疏优化的原问题、基于Capped-L1正则的松弛问题和基于约束惩罚的无约束问题三种模型。其次，借助惩罚模型方向稳定点的下界性质，在一定条件下分析了三种模型全局最优解的等价性。最后，提出了光滑化惩罚算法，并证明了该算法的收敛性。本文为求解线性不等式约束稀疏优化问题提供了理论和方法基础。

关键词

线性不等式约束稀疏优化问题，Huber损失，Capped-L1正则，方向稳定点，光滑化惩罚算法

On Sparse Optimization Problems with Linear Inequality Constraints Based on Huber Loss and Capped-L1 Regularization

Mengda Tian, Dingtao Peng^*, Xian Zhang

School of Mathematics and Statistics, Guizhou University, Guiyang Guizhou

Received: Oct. 23^rd, 2022; accepted: Nov. 22^nd, 2022; published: Nov. 30^th, 2022

ABSTRACT

For the estimation of regression coefficients in multivariate linear regression, a sparse optimization model based on Huber loss and linear inequality constraints is considered in this paper. Firstly, three models of the original sparse optimization problem, the relaxation problem based on Capped-L1 regularization and the unconstrained problem based on the penalty of constraint are given. Secondly, by use of the lower bound property of the directional stationary point of the penalized model, the equivalence of the global optimal solutions of the three models is analyzed under certain conditions. Finally, a smoothing penalty algorithm is proposed and its convergence is proved. This paper provides a theoretical and methodological basis for solving sparse optimization problems with linear inequality constraints.

Keywords:Sparse Optimization Problem with Linear Inequality Constraints, Huber Loss, Capped-L1 Regularization, Directional Stationary Point, Smoothing Penalty Algorithm

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在多元线性回归中，常用的最小二乘法是通过极小化残差平方和来估计回归系数，即：

$\min_{x \in ℝ^{n}} F (x) : = {‖ A x - b ‖}_{2}^{2},$

其中， $A \in ℝ^{m \times n}$ ， $b \in ℝ^{m}$ 。最小二乘法也常用于曲线拟合。为避免数据的多重共线性和可能出现的欠定和过拟合现象，并实现变量选择，研究者引入了 $l_{0}$ 正则的稀疏优化模型：

$\min_{x \in ℝ^{n}} F (x) : = {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{0},$ (1)

其中 ${‖ x ‖}_{0}$ 表示向量x非零分量的个数， $λ > 0$ 是正则化参数。

由于 $l_{0}$ 正则是非凸、非光滑甚至是不连续的。因此，求解问题(1)是NP难的 [1]。于是一些研究学者考虑用 $l_{1}$ 正则来松弛 $l_{0}$ 正则 [2] [3] [4]，即LASSO回归模型：

$\min_{x \in ℝ^{n}} F (x) : = {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{1},$

其中 ${‖ x ‖}_{1} = \sum_{i = 1}^{n} | x_{i} |$ 。LASSO回归模型具有子集选择和岭回归的一些优点，它能够产生可解释的模型并且具

有岭回归的稳定性。但是Fan和Li证明了LASSO回归模型得到的解是有偏估计 [5]，并指出一个好的正则函数应当使得产生的估计量具有下述四个性质：1) 无偏性，2) 稀疏性，3) 连续性，4) Oracle性质：所得估计量与Oracle解具有相同的渐进分布，其中Oracle解定义为：

$x^{Oracle} \in \arg \min_{x : supp (x) \subset supp (x^{*})} L (x),$

$L (x)$ 是损失函数， $supp (x^{*})$ 是真实解 $x^{*}$ 的支撑集。研究表明，SCAD [5]，MCP [6] 和Capped-L1等几类折叠凹正则函数 [7] [8] [9] [10] 可产生满足无偏性、稀疏性、连续性和Oracle性质的估计量 [11] [12] [13]。因此研究者们考虑用折叠凹函数来松弛 $l_{0}$ 正则，即考虑以下折叠凹正则模型：

$\min_{x \in ℝ^{n}} F (x) : = {‖ A x - b ‖}_{2}^{2} + Φ (x),$ (2)

其中 $Φ (x) = \sum_{i = 1}^{n} φ (x_{i})$ 是折叠凹函数， $φ (t)$ 可取如下几类函数：

i) Capped-L1： $φ (t) = λ \cdot \min {1, \frac{| t |}{γ}}, λ > 0, γ > 0$

ii) MCP： $φ (t) = {\begin{array}{l} λ | t | - \frac{t^{2}}{2 γ}, & if 0 \leq | t | \leq γ λ, \\ \frac{γ λ^{2}}{2}, & if | t | > γ λ, \end{array}, λ > 0, γ > 1;$

iii) SCAD： $φ (t) = {\begin{array}{l} λ | t |, & if 0 \leq | t | \leq λ, \\ λ | t | - \frac{{(| t | - λ)}^{2}}{2 (γ - 1)}, & if λ < | t | \leq γ λ, \\ \frac{(γ + 1) λ^{2}}{2}, & if | t | > γ λ, \end{array}, λ > 0, γ > 2.$

因为 $Φ (x)$ 是非凸正则函数，所以问题(2)是非凸优化。研究者们已经发展了多种有效算法，例如：凸差算法 [9] [14] [15] [16]，信赖域算法 [17]，迭代重加权算法 [18] 等。

文献 [19] 研究了Capped-L1正则模型(2)与原 $l_{0}$ 正则模型(1)解的关系，在一定条件下证明了Capped-L1正则模型与原 $l_{0}$ 模型全局解的等价性和局部解的包含关系，并给出了邻近梯度算法。文献 [20] 研究了损失函数为最小一乘时，MCP正则模型与原 $l_{0}$ 正则模型解的关系，证明了两模型全局解的等价性。文献 [21] 对损失函数为一般凸函数的组稀疏优化问题，研究了组Capped-L1正则模型与 $l_{2, 0}$ 正则模型解的关系，证明了两模型全局解的等价性和局部解的包含关系。文献 [22] 研究了带线性约束的组稀疏优化问题及其折叠凹松弛问题解的等价性和求解算法。文献 [23] 进一步对带一般凸约束的组稀疏优化问题，研究了组Capped-L1正则模型与 $l_{2, 0}$ 正则模型解的关系，并利用组Capped-L1正则模型给出了组光滑化邻近梯度算法。

由于模型(1)中的最小二乘损失缺乏鲁棒性，对异常值的容忍度不高 [3]，而Huber函数不仅对异常值具有鲁棒性，而且结合了最小一乘和最小二乘的优点，既光滑又不会放大误差，因此，将Huber函数作为损失函数具有非常大的优点。另一方面，模型(1)没有考虑约束条件，这也在很大程度上限制了它的应用范围。

基于上述分析，本文考虑如下带Huber损失和线性不等式约束的稀疏优化模型：

$\begin{array}{l} \min_{x \in ℝ^{n}} \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i}) + λ {‖ x ‖}_{0} \\ s .t . B x \leq h, \end{array}$ (3)

其中

$H (t) = {\begin{array}{l} \frac{1}{2} t^{2}, & | t | \leq δ, \\ δ (| t | - \frac{1}{2} δ), & 其他, \end{array}$

是Huber函数， $A \in ℝ^{m \times n}$ ， $A_{i}^{⊤}$ 是A的第i个行向量， $i = 1, \dots, m$ ， $B \in ℝ^{q \times n}$ ， $h \in ℝ^{q}$ ， $δ > 0$ 。不等式约束 $B x \leq h$ 可以刻画真实解(信号)的某些先验信息，如非负性 [22]、有界性 [19] 等，但增加了约束使得问题的分析和求解变得更加复杂。

为便于分析和求解，本文将模型(3)松弛为如下Capped-L1正则模型：

$\begin{array}{l} \min_{x \in ℝ^{n}} \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i}) + Φ (x) \\ s .t . B x \leq h . \end{array}$ (4)

其中 $Φ (x) = \sum_{i = 1}^{n} φ (x_{i})$ ，而 $φ (t) = λ \cdot \min {1, \frac{| t |}{γ}}$ 是Capped-L1函数。

模型(4)是约束优化，为方便研究，将其不等式约束作为惩罚项加罚到目标函数上去，从而转化为如下无约束优化：

$\min_{x \in ℝ^{n}} \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i}) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1},$ (5)

其中 $z_{+} \in ℝ^{n}$ ，其定义为 ${(z_{+})}_{i} : = \max {0, z_{i}}$ ， $α > 0$ 为惩罚因子。

这里重要且有趣的问题是，模型(3)、模型(4)和模型(5)之间解的关系如何，特别是它们的解是否具有某种等价性，以及如何对其求解的问题。

本文主要工作如下：

i) 定义了问题(5)的方向稳定点(d-稳定点)，分析了问题(5)的一阶最优性条件，并探讨了问题(3)，(4)与(5)之间解的关系，证明了等价性。

ii) 因为问题(4)是非光滑优化问题，本文使用光滑化惩罚方法来计算其d-稳定点。通过对约束惩罚函数的光滑化逼近来得到近似问题，并证明了该算法产生的任意聚点都是松弛问题的d-稳定点，为使用光滑化方法求解该问题提供了理论和方法保证。

在接下来的讨论中，为了简便，记：

$\begin{array}{l} F (x) = \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i}) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1} \\ f (x) = \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i}), \\ Q (x) = {‖ {(B x - h)}_{+} ‖}_{1}, \\ Ω = {x \in ℝ^{n} : B x \leq h} . \end{array}$

对任意闭集 $Ω \in ℝ^{n}$ ， $dist (x, Ω) = \inf_{y \in Ω} ‖ x - y ‖$ 表示x到闭集 $Ω$ 的距离， $P_{Ω} (x)$ 表示 $x \in ℝ^{n}$ 在 $Ω$ 上投影点的集合。

记向量x的支撑集为：

$Γ (x) = {i \in {1, \dots, n} : x_{i} \neq 0} = Γ_{1} (x) \cup Γ_{2} (x),$

其中 $γ > 0$ ，

$Γ_{1} (x) = {i : 0 < | x_{i} | < γ}, Γ_{2} (x) = {i : | x_{i} | \geq γ} .$

符号函数 $sgn (t)$ 定义为：

$sgn (t) : = {\begin{matrix} 1, & t > 0, \\ 0, & t = 0, \\ - 1, & t < 0. \end{matrix}$

本文结构如下：第二节首先借助方向导数给出问题(5) d-稳定点的定义，然后得出其d-稳定点的下界性质。第三节探讨问题(3)，问题(4)与问题(5)解的等价性。第四节给出求解问题(5) d-稳定点的光滑化惩罚方法，并证明该算法的收敛性。

2. 最优性条件

2.1. 问题(5)的d-稳定点

首先给出问题(5)的d-稳定点的定义 [16] [24]。

定义2.1：设 $F : ℝ^{n} \to ℝ$ 在点 $x \in ℝ^{n}$ 处方向可微，则函数F在点x处沿方向 $w \in ℝ^{n}$ 的方向导数定义为：

$F^{'} (x; w) : = \lim_{τ ↓ 0} \frac{F (x + τ w) - F (x)}{τ} .$

定义2.2：称 $x^{*} \in ℝ^{n}$ 是问题(5)的d-稳定点，如果：

$F^{'} (x^{*}; x - x^{*}) = f^{'} (x^{*}; x - x^{*}) + Φ^{'} (x^{*}; x - x^{*}) + α Q^{'} (x^{*}; x - x^{*}) \geq 0, \forall x \in ℝ^{n} .$

Peng和Chen [24] [25] 证明了当目标函数局部Lipschitz连续且方向可微时，d-稳定点具有如下最优性质：

定理2.1：设函数 $F : ℝ^{n} \to ℝ$ 在点 $\hat{x} \in ℝ^{n}$ 处是局部Lipschitz连续且方向可微的，则有如下性质：

i) 若 $\hat{x}$ 是函数F的局部最优值点，那么 $\hat{x}$ 是函数F的d-稳定点。

ii) $\hat{x}$ 是函数F的严格局部最优值点并满足一阶增长性条件，即存在 $\hat{x}$ 的领域 $W$ 和 $δ > 0$ 使得：

$F (x) \geq F (\hat{x}) + δ ‖ x - \hat{x} ‖, \forall x \in W,$

当且仅当 $\hat{x}$ 满足：

$F^{'} (\hat{x}; x - \hat{x}) > 0, \forall x \in ℝ^{n} \ {\hat{x}} .$

2.2. 问题(5) d-稳定点的下界性质

下述定理表明问题(5)的d-稳定点的非零分量具有一致的下界。

定理2.2：设 $\frac{λ}{γ} > \frac{δ}{m} ‖ \sum_{i = 1}^{m} A_{i} ‖ + α \sqrt{q} {‖ B ‖}_{F}$ ，若 $x^{*} \in ℝ^{n}$ 是问题(5)的d-稳定点，那么或者 $| x_{i}^{*} | \geq γ$ ，或者 $| x_{i}^{*} | = 0$ ， $\forall i = 1, \dots, n$ 。

证明：根据记号，要证明本定理，只需证明 $Γ_{1} (x^{*}) = \emptyset$ 。因 $x^{*}$ 是d-稳定点，由定义2.2：

$f^{'} (x^{*}; x - x^{*}) + Φ^{'} (x^{*}; x - x^{*}) + α Q^{'} (x^{*}; x - x^{*}) \geq 0, \forall x \in ℝ^{n}$

其中：

i) 因为Huber损失函数 $f (x) = \frac{1}{m} \sum_{i = 1}^{m} H (A_{i}^{T} x - b_{i})$ 是可微的，故

$f^{'} (x^{*}; x - x^{*}) = \nabla f {(x^{*})}^{⊤} (x - x^{*}) = \frac{1}{m} \sum_{i = 1}^{m} H^{'} (A_{i}^{⊤} x^{*} - b_{i}) A_{i}^{⊤} (x - x^{*}),$

这里

$H^{'} (A_{i}^{⊤} x^{*} - b_{i}) = {\begin{array}{l} A_{i}^{⊤} x^{*} - b_{i}, & | A_{i}^{⊤} x^{*} - b_{i} | \leq δ, \\ δ \cdot sgn (A_{i}^{⊤} x^{*} - b_{i}), & 其他 . \end{array}$

ii) $Φ^{'} (x^{*}; x - x^{*}) = \sum_{i = 1}^{n} φ^{'} (x_{i}^{*}; x_{i} - x_{i}^{*})$ ，且由 $φ (t) = λ \cdot \min {1, \frac{| t |}{γ}}$ ，得：

$φ^{'} (x_{i}^{*}; x_{i} - x_{i}^{*}) = {\begin{array}{l} \frac{λ | x_{i} |}{γ}, & x_{i}^{*} = 0, \\ \frac{λ (x_{i} - x_{i}^{*}) sgn (x_{i}^{*})}{γ}, & | x_{i}^{*} | \in (0, γ), \\ \min {0, \frac{λ (x_{i} - x_{i}^{*}) sgn (x_{i}^{*})}{γ}}, & | x_{i}^{*} | = γ, \\ 0, & 其他 . \end{array}$

iii) 根据文献 [25]，得 $Q^{'} (x^{*}; x - x^{*}) = Δ : = \sum_{j = 1}^{q} Δ_{j}$ ，其中

$Δ_{j} = {\begin{array}{l} 0, & 如果 〈 B_{j}, x^{*} 〉 < h_{j}, \\ \max {0, 〈 B_{j}, x - x^{*} 〉}, & 如果 〈 B_{j}, x^{*} 〉 = h_{j}, \\ 〈 B_{j}, x - x^{*} 〉, & 其他, \end{array}$

此处， $B_{j}^{⊤}$ 是矩阵B的第j个行向量。

下面用反证法证明。假设 $Γ_{1} (x^{*}) \neq \emptyset$ 。对每个 $i_{0} \in Γ_{1} (x^{*})$ ，定义 ${\hat{x}}^{1}, {\hat{x}}^{2} \in ℝ^{n}$ 如下：

${\hat{x}}_{i}^{1} = {\begin{array}{l} 2 x_{i_{0}}^{*}, & 如果 i = i_{0}, \\ x_{i}^{*}, & 其他, \end{array} {\hat{x}}_{i}^{2} = {\begin{array}{l} 0, & 如果 i = i_{0}, \\ x_{i}^{*}, & 其他, \end{array} i = 1, \dots, n .$

则 $F^{'} (x^{*}, {\hat{x}}^{η} - x^{*}) \geq 0, η = 1, 2$ 。由上述(i) (ii) (iii)，得：

$\begin{array}{l} F^{'} (x^{*}, {\hat{x}}^{1} - x^{*}) = {[\nabla f (x^{*})]}_{i_{0}} x_{i_{0}}^{*} + \frac{λ x_{i_{0}}^{*} sgn (x_{i_{0}}^{*})}{γ} + Δ_{i_{0}} \geq 0, \\ F^{'} (x^{*}, {\hat{x}}^{2} - x^{*}) = {[\nabla f (x^{*})]}_{i_{0}} x_{i_{0}}^{*} - \frac{λ x_{i_{0}}^{*} sgn (x_{i_{0}}^{*})}{γ} - Δ_{i_{0}} \geq 0. \end{array}$

于是

$\begin{matrix} \frac{λ | x_{i_{0}}^{*} |}{γ} \leq | {[\nabla f (x^{*})]}_{i_{0}} | + | Δ_{i_{0}} | \leq ‖ \frac{1}{m} \sum_{i = 1}^{m} H^{'} (A_{i}^{⊤} x^{*} - b_{i}) A_{i} ‖ | x_{i_{0}}^{*} | + ‖ B^{i_{0}} ‖ | x_{i_{0}}^{*} | \\ \leq (\frac{δ}{m} ‖ \sum_{i = 1}^{m} A_{i} ‖ + α \sqrt{q} {‖ B ‖}_{F}) | x_{i_{0}}^{*} | . \end{matrix}$

由 $| x_{i_{0}}^{*} | > 0$ ，得 $\frac{λ}{γ} \leq \frac{δ}{m} ‖ \sum_{i = 1}^{m} A_{i} ‖ + α \sqrt{q} {‖ B ‖}_{F}$ ，这与已知条件 $\frac{λ}{γ} > \frac{δ}{m} ‖ \sum_{i = 1}^{m} A_{i} ‖ + α \sqrt{q} {‖ B ‖}_{F}$ 矛盾，所以 $Γ_{1} (x^{*}) = \emptyset$ 。

注：定理2.2表明问题(5)的d-稳定点的非零分量的绝对值具有正下界 $γ$ 。这种解的下界性质在理论上反映了解的稀疏性，在数值计算中，如果数值解的某些分量小于下界，则可以直接将这些分量取为0，这样可以提高解的稀疏度。类似研究可参见文献 [11] [19] [22] [24]。

3. 解的等价性

3.1. 问题(3)和问题(4)解的等价性

定理3.1：若 $\bar{x} \in Ω$ ，那么 $\bar{x}$ 是问题(4)的全局最优解当且仅当 $\bar{x}$ 是问题(3)的全局最优解，且问题(3)和问题(4)具有相同的全局最优值。

证明：

i) 设 $\bar{x} \in Ω$ 是问题(4)的全局最优解，则

$f (\bar{x}) + λ {‖ \bar{x} ‖}_{0} = f (\bar{x}) + Φ (\bar{x}) \leq f (x) + Φ (x) \leq f (x) + λ {‖ x ‖}_{0}, \forall x \in Ω,$

其中第一个等式由 [19] 中引理2.3可得，而最后一个不等式由 $Φ (x) \leq λ {‖ x ‖}_{0}$ 对任何 $x \in ℝ^{n}$ 均成立可得。故 $\bar{x}$ 是问题(3)全局最优解。

ii) 设 $\bar{x} \in Ω$ 是问题(3)全局最优解，但不是问题(4)的全局最优解，则问题(4)存在一个全局最优解 $\hat{x}$ ，使得

$f (\hat{x}) + Φ (\hat{x}) < f (\bar{x}) + Φ (\bar{x}) .$

由(i)知 $\hat{x}$ 也是问题(3)全局最优解，因此

$f (\hat{x}) + λ {‖ \hat{x} ‖}_{0} < f (\bar{x}) + λ {‖ \bar{x} ‖}_{0},$

这与 $\bar{x}$ 是问题(3)全局最优解相矛盾。所以问题(3)的任何全局最优解都是问题(4)的全局最优解。

3.2. 问题(4)和问题(5)解的等价性

假设3.1：矩阵B和向量h满足如下条件：存在一些正数 $τ$ ，使得 $dist (x, Ω) \leq τ {‖ {(B x - h)}_{+} ‖}_{1}$ [26]。

定理3.2：设假设3。1成立，则问题(4)的全局最优解都是问题(5)的全局最优解。

证明：因为 $f (x) + Φ (x)$ 是Lipschitz连续的，设其Lipschitz常数为 $L_{f}$ 。对所有的 $α > τ L_{f}$ ，有

$f (x) + Φ (x) + \frac{α}{τ} dist (x, Ω) \geq f (y) + Φ (y), \forall x \in ℝ^{n}, \forall y \in P_{Ω} (x) .$ (6)

由假设3.1和(6)，可得：

$\begin{matrix} \inf_{x \in ℝ^{n}} f (x) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1} \geq \inf_{x \in ℝ^{n}} f (x) + Φ (x) + \frac{α}{τ} dist (x, Ω) \\ \geq \inf_{x \in ℝ^{n}, y \in P_{Ω} (x)} f (y) + Φ (y) \\ = \inf_{x \in Ω} f (x) + Φ (x) \\ = \inf_{x \in Ω} f (x) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1} \\ \geq \inf_{x \in ℝ^{n}} f (x) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1} . \end{matrix}$

因此， $x^{*}$ 是问题(5)的全局最优解。

定理3.3：设假设3.1成立，且 $α > τ L_{f}$ ，其中 $L_{f}$ 是 $f (x) + Φ (x)$ 的Lipschitz常数。若 $x^{*}$ 是问题(5)的全局最优解，那么 $x^{*}$ 是问题(4)的全局最优解。

证明： $x^{*} \in ℝ^{n}$ 是问题(5)的全局最优解，则

$\begin{matrix} f (x^{*}) + Φ (x^{*}) + α {‖ {(B x^{*} - h)}_{+} ‖}_{1} = \inf_{x \in ℝ^{n}} f (x) + Φ (x) + α {‖ {(B x - h)}_{+} ‖}_{1} \\ \leq \inf_{x \in Ω} f (x) + Φ (x) \\ \leq f (x) + Φ (x), \forall x \in Ω . \end{matrix}$ (7)

由假设3.1，对任意 $x \in P_{Ω} (x^{*})$ ，有

$f (x^{*}) + Φ (x^{*}) + \frac{α}{τ} dist (x^{*}, Ω) \leq f (x) + Φ (x) .$

考虑到 $f (x) + Φ (x)$ 是Lipschitz连续的，对任意 $x \in P_{Ω} (x^{*})$ ，由上式得

$\begin{matrix} dist (x^{*}, Ω) \leq \frac{τ}{α} [f (x) + Φ (x) - f (x^{*}) - Φ (x^{*})] \\ \leq \frac{τ L_{f}}{α} ‖ x - x^{*} ‖ = \frac{τ L_{f}}{α} dist (x^{*}, Ω) . \end{matrix}$

因为 $α > τ L_{f}$ ，故 $dist (x^{*}, Ω) = 0$ ，因此 $x^{*} \in Ω$ 。再由 $α {‖ {(B x^{*} - h)}_{+} ‖}_{1} \geq 0$ 和(7)式，可得 $f (x) + Φ (x) \geq f (x^{*}) + Φ (x^{*})$ ， $\forall x \in Ω$ 。故 $x^{*}$ 是问题(4)的全局最优解。

3.3. 问题(3)和问题(5)解的等价性

由定理3.1、定理3.2和定理3.3可得问题(3)与问题(4)之间解的等价性。

定理：设 $\frac{λ}{γ} > \frac{δ}{m} ‖ \sum_{i = 1}^{m} A_{i} ‖ + α \sqrt{q} {‖ B ‖}_{F}$ ， $α > τ L_{f}$ 且 $dist (x, Ω) \leq τ {‖ {(B x - h)}_{+} ‖}_{1}$ ，则 $x^{*} \in ℝ^{n}$ 是问题(5)的全局最优解当且仅当它是问题(3)的全局最优解。

4. 光滑化惩罚算法

由定理2.1可知，d-稳定点具有非常好的局部最优性。如何计算d-稳定点是一个有趣且具有挑战性的问题。光滑逼近方法是一种求解非光滑问题非常有效且被广泛使用的方法，参见 [19] [22] [23] [24] [26]。受上述文献启发，本节我们使用光滑化惩罚算法来求解问题(4)。

对于 $t_{+} = \max {t, 0}$ 函数，将采用下述光滑化函数

$h_{μ} (t) : = {\begin{array}{l} t - \frac{μ}{2}, & t \geq μ, \\ \frac{t^{2}}{2 μ}, & 0 < t < μ, \\ 0, & t \leq 0, \end{array}$

其中 $μ > 0$ 为光滑化参数。因此， $Q (x)$ 具有如下光滑化函数

$Q_{μ} (x) : = \sum_{j = 1}^{q} h_{μ} (B_{j}^{⊤} x - h_{j}) .$

因 $0 \leq t_{+} - h_{μ} (t) \leq \frac{μ}{2}$ ，故对任意的 $x \in ℝ^{n}$ ，可得

$0 \leq Q_{μ} (x) \leq Q (x) \leq Q_{μ} (x) + \frac{q}{2} μ .$

此外，注意到 ${h^{'}}_{μ} (t) = \min {{(\frac{t}{μ})}_{+}, 1}$ ，

$\nabla Q_{μ} (x) = \sum_{j = 1}^{q} {h^{'}}_{μ} (B_{j}^{⊤} x - h_{j}) B_{j} .$

容易证明，光滑函数 $Q_{μ} (x)$ 具有下述性质。

i) $\lim_{z \to x, μ ↓ 0} Q_{μ} (z, μ) = Q (x)$ ；

ii) 对每个固定的 $μ > 0$ ， $Q_{μ} (x)$ 是x的凸函数；

iii) 对每个固定的 $μ > 0$ ， $Q_{μ} (x)$ 关于x是Lipschitz连续的，即

$| Q_{μ} (x_{1}) - Q_{μ} (x_{2}) | \leq κ ‖ x_{1} - x_{2} ‖;$

iv) 对每个固定的 $x \in ℝ^{n}$ ， $Q_{μ} (x)$ 关于 $μ$ 是Lipschitz连续的，即

$| Q_{μ} (x_{1}) - Q_{μ} (x_{2}) | \leq κ^{'} | μ_{1} - μ_{2} | .$

下面给出求解问题(4)的光滑化惩罚算法的框架。

算法4.1. 光滑化惩罚算法

在算法4.1中，

$\begin{array}{l} \nabla f (x^{k}) = \frac{1}{m} \sum_{i = 1}^{m} H^{'} (A_{i}^{⊤} x^{k} - b_{i}) A_{i}, \\ Φ^{'} (x^{k}; x - x^{k}) = \sum_{i = 1}^{m} φ^{'} (x_{i}^{k}; x_{i} - x_{i}^{k}), \\ \nabla Q_{μ} (x^{k}) = \sum_{j = 1}^{q} {h^{'}}_{μ} (B_{j}^{⊤} x^{k} - h_{j}) B_{j}, \end{array}$

其中，

$H^{'} (A_{i}^{⊤} x^{k} - b_{i}) = {\begin{array}{l} A_{i}^{⊤} x^{k} - b_{i}, & | A_{i}^{⊤} x^{k} - b_{i} | \leq δ, \\ δ \cdot sgn (A_{i}^{⊤} x^{k} - b_{i}), & 其他, \end{array}$

$φ^{'} (x_{i}^{k}; x_{i} - x_{i}^{k}) = {\begin{array}{l} \frac{λ | x_{i} |}{γ}, & x_{i}^{k} = 0, \\ \frac{λ (x_{i} - x_{i}^{k}) sgn (x_{i}^{k})}{γ}, & | x_{i}^{k} | \in (0, γ), \\ \min {0, \frac{λ (x_{i} - x_{i}^{k}) sgn (x_{i}^{k})}{γ}}, & | x_{i}^{k} | = γ, \\ 0, & 其他, \end{array}$

${h^{'}}_{μ} (B_{j}^{⊤} x^{k} - h_{j}) = \min {{(\frac{B_{j}^{⊤} x^{k} - h_{j}}{μ})}_{+}, 1} .$

由上述表达式可知 $| H^{'} (A_{i}^{⊤} x^{k} - b_{i}) | \leq δ (i = 1, \dots, n), ‖ \nabla f (x^{k}) ‖ \leq \frac{δ}{m} {‖ A ‖}_{F}$ 和 $0 \leq {h^{'}}_{μ} (B_{j}^{⊤} x^{k} - h_{j}) \leq 1 (j = 1, \dots, q)$ 。

注意，这里只是对非光滑项 $Q (x) = {‖ {(B x - h)}_{+} ‖}_{1}$ 进行了光滑化，并未对非光滑项 $Φ (x)$ 进行光滑化。因此，如何求解迭代步中步1的子问题 $\min_{x \in ℝ^{n}} G_{λ_{k}, μ_{k}} (x)$ 是非常关键的。该子问题仍是一个非光滑优化，但 $Φ (x)$ 的邻近函数具有解析表达式 [19]，因此，本文建议采用文献 [26] 中的非单调邻近梯度(NPG)算法对其进行求解。

定理4.1：设 $x_{k}$ 是算法4.1生成的序列，则 ${x_{k}}$ 的任何聚点 $x^{*}$ 都是问题(4)的d-稳定点，即

$x^{*} \in Ω 且 f^{'} (x^{*}; x - x^{*}) + Φ^{'} (x^{*}; x - x^{*}) \geq 0, \forall x \in Ω .$

证明：设 ${x^{k}}$ 的收敛子列 ${x^{k}}_{K}$ ，使得当 $k \in K$ ， $k \to \infty$ 时， $x^{k} \to x^{*}$ 。

1) 首先证明 $x^{*}$ 是问题(4)的可行点：

$\begin{matrix} {‖ {(B x^{k} - h)}_{+} ‖}_{1} \leq Q_{μ_{k}} (x^{k}) + \frac{q}{2} μ_{k} \\ \leq \frac{1}{α_{k}} G_{λ_{k}, μ_{k}} (x^{k}) + \frac{q}{2} μ_{k} \\ \leq \frac{1}{α_{k}} G_{λ_{k}, μ_{k}} (x^{feas}) + \frac{q}{2} μ_{k} \\ = \frac{1}{α_{k}} f (x^{feas}) + \frac{1}{α_{k}} Φ (x^{feas}) + \frac{q}{2} μ_{k}, \end{matrix}$

故当 $k \in K$ ， $k \to \infty$ 时，有 ${‖ {(B x^{k} - h)}_{+} ‖}_{1} \leq 0$ ，即 $x^{*} \in Ω$ 。

2) 其次证明 $x^{*}$ 是问题(4)的d-稳定点。定义

$w_{j}^{k} : = {h^{'}}_{μ_{k}} (B_{j}^{⊤} x^{k} - h_{j}), \forall j = 1, \dots, p$

和

$I^{*} : = {j \in {1, \dots, p} : B_{j}^{⊤} x^{*} - h_{j} = 0},$

则 $0 \leq w_{j}^{k} \leq 1, \forall j = 1, \dots, p$ ；当 $j \notin I^{*}$ 时， $B_{j}^{⊤} x^{*} - h_{j} < 0$ ，且当k充分大时，有 $B_{j}^{⊤} x^{k} - h_{j} < 0$ ，此时也有 $w_{j}^{k} = 0$ ；当 $j \in I^{*}$ 时， $B_{j}^{⊤} x^{k} - h_{j} \to B_{j}^{⊤} x^{*} - h_{j} = 0$ ， $w_{j}^{k} = {h^{'}}_{μ_{k}} (B_{j}^{⊤} x^{k} - h_{j}) \to 0$ 。因

$\min_{x \in ℝ^{n}} {〈 \nabla f (x^{k}), x - x^{k} 〉 + Φ^{'} (x^{k}, x - x^{k}) + α_{k} 〈 \nabla Q_{μ_{k}} (x^{k}), x - x^{k} 〉} \geq - ϵ_{k}, \forall x \in ℝ^{n} .$

再由方向导数的表示，存在 $ζ^{k} : = {(ζ_{1}^{k}, \dots, ζ_{n}^{k})}^{⊤}$ 且 $ζ_{i}^{k} \in \partial ϕ (x_{i}^{k}), i = 1, \dots, n$ ，使得

$〈 \nabla f (x^{k}) + ζ^{k} + α_{k} \sum_{j \in I^{*}} w_{j}^{k} B_{j}, x - x^{k} 〉 \geq - ϵ_{k}, \forall x \in ℝ^{n} .$ (8)

因 $Φ (x)$ 是全局lipschitz的，故 ${ζ^{k}}$ 都是有界的。由上式及 ${\nabla f (x^{k})}$ 和 ${ζ^{k}}$ 的有界性，对每个 $j \in I^{*}$ ， ${α_{k} w_{j}^{k}}$ 都是有界的，否则可取 $\hat{x} = x^{k} - [\nabla f (x^{k}) + ζ^{k} + α_{k} \sum_{j \in I^{*}} w_{j}^{k} B_{j}]$ ，使得

$〈 \nabla f (x^{k}) + ζ^{k} + α_{k} \sum_{j \in I^{*}} w_{j}^{k} B_{j}, \hat{x} - x^{k} 〉 = - {‖ \nabla f (x^{k}) + ζ^{k} + α_{k} \sum_{j \in I^{*}} w_{j}^{k} B_{j} ‖}^{2} \to - \infty,$

与(8)矛盾。因此，不妨设

${ζ^{k}}_{K} \to ζ^{*} = {(ζ_{1}^{*}, \dots, ζ_{n}^{*})}^{⊤} \in \partial Φ (x^{*}), {α_{k} w_{j}^{k}}_{K} \to y_{j} \in [0, C], j \in I^{*},$

其中 $C > 0$ 为某一常数。在(8)中，由 $ϵ_{k} \to 0$ ，得

$〈 \nabla f (x^{*}) + ζ^{*} + \sum_{i \in I^{*}} y_{i} B_{j}, x - x^{*} 〉 \geq 0, \forall x \in ℝ^{n} .$

取 $x = x^{*} - [\nabla f (x^{*}) + ζ^{*} + \sum_{i \in I^{*}} y_{i} B_{j}]$ ，由上式得 $- {‖ \nabla f (x^{*}) + ζ^{*} + \sum_{i \in I^{*}} y_{i} B_{j} ‖}^{2} \geq 0$ ，故

$\nabla f (x^{*}) + ζ^{*} + \sum_{i \in I^{*}} y_{i} B_{j} = 0.$

由 $x^{*} \in Ω = {x : B x \leq h}$ ，知 $\sum_{i \in I^{*}} y_{i} B_{j} \in N_{Ω} (x^{*})$ ，故 $- [\nabla f (x^{*}) + ζ^{*}] \in N_{Ω} (x^{*})$ 。注意到， $\forall x \in Ω$ ，有 $x - x^{*} \in T_{Ω} (x^{*})$ 。因此，

$〈 \nabla f (x^{*}) + ζ^{*}, x - x^{*} 〉 \geq 0, \forall x \in Ω .$

进而， $\forall x \in Ω$ ，有

$\begin{matrix} 0 \leq 〈 \nabla f (x^{*}) + ζ^{*}, x - x^{*} 〉 \\ \leq 〈 \nabla f (x^{*}), x - x^{*} 〉 + \max_{ζ \in \partial Φ (x^{*})} 〈 ζ, x - x^{*} 〉 \\ = f^{'} (x^{*}; x - x^{*}) + Φ^{'} (x^{*}; x - x^{*}) . \end{matrix}$

上式表明， $x^{*}$ 是问题(4)的d-稳定点。

5. 总结

本文研究了基于Huber损失的线性不等式约束稀疏优化问题。我们给出了稀疏优化的原问题、松弛问题和惩罚问题等三种模型，在一定条件下分析了三种模型全局最优解的等价性，提出了求解该问题的光滑化惩罚算法，并证明了该算法的收敛性。本文为求解线性不等式约束稀疏优化问题提供了理论和方法基础。下一步将通过数值实验和算例进一步检验算法的实际效果。

基金项目

国家自然科学基金项目(11861020, 12261020)、贵州省高层次留学人才创新创业择优资助重点项目([2018] 03)、贵州省科技计划项目(ZK[2021] 009, [2018] 5781)、贵州省青年科技人才成长项目([2018] 121)。

文章引用

田梦达,彭定涛,张弦. 基于Huber损失和Capped-L1正则的线性不等式约束稀疏优化问题研究
On Sparse Optimization Problems with Linear Inequality Constraints Based on Huber Loss and Capped-L1 Regularization[J]. 理论数学, 2022, 12(11): 2021-2032. https://doi.org/10.12677/PM.2022.1211219

参考文献

1. Pang, J., Razaviyayn, M. and Alvarado, A. (2017) Computing B-Stationary Points of Nonsmooth DC Programs. Mathematics of Operations Research, 42, 95-118. https://doi.org/10.1287/moor.2016.0795

2. Chen, X., Niu, L. and Yuan, Y. (2013) Optimality Conditions and Smoothing Trust Region Newton Method for Non-Lipschitz Optimization. SIAM Journal on Optimization, 23, 1528-1552. https://doi.org/10.1137/120871390

3. Candès, E., Walkin, M. and Boyd, S. (2008) Enhancing Sparsity by Reweighted Minimization. Journal of Fourier Analysis and Applications, 14, 877-905. https://doi.org/10.1007/s00041-008-9045-x

4. Bian, W. and Chen, X. (2020) A Smoothing Proximal Gradient Algorithm for Non-Smooth Convex Regression with Cardinality Penalty. SIAM Journal on Numerical Analysis, 58, 858-883. https://doi.org/10.1137/18M1186009

5. 罗孝敏, 彭定涛, 张弦. 基于MCP正则的最小一乘回归问题研究[J]. 系统科学与数学, 2021, 41(8): 2327-2337.

6. 彭定涛, 唐琦, 张弦. 组稀疏优化问题精确连续Capped-L1松弛[J]. 数学学报, 2022, 65(2): 243-262.

7. Pan, L. and Chen, X. (2021) Group Sparse Optimization for Images Recovery Using Capped Folded Concave Functions. SIAM Journal on Imaging Sciences, 14, 1-25. https://doi.org/10.1137/19M1304799

8. Zhang, X. and Peng, D. (2022) Solving Constrained Nonsmooth Group Sparse Optimization via Group Capped- Relaxation and Group Smoothing Proximal Gradient Algorithm. Computa-tional Optimization and Applications, 83, 801-804. https://doi.org/10.1007/s10589-022-00419-2

9. Peng, D. and Chen, X. (2020) Computation of Second-Order Directional Stationary Points for Group Sparse Optimization. Op-timization Methods and Software, 35, 348-376. https://doi.org/10.1080/10556788.2019.1684492

10. Rockafellar, R. and Wets, R. (2009) Variational Analysis. 3rd Edition, Springer-Verlag, Berlin.

11. Natarajan, B. (1995) Sparse Approximate Solutions to Linear Systems. SIAM Journal on Computing, 24, 227-234. https://doi.org/10.1137/S0097539792240406

12. Donoho, D. (2006) Compressed Sensing. IEEE Transactions on Information Theory, 52, 1289-1306. https://doi.org/10.1109/TIT.2006.871582

13. Candès, E., Romberg, J. and Tao, T. (2006) Robust Uncertainty Principles: Exact Signal Reconstruction from Highly Incomplete Frequency Information. IEEE Transactions on Infor-mation Theory, 52, 489-509. https://doi.org/10.1109/TIT.2005.862083

14. Tibshirani, R. (1996) Regression Shrinkage and Selection via the LASSO. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x

15. Fan, J. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360. https://doi.org/10.1198/016214501753382273

16. Zhang, C. (2010) Nearly Unbiased Variable Se-lection under Minimax Concave Penalty. Annals of Statistics, 38, 894-942. https://doi.org/10.1214/09-AOS729

17. Ong, C. and An, L. (2013) Learning Sparse Classifiers with Difference of Convex Functions Algorithms. Optimization Methods and Software, 28, 830-854. https://doi.org/10.1080/10556788.2011.652630

18. Peleg, D. and Meir, R. (2008) A Bilinear Formulation for Vector Sparsity Optimization. Signal Processing, 88, 375-389. https://doi.org/10.1016/j.sigpro.2007.08.015

19. Chen, X., Lu, Z. and Pong, T. (2016) Penalty Methods for a Class of Non-Lipschitz Optimization Problems. SIAM Journal on Optimization, 26, 1465-1492. https://doi.org/10.1137/15M1028054

20. Thi, H., Dinh, T., Le, H. and Vo, X. (2015) DC Approximation Approaches for Sparse Optimization. European Journal of Operational Research, 244, 26-46. https://doi.org/10.1016/j.ejor.2014.11.031

21. Zhang, T. (2013) Multi-Stage Convex Relaxation for Feature Se-lection. Bernoulli, 19, 2277-2293. https://doi.org/10.3150/12-BEJ452

22. Bian, W. and Chen, X. (2017) Optimality and Complexity for Constrained Optimization Problems with Nonconvex Regularization. Mathematics of Operations Research, 42, 1063-1084. https://doi.org/10.1287/moor.2016.0837

23. Chartrand, R. and Staneva, V. (2008) Restricted Isometry Properties and Nonconvex Compressive Sensing. Inverse Problems, 24, 1-14. https://doi.org/10.1088/0266-5611/24/3/035020

24. Huang, J., Horowitz, J. and Ma. S. (2008) Asymptotic Properties of Bridge Estimators in Sparse High-Dimensional Regression Models. Annals of Statistics, 36, 587-613. https://doi.org/10.1214/009053607000000875

25. Ahn, M., Pang, J. and Xin, J. (2017) Difference-of-Convex Learning: Directional Stationarity, Optimality, and Sparsity. SIAM Journal on Optimization, 27, 1637-1655. https://doi.org/10.1137/16M1084754

26. An, L. and Tao, P. (2005) The DC (Difference of Convex Functions) Programming and DCA Revisited with DC Models of Real World Nonconvex Optimization Problems. Annals of Op-erations Research, 133, 23-46. https://doi.org/10.1007/s10479-004-5022-1

NOTES

^*通讯作者。

期刊菜单