求解结构型凸优化问题的一种算法改进 An Improved Algorithm for Solving Structural Convex Optimization Problems

doi:10.12677/AAM.2021.1012463

Advances in Applied Mathematics
Vol. 10 No. 12 ( 2021 ), Article ID: 47435 , 13 pages
10.12677/AAM.2021.1012463

求解结构型凸优化问题的一种算法改进

张宇婷^*，李锋^#

●How to Cite this Article

云南师范大学，云南昆明

收稿日期：2021年11月23日；录用日期：2021年12月17日；发布日期：2021年12月24日

摘要

本文考虑一个求解结构型凸优化问题的新算法——带随机步长的并行分裂ADMM下降算法，它是基于并行分裂ADMM下降算法和改善步长的收缩算法产生的。新算法改变了步长和更新公式，同时利用服从独立同分布的随机数来扩张步长，提高了ADMM下降算法中因固定步长因子带来的收敛较慢的结果。然后在适当的条件下，证明了该方法是依概率收敛的。最后，通过对来自金融和统计中的一类问题进行的一系列数值实验，验证了新算法的高效性。

关键词

并行分裂算法，ADMM算法，随机分布

An Improved Algorithm for Solving Structural Convex Optimization Problems

Yuting Zhang^*, Feng Li^#

Yunnan Normal University, Kunming Yunnan

Received: Nov. 23^rd, 2021; accepted: Dec. 17^th, 2021; published: Dec. 24^th, 2021

ABSTRACT

This paper considers a new algorithm for solving structural convex optimization problems: parallel split ADMM descent algorithm with random step size, which is based on parallel split ADMM descent algorithm and shrinkage algorithm with improved step size. The new algorithm changes the step size and updates formula, and expands the step size by using random numbers subject to independent and identically distributed, which improves the slow convergence result caused by fixed step size factor in ADMM descent algorithm. Then, under appropriate conditions, it is proved that the method converges according to probability. Finally, a series of numerical experiments on a class of problems from finance and statistics verify the efficiency of the new algorithm.

Keywords:Parallel Splitting Algorithm, ADMM Algorithm, Random Distribution

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

1.1. 研究背景及意义

随着科技快速的发展，如今数字化技术与网络化技术日新月异，大数据正在飞速增长，人类已经迈入一个全新的时代。最优化问题的研究和发展一直受到广泛关注。大数据时代带来许多机遇的同时，也带来许多问题，例如工程、信息、生物等领域，所建立的模型可以转化为等式约束优化问题。

实际问题中一般所求的目标函数问题规模巨大，且可能是非光滑的，传统的内点法等算法往往无法求解这类问题。而根据ADMM算法的核心思想：先分解协调过程，将全局问题分解为多个较容易求解的局部子问题，再求解协调子问题而得到全局问题的解；运用ADMM算法等一阶算法求解这类问题更为适合，所以对ADMM算法的研究非常具有理论意义和应用价值，并且具有巨大的发展潜力。

1.2. 研究现状

Glowinski & Marrocco [1] 及Gabay & Mercier [2] 分别于1975年和1976年最先提出了ADMM算法，现在ADMM算法主要用于解决具有可分离变量的优化问题，它可以解决增广拉格朗日算法所不能解决的问题。50年代中期，有大量文献分析了相似的算法的性质，但当时这一类似算法主要用于解决偏微分方程问题。

本文主要研究以下具有分离结构的约束凸优化问题：

(1)

其中f和g是闭凸连续函数， $A \in R^{r \times n}$ 和 $B \in R^{r \times m}$ 是一个给定的行满秩矩阵， $b \in R^{r}$ 是一个给定的向量， $X \subset R^{n}$ 和 $Y \subset R^{m}$ 是非空闭凸集。

针对求解式(1)的算法目前已经有很多种，其增广拉格朗日函数为：

$L_{ρ} (x, y, λ) = f (x) + g (y) - λ^{T} (A x + B y - b) + \frac{ρ}{2} {‖ A x + B y - b ‖}_{2}^{2}$

其中， $λ \in R^{r}$ 为拉格朗日乘子， $ρ > 0$ 为罚参数。

经典的ADMM算法迭代步骤如下：

${\begin{cases} x^{k + 1} = \arg \min {f (x) - {(λ^{k})}^{T} (A x + B y^{k} - b) + \frac{1}{2} ‖ {A x + B y^{k} - b ‖}_{H}^{2} | x \in X} \\ y^{k + 1} = \arg \min {g (y) - {(λ^{k})}^{T} (A x^{k + 1} + B y - b) + \frac{1}{2} ‖ {A x^{k} + B y - b ‖}_{H}^{2} | y \in Y} \\ λ^{k + 1} = λ^{k} - H (A x^{k + 1} + B y^{k + 1} - b) \end{cases}$

其中， $H \in R^{r \times r}$ 是给定的对称正定阵。

与增广拉格朗日乘子算法(ALM) [3] [4] [5] 相比，ALM算法可以同时求解两个分离的变量，而ADMM算法是对变量交替进行求解，这也是算法名字的由来。

我们可以将经典的ADMM算法看作是ALM算法的Gauss-Seidel [6] 形式，而Douglas-Rachford分裂算法 [7] [8] 是ADMM的一种对偶形式，并且邻近点算法(PPA) [9] [10] 可以说明D-R算法。

2011年，Boyd [11] 等人重新回顾总结并证明ADMM算法适用于大规模优化问题后，使得这种方法逐渐进入了学者们的视野。随后，ADMM算法因为其良好的理论性质备受学者们的追捧，其收敛性与计算复杂性有丰富的研究成果 [12] [13] [14] [15]。此外，ADMM算法在压缩感知 [16]、图像处理 [17]、信号处理 [18] [19]、机器学习 [20] 等领域也取得了重大进展。由于其广泛的应用性，该算法近十来年已经有了很多改进和推广。

ADMM下降算法 [21] 是ADMM算法的一种改进，我们定义：

$v = (\begin{matrix} y \\ λ \end{matrix}) \in Y \times R^{r}$ ，

算法的迭代步骤如下

${\begin{cases} {\tilde{x}}^{k} = \arg \min {f (x) - {(λ^{k})}^{T} (A x + B y^{k} - b) + \frac{1}{2} ‖ {A x + B y^{k} - b ‖}_{H}^{2} | x \in X}, \\ {\tilde{y}}^{k} = \arg \min {g (y) - {(λ^{k})}^{T} (A {\tilde{x}}^{k} + B y - b) + \frac{1}{2} ‖ {A {\tilde{x}}^{k} + B y - b ‖}_{H}^{2} | y \in Y}, \\ {\tilde{λ}}^{k} = λ^{k} - H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b), \\ v^{k + 1} = v^{k} - γ α_{k}^{*} (v^{k} - {\tilde{v}}^{k}), α_{k}^{*} = \frac{1}{2} + \frac{1}{2} \frac{‖ {A {\tilde{x}}^{k} + B y^{k} - b ‖}_{H}^{2}}{‖ {v^{k} - {\tilde{v}}^{k} ‖}_{G}^{2}}, 0 < γ < 2, \end{cases}$

其中 $α_{k}^{*}$ 为最优步长， $H \in R^{r \times r}$ 是给定的对称正定阵， $γ$ 是延长因子(一般 $γ \in (1, 2)$ 时会使收敛速度加快)。

并行分裂ADMM下降算法 [22] 的迭代步骤如下，定义：

$w = (\begin{matrix} x \\ y \\ λ \end{matrix}) \in W = X \times Y \times R^{r}$

${\begin{cases} {\tilde{x}}^{k} = \arg \min {f (x) - {(λ^{k})}^{T} (A x + B y^{k} - b) + \frac{1}{2} ‖ {A x + B y^{k} - b ‖}_{H}^{2} | x \in X}, \\ {\tilde{y}}^{k} = \arg \min {g (y) - {(λ^{k})}^{T} (A x^{k} + B y - b) + \frac{1}{2} ‖ {A x^{k} + B y - b ‖}_{H}^{2} | y \in Y}, \\ {\tilde{λ}}^{k} = λ^{k} - H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b), \\ w^{k + 1} = w^{k} - γ α_{k}^{*} G^{- 1} M (w^{k} - {\tilde{w}}^{k}), α_{k}^{*} = \frac{φ (w^{k}, {\tilde{w}}^{k})}{‖ {G^{- 1} M (w^{k} - {\tilde{w}}^{k}) ‖}_{G}^{2}}, 1 \leq γ < 2, \end{cases}$

在ADMM下降算法中，要得到 ${\tilde{y}}^{k}$ ，都要用到上一步的结果 ${\tilde{x}}^{k}$ ，而并行分裂ADMM下降算法可以弥补这一不足， ${\tilde{y}}^{k}$ 的获得是独立不依赖于 ${\tilde{x}}^{k}$ 的， ${\tilde{x}}^{k}$ 和 ${\tilde{y}}^{k}$ 是并行分解的，这也是称之为并行分裂的原因。并行分裂ADMM下降算法在实际应用中可以大大地加快收敛的速度。

文献 [23] 考虑改善步长收缩算法 [24] [25] 的固定扩张步长没有充分利用下降量函数的不等式放缩，将算法中不变的延长因子改为使用随机数生成的延长因子，并称为随机步长收缩算法，这一改进方便选定步长且其取值更加丰富。

本文将上述并行分裂ADMM下降算法和随机步长收缩算法的思想相结合，提出了带随机步长的并行分裂ADMM下降算法，并在一定的假设条件下证明了算法的收敛性，且数值实验表明新算法是有效的。

2. 预备知识

下面简单回顾一些在随后的证明中要用到的一些基础知识。

引入拉格朗日乘子 $λ$ ，将式(1)转化为下列变分不等式，也就是寻找 $w = (x, y, λ) \in W = X \times Y \times R^{r}$ ，使得

(2)

再记 $W^{*}$ 为上式的非空解集， $w^{*} = (x^{*}, y^{*}, λ^{*})$ 是 $W^{*}$ 中的一个解。

为了分析的便利，我们引入以下记号

$G = (\begin{matrix} A^{T} H A & 0 & 0 \\ 0 & B^{T} H B & 0 \\ 0 & 0 & H^{- 1} \end{matrix}), \bar{G} = (\begin{matrix} 0 & 0 & 0 \\ - B^{T} H A & B^{T} H B & 0 \\ 0 & 0 & H^{- 1} \end{matrix}), F (w) = (\begin{matrix} \nabla f (x) - A^{T} λ \\ \nabla g (y) - B^{T} λ \\ A x + B y - b \end{matrix})$

定义2.1 [26] 设 $x = (x_{1}, x_{2}, \dots, x_{n}) \in R^{n}$ ，对称正定阵 $G \in R^{n \times n}$ ，则向量x在矩阵G意义下的范数定义为

${‖ x ‖}_{G} = {(x^{T} G x)}^{\frac{1}{2}}$

定义2.2 [27] 设 $X_{1}, X_{2}, \dots, X_{n}, \dots$ 是一列随机变量，若 $\forall ε > 0$ ，恒有

$\lim_{n \to \infty} P {| X_{n} - X | > ε} = 0$

则称 ${X_{n}}$ 依概率收敛到X，记作 $X_{n} \overset{P}{\to} X$ 。

定理2.1 [27] 设 $X_{n} \overset{P}{\to} X$ ，则必有子序列 $X_{n_{k}} \to X$ a.s. (几乎必然地)。

定理2.2 [27] Markov不等式：对 $\forall ε > 0$ 、 $r > 0$ ，有

$P (| x | > ε) \leq \frac{E ({| x |}^{r})}{ε^{r}}$

定理2.3 [28] 设 $X \subset R^{n}$ 是闭凸集， $θ (x)$ 和 $h (x)$ 为可微凸函数。设 $x^{*}$ 满足 $\min {θ (x) + h (x) | x \in X}$ ，即

$x^{*} = \arg \min {θ (x) + h (x) | x \in X}$

的充分必要条件是

$x^{*} \in X, {(x - x^{*})}^{T} (\nabla θ (x^{*}) + \nabla h (x^{*})) \geq 0, \forall x \in X$

定理2.4 [27] Jenson不等式：设X是一个随机变量，f是一个凸函数，则有

$f (E (X)) \leq E (f ( X ))$

如果f是一个凹函数，则有

$f (E (X)) \geq E (f ( X ))$

3. 带随机步长的并行分裂ADMM下降算法及其收敛性

3.1. 带随机步长的并行分裂ADMM下降算法

步0初始化 $w = w^{0} = (x^{0}, y^{0}, z^{0})$ ， $s t o p c = 1$ ， $0 \leq a < b \leq 2$ ， $k = 0$ ，容许度 $ε$ ；

步1当 $s t o p c \leq ε$ 时，停机；否则依次计算

${\tilde{x}}^{k} = \arg \min {f (x) - {(λ^{k})}^{T} (A x + B y^{k} - b) + \frac{1}{2} ‖ {A x + B y^{k} - b ‖}_{H}^{2} | x \in X}$ (3)

${\tilde{y}}^{k} = \arg \min {g (y) - {(λ^{k})}^{T} (A x^{k} + B y - b) + \frac{1}{2} ‖ {A x^{k} + B y - b ‖}_{H}^{2} | y \in Y}$ (4)

${\tilde{λ}}^{k} = λ^{k} - H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)$ (5)

步2计算

$w^{k + 1} = w^{k} - γ^{k} α_{k}^{*} (w^{k} - {\tilde{w}}^{k})$ (6)

其中

$γ^{k} = \frac{1}{k} \sum_{i = 1}^{k} ξ^{i}$

$α_{k}^{*} = \frac{φ (w^{k}, {\tilde{w}}^{k})}{‖ {w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}}$ (7)

$φ (w^{k}, {\tilde{w}}^{k}) = ‖ {w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2} + {(λ^{k} - {\tilde{λ}}^{k})}^{T} [(A x^{k} - A {\tilde{x}}^{k}) + (B y^{k} - B {\tilde{y}}^{k})]$ (8)

步3计算

$s t o p c = \frac{‖ w^{k + 1} - w^{k} ‖}{‖ w^{k} ‖}, k = k + 1$

返回步1。

注1 ${ξ^{k}}$ 为服从区间 $(a, b)$ 上的某种独立同分布的随机分布序列， $ξ^{k}$ 的数学期望 $E (ξ^{k}) = ρ$ ；

注2 当 $ξ^{k}$ 取为固定值时，该算法退化为并行分裂的ADMM下降算法。

3.2. 收敛性

在该算法的收敛性分析中还需利用下述引理。

引理3.1 当 $F (w)$ 为单调连续算子时，由新算法依次计算得到的 ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 满足

${(\begin{matrix} x^{'} - {\tilde{x}}^{k} \\ y^{'} - {\tilde{y}}^{k} \\ λ^{'} - {\tilde{λ}}^{k} \end{matrix})}^{T} {F ({\tilde{w}}^{k}) + (\begin{matrix} A^{T} H B (y^{k} - {\tilde{y}}^{k}) \\ B^{T} H B (y^{k} - {\tilde{y}}^{k}) \\ 0 \end{matrix}) + \bar{G} ({\tilde{w}}^{k} - w^{k})} \geq 0$ (9)

证明由(3)~(5)可得

${(x^{'} - {\tilde{x}}^{k})}^{T} {\nabla f ({\tilde{x}}^{k}) - A^{T} [λ^{k} - H (A {\tilde{x}}^{k} + B y^{k} - b)]} \geq 0, \forall x^{'} \in X$ (10)

${(y^{'} - {\tilde{y}}^{k})}^{T} {\nabla g ({\tilde{y}}^{k}) - B^{T} [λ^{k} - H (A x^{k} + B {\tilde{y}}^{k} - b)]} \geq 0, \forall y^{'} \in Y$ (11)

${\tilde{λ}}^{k} = λ^{k} - H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)$

将上述式子简单整理写为向量格式，即可得到(9)。

引理3.2给定 $w^{k} = (x^{k}, y^{k}, λ^{k})$ ， ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由(3)~(5)产生得到的， $φ (w^{k}, {\tilde{w}}^{k})$ 由(8)所定义，则有

$φ (w^{k}, {\tilde{w}}^{k}) \geq \frac{2 - \sqrt{2}}{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}$ (12)

证明首先，根据矩阵G和 $φ (w^{k}, {\tilde{w}}^{k})$ 的定义，

$\begin{array}{l} φ (w^{k}, {\tilde{w}}^{k}) = {‖ A (x^{k} - {\tilde{x}}^{k}) ‖}_{H}^{2} + {‖ B (y^{k} - {\tilde{y}}^{k}) ‖}_{H}^{2} + {‖ λ^{k} - {\tilde{λ}}^{k} ‖}_{H^{- 1}}^{2} \\ + {(A x^{k} - A {\tilde{x}}^{k})}^{T} (λ^{k} - {\tilde{λ}}^{k}) + {(B y^{k} - B {\tilde{y}}^{k})}^{T} (λ^{k} - {\tilde{λ}}^{k}) \end{array}$ (13)

根据Cauchy-Schwarz不等式，得

${(A x^{k} - A {\tilde{x}}^{k})}^{T} (λ^{k} - {\tilde{λ}}^{k}) \geq - \frac{1}{2} (\sqrt{2} {‖ A (x^{k} - {\tilde{x}}^{k}) ‖}_{H}^{2} + \frac{1}{\sqrt{2}} {‖ λ^{k} - {\tilde{λ}}^{k} ‖}_{H^{- 1}}^{2})$ (14)

${(B y^{k} - B {\tilde{y}}^{k})}^{T} (λ^{k} - {\tilde{λ}}^{k}) \geq - \frac{1}{2} (\sqrt{2} {‖ B (y^{k} - {\tilde{y}}^{k}) ‖}_{H}^{2} + \frac{1}{\sqrt{2}} {‖ λ^{k} - {\tilde{λ}}^{k} ‖}_{H^{- 1}}^{2})$ (15)

把(14) (15)带入到(13)中，得

$φ (w^{k}, {\tilde{w}}^{k}) \geq \frac{2 - \sqrt{2}}{2} ({‖ A (x^{k} - {\tilde{x}}^{k}) ‖}_{H}^{2} + {‖ B (y^{k} - {\tilde{y}}^{k}) ‖}_{H}^{2} + {‖ λ^{k} - {\tilde{λ}}^{k} ‖}_{H^{- 1}}^{2})$

从而直接得到引理中3.2中的结果。

引理3.3给定 $w^{k} = (x^{k}, y^{k}, λ^{k})$ ， ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由(3)~(5)产生得到的，则对任意的 $w^{*} \in W^{*}$ ，有

${({\tilde{λ}}^{k} - λ^{*})}^{T} H^{- 1} (λ^{k} - {\tilde{λ}}^{k}) \geq {(A {\tilde{x}}^{k} - A x^{*})}^{T} H (B y^{k} - B {\tilde{y}}^{k}) + {(B {\tilde{y}}^{k} - B y^{*})}^{T} H (A x^{k} - A {\tilde{x}}^{k})$ (16)

证明因为 $w^{*} \in W^{*}$ ， ${\tilde{x}}^{k} \in X$ ， ${\tilde{y}}^{k} \in Y$ ，由(8)可得

${(\begin{matrix} {\tilde{x}}^{k} - x^{*} \\ {\tilde{y}}^{k} - y^{*} \end{matrix})}^{T} (\begin{matrix} \nabla f (x^{*}) - A^{T} λ^{*} \\ \nabla g (y^{*}) - B^{T} λ^{*} \end{matrix}) \geq 0$ (17)

$A x^{*} + B y^{*} - b = 0$

另一方面，因为 $x^{*} \in X$ ， $y^{*} \in Y$ ，从(10) (11)可得到

${(\begin{matrix} x^{*} - {\tilde{x}}^{k} \\ y^{*} - {\tilde{y}}^{k} \end{matrix})}^{T} (\begin{matrix} \nabla f ({\tilde{x}}^{k}) - A^{T} {\tilde{λ}}^{k} + A^{T} H (B y^{k} - B {\tilde{y}}^{k}) \\ \nabla g ({\tilde{y}}^{k}) - B^{T} {\tilde{λ}}^{k} + B^{T} H (A x^{k} - A {\tilde{x}}^{k}) \end{matrix}) \geq 0$ (18)

把(17)和(18)相加，并利用 $\nabla f$ 和 $\nabla g$ 的单调性，得

${(\begin{matrix} {\tilde{x}}^{k} - x^{*} \\ {\tilde{y}}^{k} - y^{*} \end{matrix})}^{T} (\begin{matrix} A^{T} ({\tilde{λ}}^{k} - λ^{*}) - A^{T} H (B y^{k} - B {\tilde{y}}^{k}) \\ B^{T} ({\tilde{λ}}^{k} - λ^{*}) - B^{T} H (A x^{k} - A {\tilde{x}}^{k}) \end{matrix}) \geq 0$

整理得到

$\begin{array}{l} {({\tilde{λ}}^{k} - λ^{*})}^{T} [(A {\tilde{x}}^{k} - A x^{*}) + (B {\tilde{y}}^{k} - B y^{*})] \\ \geq {(A {\tilde{x}}^{k} - A x^{*})}^{T} H (B y^{k} - B {\tilde{y}}^{k}) + {(B {\tilde{y}}^{k} - B y^{*})}^{T} H (A x^{k} - A {\tilde{x}}^{k}) \end{array}$ (19)

由于 $A x^{*} + B y^{*} - b = 0$ 且 $A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b = H^{- 1} (λ^{k} - {\tilde{λ}}^{k})$ ，从(19)我们直接得到(16)。

引理3.4给定 $w^{k} = (x^{k}, y^{k}, λ^{k})$ ， ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由(3)~(5)产生得到的，则对任意的 $w^{*} \in W^{*}$ ，有

${(w^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) \geq φ (w^{k}, {\tilde{w}}^{k})$ (20)

证明首先，使用矩阵G的定义，有

$\begin{array}{l} {({\tilde{w}}^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) \\ = {(A {\tilde{x}}^{k} - A x^{*})}^{T} H (A x^{k} - A {\tilde{x}}^{k}) + {(B {\tilde{y}}^{k} - B y^{*})}^{T} H (B y^{k} - B {\tilde{y}}^{k}) \\ + {({\tilde{λ}}^{k} - λ^{*})}^{T} H^{- 1} (λ^{k} - {\tilde{λ}}^{k}) \end{array}$ (21)

将(16)代入(21)右边的最后一项得到

$\begin{array}{l} {({\tilde{w}}^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) \\ \geq {(A {\tilde{x}}^{k} - A x^{*})}^{T} H (A x^{k} - A {\tilde{x}}^{k}) + {(B {\tilde{y}}^{k} - B y^{*})}^{T} H (B y^{k} - B {\tilde{y}}^{k}) \\ + {(B {\tilde{y}}^{k} - B y^{*})}^{T} H (A x^{k} - A {\tilde{x}}^{k}) + {(A {\tilde{x}}^{k} - A x^{*})}^{T} H (B y^{k} - B {\tilde{y}}^{k}) \end{array}$

利用 $A x^{*} + B y^{*} = b$ ，从上面的不等式我们得到

${({\tilde{w}}^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) \geq {(A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)}^{T} H [(A x^{k} - A {\tilde{x}}^{k}) + (B y^{k} - B {\tilde{y}}^{k})]$ (22)

因为 $H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b) = λ^{k} - {\tilde{λ}}^{k}$ ，再由 $φ (w^{k}, {\tilde{w}}^{k})$ 的定义，我们可以直接得到(20)。

引理3.5给定 $w^{k} = (x^{k}, y^{k}, λ^{k})$ ， ${\tilde{w}}^{k} = ({\tilde{x}}^{k}, {\tilde{y}}^{k}, {\tilde{λ}}^{k})$ 是由(3)~(5)产生得到的，定义

$w^{k + 1} (α) = w^{k} - α (w^{k} - {\tilde{w}}^{k})$ (23)

$θ_{k} (α) = {‖ w^{k} - w^{*} ‖}_{G}^{2} - {‖ w^{k + 1} (α) - w^{*} ‖}_{G}^{2}, \forall w^{*} \in W^{*}$ (24)

则有

$θ_{k} (α) \geq q_{k} (α) = 2 α φ (w^{k}, {\tilde{w}}^{k}) - α^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}, \forall α > 0$ (25)

证明由(23) (24)和(20)可知

$\begin{matrix} θ_{k} (α) = {‖ w^{k} - w^{*} ‖}_{G}^{2} - {‖ w^{k} - α (w^{k} - {\tilde{w}}^{k}) - w^{*} ‖}_{G}^{2} \\ = 2 α {(w^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) - α^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2} \\ \geq 2 α φ (w^{k}, {\tilde{w}}^{k}) - α^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2} \end{matrix}$ (26)

(26)的右侧是 $q_{k} (α)$ ，得证。

注1 引理3.5中 $θ_{k} (α)$ 是迭代点和最优点距离的下降量，因其含有未知量 $w^{*}$ ，从而无法计算； $q_{k} (α)$ 是 $θ_{k} (α)$ 的一个下界函数，此函数不含未知量 $w^{*}$ ，相对易于计算。

注2 注意到 $q_{k} (α)$ 是关于 $α$ 的二次函数，最大值在 $α_{k}^{*} = \frac{φ (w^{k}, {\tilde{w}}^{k})}{{‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}}$ 处取得，且 $q_{k} (α_{k}^{*}) = α_{k}^{*} φ (w^{k}, {\tilde{w}}^{k})$ 。

定理3.1当 $0 \leq a < E (γ^{k}) = ρ < b \leq 2$ 时，由(3)~(6)产生的迭代序列 ${w^{k}}$ 收敛，并且存在 $T_{0} (0 < T_{0} < \infty)$ 使得对任意的 $w^{*} \in W^{*}$ ， $k \to \infty$ 有

$E ({‖ w^{k + 1} - w^{*} ‖}_{G}^{2}) \leq E ({‖ w^{k} - w^{*} ‖}_{G}^{2}) - T_{0} \cdot E ({‖ w^{k + 1} - w^{k} ‖}_{G}^{2})$ (27)

其中 $T_{0} = (2 - \sqrt{2}) (\frac{2}{ρ} - 1)$ 。

证明由于G是对称正定阵，根据(5)和 $0 \leq a < E (γ^{k}) = ρ < b \leq 2$ ，得

${‖ w^{k + 1} - w^{*} ‖}_{G}^{2} = {‖ w^{k} - γ^{k} α_{k}^{*} (w^{k} - {\tilde{w}}^{k}) - w^{*} ‖}_{G}^{2}$

$= {‖ w^{k} - w^{*} ‖}_{G}^{2} - 2 γ^{k} α_{k}^{*} {(w^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) + {(γ^{k} α_{k}^{*})}^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}$

$\leq {‖ w^{k} - w^{*} ‖}_{G}^{2} - 2 γ^{k} α_{k}^{*} φ (w^{k}, {\tilde{w}}^{k}) + {(γ^{k} α_{k}^{*})}^{2} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}$ (28)

$= {‖ w^{k} - w^{*} ‖}_{G}^{2} - [2 γ^{k} α_{k}^{*} φ (w^{k}, {\tilde{w}}^{k}) + ({(γ^{k})}^{2} α_{k}^{*}) α_{k}^{*} {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}]$

$= {‖ w^{k} - w^{*} ‖}_{G}^{2} - γ^{k} (2 - γ^{k}) α_{k}^{*} φ (w^{k}, {\tilde{w}}^{k})$ (29)

$\leq {‖ w^{k} - w^{*} ‖}_{G}^{2} - \frac{1}{2} γ^{k} (2 - γ^{k}) φ (w^{k}, {\tilde{w}}^{k})$ (30)

$\leq {‖ w^{k} - w^{*} ‖}_{G}^{2} - \frac{2 - \sqrt{2}}{4} γ^{k} (2 - γ^{k}) {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}$ (31)

其中(28)由(20)可得，即 $2 γ^{k} α_{k}^{*} {(w^{k} - w^{*})}^{T} G (w^{k} - {\tilde{w}}^{k}) \geq 2 γ^{k} α_{k}^{*} φ (w^{k}, {\tilde{w}}^{k})$ ；(29)由 $α_{k}^{*} = \frac{φ (w^{k}, {\tilde{w}}^{k})}{{‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}}$ 可得；(30)由 $α_{k}^{*} \geq 0.5$ 可得；(31)由(12)可得。

根据(5)和 $α_{k}^{*} \geq 0.5$ ，可得

$w^{k + 1} - w^{k} = - γ^{k} α_{k}^{*} (w^{k} - {\tilde{w}}^{k}) \leq - \frac{1}{2} γ^{k} (w^{k} - {\tilde{w}}^{k}) = \frac{1}{2} γ^{k} ({\tilde{w}}^{k} - w^{k})$

即 $\frac{4}{{(γ^{k})}^{2}} {‖ w^{k + 1} - w^{k} ‖}_{G}^{2} \leq {‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}^{2}$ 。

故

${‖ w^{k + 1} - w^{*} ‖}_{G}^{2} \leq {‖ w^{k} - w^{*} ‖}_{G}^{2} - (2 - \sqrt{2}) (\frac{2}{γ^{k}} - 1) {‖ w^{k + 1} - w^{k} ‖}_{G}^{2}$ (32)

由(32)可知，因 $ξ^{1}, ξ^{2}, \dots, ξ^{k}, \dots$ 独立同分布，且 $E (γ^{k}) = E (\frac{1}{k} \sum_{i = 1}^{k} ξ^{i}) = \frac{1}{k} \sum_{i = 1}^{k} E (ξ^{i}) = ρ$ ，所以

$E ({‖ w^{k + 1} - w^{*} ‖}_{G}^{2}) \leq E ({‖ w^{k} - w^{*} ‖}_{G}^{2} - (2 - \sqrt{2}) (\frac{2}{γ^{k}} - 1) {‖ w^{k + 1} - w^{k} ‖}_{G}^{2})$

$= E ({‖ w^{k} - w^{*} ‖}_{G}^{2}) - E ((2 - \sqrt{2}) (\frac{2}{γ^{k}} - 1) {‖ w^{k + 1} - w^{k} ‖}_{G}^{2})$

$\leq E ({‖ w^{k} - w^{*} ‖}_{G}^{2}) - (2 - \sqrt{2}) (\frac{2}{E (γ^{k})} - 1) E ({‖ w^{k + 1} - w^{k} ‖}_{G}^{2})$ (33)

$= E ({‖ w^{k} - w^{*} ‖}_{G}^{2}) - (2 - \sqrt{2}) (\frac{2}{ρ} - 1) E ({‖ w^{k + 1} - w^{k} ‖}_{G}^{2})$

其中(33)是由Jenson不等式得到的， $\frac{2}{γ^{k}} - 1$ 是一个凸函数，故 $E (\frac{2}{γ^{k}} - 1) \geq \frac{2}{E (γ^{k})} - 1$ ；再令 $T_{0} = (2 - \sqrt{2}) (\frac{2}{ρ} - 1)$ 。即(28)得证。

推论3.1当 $0 \leq a < E (γ^{k}) = ρ < b \leq 2$ 时， ${w^{k}}$ 为新算法产生的序列，则有

1) 序列 ${E (w^{k})}$ 和 ${E ({\tilde{w}}^{k})}$ 是有界的；

2) 序列 ${E ({‖ w^{k} - w^{*} ‖}_{G}^{2})}$ 是严格单调递减且有界的；

3) $\lim_{k \to \infty} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}) = 0$ 。

下面给出新算法的依概率收敛的证明。

定理3.2由新算法产生的序列 ${w^{k}}$ 依概率收敛于 $w^{\infty} \in W^{*}$ ，即 $w^{k} \overset{P}{\to} w^{\infty}$ 。

证明根据上面推论3.1中的2)，有

$\lim_{k \to \infty} E ({‖ A (x^{k} - {\tilde{x}}^{k}) ‖}_{H}) = 0, \lim_{k \to \infty} E ({‖ B (y^{k} - {\tilde{y}}^{k}) ‖}_{H}) = 0$ (34)

$\lim_{k \to \infty} E ({‖ λ^{k} - {\tilde{λ}}^{k} ‖}_{H^{- 1}}) = \lim_{k \to \infty} E ({‖ A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b ‖}_{H}) = 0$ (35)

对于，由(10) (11)和(6)得：

$\begin{array}{l} {(x^{'} - {\tilde{x}}^{k})}^{T} {\nabla f ({\tilde{x}}^{k}) - A^{T} [{\tilde{λ}}^{k} + H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)] + A^{T} H (A {\tilde{x}}^{k} + B y^{k} - b)} \geq 0 \\ {(y^{'} - {\tilde{y}}^{k})}^{T} {\nabla g ({\tilde{y}}^{k}) - B^{T} [{\tilde{λ}}^{k} + H (A {\tilde{x}}^{k} + B {\tilde{y}}^{k} - b)] + B^{T} H (A x^{k} + B {\tilde{y}}^{k} - b)} \geq 0 \end{array}$

即：

${(x^{'} - {\tilde{x}}^{k})}^{T} (\nabla f ({\tilde{x}}^{k}) - A^{T} {\tilde{λ}}^{k}) \geq A^{T} H B ({\tilde{y}}^{k} - y^{k})$ (36)

${(y^{'} - {\tilde{y}}^{k})}^{T} (\nabla g ({\tilde{y}}^{k}) - B^{T} {\tilde{λ}}^{k}) \geq B^{T} H A ({\tilde{x}}^{k} - x^{k})$ (37)

由(34)和(36) (37)得

${\begin{cases} \lim_{k \to \infty} {(x^{'} - {\tilde{x}}^{k})}^{T} (\nabla f ({\tilde{x}}^{k}) - A^{T} {\tilde{λ}}^{k}) \geq 0 \\ \lim_{k \to \infty} {(y^{'} - {\tilde{y}}^{k})}^{T} (\nabla g ({\tilde{y}}^{k}) - B^{T} {\tilde{λ}}^{k}) \geq 0 \end{cases}$ (38)

由于 ${E ({\tilde{w}}^{k})}$ 有界，故该序列至少存在一个聚点，设 $E (w^{\infty})$ 是 ${E (w^{k})}$ 的一个聚点，且存在子序列 ${E (w^{k_{j}})}$ 收敛于 $E (w^{\infty})$ ，那么子序列 ${w^{k_{j}}}$ 依概率收敛到 $w^{\infty}$ ，即 $w^{k_{j}} \overset{P}{\to} w^{\infty}$ 。

再由(35)和(38)可得

${\begin{cases} \lim_{j \to \infty} {(x^{'} - {\tilde{x}}^{k_{j}})}^{T} (\nabla f ({\tilde{x}}^{k_{j}}) - A^{T} {\tilde{λ}}^{k_{j}}) \geq 0 \\ \lim_{j \to \infty} {(y^{'} - {\tilde{y}}^{k_{j}})}^{T} (\nabla g ({\tilde{y}}^{k_{j}}) - B^{T} {\tilde{λ}}^{k_{j}}) \geq 0 \\ \lim_{j \to \infty} (A {\tilde{x}}^{k_{j}} + B {\tilde{y}}^{k_{j}} - b) = 0 \end{cases}$

即

${\begin{cases} {(x^{'} - x^{\infty})}^{T} (\nabla f (x^{\infty}) - A^{T} λ^{\infty}) \geq 0 \\ {(y^{'} - y^{\infty})}^{T} (\nabla g (y^{\infty}) - B^{T} λ^{\infty}) \geq 0 \\ (A x^{\infty} + B y^{\infty} - b) = 0 \end{cases}$

因此， $w^{\infty} \in W^{*}$ 。

由 $\lim_{j \to \infty} E ({\tilde{w}}^{k_{j}}) = E (w^{\infty})$ 可知， $\lim_{l \to \infty} E ({‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖}_{G}) = 0$ 。

又因为 $\lim_{k \to \infty} E ({‖ w^{k} - {\tilde{w}}^{k} ‖}_{G}) = 0$ ，则对任意 $ε > 0$ ，存在 $l \in ℤ^{+}$ 使得

$E (‖ w^{k_{l}} - {\tilde{w}}^{k_{l}} ‖) < \frac{ε^{2}}{2}$ ， $E (‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖) < \frac{ε^{2}}{2}$

根据推论， ${E ({‖ w^{k} - w^{*} ‖}_{G}^{2})}$ 是严格单调递减的。因此，对任意 $k \geq k_{l}$ ，有

$E ({‖ w^{k} - w^{\infty} ‖}_{G}) \leq E ({‖ w^{k_{l}} - w^{\infty} ‖}_{G}) \leq E ({‖ w^{k_{l}} - {\tilde{w}}^{k_{l}} ‖}_{G}) + E ({‖ {\tilde{w}}^{k_{l}} - w^{\infty} ‖}_{G}) < ε^{2}$ (39)

即 $\lim_{k \to \infty} E ({‖ w^{k} - w^{\infty} ‖}_{G}) = 0$ 。

由定理2.2和(39)可知，对任意 $ε > 0$ ，存在 $l > 0$ ，只要 $k > l$ ，就有

$P ({‖ w^{k} - w^{\infty} ‖}_{G} \geq ε) \leq \frac{E ({‖ w^{k} - w^{\infty} ‖}_{G})}{ε} < ε$

即 $\lim_{k \to \infty} P ({‖ w^{k} - w^{\infty} ‖}_{G} \geq ε) = 0$ 。

故 ${w^{k}}$ 依概率收敛到 $w^{\infty} \in W^{*}$ ，即 $w^{k} \overset{P}{\to} w^{\infty}$ 。

4. 数值实验

我们考虑求解下列等式约束二次规划问题

$\begin{array}{l} \min_{x, y} \frac{1}{2} x^{T} P x + p^{T} x + \frac{1}{2} y^{T} Q y + q^{T} y \\ s .t . A x + B y = b \end{array}$

其中P和Q是对称正定阵， $A \in R^{m \times n_{1}}$ ， $B \in R^{m \times n_{2}}$ ， $x \in R^{n_{1}}$ ， $y \in R^{n_{2}}$ ， $b \in R^{m}$ ， $p \in R^{n_{1}}$ ， $q \in R^{n_{2}}$ 。

我们令 $H = β I$ ，其中的最优取值是通过反复测试确定的。同时， $γ^{k}$ 是在区间 $(0, 2)$ 上选取的服从正态分布的随机数。在新算法运行前，我们对矩阵 $P, Q, A^{T} A, B^{T} B$ 进行Cholesky分解，来化简对子问题的求解。我们取

$s t o p c = {‖ ({\tilde{x}}^{k} - x^{k}, {\tilde{y}}^{y} - y^{y}, A {\tilde{x}}^{k} + B {\tilde{y}}^{y} - b) ‖}_{\infty} \leq 10^{- 12}$

作为停机准则。

我们在每组 $(m, n_{1}, n_{2})$ 设置下，测试了几组不同设置的问题。然后将几种算法数值实验的结果进行比较，见表1。

Table 1. Numerical experimental results of four algorithms

表1. 四种算法的数值实验结果

5. 结语

本文基于并行分裂ADMM下降算法和改善步长的收缩算法，提出了一种求解结构型凸优化问题的新算法——带随机步长的并行分裂ADMM下降算法，文章证明了新算法的收敛性。数值实验结果显示，在求解结构型凸优化问题时，新算法的迭代步数及CPU运行时间均优于文章中的其他4类算法，并且新算法的计算效率对数据维度的增长有较好的鲁棒性，进一步说明新算法可用于处理一些高维数据的问题。

本文在ADMM算法基础上进行算法改进的研究，并取得了一些新的成果，但还有许多问题值得我们更深一步的研究。在随后的研究中，我们主要考虑以下几个方面：

1) 本文考虑的目标函数是带有两块的结构型凸优化问题，后面还可以考虑新算法能否推广到带有三块及多块的结构型凸优化问题的情况；

2) 能否加入Nesterov加速等其他加速算法，使算法的计算效率进一步提高；

3) 以后还可测试一些实际问题，比如图像降噪、信号处理等问题。

文章引用

张宇婷,李锋. 求解结构型凸优化问题的一种算法改进
An Improved Algorithm for Solving Structural Convex Optimization Problems[J]. 应用数学进展, 2021, 10(12): 4352-4364. https://doi.org/10.12677/AAM.2021.1012463

参考文献

1. Glowinski, R. and Marroco, A. (1975) Sur l’approximation, par éléments finis d’ordre un, et la résolution, par pénalisation-dualité d’une classe de problèmes de Dirichlet non linéaires. ESAIM: Mathematical Modelling and Numerical Analysis, 9, 41-76. https://doi.org/10.1051/m2an/197509R200411

2. Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximations. Computers and Mathematics with Applications, 2, 17-40. https://doi.org/10.1016/0898-1221(76)90003-1

3. Li, G.Y. and Pong, T.K. (2015) Global Convergence of Splitting Methods for Nonconvex Composite Optimization. SIAM Journal on Optimization, 25, 2434-2460. https://doi.org/10.1137/140998135

4. Betts, J.T. (1978) A Gradient Projection-Multiplier Method for Nonlinear Programming. Journal of Optimization Theory and Applications, 24, 523-548. https://doi.org/10.1007/BF00935298

5. Root, R.R. and Ragsdell, K.M. (1980) On the Relationship between a Continuous Update Method of Multipliers and the Generalized Reduced Gradient Method. International Journal for Numerical Methods in Engineering, 15, 1735-1745. https://doi.org/10.1002/nme.1620151203

6. Hestenes, M.R. (1969) Multiplier and Gradient Methods. Journal of Optimization Theory & Applications, 4, 303-320. https://doi.org/10.1007/BF00927673

7. Cai, X.J., Gu, G.Y., He, B.S., et al. (2013) A Proximal Point Algorithm Revisit on the Alternating Direction Method of Multipliers. Science China Mathematics, 56, 2179-2186. https://doi.org/10.1007/s11425-013-4683-0

8. Giselsson, P. and Boyd, S. (2014) Linear Convergence and Metric Selection for Douglas-Rachford Splitting and ADMM. IEEE Transactions on Automatic Control, 62, 532-544. https://doi.org/10.1109/TAC.2016.2564160

9. Cai, X.J., Gu, G.Y., He, B.S., et al. (2011) A Relaxed Customized Proximal Point Algorithm for Separable Convex Programming. Optimization.

10. He, B.S. and Yuan, X.M. (2012) On the O(1/n) Convergence Rate of the Douglas-Rachford Alternating Direction Method. SIAM Journal on Numerical Analysis, 50, 700-709. https://doi.org/10.1137/110836936

11. Boyd, S., Parikh, N., Chu, E., et al. (2011) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122. https://doi.org/10.1561/2200000016

12. He, B.S. and Yuan, X.M. (2015) On Non-Ergodic Convergence Rate of Douglas-Rachford Alternating Direction Method of Multipliers. Numerische Mathematik, 130, 567-577. https://doi.org/10.1007/s00211-014-0673-6

13. He, B.S., Yang, H. and Wang, S.L. (2000) Alternating Direction Method with Self-Adaptive Penalty Parameters for Monotone Variational Inequalities. Journal of Optimization Theory & Applications, 106, 337-356. https://doi.org/10.1023/A:1004603514434

14. Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximations. Computers and Mathematics with Applications, 2, 17-40. https://doi.org/10.1016/0898-1221(76)90003-1

15. Shi, W., Ling, Q., Yuan, K., et al. (2014) On the Linear Convergence of the ADMM in Decentralized Consensus Optimization. IEEE Transactions on Signal Processing, 62, 1750-1761. https://doi.org/10.1109/TSP.2014.2304432

16. Cao, J., Liu, S., Liu, H., et al. (2021) MRI Reconstruction Based on Bayesian Group Sparse Representation. Signal Processing, 187, Article ID: 108151. https://doi.org/10.1016/j.sigpro.2021.108151

17. Du, S., Shi, Y., Hu, W., et al. (2020) Robust Tensor Factorization for Color Image and Grayscale Video Recovery. IEEE Access, 8, 174410-174423. https://doi.org/10.1109/ACCESS.2020.3024635

18. Chan, S.H. (2019) Performance Analysis of Plug-and-Play ADMM: A Graph Signal Processing Perspective. IEEE Transactions on Computational Imaging, Volume number, 1-20.

19. Bai, J., Liang, J., Guo, K., et al. (2021) Accelerated Symmetric ADMM and Its Applications in Large-Scale Signal Processing.

20. Yue, H., Chi, E.C. and Allen, G.I. (2016) ADMM Algorithmic Regularization Paths for Sparse Statistical Machine Learning. Springer International Publishing, Berlin.

21. Ye, C.H. and Yuan, X.M. (2007) A Descent Method for Structured Monotone Variational Inequalities. Optimization Methods and Software, 22, 329-338. https://doi.org/10.1080/10556780600552693

22. He, B.S. (2009) Parallel Splitting Augmented Lagrangian Methods for Monotone Structured Variational Inequalities. Computational Optimization and Applications, 42, 195-212. https://doi.org/10.1007/s10589-007-9109-x

23. Xu, H.W. (2011) A Contraction Method with Random Step Size for a Class of Variational Inequalities. Chinese Journal of Engineering Mathematics, 28, 461-469.

24. He, B.S., Liao, L.Z., Han, D.R., et al. (2002) A New Inexact Alternating Directions Method for Monotone Variational Inequalities. Mathematical Programming, 92, 103-118. https://doi.org/10.1007/s101070100280

25. He, B.S., Liao, L.Z. and Wang, X.F. (2012) Proximal-Like Contraction Methods for Monotone Variational Inequalities in a Unified Framework I: Effective Quadruplet and Primary Methods. Computational Optimization and Applications, 51, 649-679. https://doi.org/10.1007/s10589-010-9372-0

26. Tao, M. and Yuan, X.M. (2012) On the O(1/t) Convergence Rate of Alternating Direction Method with Logarithmic-Quadratic Proximal Regularization. SIAM Journal on Optimization, 22, 1431-1448. https://doi.org/10.1137/110847639

27. 林正炎, 等. 概率极限理论基础[M]. 北京: 高等教育出版社, 2003.

28. 何炳生. 凸优化的一阶分裂算法——变分不等式为工具的统一框架[EB/OL]. http://math.nju.edu.cn/-hebma

NOTES

^*第一作者Email: 809667206@qq.com

^#通讯作者Email: 809776206@qq.com

期刊菜单