解决向量优化问题的一种非单调投影梯度算法 A Nonmonotone Projected Gradient Algorithm for Solving Vector Optimization Problems

doi:10.12677/AAM.2023.125237

Advances in Applied Mathematics
Vol. 12 No. 05 ( 2023 ), Article ID: 66035 , 13 pages
10.12677/AAM.2023.125237

解决向量优化问题的一种非单调投影梯度算法

刘雪，周犁文

●How to Cite this Article

西南石油大学理学院，四川成都

收稿日期：2023年4月28日；录用日期：2023年5月21日；发布日期：2023年5月29日

摘要

本文引入一种新的算法：极大型投影梯度算法，它是将解决带约束向量优化问题的投影梯度算法和极大型非单调线搜索技术相结合的一种算法。下降方向通过由解决单目标规划的投影梯度算法推广到向量优化的投影梯度算法来得到，而在步长选择上采用经典的单调线搜索技术容易陷入局部收敛的困境，与非单调技术结合以后，可以摆脱这一困境。在合适的条件下，证明了算法的全局收敛和线性收敛性。

关键词

向量优化，投影梯度算法，非单调线搜索技术，全局收敛，线性收敛

A Nonmonotone Projected Gradient Algorithm for Solving Vector Optimization Problems

Xue Liu, Liwen Zhou

School of Science, Southwest Petroleum University, Chengdu Sichuan

Received: Apr. 28^th, 2023; accepted: May 21^st, 2023; published: May 29^th, 2023

ABSTRACT

This paper introduces a new algorithm: the max-type projected gradient algorithm, which combines the projected gradient algorithm for solving constrained vector optimization problems with the max-type nonmonotone line search technology. The Descent direction is obtained by extending the projection gradient algorithm for solving single objective programming to the projection gradient algorithm for vector optimization, while the classical monotone line search technology in step size selection is easy to fall into the dilemma of local convergence, which can be overcome by combining with nonmonotone technology. Under milder conditions, the global and linear convergences of the algorithm were demonstrated, and numerical experiments were conducted to verify its effectiveness.

Keywords:Vector Optimization, Projected Gradient Algorithm, Nonmonotone Line Search Technology, Global Convergence, Linear Convergence

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

本文考虑如下约束向量优化问题(constraint vector optimization，简记CVOP)：

${\begin{cases} \min F (x), \\ s .t . x \in C, \end{cases}$

C是 $R^{n}$ 中的非空闭凸子集， $F : R^{n} \to R^{m}$ 是连续可微的，且 $F (x) = (f_{1} (x), \dots, f_{m} (x))$ ， $f_{i} (x) : R^{n} \to R$ ， $\forall i \in {1, \dots, m}$ ， $F (x)$ 是连续可微的意味着它的每一个分量 $f_{i} (x)$ 都是连续的。这种类型的问题在金融、环境分析和管理学等领域都有所涉及，见文献 [1] [2] [3] 。

在求解向量优化问题的众多方法中，主要分成两类：标量化方法和下降方法。

标量化方法的基础思想是通过特定的参数将向量值问题转化为标量值问题。其中，著名的加权求和方法是通过对各个目标函数进行线性组合来得到一个单目标优化，新问题的最优解亦可看成是原始问题的最优解，如 [4] 。

向量优化的下降方法不需要提前知晓任何的参数信息，而且关于收敛性有理论的证明。它们是从单目标非线性规划的算法中拓展而来的。当向量优化无约束的时候，即如下形式：

$\min F ( x )$

有下面几种方法被提出：

Jörg Fliege和Benar Fux Svaiter [5] 提出解决向量优化的最速下降法，下降方向定义如下：

$v (x) : = \arg \min {\nabla f (v) + \frac{1}{2} {‖ v ‖}^{2}}$

在解决约束向量优化问题时，目标函数是Lipschitz连续的条件下，证明了该算法收敛到一个满足某些一阶必要条件的点。

Fliege, J.等人 [6] 提出解决向量优化的牛顿法，下降方向定义如下：

$v (x) : = \arg \underset{s \in R^{n}, j = 1, \dots, m}{\min \max} {\nabla f_{j} {(x_{k})}^{T} s + \frac{1}{2} s^{T} \nabla^{2} f_{j} (x_{k}) s} .$

文中也证明了在目标函数满足二阶连续可微的条件下，该算法生成的序列点是局部超线性收敛到最优点的。

对于带约束的向量优化问题，2004年，Graña Drummond和Iusem [7] 提出了解决向量优化的投影梯度算法(projected gradient method，简记为PGM)，下降方向定义如下：

$v (x) : = \arg \min_{v \in C_{x}} {{‖ v ‖}^{2} / 2 + β \max_{y \in G} (y^{T} J F (x) v)} .$

其中， $J F (x)$ 表示的是F在x处的雅可比矩阵， $C_{x} = C - x = {z - x : z \in C}$ ， $G = {y \in K^{*} : ‖ y ‖ = 1}$ 。上面几种方法可以通过选择适合的初始点来找到帕累托最优点，并且它们都是迭代型的算法，每次迭代的时候选择的下降方向都是通过解决一个目标函数是强凸的单目标优化来得到的，这样保证了下降方向是唯一的。特别地，Graña Drummond和Iusem也就投影梯度算法的两个方面给出了收敛性分析。一个是加上平方和步长和凸假设，他们证明了算法收敛到一个弱帕累托解。另一个则是给定目标函数是凸函数的假设，但是没有额外加步长，此时，他们证明了聚点是驻点。作为一种经典而有效的方法，投影梯度算法被广泛研究和应用在各种多目标规划中。关于固定步长的投影梯度算法，也有一些重要的工作。针对非可微凸向量优化问题，Bello Cruz等人 [8] 提出投影次梯度算法，并且证明了由算法生成的序列的聚点是弱帕累托解。最近，通过使用标量化的方法，Brito等人 [9] 和Bento等人 [10] 使用带权重的次梯度算法来解决非可微凸向量优化问题，并且获得了收敛到帕累托解的结果。虽然上述方法没有使用单调线搜索技术，但是它们依然有着很强的收敛结果。

在迭代过程中，改变步长能否对算法进行改进是一个值得研究的问题。本文受此启发，引入非单调步长来得到非单调投影梯度算法，并在合适的条件下证明算法的有效性。

2. 相关定义和引理

定义2.1 集合C被称为是锥，如果对任意的 $α \in (0, + \infty)$ 和 $x \in C$ ，都有 $α x \in C$ .进一步，集合C被称为是尖锥，如果它是锥，并且满足 $- C \cap C = {0}$ .

定义2.2 令集合K是非空闭尖凸锥，偏序“ $≺ (\underline{≺})$ ”的定义如下：

$z ≺ (\underline{≺}) z^{'} \Leftrightarrow z^{'} - z \in K (int K) .$

定义 2.3 集合 $K^{*}$ 称为集合K的极锥，如果它满足：

$K^{*} = {y \in R^{n} : 〈 y, x 〉 \geq 0, \forall x \in K} .$

定义2.4 设集合C是一个非空的集合。

1) $x^{*} \in C$ 被称为是帕累托最优，如果不存在 $y \in C$ 使得

$F (y) \underline{≺} F (x^{*})$ 和 $F (y) = F (x^{*}) .$

2) $x^{*} \in C$ 被称为是弱帕累托最优，如果不存在 $y \in C$ 使得

$F (y) ≺ F (x^{*}) .$

3) $x^{*} \in C$ 被称为是F的驻点，如果满足

$J F (x^{*}) (C - x^{*}) \cap (- int K) = ϕ,$

其中， $J F (x^{*}) (C - x^{*}) : = {J F (x^{*}) (x - x^{*}) : x \in C}$ 。

很多情况下，(弱)帕累托解很难被证明，许多学者会考虑证明生成的序列收敛到驻点来取代证明收敛到(弱)帕累托解。根据驻点的定义，我们知道如果 $\bar{x}$ 不是驻点，那么，存在 $x \in C$ 使得 $J F (\bar{x}) (x - \bar{x}) \in - int K$ ，这等价于 $J F (\bar{x}) (x - \bar{x}) ≺ 0$ ，取 $K = R_{+}^{m}$ 时，这进一步等价于如下表达式：

${(\nabla f_{i} (\bar{x}))}^{T} (x - \bar{x}) < 0, \forall i \in {1, \dots, m} .$

又F是连续可微的函数，故

$\lim_{γ \to 0^{+}} (f_{i} (\bar{x} + γ (x - \bar{x})) - f_{i} (\bar{x})) / γ = {(\nabla f_{i} (\bar{x}))}^{T} (x - \bar{x}) < 0,$

此式说明 $x - \bar{x}$ 在 $\bar{x}$ 处是一个下降方向，即不是驻点就存在下降方向，反之，不存在下降方向的点就是驻点。

定义2.5 映射F在H上是L-Lipschitz连续映射，当且仅当存在常数 $L > 0$ 使得映射F满足

$‖ F (x) - F (y) ‖ \leq L ‖ x - y ‖, \forall x, y \in H .$

如果 $L = 1$ ，则称F是非扩张的；如果 $L \in (0, 1)$ ，则称F是压缩的。

定义2.6 (收敛速度)设序列 ${x_{k}}$ 是 $R^{n}$ 中的序列，并且满足依范数收敛到 $x^{*} \in R^{n}$ ，称序列 ${x_{k}}$ 具有Q-线性收敛率，如果存在 $θ \in (0, 1)$ 使得当下标k充分大时，有

$‖ x_{k + 1} - x^{*} ‖ \leq θ ‖ x_{k} - x^{*} ‖ .$

下面给出一些引理用于后面算法的收敛性证明。

引理 2.7 [11] 令C是一个锥，则对于任意的 $x, y \in C$ ，有 $x + y \in C$ .

引理2.8 [12] 对于问题(CVOP)，如果 $x \in R^{n}$ 是帕累托最优点，则x也是驻点。

3. 算法及其收敛性

3.1. 算法描述

步骤1初始化：给定初始点 $x_{0} \in C$ ，参数 $σ \in (0, 1)$ ， $ρ > 1$ ， $μ \in (0, 1]$ ， $ε > 0$ 以及非负整数M和N，令 $k = 0$ 和 $m (k) = 0$ ；

步骤2确定寻找方向：计算

$v (x_{k}) : = \arg \min_{v \in C_{x_{k}}} {\frac{{‖ v ‖}^{2}}{2} + β \max_{y \in G} (y^{T} J F (x_{k}) v)};$ (3-1)

步骤3停止准则：如果迭代次数 $k > N$ 或者 $‖ v (x_{k}) ‖ < ε$ ，停止；否则，继续步骤4；

步骤4令 $m (k) = \min {m (k - 1) + 1, M}$ 和 $C_{k}$ ：

$C_{i, k} : = \max_{0 \leq j \leq m (k)} f_{i} (x_{k - j}), i \in {1, \dots, m};$ (3-2)

步骤5确定步长：取 $γ_{k} = μ ρ^{- h_{k}}$ ，其中 $h_{k}$ 是使得下面不等式成立的最小非负整数：

$F (x_{k} + γ_{k} v (x_{k})) \underline{≺} C_{k} + σ γ_{k} J F (x_{k}) v (x_{k});$ (3-3)

步骤6令 $x_{k + 1} = x_{k} + γ_{k} v (x_{k}), k = k + 1$ ，并返回到步骤2。

注3.1：当 ${x_{k}}$ 是由算法1生成的序列时，由(3-2)可以推导出 $F (x_{k}) \underline{≺} C_{k}$ 。

首先，定义函数 $φ : R^{m} \to R$ 如下：

$φ (x) : = \max_{y \in G} (y^{T} x) .$ (3-4)

结合极锥 $K^{*}$ 和集合G的定义，集合 $- K$ 和 $- int K$ 可以转化下面两个形式：

$- K = {y \in R^{m} : φ (y) \leq 0},$ (3-5)

和

$- int K = {y \in R^{m} : φ (y) < 0} .$ (3-6)

下面一个引理说明函数 $φ$ 的一些性质。

引理3.1 ( [7] Proposition 2) $φ$ 的定义如(3-4)所示，下面几个性质成立：

1) 函数 $φ$ 具有一阶正齐次性，即 $φ (k x) = k φ (x), \forall x \in R^{m}, k \geq 0$ ；

2) 对于所有的 $x, z \in R^{m}$ ， $φ (x + z) \leq φ (x) + φ (z)$ 和 $φ (x) - φ (z) \leq φ (x - z)$ 都成立；

3) 对于所有的 $x, z \in R^{m}$ ，若 $x ≺ z$ (或者 $x \underline{≺} z$ )，则 $φ (x) < φ (z)$ (或者 $φ (x) \leq φ (z)$ )；

4) 函数 $φ : R^{m} \to R$ 是Lipschitz连续的，且Lipschitz常数 $L = 1$ 。

其次，将(3-1)中目标函数记为 $θ : C \to R$ ：

$θ (x) : = \frac{{‖ v (x) ‖}^{2}}{2} + β \max_{y \in G} (y^{T} J F (x) v (x)) .$ (3-7)

其中， $v (x) \in C_{x} = {z - x | z \in C}$ ，且 $v (x)$ 是使得 $θ (x)$ 取值最小的一个向量。

下面的引理则陈述关于此函数的一些性质，这些性质对于算法的收敛性证明非常有用。

引理3.2 ( [7] Proposition 3) v和 $θ$ 的定义分别如(3-1)和(3-7)所示，下面几个结论成立：

(1) $θ (x) \leq 0, \forall x \in C$ ；

(2) 当 $x \in C$ 时，下面几个条件等价：

(a) x不是F的驻点；

(b) $θ (x) < 0$ ；

注3.2：(1) 由命题3.2(1)和 $θ$ 的定义知 $φ (J F (x) v (x)) \leq 0$ ，由 $φ$ 的定义知 $J F (x) v (x) \underline{≺} 0$ ，从而知 $v (x)$ 是一个下降方向；

(2) 从引理3.2(2)可以推导出 $x \in C$ 是F的驻点 $\Leftrightarrow θ (x) = 0 \Leftrightarrow v (x) = 0$ .

在步骤3的停止准则中，其中一个是要求 $‖ v (x_{k}) ‖ < ε$ 。一般来说，参数 $ε$ 是任意小的，所以从注3.2(2)可知此条件意味着 $x_{k}$ 是驻点。

命题3.3对于给定的点 $x \in C$ ， $v (x)$ 定义如(3-1)，则它满足下面两个不等式：

${‖ v (x) ‖}^{2} \leq - 2 β φ (J F (x) v (x)),$ (3-8)

$‖ v (x) ‖ \leq 2 β ‖ J F (x) ‖, \forall i \in {1, \dots, m} .$ (3-9)

证明：第一个不等式根据 $θ (x)$ 的定义和命题3.2(1)可以得到。再利用 $φ$ 的定义和柯西-施瓦茨不等式，有

$- 2 β φ (J F (x) v (x)) \leq 2 β ‖ J F (x) ‖ ‖ v (x) ‖ .$

将此与第一个不等式相结合即可得到第二个不等式。

下面的引理给出了函数 $θ$ 的连续性性质。

引理3.4 ( [7] , Proposition 4) 函数 $θ$ 在C中是连续的。

下面的引理说明极大型线搜索策略和投影梯度算法结合是可行的。

引理3.5 (1) 算法1是有意义的；

(2) 令 ${x_{k}}$ 是算法1生成的序列，则 ${x_{k}} \subseteq C$ 。

证明：(1) 显然函数 $θ (x)$ 是一个强凸函数，则下降方向 $v (x)$ 可以得到且唯一。由注3.1可知(3-3)是有意义的。故结论成立。

(2) 下面用数学归纳法来证明结论。

当下标 $k = 0$ 时，由算法1的初始化步骤可知 $x_{0} \in C$ ，结论成立；

假设当下标 $k = k^{'}$ 时， $x_{k^{'}} \in C$ ，由下降方向 $v (x_{k})$ 的定义知， $v (x_{k^{'}}) + x_{k^{'}} \in C$ ，而

$x_{k^{'} + 1} = x_{k^{'}} + γ_{k^{'}} v (x_{k^{'}})$ ，

以及 $γ_{k^{'}} \in (0, 1]$ 和C是一个闭凸集合，所以

$x_{k^{'} + 1} = γ_{k^{'}} (x_{k^{'}} + v (x_{k^{'}})) + (1 - γ_{k^{'}}) x_{k^{'}} \in C .$

结论成立。

3.2. 全局收敛

命题3.6 假设F连续可微有下界，序列 ${x_{k}}$ 是由算法1生成的，则序列 ${C_{k}}$ 是单调非增的，并且存在极限。

证明：因为 $v (x_{k})$ 是一个下降方向，故 $J F (x_{k}) v (x_{k}) \underline{≺} 0$ 对所有的 $k \in N$ 均成立，将其带入到(3-3)中，有 $F (x_{k + 1}) \underline{≺} C_{k}$ 。

当序列 ${x_{k}}$ 是由算法1生成的序列时，根据(3-2)和 $m (k + 1) \leq m (k) + 1$ ，对于向量的每一个分量i和迭代次数k，有

$\begin{matrix} C_{i, k + 1} = \max_{0 \leq j \leq m (k + 1)} f_{i} (x_{k + 1 - j}) \\ \leq \max_{0 \leq j \leq m (k) + 1} f_{i} (x_{k + 1 - j}) \\ = \max_{0 \leq j \leq m (k) + 1} {C_{i, k}, f_{i} (x_{k + 1})} = C_{i, k} . \end{matrix}$

这也就说明了序列 ${C_{k}}$ 是单调非增的。同时考虑到 $C_{k} \underline{≻} F (x_{k})$ 和F是有下界的，根据单调有界定理知序列 ${C_{k}}$ 存在极限。证毕。

引理3.7 假设F有下界且连续可微，序列 ${x_{k}}$ 是由算法1生成的，那么，

$\lim_{k \to \infty} γ_{k} φ (J F (x_{k}) v (x_{k})) = 0.$

证明：对于任意迭代次数k和 $i \in {1, \dots, m}$ ，令 $l_{i} (k)$ 为使得下面两个条件成立的整数：

$k - m (k) \leq l_{i} (k) \leq k,$ (3-10)

$C_{i, k} = f_{i} (x_{l_{i} (k)}) .$ (3-11)

利用(3-3)和 $x_{k}$ 的迭代公式，有

$\begin{matrix} C_{i, k} = f_{i} (x_{l_{i} (k)}) \\ = f_{i} (x_{l_{i} (k) - 1} + γ_{l_{i} (k) - 1} v (x_{l_{i} (k) - 1})) \\ \leq C_{i, l_{i} (k) - 1} + σ γ_{l_{i} (k) - 1} {(\nabla f_{i} (x_{l_{i} (k) - 1}))}^{T} v (x_{l_{i} (k) - 1}) . \end{matrix}$ (3-12)

对于条件(3-10)，可得 $k - m (k) - 1 \leq l_{i} (k) - 1 \leq k - 1 < k$ ，当k足够大时 $m (k)$ 取常数，再根据命题3.6，有

$\lim_{k \to \infty} (C_{i, k} - C_{i, l_{i} (k) - 1}) = 0.$

又因为 $γ_{l_{i} (k) - 1} > 0$ 和 $\nabla f_{i} (x_{l_{i} (k) - 1}) v (x_{l_{i} (k) - 1}) \leq 0$ ，结合(3-12)可得

$\lim_{k \to \infty} γ_{l_{i} (k) - 1} {(\nabla f_{i} (x_{l_{i} (k) - 1}))}^{T} v (x_{l_{i} (k) - 1}) = 0.$ (3-13)

因为 $i \in {1, \dots, m}$ 是任意取的，进一步可得

$\lim_{k \to \infty} γ_{l_{i} (k) - 1} J F (x_{l_{i} (k) - 1}) v (x_{l_{i} (k) - 1}) = 0.$

从而

$\lim_{k \to \infty} γ_{l_{i} (k) - 1} φ (J F (x_{l_{i} (k) - 1}) v (x_{l_{i} (k) - 1})) = 0.$ (3-14)

定义

${\hat{l}}_{i} (k) : = l_{i} (k + M + 2) .$

显然 ${{\hat{l}}_{i} (k)}_{k} \subseteq {l_{i} (k)}_{k}$ ，在证明结论之前，先证明下面两个结果：对任意给定的 $j \geq 1$ ，有

$\lim_{k \to \infty} γ_{{\hat{l}}_{i} (k) - j} φ (J F (x_{{\hat{l}}_{i} (k) - j}) v (x_{{\hat{l}}_{i} (k) - j})) = 0,$ (3-15)

$\lim_{k \to \infty} C_{i, k} = \lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k) - j}) .$ (3-16)

接下来用数学归纳法来证明这两个结果。

当 $j = 1$ 时，结合(3-14)与 ${{\hat{l}}_{i} (k)}_{k} \subseteq {l_{i} (k)}_{k}$ ，可得(3-15)。考虑到(3-9)和 ${x_{k}}$ 的迭代公式，有

$‖ x_{{\hat{l}}_{i} (k)} - x_{{\hat{l}}_{i} (k) - 1} ‖ = ‖ γ_{{\hat{l}}_{i} (k) - 1} v (x_{{\hat{l}}_{i} (k) - 1}) ‖ \leq {‖ - 2 β γ_{{\hat{l}}_{i} (k) - 1}^{2} φ (J F (x_{{\hat{l}}_{i} (k) - 1}) v (x_{{\hat{l}}_{i} (k) - 1})) ‖}^{1 / 2} .$ (3-17)

因为 $γ_{{\hat{l}}_{i} (k) - 1} \in (0, μ]$ ，在等式两端同时对k取极限，并将(3-15)带入可得

$\lim_{k \to \infty} ‖ x_{{\hat{l}}_{i} (k)} - x_{{\hat{l}}_{i} (k) - 1} ‖ = 0.$

又 $f_{i}$ 是连续函数，故

$\lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k) - 1}) = \lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k)}) = \lim_{x \to \infty} C_{i, k},$

后一等式的成立利用了 $C_{k}$ 的定义(3-2)。因此，(3-16)成立。

假设当 $j = \bar{j}$ 时，(3-15)和(3-16)成立。利用(3-3)，有

$f_{i} (x_{{\hat{l}}_{i} (k) - \bar{j}}) \leq C_{i, {\hat{l}}_{i} (k) - \bar{j} - 1} + σ γ_{{\hat{l}}_{i} (k) - \bar{j} - 1} {(\nabla f_{i} (x_{{\hat{l}}_{i} (k) - \bar{j} - 1}))}^{T} v (x_{{\hat{l}}_{i} (k) - \bar{j} - 1}),$ (3-18)

注意到 $\lim_{k \to \infty} ({\hat{l}}_{i} (k) - \bar{j} - 1) = \infty$ 和(3-18)在 $j = \bar{j}$ 时成立，利用命题3.6， $σ > 0$ ， $γ_{{\hat{l}}_{i} (k) - \bar{j} - 1} > 0$ 和 ${(\nabla f_{i} (x_{{\hat{l}}_{i} (k) - \bar{j} - 1}))}^{T} v (x_{{\hat{l}}_{i} (k) - \bar{j} - 1}) \leq 0$ ，由(3-18)可以推导出

$\lim_{k \to \infty} γ_{{\hat{l}}_{i} (k) - \bar{j} - 1} {(\nabla f_{i} (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}))}^{T} v (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) = 0.$

由i的任意性有

$\lim_{k \to \infty} γ_{{\hat{l}}_{i} (k) - \bar{j} - 1} J F (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) v (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) = 0.$

利用命题3.1，上式可以进一步变为

$\lim_{k \to \infty} γ_{{\hat{l}}_{i} (k) - \bar{j} - 1} φ (J F (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) v (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)})) = 0,$ (3-19)

则(3-15)成立。

根据命题3.3和 $x_{k}$ 的迭代公式，有

$\begin{matrix} ‖ x_{{\hat{l}}_{i} (k) - \bar{j}} - x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)} ‖ = ‖ γ_{{\hat{l}}_{i} (k) - (\bar{j} + 1)} v (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) ‖ \\ \leq {‖ - 2 β γ_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}^{2} φ (J F (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) v (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)})) ‖}^{1 / 2} . \end{matrix}$

将(3-19)与上式相结合，可推导出

$\lim_{k \to \infty} ‖ x_{{\hat{l}}_{i} (k) - \bar{j}} - x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)} ‖ = 0.$

又因为 $f_{i}$ 是连续函数，故

$\lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k) - (\bar{j} + 1)}) = \lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k) - \bar{j}}) = \lim_{x \to \infty} C_{i, k} .$

于是，(3-15)和(3-16)对任意给定的 $j \geq 1$ 都成立。

对所有的迭代次数 $k > 0$ ，有

$x_{k + 1} = x_{{\hat{l}}_{i} (k)} - \sum_{j = 1}^{{\hat{l}}_{i} (k) - k - 1} γ_{{\hat{l}}_{i} (k) - j} v (x_{{\hat{l}}_{i} (k) - j}) .$ (3-20)

注意到 ${\hat{l}}_{i} (k) - k - 1 \leq M + 1$ ，利用命题3.3和式(3-15)、(3-20)，整理有

$\lim_{k \to \infty} ‖ x_{k + 1} - x_{{\hat{l}}_{i} (k)} ‖ = 0.$

再一次用到 $f_{i}$ 的连续性，得 $\lim_{k \to \infty} f_{i} (x_{{\hat{l}}_{i} (k)}) = \lim_{k \to \infty} f_{i} (x_{k + 1}) = \lim_{k \to \infty} C_{i, k}$ ，将此带入到不等式(3-3)中即可得到结论。证毕。

定理3.8 假设F是有下界且连续可微的。序列 ${x_{k}}$ 是算法1生成的序列，如果序列 ${x_{k}}$ 存在聚点，那么此聚点是F的驻点。

证明：记 $\bar{x}$ 是序列 ${x_{k}}$ 的聚点，因为 ${x_{k}} \subseteq C$ 以及集合C是一个闭凸集，故 $\bar{x} \in C$ 。同时，序列 ${x_{k}}$ 存在一个子序列 ${x_{k}}_{k \in I}$ 收敛到 $\bar{x}$ ，其中 $I \subseteq N$ 是一个指标集。由引理3.7可以得到

$\lim_{k \to \infty} γ_{k} φ (J F (x_{k}) v (x_{k})) = 0.$ (3-21)

此式可以拆解成两种情况：

(1) $\lim_{k \to \infty} φ (J F (x_{k}) v (x_{k})) = 0$ ；

(2) $\lim_{k \to \infty} γ_{k} = 0$ 。

当情况(1)成立时，由引理3.4知是连续的，则 $θ (\bar{x}) = \lim_{k \in I, k \to \infty} θ (x_{k})$ 。又

$0 \geq \lim_{k \to \infty} θ (x_{k}) = \lim_{k \to \infty} {\frac{{‖ v (x_{k}) ‖}^{2}}{2} + β φ (J F (x_{k}) v (x_{k}))} = \lim_{k \to \infty} \frac{{‖ v (x_{k}) ‖}^{2}}{2} \geq 0.$

则

$θ (\bar{x}) = \lim_{k \in I, k \to \infty} θ (x_{k}) = 0.$

再根据注3.2(2)可知 $\bar{x}$ 是驻点。

当情况(2)成立时，存在一个指标 $\bar{k}$ 使得 $γ_{k} < μ$ 对所有的 $k \geq \bar{k}$ 和 $k \in I$ 成立。 $γ_{k}$ 是满足条件(3-3)的步长，故

$F (x_{k} + ρ γ_{k} v (x_{k})) \underline{≺} C_{k} + σ ρ γ_{k} J F (x_{k}) v (x_{k}),$

也就是

$C_{k} + σ ρ γ_{k} J F (x_{k}) v (x_{k}) - F (x_{k} + ρ γ_{k} v (x_{k})) \notin K .$ (3-22)

而左边又可以写成如下形式：

$\begin{array}{l} C_{k} + σ ρ γ_{k} J F (x_{k}) v (x_{k}) - F (x_{k} + ρ γ_{k} v (x_{k})) \\ = [C_{k} - F (x_{k})] + [F (x_{k}) + σ ρ γ_{k} J F (x_{k}) v (x_{k}) - F (x_{k} + ρ γ_{k} v (x_{k}))] . \end{array}$ (3-23)

又因为 $F (x_{k}) \underline{≺} C_{k}$ ，即

$C_{k} - F (x_{k}) \in K,$

而K是一个锥，结合引理2.7可得

$F (x_{k}) + σ ρ γ_{k} J F (x_{k}) v (x_{k}) - F (x_{k} + ρ γ_{k} v (x_{k})) \notin K .$ (3-24)

根据中值定理，可知存在 $u_{k} = x_{k} + \frac{ω_{k}}{‖ v (x_{k}) ‖} ρ γ_{k} v (x_{k}) (\frac{ω_{k}}{‖ v (x_{k}) ‖} \in [0, 1])$ 满足

$F (x_{k}) - F (x_{k} + ρ γ_{k} v (x_{k})) = - ρ γ_{k} J F (u_{k}) v (x_{k}),$

将此带入到(3-24)中，并在两边同时除以 $ρ γ_{k}$ ，整理得

$σ J F (x_{k}) v (x_{k}) - J F (u_{k}) v (x_{k}) \notin K .$ (3-25)

序列 ${\frac{v (x_{k})}{‖ v (x_{k}) ‖}}$ 是一个有界序列，则该序列存在一个收敛的子序列，即存在指标集 $\bar{K} \subseteq I$ 使得

$\lim_{k \in \bar{K}, k \to \infty} x_{k} = \bar{x}, \lim_{k \in \bar{K}, k \to \infty} \frac{v (x_{k})}{‖ v (x_{k}) ‖} = \bar{v} .$

利用 $\lim_{k \to \infty} γ_{k} = 0$ ，有

$\lim_{k \in \bar{K}, k \to \infty} u_{k} = \lim_{k \in \bar{K}, k \to \infty} x_{k} + \lim_{k \in \bar{K}, k \to \infty} ρ γ_{k} ω_{k} \frac{v (x_{k})}{‖ v (x_{k}) ‖} = \bar{x} .$

在(3-25)两端同时除以 $‖ v (x_{k}) ‖$ ，并对 $k \in \bar{K}$ 中的k取极限，可得

$(σ - 1) J F (\bar{x}) \bar{v} \notin int K .$

考虑到 $σ \in (0, 1)$ ，故 $J F (\bar{x}) \bar{v} \notin - int K$ ，又 $v (x_{k}) \neq 0$ 是一个下降方向，故 $J F (x_{k}) v (x_{k}) ≺ 0$ ，即 $J F (x_{k}) v (x_{k}) \in - int K$ ，而K是一个闭凸尖锥，可得 $J F (\bar{x}) \bar{v} = 0$ ，从而 $φ (J F (\bar{x}) \bar{v}) = 0$ ，再利用 $θ$ 的定义，有

$0 = β φ (J F (\bar{x}) \bar{v}) \leq θ (\bar{x}) .$

另一方面，由命题3.2(1)知 $θ (\bar{x}) \leq 0$ ，故 $θ (\bar{x}) = 0$ ，因此 $\bar{x}$ 是F的驻点，证毕。

3.3. 线性收敛

本小节假设以下条件成立：

(A1) $\nabla f_{i} (i \in {1, \dots, m})$ 是L-Lipschitz连续的；

(A2) 存在一个正数c满足下面的不等式成立：

${(\nabla f_{i} (x))}^{T} v (x) \leq - c {‖ \nabla f_{i} (x) ‖}^{2}, i \in {1, \dots, m};$

(A3) 令 $\bar{x}$ 是F的驻点，存在正常数 $λ_{1}$ 和 $λ_{2}$ 满足：

$λ_{1} {‖ \nabla f_{i} (x) ‖}^{2} \leq f_{i} (x) - f_{i} (\bar{x}) \leq λ_{2} {‖ \nabla f_{i} (x) ‖}^{2}, i \in {1, \dots, m} .$

下面的引理证明了极大型和平均型非单调线搜索生成的步长是有下界的。

引理3.9 假设(A1)成立，则对于任意的迭代次数k都存在一个正常数 $γ_{\min}$ 使得 $γ_{k} > γ_{\min}$ 。

证明：任取迭代次数 $k \in N$ 并将其固定，再根据 $γ_{k}$ 的相关定义可得

$F (x_{k} + ρ γ_{k} v (x_{k})) \underline{≺} C_{k} + σ ρ γ_{k} J F (x_{k}) v (x_{k}) .$

故存在 $i (k) \in {1, \dots, m}$ 使得

$\begin{matrix} f_{i (k)} (x_{k} + ρ γ_{k} v (x_{k})) > C_{i (k), k} + σ ρ γ_{k} {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) \\ \geq f_{i (k)} (x_{k}) + σ ρ γ_{k} {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}), \end{matrix}$ (3-26)

第二个不等式的成立是依据(3-2)和注3.1和注3.3。再利用(A1)和F是连续可微的函数的条件，可得

$\begin{array}{l} f_{i (k)} (x_{k} + ρ γ_{k} v (x_{k})) - f_{i (k)} (x_{k}) \\ = ρ γ_{k} {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) + \int_{0}^{ρ γ_{k}} {(\nabla f_{i (k)} (x_{k} + t v (x_{k})) - \nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) d t \\ \leq ρ γ_{k} {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) + \int_{0}^{ρ γ_{k}} t L {‖ v (x_{k}) ‖}^{2} d t \\ = ρ γ_{k} {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) + \frac{1}{2} ρ^{2} γ_{k}^{2} L {‖ v (x_{k}) ‖}^{2} . \end{array}$

将上式与(3-26)相结合，可得

$γ_{k} \geq \frac{2 (σ - 1) {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k})}{ρ L {‖ v (x_{k}) ‖}^{2}} .$ (3-27)

考虑到 $σ \in (0, 1)$ 和 ${(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k}) \leq 0$ ，再将(3-27)和(3-8)相结合可得

$γ_{k} \geq \frac{(1 - σ) {(\nabla f_{i (k)} (x_{k}))}^{T} v (x_{k})}{β ρ L \max_{y \in G} {y^{T} J F (x_{k}) v (x_{k})}} \geq \frac{1 - σ}{β ρ L},$

这也就证明了结论。

在单目标规划中，Y.H. Dai等人 [13] 证明了极大型线搜索算法的线性收敛性质，其中要求目标函数是光滑和一致凸。受此启发，将这一性质扩展到多目标规划中并建立相关的线性收敛性，依然在目标函数是连续可微和一致凸的条件下。下面是关于算法1的线性收敛性分析。

定理3.10 设条件(A1)、(A2)和(A3)成立，则由算法1生成的序列 ${x_{k}}$ 满足：存在 $a \in (0, 1)$ 使得

$F (x_{k}) - F (\bar{x}) \underline{≺} a^{k} (F (x_{0}) - F (\bar{x})),$ (3-28)

其中 $\bar{x}$ 表示的是序列 ${x_{k}}$ 的聚点。

证明：(3-28)等价于下面的不等式：

$f_{i} (x_{k}) - f_{i} (\bar{x}) \leq a^{k} (f_{i} (x_{0}) - f_{i} (\bar{x})), \forall i \in {1, \dots, m} .$ (3-29)

在证明结论之前，先证明下面的不等式对所有的 $j = 0, \dots, m (k + 1)$ 都成立：

$f_{i} (x_{k + 1 - j}) \leq C_{i, k} + σ γ_{k - j} {(\nabla f_{i} (x_{k - j}))}^{T} v (x_{k - j}), \forall i \in {1, \dots, m} .$ (3-30)

下面用数学归纳法来证明：

当 $j = 0$ 时，(3-30)可以依据(3-3)得到。

假设(3-30)在 $j \in [0, m (k + 1) - 1]$ 处成立，考虑到 ${(\nabla f_{i} (x_{k - j}))}^{T} v (x_{k - j}) \leq 0$ 、 $σ > 0$ 和 $γ_{k - j} > 0$ ，有

$\max_{0 \leq l \leq j} f_{i} (x_{k + 1 - l}) \leq C_{i, k} = \max_{0 \leq l \leq m (k)} f_{i} (x_{k - l}), \forall i \in {1, \dots, m} .$ (3-31)

将(3-3)，(3-2)以及 $m (k)$ 的定义与上式相结合，可得

$\begin{matrix} f_{i} (x_{k + 1 - (j + 1)}) \leq C_{i, k - j - 1} + σ γ_{k - j - 1} {(\nabla f_{i} (x_{k - j - 1}))}^{T} v (x_{k - j - 1}) \\ = \max_{0 \leq l \leq m (k - j - 1)} f_{i} (x_{k - j - 1 - l}) + σ γ_{k - j - 1} {(\nabla f_{i} (x_{k - j - 1}))}^{T} v (x_{k - j - 1}) \\ \leq \max {\max_{0 \leq l \leq j} f_{i} (x_{k + 1 - l}), \max_{0 \leq l \leq m (k)} f_{i} (x_{k - l})} + σ γ_{k - j - 1} {(\nabla f_{i} (x_{k - j - 1}))}^{T} v (x_{k - j - 1}) \\ = \max_{0 \leq l \leq m (k)} f_{i} (x_{k - l}) + σ γ_{k - j - 1} {(\nabla f_{i} (x_{k - j - 1}))}^{T} v (x_{k - j - 1}) \\ = C_{i, k} + σ γ_{k - j - 1} {(\nabla f_{i} (x_{k - j - 1}))}^{T} v (x_{k - j - 1}), \forall i \in {1, \dots, m} . \end{matrix}$

即可证明了(3-30)对所有的 $j = 0, \dots, m (k + 1)$ 都成立。在式(3-30)两边同时关于 $j \in [0, m (k + 1)]$ 取最大值，该式即可变成

$\begin{matrix} C_{i, k + 1} = \max_{0 \leq j \leq m (k + 1)} f_{i} (x_{k + 1 - j}) \\ \leq C_{i, k} + \max_{0 \leq j \leq m (k + 1)} σ γ_{k - j} \nabla f_{i} (x_{k - j}) v (x_{k - j}), \forall i \in {1, \dots, m} . \end{matrix}$

利用假设条件(A2)和引理3.9，可推导出

$C_{i, k + 1} \leq C_{i, k} - σ γ_{\min} c {‖ \nabla f_{i} (x_{k - j_{0}}) ‖}^{2}, \forall i \in {1, \dots, m},$

其中 ${‖ \nabla f_{i} (x_{k - j_{0}}) ‖}^{2} = \max_{0 \leq j \leq m (k + 1)} {‖ \nabla f_{i} (x_{k - j}) ‖}^{2}$ ，再在上式两端同时减去 $f_{i} (\bar{x})$ ，可得

$C_{i, k + 1} - f_{i} (\bar{x}) \leq C_{i, k} - f_{i} (\bar{x}) - σ γ_{\min} c {‖ \nabla f (x_{k - j_{0}}) ‖}^{2}, \forall i \in {1, \dots, m} .$ (3-32)

此时，将证明(3-29)转变成证明下面的不等式：

$C_{i, k + 1} - f_{i} (\bar{x}) \leq a (C_{i, k} - f_{i} (\bar{x})), \forall i \in {1, \dots, m} .$ (3-33)

如果上述不等式成立，利用注3.1，有

$\begin{matrix} f_{i} (x_{k + 1}) - f_{i} (\bar{x}) \leq C_{i, k + 1} - f_{i} (\bar{x}) \\ \leq a (C_{i, k} - f_{i} (\bar{x})) \\ \leq \dots \\ \leq a^{k + 1} (C_{i, 0} - f_{i} (\bar{x})) \\ = a^{k + 1} (f_{i} (x_{0}) - f_{i} (\bar{x})), \forall i \in {1, \dots, m} . \end{matrix}$

这一不等式也就是(3-29)。

下面定义如下的两个数：

$a : = \frac{λ_{2}}{c σ γ 2_{\min}},$

$b : = \frac{1}{c σ γ 2_{\min}} .$

依据(3-2)，有

$C_{i, k + 1} - f_{i} (\bar{x}) = \max_{0 \leq j \leq m (k + 1)} f_{i} (x_{k + 1 - j}) - f_{i} (\bar{x}) = f_{i} (x_{l_{i} (k + 1)}) - f_{i} (\bar{x}),$

$l_{i} (k)$ 的定义如(3-10)和(3-11).

下面分成两种情况来证明(3-33)：

(1) ${‖ \nabla f (x_{k - j_{0}}) ‖}^{2} \geq b (C_{i, k} - f_{i} (\bar{x}))$ 将此带入到不等式(3-32)中即可得到(3-33)；

(2) ${‖ \nabla f (x_{k - j_{0}}) ‖}^{2} < b (C_{i, k} - f_{i} (\bar{x}))$ 由假设条件(A3)和 $j_{0}$ 的相关定义可以获得

$C_{i, k + 1} - f_{i} (\bar{x}) \leq λ_{2} {‖ \nabla f_{i} (x_{l_{i} (k + 1)}) ‖}^{2} \leq λ_{2} {‖ \nabla f_{i} (x_{k - j_{0}}) ‖}^{2} .$

再将此与假设条件相结合即可得到(3-33)。证毕。

4. 结论

本文提出一种新的算法：极大型投影梯度算法，具体而言，将解决约束向量优化问题的投影梯度算法与极大型非单调线搜索技术相结合，这样做的目的是为了摆脱单调线搜索技术陷入局部收敛的可能。在适当的条件下，证明所提算法确实不再是局部收敛的，而是全局收敛的。进一步，加强条件：目标函数各分量的梯度函数是满足Lipschitz条件的，并且和下降方向与目标函数满足某些关系。在此基础上证明了所提算法是线性收敛的。

文章引用

刘雪,周犁文. 解决向量优化问题的一种非单调投影梯度算法
A Nonmonotone Projected Gradient Algorithm for Solving Vector Optimization Problems[J]. 应用数学进展, 2023, 12(05): 2327-2339. https://doi.org/10.12677/AAM.2023.125237

参考文献

1. Wiecek, M.M. (2007) Advances in Cone-Based Preference Modeling for Decision Making with Multiple Criteria. Deci-sion Making in Manufacturing and Services, 1, 153-173. https://doi.org/10.7494/dmms.2007.1.2.153

2. De, P. and Wells, G.C.E. (1992) On the Minimization of Completion Time Variance with a Bicriteria Extension. Operations Research, 40, 1148-1155. https://doi.org/10.1287/opre.40.6.1148

3. White, D.J. (1998) Epsilon-Dominating So-lutions in Mean-Variance Portfolio Analysis. European Journal of Operational Research, 105, 457-466. https://doi.org/10.1016/S0377-2217(97)00056-8

4. Quiroz, E.A.P., Apolinario, H.C.F., Villacorta, K.D. and Oliveira, P.R. (2019) A Linear Scalarization Proximal Point Method for Quasiconvex Multiobjective Minimization. Journal of Optimization Theory and Applications, 183, 1028- 1052. https://doi.org/10.1007/s10957-019-01582-z

5. Fliege, J. and Svaiter, B.F. (2000) Steepest Descent Methods for Multicriteria Optimization. Mathematical Methods of Operations Research, 51, 479-494. https://doi.org/10.1007/s001860000043

6. Fuege, J., Grana Drummond, L.M. and Svaiter, B.F. (2010) New-ton’s Method for Multiobjective Optimization. SIAM Journal on Optimization: A Publication of the Society for Industrial and Applied Mathematics, 20, 602-626. https://doi.org/10.1137/08071692X

7. Drummond, L. and Iusem, A.N. (2004) A Projected Gradient Method for Vector Optimization Problems. Computational Optimization & Applications, 28, 5-29. https://doi.org/10.1023/B:COAP.0000018877.86161.8b

8. Yunier, J. and Cruz, B. (2013) A Subgradient Meth-od for Vector Optimization Problems. SIAM Journal on Optimization, 23, 2169-2182. https://doi.org/10.1137/120866415

9. Brito, A.S., Neto, J., Santos, P., et al. (2017) A Relaxed Projection Meth-od for Solving Multiobjective Optimization Problems. European Journal of Operational Research, 256, 17-23. https://doi.org/10.1016/j.ejor.2016.05.026

10. Bento, G.C., Cruz Neto, J.X., Santos, P.S.M. and Souza, S.S. (2018) A Weighting Subgradient Algorithm for Multiobjective Optimization. Optimization Letters, 12, 399-410. https://doi.org/10.1007/s11590-017-1133-x

11. Boyd, S. and Vandenberghe, L. (2004) Convex Optimization. Cambridge University Press, 727. https://doi.org/10.1017/CBO9780511804441

12. Mahdavi-Amiri, N. and Salehi Sadaghiani, F. (2020) A Super-linearly Convergent Nonmonotone Quasi-Newton Method for Unconstrained Multiobjective Optimization. Optimization Methods and Software, 35, 1223-1247. https://doi.org/10.1080/10556788.2020.1737691

13. Dai, Y.H. (2002) On the Nonmonotone Line Search. Journal of Optimization Theory and Applications, 112, 315-330. https://doi.org/10.1023/A:1013653923062

期刊菜单