Advances in Applied Mathematics
Vol. 08  No. 04 ( 2019 ), Article ID: 29859 , 8 pages
10.12677/AAM.2019.84076

A Modified Nonlinear Conjugate Gradient Algorithm Using Secant Conditions

Jing Liang*, Guodong Ma#, Yuting Shi, Zhimei Lin, Wenting Zou, Liuna Li

School of Mathematics and Statistics, Yulin Normal University, Yulin Guangxi

Received: Apr. 2nd, 2019; accepted: Apr. 17th, 2019; published: Apr. 24th, 2019

ABSTRACT

In this paper, based on the idea of Ref. [1] , we propose a modified conjugate gradient method using secant conditions for unconstrained optimization problems. The proposed algorithm improves the method in Ref. [1] , which possesses the following properties: the search direction has the sufficient descent property; the global convergence of the given algorithm will be established under suitable assumptions; numerical results are reported to test its efficiency.

Keywords:Conjugate Gradient Method, Sufficient Descent Property, Global Convergence

基于拟牛顿方程一个改进的非线性共轭梯度 算法

梁静*,马国栋#,时瑜婷,林志梅,邹文婷,李柳娜

玉林师范学院,数学与统计学院,广西 玉林

收稿日期:2019年4月2日;录用日期:2019年4月17日;发布日期:2019年4月24日

摘 要

基于拟牛顿方程,借鉴文 [1] 的思想,本文给出一个改进的具有全局收敛非线性共轭梯度算法。该文的算法对文 [1] 中算法进行了改进,所产生的搜索方向具有充分下降性。在温和的假设下,新算法具有全局收敛性。最后,数值结果检验其有效性。

关键词 :共轭梯度法,充分下降性,全局收敛性

Copyright © 2019 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

本文考虑求解如下无约束优化问题

min x R n f ( x ) , (1.1)

其中 f ( x ) : R n R 连续可微,此问题在经济管理、生产运作、工程设计等领域具有广泛的应用背景。共轭梯度法是求解问题(1.1)的有效方法之一,该方法具有算法结构简单、计算存储量少、数值效果明显的优点,其迭代公式的一般形式为:

x k + 1 = x k + α k d k , k = 0 , 1 , 2 ,

其中 x k 为第 k 次迭代点, α k > 0 为搜索步长, d k 为搜索方向且其更新方式为

d k = { g k + β k d k 1 , k 1 , g k , k = 0 , (1.2)

其中 β k 是方向调控参数。数值优化方法是根据搜索方向的选择来定义其方法类型,从上式可以看出,搜索方向 d k 是由参数 β k 决定的,所以根据 β k 的选取方式可以定义不同的共轭梯度公式,下面给出几个著名的公式:

β k P R P = g k + 1 T ( g k + 1 g k ) g k 2 [2] [3] , β k H S = g k + 1 T ( g k + 1 g k ) ( g k + 1 g k ) T d k [4] , β k F R = g k + 1 T g k + 1 g k 2 [5] ,

β k D Y = g k + 1 T g k + 1 ( g k + 1 g k ) T d k [6] , β k C D = g k + 1 T g k + 1 d k T g k [7] , β k L S = g k + 1 T ( g k + 1 g k ) g k T d k [8] ,

其中 g k = f ( x k ) g k + 1 = f ( x k + 1 ) 表示函数 f ( x ) x k x k + 1 的梯度值, . 是欧氏向量范数。众多优化专家都希望能找到理论性质良好且数值表现又好的算法,已取得众多成果(见 [9] - [25] ),其中Yuan [9] 给出如下PRP修改公式:

β k M P R P = β k P R P min { β k P R P , μ y k 2 g k 4 g k + 1 T d k } ,

其中 μ > 1 4 是常数, y k = g k + 1 g k ,同时又将此公式推广到了其它5个公式中,得到了修改的FR公式、修改的HS公式、修改的DY公式、修改的CD公式和修改的LS公式,其中文 [1] 修改的LS为:

β k M M L S + = β k M M L S min { β k M M L S , μ y k m 2 ( d k T g k ) 2 g k + 1 T d k } (1.3)

其中 y k m = g k + 1 g k + 1 g k g k β k M M L S = g k + 1 T y k m d k T g k

本文将在此公式的基础上进一步研究,从上式可以看出公式中不含函数值信息,这势必影响此方法的有效性。众所周知,拟牛顿方法不仅含有梯度值信息也含有函数值信息,且具有更好的理论和实际表现 [10] [11] 。也有许多学者将拟牛顿法的技术思想应用到共轭梯度公式中,从而获得更好的理论性质和实际数值效果 [12] [13] 。Zhang等 [11] 给出了一个如下形式的拟牛顿方程

B k + 1 S k = y k m (1.4)

其中 y k m = y k + γ k 1 s k s k = x k + 1 x k

γ k 1 = 3 ( g k + 1 + g k ) T s k + 6 ( f ( x k ) f ( x k + 1 ) ) s k 2 ,

此公式包含有梯度值信息和函数值信息,理论上能更高阶地近似目标函数的Hesse矩阵。基于公式(1.3),(1.4)和文 [12] [13] 的思想,本文给出如下修改的LS共轭梯度公式

β k M M L S * = β k M M L S min { β k M M L S , μ y k m 2 ( d k T g k ) 2 g k + 1 T d k } (1.5)

其中 β k M M L S = g k + 1 T y k m d k T g k 。相对于原LS方法,本文的创新点主要有:1) 新公式能保证方向调控参数 β k M M L S * 0 ;2) 新方法具有充分下降性;3) 新方法不仅使用了梯度值信息还有函数值信息。

2. 算法的描述

基于搜索方向,给出一个基于拟牛顿方程改进的非线性共轭梯度算法。

算法1:

步骤0:给定 x 0 n , δ ( 0 , 1 / 2 ) , σ ( δ , 1 ) ε > 0 ,令 d 0 = g 0 = f ( x 0 ) ,置 k : = 0

步骤1:若 g k ε ,停止。否则,进入步骤2。

步骤2:利用弱Wolfe-Powell(WWP)线搜索技术产生步长 α k

f ( x k + α k d k ) f k + δ α k g k T d k , (2.1)

g ( x k + α k d k ) T d k σ g k T d k . (2.2)

步骤3:令 x k + 1 = x k + α k d k 。如果 g k + 1 ε ,停止。

步骤4:利用公式(1.5)计算 β k M M L S * ,并按如下公式计算搜索方向

d k + 1 = g k + 1 + β k M M L S * d k , (2.3)

步骤5:置 k : = k + 1 ,转步骤2。

3. 算法的充分下降性和全局收敛性

引理3.1:对所有 k 0 ,搜索方向 d k 满足下面两式

d k T g k c g k 2 (3.1)

d k T y k c ( 1 σ ) g k 2 (3.2)

c > 0 是常数。

证明:首先证明(3.1)成立。根据算法1,如果 k = 0 ,则 g 0 T d 0 = g 0 2 ,式(3.1)显然成立。下面利用归纳法,当 k 1 ,假如公式(2.3)满足(3.1),对 k + 1 ,有

g k + 1 T d k + 1 = g k + 1 2 + β k M M L S * d k T g k + 1 = g k + 1 2 + [ g k + 1 T y k m d k T g k min { g k + 1 T y k m d k T g k , μ y k m 2 ( d k T g k ) 2 g k + 1 T d k } ] d k T g k + 1 (3.3)

d k T g k > 0. u = d k T g k 2 μ g k + 1 , v = 2 μ g k + 1 T d k d k T g k y k m 。下面我们分两种情形分别讨论(3.3)式:

情形I:如果 g k + 1 T y k m d k T g k < μ y k m 2 ( d k T g k ) 2 g k + 1 T d k ,显然 g k + 1 T d k + 1 = g k + 1 2 成立。

情形II:如果 g k + 1 T y k m d k T g k μ y k m 2 ( d k T g k ) 2 g k + 1 T d k ,(3.3)式可化为

g k + 1 T d k + 1 = g k + 1 2 + ( g k + 1 T y k m d k T g k μ y k m 2 ( d k T g k ) 2 g k + 1 T d k ) d k T g k + 1 = d k T g k + 1 g k + 1 T y k m g k + 1 2 ( d k T g k ) μ y k m 2 d k T g k ( g k + 1 T d k ) 2 d k T g k = u T v 1 2 ( u 2 + v 2 ) d k T g k + ( 1 1 4 μ ) g k + 1 2 d k T y k m d k T g k ( 1 1 4 μ ) g k + 1 2 ,

上述不等式利用了 u T v 1 2 ( u 2 + v 2 ) 的关系。取 c = 1 1 4 μ ,则(3.1)成立。根据线搜索技术(2.2)可推出(3.2)也成立。证毕。

我们将采用反证法来证明算法1的全局收敛性,假设存在常数 ε 0 > 0 满足

g k ε 0 , k 0. (3.4)

根据(3.4)导出矛盾,从而证明 g k 0 , k 成立。

为证明算法1的收敛性,还需要下面的常规假设条件。

假设A:1) 定义水平集 Ω = { x n : f ( x ) f ( x 0 ) } 且有界,存在 L 0 > 0 满足

2 f ( x ) L 0 , x Ω .

2) 目标函数 f 在水平集 Ω 上连续可微并有下界,目标函数梯度满足Lipschitz条件,所谓Lipschitz条件就是存在常数 L > 0 满足下式

g ( x ) g ( y ) L x y , x , y Ω (3.5)

下面引理3.2和引理3.3在共轭梯度算法文献中有类似的结论,本文只给出引理3.3证明过程。

引理3.2:设假设A成立,序列 { g k } { d k } 由算法1产生,则 d k 0 k = 0 u k + 1 u k 2 < ,其中 u k = d k d k

Gilbert和Nocedal [14] 给出下面性质(P),具体内容是:

性质(P)对于两参数 γ 1 , γ 2 > 0 ,且满足

0 < γ 1 g k γ 2 (3.6)

若对所有 k ,存在常数 b > 1 λ > 0 满足 | β k | b s k λ ,有 | β k | 1 2 b 成立。

引理3.3:如果假设A满足且序列 { g k } { d k } 由算法1产生,且存在常数 M > 0 使得 d k M 成立,则 β k M M L S * 满足性质(P)。

证明:对于公式(2.3),如果 g k + 1 T y k m d k T g k μ y k m 2 ( d k T g k ) 2 g k + 1 T d k 成立,结论显然成立。否则,利用假设A(1),可推出存在常数 M 1 > 0 使下式

s k M 1 (3.7)

成立。利用 d k M ,(3.1),(3.2),(3.5)~(3.7),有

| β k M M L S * | | g k + 1 T y k m d k T g k | + μ y k m 2 ( d k T g k ) 2 | g k + 1 T d k | g k + 1 g k + 1 g k + 3 [ g k + 1 g k + 2 f ( ς k ) s k ] c g k 2 + μ g k + 1 d k g k + 1 g k + 3 [ g k + 1 g k + 2 f ( ς k ) s k ] 2 c 2 g k 4 [ L γ 2 + 3 ( L + L 0 ) ] s k c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] s k c 2 γ 1 4 = ( [ L γ 2 + 3 ( L + L 0 ) ] c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] c 2 γ 1 4 ) s k ,

b = max { 2 , [ L γ 2 + 3 ( L + L 0 ) ] c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] c 2 γ 1 4 }

λ = c 2 γ 1 4 b { [ L γ 2 + 3 ( L + L 0 ) ] c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] } .

利用(3.8), λ b > 1 ,则 | β k M M L S * | b

| β k M M L S * | [ L γ 2 + 3 ( L + L 0 ) ] c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] c 2 γ 1 4 s k [ L γ 2 + 3 ( L + L 0 ) ] c γ 1 2 + [ μ γ 2 M ( L + 3 ( L + L 0 ) ) 2 M 1 ] c 2 γ 1 4 λ = 1 2 b .

因此公式(2.3)满足性质(P),引理得证。

利用假设A,引理3.1~3.3,与文献 [15] 中的定理3.2的证明类似,可得到算法1的全局收敛性定理,定理的证明请参照文献 [15] 中的定理3.2完成。

定理3.1:序列 { d k , g k } 由算法产生,若假设A成立,则 lim k inf g k = 0 成立。

4. 数值结果

这部分将给出数值检验,Benchmar问题 [16] 在工程领域具有广泛应用背景。

1) Sphere函数: f S p h ( x ) = i = 1 n x i 2 , x i [ 5.12 , 5.12 ] , f S p h ( x * ) = 0.

2) Schwefel’s函数: f S c h D S ( x ) = i = 1 n ( j = 1 i x j ) 2 , x i [ 65.536 , 65.536 ] , f S c h D S ( x * ) = 0.

3) Rastrigin函数: f R a s ( x ) = 10 n + i = 1 n ( x i 2 10 cos ( 2 π x i ) ) , x i [ 5.12 , 5.12 ] , f R a s ( x * ) = 0.

4) Griewank函数: f G r i ( x ) = 1 + i = 1 n x i 2 4000 i = 1 n cos x i i , x i [ 600 , 600 ] , f G r i ( x * ) = 0.

参数选取如下: ε = 10 5 , δ = 0.1 , σ = 0.9 ,停止准则采用Himmeblau准则:如果 | f ( x k ) | > e 1 ,令 stop 1 = | f ( x k ) f ( x k + 1 ) | | f ( x k ) | ;否则,令 stop 1 = | f ( x k ) f ( x k + 1 ) | 。如果 g ( x ) < ε 或者 stop 1 < e 2 满足,算法终止, e 1 = e 2 = 10 5 。若迭代次数超过1000次,程序也将终止。为比较算法1的有效性,也给出通常LS方法的数值检验,并进行比较。以下是各代码含义:

x 0 :初始点;Dim:问题的维数;NI:迭代次数;NFG:函数值与梯度值迭代次数和;Time:以秒为单位的计算机CPU时间; f ( x ) :算法终止时的函数值。

为比较算法1与原LS算法的效率,我们采用下述技术即两算法的所有NFG的乘积的比值再开二十四分之一(结果的总个数)次方,以通常LS算法作为底,定义为1,比值见表2,此技术见文献 [17] 。

Table 1. Numerical results

表1. 数值结果

Table 2. The Efficiency of NFG

表2. NFG的效率

表1的结果可看,算法1和LS算法对上述4个问题都能有效地求解,迭代次数可以接受,最终函数值很接近最优函数值,新算法的CPU时间相对少一些,更具竞争力。表2的效率表明,算法1相对于原LS算法,效率提高2%。

基金项目

2017年国家级大学生创新创业训练计划项目(201710606041),广西自然科学基金(2018JJA110039)和玉林师范学院校级科研项目(2019YJKY16)。

文章引用

梁 静,马国栋,时瑜婷,林志梅,邹文婷,李柳娜. 基于拟牛顿方程一个改进的非线性共轭梯度算法
A Modified Nonlinear Conjugate Gradient Algorithm Using Secant Conditions[J]. 应用数学进展, 2019, 08(04): 676-683. https://doi.org/10.12677/AAM.2019.84076

参考文献

  1. 1. 陈海. 一个修改的LS非线性共轭梯度算法[J]. 应用数学进展, 2013(2): 48-54.

  2. 2. Polak, E. and Ribiere, G. (1969) Note sur la xonvergence de directions conjugees. Rev. Francaise informat Recherche Operatinelle, 3e Annee, 16, 35-43.

  3. 3. Polyak, B.T. (1969) The Conjugate Gradient Method in Extreme Problems. USSR Computational Mathematics and Mathematical Physics, 9, 94-112

  4. 4. Hestenes, M.R. and Stiefel, E. (1952) Method of Conjugate Gradient for Solving Linear Equations. Journal of Research of the National Bureau of Standards, 49, 409-436. https://doi.org/10.6028/jres.049.044

  5. 5. Fletcher, R. and Reeves, C. (1964) Function Minimization bu Conjugate Gradients. Compute Journal, 7, 149-154.

  6. 6. Dai, Y. and Yuan, Y. (1999) A Nonlinear Conjugate Gradient with a Strong Global Convergence Properties. SIAM Journal on Optimization, 10, 177-182. https://doi.org/10.1137/S1052623497318992

  7. 7. Fletcher, R. (1980) Practical Method of Optimization, Vol. I: Unconstrained Optimization. 2nd Edition, Wiley, Hoboken.

  8. 8. Liu, Y. and Storey, C. (1992) Efficient Generalized Conjugate Gradient Algorithms, Part 1: Theory. Journal of Optimization Theory and Application, 69, 17-41.

  9. 9. Yuan, G. (2009) Modified Nonlinear Conjugate Gradient Methods with Sufficient Descent Property for Large-Scale Optimization Problems. Optimization Letters, 3, 11-21. https://doi.org/10.1007/s11590-008-0086-5

  10. 10. Yuan, G. and Wei, Z. (2010) Convergence Analysis of a Modified BFGS Method on Convex Minimizations. Computational Optimization and Applications, 47, 237-255. https://doi.org/10.1007/s10589-008-9219-0

  11. 11. Zhang, J., Deng, N. and Chen, L. (1999) New Quasi-Newton Equation and Related Methods for Unconstrained Optimization. Journal of Optimization Theory and Application, 102, 147-167. https://doi.org/10.1023/A:1021898630001

  12. 12. Yuan, G., Wei, Z. and Zhao, Q. (2014) A Modified Polak-Ribière-Polyak Conjugate Gradientalgorithm for Large-Scale Optimization Problems. IIE Transactions, 46, 397-413. https://doi.org/10.1080/0740817X.2012.726757

  13. 13. Yuan, G. and Zhang, M. (2013) A Modified Hestenes-Stiefel Conjugate Gradient Algorithm for Large-Scale Optimization. Numerical Functional Analysis and Optimization, 34, 914-937. https://doi.org/10.1080/01630563.2013.777350

  14. 14. Gilbert, J.C. and Nocedal, J. (1992) Global Convergence Properties of Conjugate Gradient Methods for Optimization. SIAM Journal on Optimization, 2, 21-42. https://doi.org/10.1137/0802003

  15. 15. Hager, W.W. and Zhang, H. (2005) A New Conjugate Gradient Method with Guaranteed Descent and an Efficient Line Search. SIAM Journal on Optimization, 16, 170-192. https://doi.org/10.1137/030601880

  16. 16. Yao, S., He, D. and Shi, L. (2018) An Improved Perry Conjugate Gradient Method with Adaptive Parameter Choice. Numerical Algorithms, 78, 1255-1269. https://doi.org/10.1007/s11075-017-0422-x

  17. 17. Yuan, G. and Lu, X. (2009) A Modified PRP Conjugate Gradient Method. Annals of Operations Research, 66, 73-90. https://doi.org/10.1007/s10479-008-0420-4

  18. 18. Dai, Y. and Liao, L. (2001) New Conjugacy Conditions and Re-lated Nonlinear Conjugate Methods. Applied Mathematics and Optimization, 43, 87-101. https://doi.org/10.1007/s002450010019

  19. 19. Hager, W.W. and Zhang, H. (2006) Algorithm 851: CGDESENT, A Conjugate Gradient Method with Guaranteed Descent. ACM Transactions on Mathematical Software, 32, 113-137. https://doi.org/10.1145/1132973.1132979

  20. 20. Li, G., Tang, C. and Wei, Z. (2007) New Conjugacy Condition and Related New Conjugate Gradient Methods for Unconstrained Optimization Problems. Journal of Computational and Applied Mathemathics, 202, 532-539.

  21. 21. Wei, Z., Li, G. and Qi, L. (2006) New Nonlinear Conjugate Gradient Formulas for Large-Scale Unconstrained Optimization Problems. Applied Mathematics and Computation, 179, 407-430. https://doi.org/10.1016/j.amc.2005.11.150

  22. 22. Wei, Z., Li, G. and Qi, L. (2008) Global Convergence of the PRP Conjugate Gradient Methods with Inexact Line Search for Nonconvex Unconstrained Optimization Problems. Mathematics of Computation, 77, 2173-2193. https://doi.org/10.1090/S0025-5718-08-02031-0

  23. 23. Wei, Z., Yao, S. and Lin, L. (2006) The Convergence Properties of Some New Conjugate Gradient Methods. Applied Mathematics and Computation, 183, 1341-1350. https://doi.org/10.1016/j.amc.2006.05.150

  24. 24. Yuan, G., Lu, X. and Wei, Z. (2009) A Conjugate Gradient Method with Descent Direction for Unconstrained Optimization. Journal of Computational and Applied Mathematics, 102, 519-530. https://doi.org/10.1016/j.cam.2009.08.001

  25. 25. 李向荣. 修改的DY和HS共轭梯度算法及其全局收敛性[J]. 理论数学, 2011(1): 1-7.

  26. NOTES

    *第一作者。

    #通讯作者。

期刊菜单