如果使用非精确线搜索如强 Wolfe 线搜索,戴彧虹在文献 中举出例子表明,即使
为一致凸函数,而且参数
充分小,PRP 方法都可能产生一个上升搜索方向。如果每一个搜索方向都下降,则不难证明采取非精确线搜索方法对凸函数的收敛性,可参考文献
和文献
。对一般非凸函数,Powell 在综述性文献
中建议 PRP 方法中的参数
为非负:
这样作的目的是避免当很大时,相邻两个搜索方向会趋于相反。 Gilbert 和 Nocedal
考虑了 Powell 的上述建议,并在适当的线搜索条件下,建立了修正 PRP 方法对一般非凸函数的全局收敛性。然而, Gilbert 也举例表明,即使对于一致凸函数,
也可能为负。
1、PRP+ 方法的收敛性
PRP 共轭梯度法是由 Polak 和 Ribiere 和 Polyak 在 1969 年独立提出的一种非线性共轭梯度法,这种方法具有如下形式:
其中参数由以下公式计算:
为建立对一般非凸函数的收敛结果,令
充分下降条件,即
后面的线搜索将会基于 标准Wolfe 线搜索 或 强 Wolfe 线搜索,Wolfe 线搜索即
强 Wolfe 线搜索即
限制参数非负的一个优点是:它可以避免当
很大时,相邻的两个搜索方向趋于相反方向的现象。进一步,我们可以证明当
很大时,方向
的变化较为缓慢,因此如果目标函数的水平集有界,方法产生的大步长数不可能很多;如果小步长较多,则可证明
最多线性增长,从而证明方法收敛性。
我们要想证明如下收敛关系式
我们使用反证法:即假定存在常数,使得
此外,设的水平集
有界,即存在
,使得
这时,若连续可微,则也存在正常数
,使得
引理 1:设目标函数水平集有界,且导数
连续,考虑方法 (1) 和 (2),其中参数
,步长因子
满足
条件 (6) 以及 充分下降条件 (5),如果 (9) 式成立,则
。进一步,令
,有
证明:由 (5) 式可知,。否则,有
,故
有定义,记
则由 (2) 式,对有
利用上式及可证明
显然,隐含
,从而利用 (15) 和三角不等式,知
利用 (5) 式 和 条件
利用 (9) 式,则有
由上式及 (16) 式 知 (12) 成立。
(12) 式并不意为序列收敛,但它表明了当
充分大时,向量
的变化非常缓慢。
当 PRP 方法在某一步产生一个很小的步长时,下一步的搜索方向靠近最速下降方向,而不会连续地产生小步长。这一性质实质上归因于当步长
很小时趋于零的性质。这个性质的严格表述最早由 Gilbert 和 Nocedal 给出的,并称之为性质(
)。
性质()考虑形如 (1) 和 (2) 的方法,并假定
我们说方法具有性质(),如果存在常数
和
,使得对所有的
有下式成立:
以及
对于 PRP 方法,可取和
,使得 (20) 和 (21) 两式成立,事实上,利用 (3) 式有
而若,则由导数的
连续性知
显然,当具有性质(
)时,
亦具有性质(
)。
下面我们证明,对于具有性质() 的方法,如果 (9) 式成立,则小步长的数目不可能太多,否则,
最多线性增长,从而与 (9) 式矛盾。为此,我们记
为正整数集,并对任意的
,定义
用表示
中元素的个数。
引理 2:设目标函数水平集有界,且导数
连续。考虑方法 (1) 和 (2),其中参数
,步长因子
满足 Wolfe 线搜索 (6) 以及充分下降条件 (5)。如果
具有性质(
),且 (9) 式成立,则存在
,使得对任意的
和 指标
,均存在指标
,满足
证明:用反证法,假设对任意,总存在
和
,使得
由 (9) 和 (11) 知 (19) 成立。因为方法具有性质(),故 (20) 和 (21) 对某
和
为真。对此
选取
和
满足 (26)。
对,我们有
将上式递推,可得
其中是与
无关的常数,考虑 (28) 中的一个典型项
其中
我们将 (29) 中的 个因子每
个分成一组。记
为不超过
的最大整数,则
的因子可分为
或
项:
以及可能的一项
其中。显然
对
成立,故由反证法假设 (26) 知
这表明在内恰好有
个指标
使得
,而对另
个指标有
,根据 (20)、(21) 两式,我们对 (31) 中的每一项有如下估计量:
在 的推导中用到了
以及
。可见
中的每一项均小于或等于
。对
中的项,利用
可得
故中右端括号中的每一项都小于
,从而有
上式表明最多线性增长。而由充分下降条件
和
条件知
这和条件相矛盾,从而也表明引理为真。
定理 3:设目标函数水平集有界,且导数
连续,考虑方法
和
,其中
,步长因子
满足 Wolfe 线搜索 (6) 以及充分下降条件 (5)。如果
具有性质(
),则方法给出
。
证明:用反证法,假设式不成立,从而 引理 1 和 引理 2 的条件满足。仍定义
,则对任意整数
有
对上式两端取模,并利用得
设由 引理 2 给出,并记
为不小于
的最小整数。则由 引理 1 可知,存在指标
,使得
由 引理 2 可知,存在,使得
对任意的,利用
不等式及 (40),得
利用上式,及和
,得
故,这与
的定义相矛盾,于是定理得证。
既然由式给出的
非负,而且具有性质
,从 定理 3 可立即推出:
推论 4:设目标函数水平集有界,且导数
连续,考虑
方法
和
,其中
由
和
给出,步长因子
满足
线搜索
以及充分下降条件
,则方法给出
依据前面的内容,通过对共轭梯度法的一般收敛性分析可知,如果线搜索满足强线搜索条件,则 推论 4 中的充分下降条件
可以削弱为下降条件
。文献 [6]、[7] 给出了这样的例子,使得对
,则方法 (1) 和 (2) ( 其中
) 不收敛。这一例子在一定程度上限制参数
的必要性。而且在文献 [6]、[7] 也给出例子,表明 定理 3 中水平集有界的条件是必不可少的。
2、参考文献
[1] 戴彧虹. 非线性共轭梯度法. 2000, 科学出版社.
[2] Yuan Y X. Analysis on the conjugate gradient method. Optimization Methods and Software, 1993, 2: 19-29.
[3] 徐大川, 沙玉英, 杜秀梅. PR 方法的收敛性. 中科院计算数学报告, 1999.
[4] Powell M J D. Convergence properties pf algirithms for nonlinear optimization. SIAM Review, 1986, 28: 487-500.
[5] Gilbert J C, Nocedal J. Global convergence properties of conjugate gradient methods for optimization, SIAM, J. Optimization. 1992, 2(1): 21-42.