22、HZ 共轭梯度法

  本文将在 DL 共轭梯度法的基础上,介绍 HZ 共轭梯度法。这是由 Hanger-Zhang 于 2005 年提出的一种非常经典的共轭梯度法。我们所创新的共轭梯度法都会于 HZ 共轭梯度法进行数值实验对比,所以 HZ 的理论分析就显得尤为重要了。

1、介绍

  我们的问题是处理一个~n~维变量问题
\min~f(x),~~x\in\mathbb{R}^n\tag{1}
其中~f~是光滑的且~\nabla~f~是可以得到的。共轭梯度法是非常有用的处理问题~(1)~~n~非常大时,其有如下形式:
x_{k+1}=x_k+\alpha_k d_k,\tag{2}
d_k=\begin{cases} -g_k,\quad & k=1,\\ -g_k+\beta_k d_{k-1}, &k\ge 2,\end{cases}\tag{3}
Hanger-Zhang 提出如下参数~\beta_k~
\beta_k^{HZ}=\frac{g_k^T(y_{k-1}-2d_{k-1}\frac{\Vert y_{k-1}\Vert^2}{d_{k-1}^Ty_{k-1}})}{d_{k-1}y_{k-1}}\tag{4}
为建立对一般函数的收敛性理论,我们取
\overline{\beta_k}^{HZ}=\max\left\{\beta_k^{HZ},\eta_k\right\}\tag{5}
\eta_k=\frac{-1}{\Vert d_k\Vert\min\left\{\eta,\Vert g_{k-1}\Vert\right\}}\tag{6}
其中~\eta>0~为常数

2、一般性分析

定理 1:若假定~d_{k-1}^T y_{k-1}\neq 0~
d_k=-g_k+\tau d_{k-1},~~~d_1=-g_1\tag{7}
其中~\tau\in[\beta_k^{HZ},\max\left\{\beta_k^{HZ},0\right\}]~,则有
g_k^T d_k\le-\frac{7}{8}\Vert g_k\Vert^2\tag{8}
证明:因为~d_1=-g_1~,故~(8)~式显然成立。假定~\tau=\beta_k^{HZ}~,利用~(7)~式,有
\begin{align}g_k^T d_k&=-\Vert g_k\Vert^2+\beta_k^{HZ}d_{k-1}\\ &=-\Vert g_k\Vert^2+g_k^T d_{k-1}(\frac{g_k^T y_{k-1}}{d_{k-1}^Ty_{k-1}}-2\frac{g_k^T d_{k-1}\Vert y_{k-1}\Vert^2}{(d_{k-1}^T y_{k-1})^2})\\ &=\frac{-\Vert g_k\Vert^2(d_{k-1}^T y_{k-1})^2+g_k^T d_{k-1}d_{k-1}^T y_{k-1}g_k^T y_{k-1}-2(g_k^T d_{k-1})^2\Vert y_{k-1}\Vert^2}{(d_{k-1}^T y_{k-1})^2}\tag{9}\end{align}
我们应用不等式
u^T v\le\frac{1}{2}(\Vert u\Vert^2+\Vert v\Vert^2)\tag{10}
~(9)~中应用
u=\frac{1}{2}(d_{k-1}^T y_{k-1})g_k,~~和~~v=2(g_k^T d_{k-1})y_{k-1}\tag{11}
所以~(8)~式成立。如果~\tau\neq \beta_k^{HZ}~,则~\beta_k^{HZ}\le\tau\le 0~,利用~(7)~式,有
g_k^T d_k=-\Vert g_k\Vert^2+\tau g_k^T d_{k-1}\tag{12}
~g_k^T d_{k-1}\ge 0~(8)~式显然成立。如果~g_k^T d_{k-1}<0~,则
g_k^T d_k=-\Vert g_k\Vert^2+\tau g_k^Td_{k-1}\le -\Vert g_k\Vert^2+\beta_k^{HZ}g_k^T d_{k-1}\tag{13}
因为~\beta_k^{HZ}\le\tau\le 0~。因此,(8)~式也成立。证明完毕。
根据~(6)~式,\eta_k~的非负的,且
\overline{\beta}_k=\left\{\beta_k^N,\eta_k\right\}\in [\beta_k^N,\max \left\{\beta_k^N,0\right\}]\tag{14}
因此,由~(5)~~(6)~式给出的方向为充分下降方向。

3、一致凸函数的收敛性分析

  尽管由 HZ 共轭梯度法形成的方向一定是充分下降方向,但是我们还是需要考虑线搜索建立全局收敛性。我们考虑~\rm{Goldstein}~条件
\delta_1\alpha_k g_k^T d_k\le f(x_k+\alpha_k d_k)-f(x_k)\le \delta_2\alpha_k g_k^T d_k\tag{15}
其中~0<\delta_2<\frac{1}{2}<\delta_1<1~~\alpha_k>0~,或者考虑~\rm{Wolfe}~线搜索
f(x_k+\alpha_k d_k)-f(x_k)\le \delta\alpha_k g_k^T d_k\tag{16}
g(x_k+\alpha_k d_k)^T d_k\ge\sigma g_k^T d_k\tag{17}
其中~0<\delta\le\sigma<1~,这里我们并不需要强~Wolfe~线搜索就可建立全局收敛性。

定理 2:如果~d_k~是下降方向和~\nabla f(x)~满足~\rm{Lipschitz}~连续
\Vert \nabla f(x)-\nabla f(y)\Vert\le L\Vert x-y\Vert\tag{18}
其中~\rm{L>0}~为常数,如果线搜索满足~\rm{Goldstein}~条件,则
\alpha_k\ge\frac{1-\sigma_1}{L}\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2}\tag{19}
如果线搜索满足~\rm{Wolfe}~条件,则
\alpha_k\ge \frac{1-\sigma}{L}\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2}\tag{20}
证明:~(15)~式利用中值定理和~\rm{Lipschitz}~连续
\begin{align}\delta_1\alpha_k g_k^T d_k&\le f(x_k+\alpha_k d_k)-f(x_k)\\ &=\alpha_k\nabla f(x_k+t\alpha_k d_k)\\ &\le\alpha_k g_k^T d_k+L\alpha_k^2\Vert d_k\Vert^2\end{align}\tag{21}
其中~t\in (0,1)~,很容易推出~(19)~
~(17)~利用~\rm{Lipschitz}~连续,有
(\sigma-1)g_k^T d_k\le (g_{k+1}-g_k)^T d_k\le\alpha_k L\Vert d_k\Vert^2\tag{22}
因为~d_k~是下降方向且~\sigma<1~,故~(20)~成立。

定理 3:假定~f~在水平集上为一致凸函数和满足~\rm{Lipschitz}~连续,水平集定义为
\Omega=\left\{x\in\mathbb{R}^n:f(x)\le f(x_1)\right\}\tag{23}
即存在~L>0~~u>0~使得
\Vert \nabla f(x)-\nabla f(y)\Vert\le L\Vert x-y\Vert\tag{24}
u\Vert x-y\Vert^2\le(\nabla f(x)-\nabla f(y))(x-y)\tag{25}
对任何~x,y\in\Omega~都成立。如果共轭梯度法~(2)-(4)~使用线搜索满足~\rm{Wolfe}~或者~\rm{Goldstein}~线搜索,则要么对某个~k~~g_k=0~或者
\lim_{k\rightarrow\infty} g_k=0\tag{26}
证明:假定对所有的~k~都有~g_k\neq 0~,利用强收敛性假定
d_{k-1}^T y_{k-1}=d_{k-1}^T(g_k-g_{k-1})\ge u\alpha_{k-1}\Vert d_{k-1}\Vert^2\tag{27}
利用 定理 1 假定~g_k\neq 0~暗示~d_k\neq 0~,因为~\alpha_k>0~,利用~(27)~知道~d_{k-1}^T y_{k-1}>0~。因为~f~在水平集~\Omega~上是有界的。则
\sum_{k=1}^{\infty}-\alpha_k g_k^T d_k\le\infty\tag{28}
结合 定理 1定理 2,我们有
\sum_{k=1}^{\infty}\frac{\Vert g_k\Vert^4}{\Vert d_k\Vert^2}<\infty\tag{29}
利用~\rm{Lipschitz}~条件~(18)~,有
\Vert y_{k-1}\Vert\le\Vert g_k-g_{k-1}\Vert\le L\alpha_{k-1}\Vert d_{k-1}\Vert\tag{30}
利用~(4),(27),(30)~
\begin{align}\vert\beta_k^{HZ}\vert&=\vert \frac{g_k^T y_{k-1}}{d_{k-1}y_{k-1}}-2\frac{\Vert y_{k-1}\Vert^2g_k^T d_{k-1}}{(d_{k-1}^T y_{k-1})^2}\vert\\ &\le\frac{\Vert y_{k-1}\Vert\Vert g_k\Vert}{u\alpha_{k-1}\Vert d_{k-1}\Vert^2}+2\frac{\Vert y_{k-1}\Vert^2\Vert g_k\Vert\Vert d_{k-1}\Vert}{u^2\alpha_{k-1}^2\Vert d_{k-1}\Vert^4}\\ &\le\frac{L\alpha_{k-1}\Vert g_k\Vert\Vert d_{k-1}\Vert}{u\alpha_{k-1}\Vert d_{k-1}\Vert^2}+2\frac{L^2\alpha_{k-1}^2\Vert d_{k-1}\Vert^2\Vert g_k\Vert}{u^2\alpha_{k-1}^2\Vert d_{k-1}\Vert^4}\\ &\le(\frac{L}{u}+\frac{2L^2}{u^2})\frac{\Vert g_k\Vert}{\Vert d_{k-1}\Vert} \end{align}\tag{31}
因此,我们有
\begin{align}\Vert d_k\Vert&\le\Vert g_k\Vert+\vert \beta_k^{HZ}\vert\Vert d_{k-1}\Vert\\ &\le(1+\frac{L}{u}+\frac{2L^2}{u^2})\Vert g_k\Vert\end{align}\tag{32}
~(32)~可以看出~\Vert d_k\Vert~有上界,利用~(29)~式,有
\sum_{k=1}^{\infty}\Vert g_k\Vert^2<\infty\tag{33}
从而~(26)~式成立。

4、一般函数的收敛性分析

定理 4:若水平集~(23)~有界和~\rm{Lipschitz}~连续~(24)~成立,如果共轭梯度法~(2)-(6)~选择~\rm{Wolfe}~线搜索~(16)~~(17)~,则有
d_k\neq 0,~~\forall~k\ge 1\tag{34}

\sum_{k=1}^{\infty}\Vert u_{k+1}-u_k\Vert^2<\infty\tag{35}
其中~u_k=\frac{d_k}{\Vert d_k\Vert}~而且假定~\Vert g_k\Vert\ge\gamma>0~
证明:利用假定和下降条件,可知~(34)~成立。且利用充分下降条件~(8)~~\rm{Zoutendijk}~条件~(29)~,有
\gamma^4\sum_{k=1}^{\infty}\frac{1}{\Vert d_k\Vert^2}\le\sum_{k=1}^{\infty}\frac{\Vert g_k\Vert^4}{\Vert d_k\Vert^2}\le\frac{49}{64}\sum_{k\ge 1}^{\infty}\frac{(g_k^T d_k)^2}{\Vert d_k\Vert^2}<\infty\tag{36}
定义等式
\beta_k^+=\max\left\{\overline{\beta}_k^{HZ},0\right\},~~\beta_k^+=\min\left\{\overline{\beta}_k^{HZ},0\right\}\tag{37}
r_k=\frac{-g_k+\beta_k^-d_{k-1}}{\Vert d_k\Vert},~~\delta_k=\beta_k^+\frac{\Vert d_{k-1}\Vert}{\Vert d_k\Vert}\tag{38}
根据~(3)~~(5),(6)~的定义
u_k=\frac{d_k}{\Vert d_k\Vert}=\frac{-g_k+(\beta_k^++\beta_k^-)d_{k-1}}{\Vert d_k\Vert}=r_k+\delta_k u_{k-1}\tag{39}
因为~u_k~是单位向量,故有
\Vert r_k\Vert=\Vert u_k-\delta_k u_{k-1}\Vert=\Vert \delta_k u_k-u_{k-1}\Vert\tag{40}
由于~\delta_k>0~,则
\begin{align}\Vert u_k-u_{k-1}\Vert &\le\Vert (1+\delta_k)(u_k-u_{k-1})\Vert\\ &\le\Vert u_k-\delta_ku_{k-1}\Vert+\Vert \delta_k u_k-u_{k-1}\Vert\\ &=2\Vert r_k\Vert\end{align}\tag{41}
根据~\beta_k^-~的定义和~\eta_k<0~以及~(5)~式中~\overline{\beta}_k^{HZ}\ge\eta_k~,我们可以得到~r_k~的分子有界。
\begin{align}\Vert -g_k+\beta_k^- d_{k-1}\Vert&\le\Vert g_k\Vert-\min\left\{\overline{\beta_k}^{HZ},0\right\}\Vert d_{k-1}\Vert\\ &\le\Vert g_k\Vert-\eta_{k-1}\Vert d_{k-1}\Vert\\ &\le\Vert g_k\Vert+\frac{1}{\Vert d_{k-1}\Vert\min\left\{\eta,\gamma\right\}}\Vert d_{k-1}\Vert\\ &\le\overline{\gamma}+\frac{1}{\min\left\{\eta,\gamma\right\}}\end{align}\tag{42}
其中
\overline{\gamma}=\max_{x\in \Omega}\Vert \nabla f(x)\Vert\tag{43}
我们令~c=\overline{\gamma}+\frac{1}{\min\left\{\eta,\gamma\right\}}~,利用~(41)~,则有
\Vert u_k-u_{k-1}\Vert\le 2\Vert r_k\Vert\le\frac{2c}{\Vert d_k\Vert}\tag{44}
利用~(36)~~(44)~式,则命题得证。

定理 5:若水平集~(23)~有界和~\rm{Lipschitz}~连续~(24)~成立,如果共轭梯度法~(2)-(6)~选择~\rm{Wolfe}~线搜索~(16)~~(17)~,则或者对某个~k~使得~g_k=0~,或者
\lim\inf\Vert g_k\Vert=0\tag{45}
证明:我们首先假定
\Vert g_k\Vert\ge\gamma>0\tag{46}
否则,稳定点已经得到。下面的证明分为三步

(i):~\overline{\beta}_k^{HZ}~有界
通过~\rm{Wolfe}~线搜索~(17)~可知~g_{k+1}^T d_k\ge\sigma g_k^T d_k~,我们有
d_{k-1}^T y_{k-1}=(g_k-g_{k-1})^T d_{k-1}\ge (\sigma-1)g_{k-1}^T d_{k-1}=-(1-\sigma)g_{k-1}^T d_{k-1}\tag{47}
定理 1~(46)~可知
-g_k^T d_k\ge\frac{7}{8}\Vert g_k\Vert^2\ge\frac{7}{8}\gamma^2\tag{48}
结合~(47)~~(48)~
d_{k-1}^T y_{k-1}\ge (1-\sigma)\frac{7}{8}\gamma^2\tag{49}
一方面,有
g_k^T d_{k-1}=d_{k-1}^T y_{k-1}+g_{k-1}^T d_{k-1}<d_{k-1}^T y_{k-1}\tag{50}
另一方面,利用~\rm{Wolfe}~线搜索知
g_k^T d_{k-1}\ge\sigma g_{k-1}^T d_{k-1}=-\sigma d_{k-1}^T y_{k-1}+\sigma g_k^T d_{k-1}\tag{51}
因为~\sigma<1~,结合~(51)~
g_k^T d_{k-1}\ge\frac{-\sigma}{1-\sigma}d_{k-1}^T y_{k-1}\tag{52}
利用~(50)~~(52)~
\vert\frac{g_k^T d_{k-1}}{d_{k-1}^T y_{k-1}}\vert\le\max\left\{\frac{\sigma}{1-\sigma},1\right\}\tag{53}
通过~(5)~式中~\beta_k^{HZ}~的定义,有
\overline{\beta}_k^{HZ}=\beta_k^{HZ},~如果~\beta_k^{HZ}\ge 0
0\ge\overline{\beta}_k^{HZ}\ge\beta_k^{HZ},~~如果~\beta_k^{HZ}< 0
因此~\vert \overline{\beta}_k^{HZ}\vert\le\vert\beta_k^{HZ}\vert~对任意的~k~都成立,利用~(30),(47),(53)~以及上面的分析,有
\begin{align}\vert\overline{\beta}_k^{HZ}\vert&\le\vert \beta_k^{HZ}\vert\\ &\le\frac{1}{d_{k-1}^T y_{k-1}}(\vert g_k^T y_{k-1}\vert+2\Vert y_{k-1}\Vert^2\frac{\vert g_k^T d_{k-1}\vert}{\vert d_{k-1}^T y_{k-1}\vert})\\ &\le\frac{8}{7}\frac{1}{(1-\sigma)\gamma^2}(L\overline{\gamma}\Vert s_{k-1}\Vert+2\overline{\gamma}^2\Vert s_{k-1}\Vert^2\max\left\{\frac{\sigma}{1-\sigma},1\right\})\\ &\le C\Vert s_{k-1}\Vert \end{align}\tag{54}
其中
C=\frac{8}{7}\frac{1}{(1-\sigma)}(L\overline{\gamma}+2L^2D\max\left\{\frac{\sigma}{1-\sigma},1\right\})\tag{55}
D=\max\left\{\Vert y-z\Vert:x,y\in\Omega \right\}\tag{56}
(ii):步长~s_k~的界
对于任意的~l>k~,有
x_l-x_k=\sum_{j=k}^{l-1}x_{j+1}-x_j=\sum_{j=k}^l\Vert s_j\Vert u_j=\sum_{j=k}^{l-1}\Vert s_j\Vert u_k+\sum_{j=k}^{l-1}\Vert s_j\Vert(u_j-u_k)\tag{57}
利用三角不等式
\sum_{j=k}^{l-1}\Vert s_j\Vert\le\Vert x_l-x_{k+1}\Vert+\sum_{j=k}^{l-1}\Vert s_j\Vert\Vert u_j-u_i\Vert\le D+\sum_{j=k}^{l-1}\Vert u_j-u_k\Vert\tag{58}
选择正整数~\triangle~,使其充分大
\triangle\ge 4 C D\tag{59}
其中~C,D~~(55)~~(56)~中的定义,选择充分大的~k_0~使其满足
\sum_{i\ge k_0}\Vert u_{i+1}-u_i\Vert^2\le\frac{1}{4\triangle}\tag{60}
如果~j>k\ge k_0~~j-k\le\triangle~,则
\begin{align}\Vert u_j-u_k\Vert&\le\sum_{i=k}^{j-1}\Vert u_{i+1}-u_i\Vert\\ &\sqrt{j-k}(\sum_{i=k}^{j=1}\Vert u_{i+1}-u_i\Vert^2)^{\frac{1}{2}}\\ &\le\sqrt{\triangle}(\frac{1}{4\triangle})^{\frac{1}{2}}=\frac{1}{2}\end{align}\tag{61}
结合~(58)~
\sum_{j=k}^{l-1}\Vert s_j\Vert\le 2D\tag{62}
其中~l>k\ge k_0~~l-k\le\triangle~

(III)、证明~d_l~有界
  证明略,本人也没有看的太懂,只是其实可以参考 PRP 或者 DL 的证明,也没有必要这么证明,所以就不想看了。不管怎样,Hanger-Zhang 共轭梯度法还是非常经典的共轭梯度法。

5、参考文献

[1] Hager W W, Zhang H C. A new conjugate gradient method with guaranteed descent and an efficient line search, SIAM Journal on Optimization, 2005, 1(16) : 170-192.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容