无约束优化的梯度方法
- 无约束优化的梯度方法
无约束优化的梯度方法
本文主要参照Princeton Prof. Yunxin Chen的Slides以及课堂笔记做的总结,聊一下无约束问题的梯度优化方法。既然提到了梯度,那么讨论的目标函数一定是可微的(可以用任意点处的的切平面来近似该点处的函数曲面)。后面有时间还会写一下约束优化问题的梯度方法,以及针对不可微目标函数的次梯度方法。
这篇文章真的超长,超出我的预期,后面改公式改到眼花。下次要分开写。
先来介绍几个基本概念:下降方向,迭代下降算法,以及大名鼎鼎的梯度下降。
-
下降方向 decent direction: 对于函数在$x$处沿$d$的方向导数
\[f'(x;d):=lim_{\tau \rightarrow 0} \frac{f(x+\tau d)-f(x)}{\tau} = \nabla f(x)^{\top} d,\]如果$d$满足方向导数$f’(x;d)=\nabla f(x)^{\top} d <0$, 那么称$d$为下降方向。
-
迭代下降算法 iterative descent algorithms: 从点$x^0$开始,构造序列${x^t}$,使得
\[f(x^{t+1})<f(x^{t}), t=0,1,...\]在每次迭代中,寻找在当前 $x^t$ 点的下降方向 $d^t$ , $x^{t+1} = x^{t} + \eta_{t} \nabla d^t$, 其中 $\eta_{t} >0$ 为步长。
-
梯度下降 Gradient Descent: $x^{t+1} = x^{t}-\eta_{t} \nabla f(x^t)$, 下降方向 $d^t=-\nabla f(x^t)$, 即最陡峭的下降方向,由Cauchy-Schwarz不等式
\[\arg \min_{d:\|d\|_2\le1}f'(x;d)= \arg \min_{\|d\|_2\le1}\nabla f(x)^{\top}d=-\frac{\nabla f(x)}{\|\nabla f(x)\|_2}\]
下面由特殊到一般,讨论一下各类无约束优化问题的下降算法及其收敛速度。
二次优化问题 Quadratic minimization problems
\[\min_x f(x):=\frac{1}{2} (x-x^*)^{\top}Q(x-x^*)\]其中 $Q\succ0, Q\in \mathbb{R}^{n\times n}$. $\nabla f(x)=Q(x-x^*)$.
该二次优化问题的解析解很容易看出
\[x = {x}^{*}, f({x}^{*})=0.\]这里讨论仅是验证梯度下降方法的收敛性。
常数步长及其收敛性
当每次迭代步长为固定值时,应该如何确定每次步长的大小呢? 最优选择为$\eta_t = \eta=\frac{2}{\lambda_1(Q)+\lambda_n(Q)}$, 此时有
\[\|x^t-x^*\|_2\le \left(\frac{\lambda_1(Q)-\lambda_n(Q)}{\lambda_1(Q)+\lambda_n(Q)}\right)^t \|x^0-x^*\|_2\]-
下面的证明会看到,选取步长使得
\[|1-\eta \lambda_{n} (Q)|=|1-\eta \lambda_{1} (Q)|\] - 收敛速度取决于 $Q$ 的 condition number $\frac{\lambda_{1}(Q)}{\lambda_{n}(Q)}$,即 $\frac{\max_{x}{\lambda_{1}(\nabla^{2} f(x))}}{\min_{x}{\lambda_{n}(\nabla^{2} f(x))}}$。
-
该收敛速度称为线性收敛 linear convergence 或几何收敛 geometric convergence. 这是因为 log(1/误差)和迭代次数 t 成线性关系,系数是 log(1/$\alpha$), $\alpha$为 $\frac{\lambda_{1}(Q)-\lambda_{n}(Q)}{\lambda_{1}(Q)+\lambda_{n}(Q)}$。
\[t log\left(\frac{1}{\alpha}\right)=log\left(\frac{\|x^0-x^*\|_{2}}{\epsilon}\right)\] -
Analysis: 想比较每次迭代后得到的结果和最优解的距离,先带入第t+1次GD迭代rule,
\[x^{t+1}-x^{*}=x^{t}-x^{*}-\eta_{t} \nabla f\left(x^{t}\right)=\left(\boldsymbol{I}-\eta_{t} \boldsymbol{Q}\right)\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)\]由Cauchy-Schwarz不等式得到此次距离和上次距离的关系,一个upper bound:
\[\left\|x^{t+1}-x^{*}\right\|_{2} \leq\left\|\boldsymbol{I}-\eta_{t} \boldsymbol{Q}\right\|\left\|\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right\|_{2}.\]现在要做的事情就是找到最优的 $\eta_t$ 使得每一步迭代都尽可能使得下一步距离更接近, 即最小化谱范数 $|\boldsymbol{I}-\eta \boldsymbol{Q}|$。 假如已经知道$Q$的特征值 $\lambda_1\ge…\ge\lambda_n\ge0$, 那么$\boldsymbol{I}-\eta \boldsymbol{Q}$的特征值$1-\eta\lambda_1\le…\le1-\eta\lambda_n$, 但如果没有具体例子,无法判断哪一个绝对值最大。 但是谱范数找的是绝对值最大的特征值的绝对值,因此可以确定
\[\|\boldsymbol{I}-\eta \boldsymbol{Q}\|=\max \left\{\left|1-\eta_{t} \lambda_{1}(\boldsymbol{Q})\right|,\left|1-\eta_{t} \lambda_{n}(\boldsymbol{Q})\right|\right\}\]那么由此我们有
\[\eta = \arg\min \max \left\{\left|1-\eta_{t} \lambda_{1}(\boldsymbol{Q})\right|,\left|1-\eta_{t} \lambda_{n}(\boldsymbol{Q})\right|\right\} =\frac{2}{\lambda_{1}(Q)+\lambda_{n}(Q)}\]此时
\[\|I-\eta Q\|=1-\frac{2 \lambda_{n}(\boldsymbol{Q})}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}=\frac{\lambda_{1}(\boldsymbol{Q})-\lambda_{n}(\boldsymbol{Q})}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}\]最后解释$\eta$的最优解如何求到的: 根据$\left|1-\eta_{t} \lambda_{1}(\boldsymbol{Q})\right|,\left|1-\eta_{t} \lambda_{n}(\boldsymbol{Q})\right|$的大小关系对$\eta$的取值和目标函数的取值进行分类讨论,
- 最小的特征值大于等于0: $0 \leq 1-\eta \lambda_{1}\Rightarrow \eta \leq \frac{1}{\lambda_{1}}$, 此时$|\boldsymbol{I}-\eta \boldsymbol{Q}|=\left|1-\eta_{t} \lambda_{n}(\boldsymbol{Q})\right|\geqslant \frac{\lambda_{1}-\lambda_{n}}{\lambda_{1}}$
- 最大的特征值小于等于0: $1- \lambda_{n} \leq 0 \Rightarrow \eta \geqslant \frac{1} {\lambda_{n}}$,此时$|\boldsymbol{I}-\eta \boldsymbol{Q}|=\left|1-\eta_{t} \lambda_{1}(\boldsymbol{Q})\right|\geqslant \frac{\lambda_{1}-\lambda_{n}}{\lambda_{1}}$
- 最小的小于0,最大的大于0: $1-\eta \lambda_{1}<0, \; 1-\eta \lambda_{n}>0 \Rightarrow \frac{1} {\lambda_{1}} \leqslant\eta \leqslant \frac{1}{\lambda_{n}}$. 该情况又分为两种: $\frac{1} {\lambda_{1}} <\eta \leqslant \frac{2}{\lambda_1+\lambda_{n}}$, 和 $\frac{2} {\lambda_{1}+\lambda_n} \leqslant\eta < \frac{1}{\lambda_{n}}$,最终可得$\eta = \frac{2} {\lambda_{1}+\lambda_n}$时 $|\boldsymbol{I}-\eta \boldsymbol{Q}|$取到最小 $\frac{\lambda_{1}(\boldsymbol{Q})-\lambda_{n}(\boldsymbol{Q})}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}$。 这也是三种情况中的最小情况。
一种非固定的步长取值:Exact Line Search
上面讨论的是固定迭代步长 $\eta_t = \eta=\frac{2}{\lambda_1(Q)+\lambda_n(Q)}$ 的情况,但需要已知$Q$的谱特性。另一个更加practical的策略是 exact line search rule
\[\eta_{t}=\arg \min _{\eta \geq 0} f\left(\boldsymbol{x}^{t}-\eta \nabla f\left(\boldsymbol{x}^{t}\right)\right)\]目的是每一步迭代中,都选使得目标函数最小的那个步长。 该方法的收敛速度为
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq\left(\frac{\lambda_{1}(\boldsymbol{Q})-\lambda_{n}(\boldsymbol{Q})}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}\right)^{2 t}\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right)\]- 与常数步长的收敛分析不同,此处用目标值说明收敛速度。
- 收敛速度为线性收敛 linear convergence,和常数步长的情况相似。
-
Analysis: 为方便,设 $\boldsymbol{g}^{t}=\nabla f\left(\boldsymbol{x}^{t}\right)=\boldsymbol{Q}\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)$,根据 exact line search rule 可以得到 $\eta_{t}=\frac{\boldsymbol{g}^{t \top} \boldsymbol{g}^{t}}{\boldsymbol{g}^{t^{\top}} \boldsymbol{Q} \boldsymbol{g}^{t}}$. 代入第 t+1 次的结果,找出与第 t 次的关系:
\[\begin{aligned} f\left(\boldsymbol{x}^{t+1}\right) &=\frac{1}{2}\left(\boldsymbol{x}^{t}-\eta_{t} \boldsymbol{g}^{t}-\boldsymbol{x}^{*}\right)^{\top} \boldsymbol{Q}\left(\boldsymbol{x}^{t}-\eta_{t} \boldsymbol{g}^{t}-\boldsymbol{x}^{*}\right) \\ &=\frac{1}{2}\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)^{\top} \boldsymbol{Q}\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)-\eta_{t}\left\|\boldsymbol{g}^{t}\right\|_{2}^{2}+\frac{\eta_{t}^{2}}{2} \boldsymbol{g}^{t \top} \boldsymbol{Q} \boldsymbol{g}^{t} \\ &=\frac{1}{2}\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)^{\top} \boldsymbol{Q}\left(\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right)-\frac{\left\|\boldsymbol{g}^{t}\right\|_{2}^{4}}{2 \boldsymbol{g}^{t \top} \boldsymbol{Q} \boldsymbol{g}^{t}} \\ &=\left(1-\frac{\left\|\boldsymbol{g}^{t}\right\|_{2}^{4}}{\left(\boldsymbol{g}^{t \top} \boldsymbol{Q} \boldsymbol{g}^{t}\right)\left(\boldsymbol{g}^{t \top} \boldsymbol{Q}^{-1} \boldsymbol{g}^{t}\right)}\right) f\left(\boldsymbol{x}^{t}\right) \end{aligned}\]最后一个等号用到了
\[f\left(x^{t}\right)=\frac{1}{2}\left(x^{t}-x^{*}\right)^{\top} Q\left(x^{t}-x^{*}\right)=\frac{1}{2} g^{t \top} Q^{-1} g^{t}.\]由 Kantorovich 不等式 (下降方法收敛性研究的核心)
\[\frac{\|\boldsymbol{y}\|_{2}^{4}}{\left(\boldsymbol{y}^{\top} \boldsymbol{Q} \boldsymbol{y}\right)\left(\boldsymbol{y}^{\top} \boldsymbol{Q}^{-1} \boldsymbol{y}\right)} \geq \frac{4 \lambda_{1}(\boldsymbol{Q}) \lambda_{n}(\boldsymbol{Q})}{\left(\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})\right)^{2}},\]代入得到
\[\begin{aligned} f\left(\boldsymbol{x}^{t+1}\right) & \leq\left(1-\frac{4 \lambda_{1}(\boldsymbol{Q}) \lambda_{n}(\boldsymbol{Q})}{\left(\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})\right)^{2}}\right) f\left(\boldsymbol{x}^{t}\right) \\ &=\left(\frac{\lambda_{1}(\boldsymbol{Q})-\lambda_{n}(\boldsymbol{Q})}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}\right)^{2} f\left(\boldsymbol{x}^{t}\right) \end{aligned}\]
由于已知 $f\left(\boldsymbol{x}^{*}\right)=\min _{\boldsymbol{x}} f(\boldsymbol{x})=0$,收敛性得证。
强凸且光滑的问题 Strongly Convex and Smooth Problems
上面讨论了二次优化问题在梯度下降的情况,下面讨论稍一般的问题,目标函数为强凸且光滑的情况。强凸和光滑的定义及其等价定义后面有时间会写!!!!!!。对于一个二次可微 twice-differenctiable 的函数,$\mu$-strongly convex 且 $L$-smooth 如果满足
\[\mathbf{0} \preceq \mu \boldsymbol{I} \preceq \nabla^{2} f(\boldsymbol{x}) \preceq L \boldsymbol{I}, \quad \forall \boldsymbol{x}\]常数步长的情况
Theorem 1 (GD for strongly convex and smooth functions, constant stepsize) $f$ is $\mu$-strongly convex and $L$-smooth. If $\eta_{t} \equiv \eta=\frac{2}{\mu+L}$, then
\[\left\|x^{t}-x^{*}\right\|_{2} \leq\left(\frac{\kappa-1}{\kappa+1}\right)^{t}\left\|x^{0}-x^{*}\right\|_{2}\]where $\kappa :=L / \mu$ is condition number; $x^*$ is minimizer.
- 与二次函数情况的对比,步长 $\eta=\frac{2}{\mu+L}$ V.S. $\eta=\frac{2}{\lambda_{1}(\boldsymbol{Q})+\lambda_{n}(\boldsymbol{Q})}$; 收缩比例 $\frac{\kappa-1}{\kappa+1}$ V.S. $\frac{\lambda_{1}(Q)-\lambda_{n}(Q)}{\lambda_{1}(Q)+\lambda_{n}(Q)}$
- Dimension-free: 迭代复杂度为 $O\left(\frac{\log \frac{1}{\varepsilon}}{\log \frac{\kappa+1}{\kappa-1}}\right)$,与问题规模$n$无关,如果 $\kappa$ 不受 $n$ 的影响. 但是一般情况下,每次迭代的代价会受n影响,这样的话总的计算复杂度还是增加的。
- 依照smoothness的定义,以及 $\nabla f(x^*)=0$, 可得 \(f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq \frac{L}{2}\left(\frac{\kappa-1}{\kappa+1}\right)^{2 t}\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}^{2}\)
-
Analysis: 设
\[g(\tau)=f(x_\tau)=f(x^t+\tau(x^*-x^t))\]则
\[\int_0^1 g''(\tau)d\tau = g'(1)-g'(0)\]其中
\[\left\{x_{\tau}\right\}_{0 \leq \tau \leq 1}\]可看成是 $x^t$ 到 $x^*$ 间的线段.
Line Search 的情况:Backtracking Line Search
比起常数步长,实际中更常用 line search,现实中大多数用到的是 inexact line search,一个简单有效的方法是 backtracking line search. 不管哪一种步长选择,都是想用最小的代价尽可能快的找到最优点。Backingtracking line search 的思想是:在搜索方向上,先设置一个初始步长,如果过大则缩减步长,直到合适为止。这就涉及到如何判断步长是否合适、如果缩短步长两个问题。
确保充分下降的 Armijo condition: 存在 $0< \alpha < 1$ 使得
\[f\left(\boldsymbol{x}^{t}-\eta \nabla f\left(\boldsymbol{x}^{t}\right)\right)<f\left(\boldsymbol{x}^{t}\right)-\alpha \eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\](可以由泰勒公式展开得到) 但是!实际中我们选择的 $0< \alpha < \frac{1}{2}$,至于原因,是希望算法的收敛速度更快(下降速度更快),有人说和超线性收敛有关,具体参考《最优化理论与方法》(袁亚湘),我还没check。缩减的方法采用反复乘以一个小于1的系数 $\beta$ .
当初始步长足够大时,根据上述算法得到的步长 $\eta$ 具有 lower bound, 找到 $\eta$ 一个取值,使得当 $\eta = \tilde{\eta}_t$ 时,算法不会使 $\eta$ 减小,根据算法中步长的缩减规则,我们有
\[\eta_{t} \geq \beta \tilde{\eta}_{t}.\]这个值我们取目标迭代函数值的上限
\[f\left(\boldsymbol{x}^{t}\right)-\alpha \eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\]与二阶近似的上限
\[f\left(\boldsymbol{x}^{t}\right)-\eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}+\frac{L \eta^{2}}{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\]相等的根。 这里二阶近似的上限用到了目标函数的光滑性 $L$-smoothness. 这是因为对于光滑函数,当 $\eta = \tilde{\eta}_t$ 时,
\[f\left(\boldsymbol{x}^{t}-\eta \nabla f\left(\boldsymbol{x}^{t}\right)\right)\le f\left(\boldsymbol{x}^{t}\right)-\eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}+\frac{L \eta^{2}}{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}.\] \[\begin{array}{l}{f\left(\boldsymbol{x}^{t}\right)-\alpha \eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}=f\left(\boldsymbol{x}^{t}\right)-\eta\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}+\frac{L \eta^{2}}{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}} \\ {\Longrightarrow \quad \eta_{t} \geq \frac{2(1-\alpha) \beta}{L} = \tilde{\eta}_{t}}\end{array}\]实际中, backtracking line search 通常可以对局部 Lipschitz 常数 (local Lipschitz constant) $|\nabla f(x)- \nabla f(y)| \le L | x-y|$ 给出良好估计。 \(L \geq \frac{2(1-\alpha) \beta}{\eta_{t}}\)
Theorem 2 (GD for strongly convex and smooth functions, backtracking line search) $f$ is $\mu$-strongly convex and $L$-smooth. With backtracking line search,
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq\left(1-\min \left\{2 \mu \alpha, \frac{2 \beta \alpha \mu}{L}\right\}\right)^{t}\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right)\]where $x^*$ is minimizer.
和 constant stepsize 不同的是用目标函数值来表达收敛性,但同样是线性收敛 linear convergence.
线性收敛一定要求强凸吗?
上面我们讨论了在目标函数$\mu$-strongly convex 和 $L$-smooth 的情况下具有线性收敛性,那可否在不满足强凸的情况下也具备线性收敛呢?其实,强凸性可以被 relaxed 成
- 局部强凸性 local strong convexity
- 正则条件 regularity condition
- P-L 条件 Polyak-Lojasiewicz condition
局部强凸 Local strong convexity
这里举一个耳熟能详(并不)的栗子——逻辑回归 logistic regression.
逻辑回归 Logistic Regression
给定 $N$ 个独立样本,${x_i, g_i}_{i=1}^N$, 其中 $x_i \in \mathbb{R}^p$ 是已知的设计向量,$g_i \in {1, …, K}$ 是 $K$ 分类的结果,我们希望学习到给定设计向量判断分类的方法。这部分是背景,参考了 The Elements of Statistic Learning, Hastie et. al.
逻辑回归的思想是根据样本特征的线性函数来建模,得到属于各类别的后验概率,同时保证概率和为1、且每一种概率大小都在 $[0, 1]$ 范围内。我们让线性回归 $a^\top x + b_0$ (连续、无界)的值恰好为后验概率的 log 函数
\[\begin{aligned} \log \operatorname{Pr}(G=1 | X=x) &=\beta_{10}+\beta_{1}^{T} x \\ \log {\operatorname{Pr}(G=2 | X=x)} &=\beta_{20}+\beta_{2}^{T} x \\ & \vdots \\ \log {\operatorname{Pr}(G=K-1 | X=x)} &=\beta_{(K-1) 0}+\beta_{K-1}^{T} x \\ \log {\operatorname{Pr}(G=K | X=x)} &=\beta_{(K) 0}+\beta_{K}^{T} x \\ \sum_{k=1}^K \operatorname{Pr}(G=k | X=x) &= 1 \end{aligned}\]上面可以看成是 $K$ 组未知数 ${ \beta_{k0}, \beta_k }$, $K+1$ 个方程,把最后一个式子看成约束条件,就可以约去一个表达式(一旦其中 $K-1$ 组未知数确定,由约束条件亦可确定最后一组)。我们假设约去了第K个表达式,就得到
\[\begin{aligned} \log \frac{\operatorname{Pr}(G=1 | X=x)}{\operatorname{Pr}(G=K | X=x)} &=\beta_{10}+\beta_{1}^{T} x \\ \log \frac{\operatorname{Pr}(G=2 | X=x)}{\operatorname{Pr}(G=K | X=x)} &=\beta_{20}+\beta_{2}^{T} x \\ & \vdots \\ \log \frac{\operatorname{Pr}(G=K-1 | X=x)}{\operatorname{Pr}(G=K | X=x)} &=\beta_{(K-1) 0}+\beta_{K-1}^{T} x \end{aligned}\]上面 $K-1$ 个式子暗含了约束条件:概率和为1. 求个exp加起来加个1除一除乘一乘就可以得到
\[\begin{aligned} \operatorname{Pr}(G=k | X=x) &= \frac{\exp \left(\beta_{k 0}+\beta_{k}^{T} x\right)}{1+\sum_{\ell=1}^{K-1} \exp \left(\beta_{\ell 0}+\beta_{\ell}^{T} x\right)}, k=1, \ldots, K-1 \\ \operatorname{Pr}(G=K | X=x) &= \frac{1}{1+\sum_{\ell=1}^{K-1} \exp \left(\beta_{\ell 0}+\beta_{\ell}^{T} x\right)} \end{aligned}\]上面的式子明显和为1. 我们将参数集合表示为
\[\theta=\left\{\beta_{10}, \beta_{1}^{T}, \ldots, \beta_{(K-1) 0}, \beta_{K-1}^{T}\right\}.\]为了强调对参数集的 dependence,将概率表示为
\[\operatorname{Pr}(G=k | X=x)=p_{k}(x ; \theta).\]当 $K=2$ 时,上述式子只有一个,是最简单但是非常常用的情况。 现在已经有了模型,接下来要做的就是,利用观察到的样本们去学习 fit 它! 也就是根据样本、目标函数 fit 参数集合 $\theta$. 如何习得参数们呢?逻辑回归通常采用的是最大似然(参数估计的一种方法,基础概率还要补一补,何况是测度blabla…后面有时间会写的)去fit——用给定 $X$ 时 $G$ 的条件似然。 由于 $\operatorname{Pr}(G | X)$ 完全确定了条件分布,多项分布 multinomial distribution 是合适的(应该是well defined的意思)。
现在假设有 $N$ 个独立样本,
\[\{x_i, g_i\}_{i=1}^N,\]其中 $x_i$ 是已知的设计向量,$g_i$ 是 $K$ 分类的结果。根据前面的分析,设这些样本服从前面的条件分布:
\[\{p_{k}(x ; \theta)\}_{k=1}^K.\]我们希望:找到一组参数 $\theta$ 使得观察到的样本出现的概率最大。 这个概率的表达式为
\[p\left(x_{1}, \dots, x_{N} ; \theta\right) = \prod_{i=1}^{N} p_{g_i}\left(x_{i} ; \theta \right)\]最大化这个概率等价于最大化这个概率的log函数,所求的变量自然是参数集合 $\theta$. 因此可以写成 $\theta$ 的函数
\[\ell(\theta)=\sum_{i=1}^{N} \log p_{g_{i}}\left(x_{i} ; \theta\right)\]其中
\[p_{k}{\left( x_{i} ; \theta \right)} = \operatorname{Pr} {\left(G=k | X=x_{i} ;\theta \right)}.\]下面我们详细讨论一下二分类的情况,这种情况下算法会大大简化。将两种类别 $g_i$ 编码为取值 ${0,1}$ 的响应 $y_i$, 当 $g_{i}=1$ 时,取 $y_{i}=1$,当 $g_{i}=2$ 时取 $y_{i}=0$. 并让 $p_{1}(x ; \theta)=p(x ; \theta)$,则 $p_{2}(x ; \theta)=1-p(x ; \theta)$. 那么,对于某个样本而言,就实现了log表达式的统一:
- 若样本类别为 $y_i = 1$,则 $\log p_{y_i}(x ; \theta) = \log p(x ; \beta) = y_i \log p(x ; \beta) + (1-y_i) \log \left(1-p(x ; \beta) \right)$,
- 若样本类别为 $y_i = 0$,则 $\log p_{y_i}(x ; \theta) = \log \left(1-p(x ; \beta) \right) = y_i \log p(x ; \beta) + (1-y_i) \log \left(1-p(x ; \beta) \right)$.
此时 log-likelihood 可写成关于参数 $\beta$ 的函数
\[\begin{aligned} \ell(\beta) &=\sum_{i=1}^{N}\left\{y_{i} \log p\left(x_{i} ; \beta\right)+\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; \beta\right)\right)\right\} \\ &=\sum_{i=1}^{N}\left\{y_{i} \log \frac {p\left(x_{i} ; \beta\right)}{1-p\left(x_{i} ; \beta\right)} + \log \left(1-p\left(x_{i} ; \beta\right)\right)\right\} \\ &=\sum_{i=1}^{N}\left\{y_{i} \beta^{T} x_{i}-\log \left(1+e^{\beta^{T} x_{i}}\right)\right\} \end{aligned}\]最后一个式子就是代入前面条件概率的表达式得到的,这里
\[\beta = \left\{ \beta_{10}, \beta_{1} \right\},\]并假设输入向量 $x_i \in {1 \times \mathbb{R}^p}$ 中已经包含了对应之前 $\beta_{10}$ 的常数项1.
到这里整个逻辑回归的数学模型就已经建立了,下面就是优化的部分了(其实优化部分才是本文重点)。之前看了一些关于逻辑回归的博客,甚至还做过project,但感觉理解不够透彻,有些原理在一些博客被忽略掉了,自己作为小白就会比较难受,现在根据《统计学习要素》中的讲解整理一下,思路就清晰许多。实际上关于逻辑回归有很多角度的解释,但自己感觉这个版本最清晰也最根本,有理有据。以后有新的视角也会补充进来。
为了最大化 log-likelihood,我们令其导数为0,
\[\frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}=\sum_{i=1}^{N} \boldsymbol{x}_{i}\left(y_{i}-p\left(\boldsymbol{x}_{i} ; \boldsymbol{\beta}\right)\right)=\boldsymbol{0}\]这实际上是 $p+1$ 个关于 $\boldsymbol{\beta}$ 的非线性方程。 由于 $\boldsymbol{x}_i$ 的第一项为1,那么第一个非线性方程要求
\[\sum_{i=1}^{N} y_{i}=\sum_{i=1}^{N} p\left(\boldsymbol{x}_i ; \boldsymbol{\beta}\right)\]即观察到分类为1的样本数目与期望的分类为1的数目一致(分类为0的样本数目因此也是一致的)。 进一步求其 Hessian 矩阵,
\[\frac{\partial^{2} \ell(\beta)}{\partial \beta \partial \beta^{T}}=-\sum_{i=1}^{N} x_{i} x_{i}^{T} p\left(x_{i} ; \beta\right)\left(1-p\left(x_{i} ; \beta\right)\right)\]看到 Hessian 负定没关系,因为是最大化似然函数,所以加个负号变成minimize,Hessian 自然也是正定的。但这个只是一般情况!当 $x \rightarrow \infty$ 时,$p\left(x_{i} ; \beta\right)\left(1-p\left(x_{i} ; \beta\right)\right) = \frac{\exp \left( \beta^{\top} x_i \right)}{\left(1+\exp \left(\beta^{\top} x_i\right)\right)^{2}} \rightarrow 0$, 因此目标函数竟然是 0-strongly convex的,想不到吧。现在终于回到正题,目标函数难道不具备线性收敛性吗?
常数步长的线性收敛性
Theorem 3 (GD for locally strongly convex and smooth functions, constant stepsize) $f$ is locally $\mu$-strongly convex and $L$-smooth such that
\[\mu \boldsymbol{I} \preceq \nabla^{2} f(\boldsymbol{x}) \preceq L \boldsymbol{I}, \quad \forall \boldsymbol{x} \in \mathcal{B}_{0}\]where
\[\mathcal{B}_{0} :=\left\{\boldsymbol{x} :\left\|\boldsymbol{x}-\boldsymbol{x}^{*}\right\|_{2} \leq\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}\right\}.\]Then Theorem 1 continues to hold, i.e., if $\eta_{t} \equiv \eta=\frac{2}{\mu+L},$
then
\[\left\|x^{t}-x^{*}\right\|_{2} \leq\left(\frac{\kappa-1}{\kappa+1}\right)^{t}\left\|x^{0}-x^{*}\right\|_{2}\]where $\kappa :=L / \mu$ is condition number; $x^*$ is minimizer.
-
对任意 $x^{t} \in \mathcal{B}_{0}$, 可得
\[\left\|x^{t+1}-x^{*}\right\|_{2} \leq \frac{\kappa-1}{\kappa+1}\left\|x^{t}-x^{*}\right\|_{2}\]则有
\[\boldsymbol{x}^{t+1} \in \mathcal{B}_{0},\]因此上述上限将在后来的迭代中继续成立。
-
回到逻辑回归的例子,local strong convexity 的参数表达式为
\[\inf _{x :\left\|x-x^{*}\right\|_{2} \leq\left\|x^{0}-x^{*}\right\|_{2}} \lambda_{\min }\left( \sum_{i=1}^{N} \frac{\exp \left( \beta^{\top} x_i \right)}{\left(1+\exp \left(\beta^{\top} x_i\right)\right)^{2}} \boldsymbol{a}_{i} \boldsymbol{a}_{i}^{\top} \right)\]该表达式常常与0有严格距离,因此使得线性收敛性成立。
正则条件 Regularity condition
另一个可以替代强凸和光滑要求的是正则条件。
\[\left\langle\nabla f(\boldsymbol{x}), \boldsymbol{x}-\boldsymbol{x}^{*}\right\rangle \geq \frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^{*}\right\|_{2}^{2}+\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_{2}^{2}, \quad \forall \boldsymbol{x}\]它是这么得到的:
- L-smoothness: $\langle\nabla f(x)-\nabla f(y), x-y\rangle \leq M|x-y|_{2}^{2} \quad \forall x, y \in \mathbb{R}^{d}$
- $\mu$-convexity: $\langle\nabla f(x)-\nabla f(y), x-y\rangle \geq \mu |x-y|_{2}^{2} \quad \forall x, y \in \mathbb{R}^{d}$
-
上述两式相加,
\[y \rightarrow x^{*}\]代入
\[\nabla f(x^{*})=0\] - 强凸要求每一对 $(x,y)$ 都要满足条件,正则条件只要求了 $(x,x^*)$.
Theorem 4 (GD for functions satisfying regularity condition, constant stepsize) Suppose $f$ satisfies
\[\left\langle\nabla f(\boldsymbol{x}), \boldsymbol{x}-\boldsymbol{x}^{*}\right\rangle \geq \frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^{*}\right\|_{2}^{2}+\frac{1}{2 L}\|\nabla f(\boldsymbol{x})\|_{2}^{2}, \quad \forall \boldsymbol{x}\]If $\eta_{t} \equiv \eta=\frac{1}{L}$, then
\[\left\|x^{t}-x^{*}\right\|_{2}^{2} \leq\left(1-\frac{\mu}{L}\right)^{t}\left\|x^{0}-x^{*}\right\|_{2}^{2}\]Proof.
\[\begin{aligned}\left\|x^{t+1}-x^{*}\right\|_{2}^{2} &=\left\|x^{t}-x^{*}-\frac{1}{L} \nabla f\left(x^{t}\right)\right\|_{2}^{2} \\ &=\left\|x^{t}-x^{*}\right\|_{2}^{2}+\frac{1}{L^{2}}\left\|\nabla f\left(x^{t}\right)\right\|_{2}^{2}-\frac{2}{L}\left\langle x^{t}-x^{*}, \nabla f\left(x^{t}\right)\right\rangle \\ & \leq\left\|x^{t}-x^{*}\right\|_{2}^{2}-\frac{\mu}{L}\left\|x^{t}-x^{*}\right\|_{2}^{2} \\ &=\left(1-\frac{\mu}{L}\right)\left\|x^{t}-x^{*}\right\|_{2}^{2} \end{aligned}\]其中不等式利用了regularity condition. $\; \blacksquare$
P-L 条件 Polyak-Lojasiewicz condition
存在 $\mu>0$ 使得
\[\|\nabla f(\boldsymbol{x})\|_{2}^{2} \geq 2 \mu\left(f(\boldsymbol{x})-f\left(\boldsymbol{x}^{*}\right)\right), \quad \forall \boldsymbol{x}\]- 强凸:$f(y)-f(x)-\langle\nabla f(x), y-x\rangle \leq \frac{1}{2 \mu}|\nabla f(x)-\nabla f(y)|_{2}^{2} \quad \forall x, y \in \mathbb{R}^{d}$. PL 条件: $y \rightarrow x, x \rightarrow x^*$. 强凸一定PL.
- 当远离最优目标值时,梯度上升速度加快。
- 每个驻点 stationary point (梯度为0的点)都是全局最优。
Theorem 5 (GD for functions satisfying smoothness and PL condition, constant stepsize) Suppose $f$ is $L$-smooth and satisfies
\[\|\nabla f(\boldsymbol{x})\|_{2}^{2} \geq 2 \mu\left(f(\boldsymbol{x})-f\left(\boldsymbol{x}^{*}\right)\right), \quad \forall \boldsymbol{x}\]If $\eta_{t} \equiv \eta=\frac{1}{L}$, then
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq\left(1-\frac{\mu}{L}\right)^{t}\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right)\]- 最优目标值的线性收敛性
- 未必有唯一全局最优解
- 证明在后面
例子:over-parametrized linear regression
给 n 个数据样本,${a_i \in \mathbb{R}^d, y_i\in \mathbb{R}}_{1\le i\le n}$ 进行线性回归,找到 fit 数据的最好的线性模型
\[\underset{x \in \mathbb{R}^{d}}{\operatorname{minimize}} f(x) \triangleq \frac{1}{2} \sum_{i=1}^{n}\left(a_{i}^{\top} x-y_{i}\right)^{2}\]over-parametrization: 模型的维度 $d$ $>$ 样本数量 $n$ 在深度学习中尤为重要。 该问题是凸的,但不是强凸的,因为
\[\nabla^{2} f(\boldsymbol{x})=\sum_{i=1}^{n} \boldsymbol{a}_{i} \boldsymbol{a}_{i}^{\top}\]当 $d>n$ 时不满秩。但大多数时候仍然满足 $f\left(\boldsymbol{x}^{*}\right)=0$ 以及 PL 条件,因此GD线性收敛。
Fact 1 Suppose that
\[\boldsymbol{A}=\left[\boldsymbol{a}_{1}, \cdots, \boldsymbol{a}_{n}\right]^{\top} \in \mathbb{R}^{n \times d}\]has rank $n$, and that
\[\eta_{t} \equiv \eta=\frac{1}{\lambda_{\max }\left(A A^{\top}\right)}.\]Then GD obeys
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq\left(1-\frac{\lambda_{\min}\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right)}{\lambda_{\max}\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right)}\right)^{t}\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right), \quad \forall t\]-
原问题的 Hessian
\[\nabla^{2} f(\boldsymbol{x})=\sum_{i=1}^{n} \boldsymbol{a}_{i} \boldsymbol{a}_{i}^{\top} = \boldsymbol{A}^{\top} \boldsymbol{A}\in \mathbb{R}^{d\times d}\] - 对 ${ \boldsymbol{a}_{i}}$ 的假设温和
- 对 ${ y_{i}}$ 没有要求
- 当有很多全局最优解时,对该over-parametrized 问题,GD 给出的结果有偏好,往往收敛到距离初始化 $x^0$ 最近的全局最优。
-
证明:
$\boldsymbol{A}^{\top} \boldsymbol{A}$ 和 $\boldsymbol{A} \boldsymbol{A}^{\top}$ 的特征值除0外相同(可以用SVD证明), 因此最大的特征值相同。 由于在Over-Parametrized 问题中 $f\left(x^{*}\right) = 0$ 因此只需要证明 $\lambda_{\min}\left(A A^{\top}\right)$ 就是 PL 条件中的 $\mu$ 即可, 也就是
\[\|\nabla f(\boldsymbol{x})\|_{2}^{2} \geq 2 \lambda_{\min}\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right) f(\boldsymbol{x}).\]如果该不等式成立,那么 Fact 1 得证。 下面就证明这个不等式。 令
\[\boldsymbol{y}=\left[y_{i}\right]_{1 \leq i \leq n},\]则
\[\boldsymbol{x}^{*}=\boldsymbol{x}-\boldsymbol{A}^{\top}\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right)^{-1}(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y}) = \arg \min _{A z=y}\|z-x\|_{2}.\]我们有
\[\begin{aligned} \nabla f(\boldsymbol{x}) &=\sum_{i} \boldsymbol{a}_{i}\left(\boldsymbol{a}_{i}^{\top} \boldsymbol{x}-y_{i}\right)=\sum_{i} \boldsymbol{a}_{i}\left(\boldsymbol{a}_{i}^{\top} \boldsymbol{x}-\boldsymbol{a}_{i}^{\top} \boldsymbol{x}^{*}\right) \\ &=\left(\sum_{i} \boldsymbol{a}_{i} \boldsymbol{a}_{i}^{\top}\right)\left(\boldsymbol{x}-\boldsymbol{x}^{*}\right)=\boldsymbol{A}^{\top} \boldsymbol{A}\left(\boldsymbol{x}-\boldsymbol{x}^{*}\right) \\ &=\boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{A}^{\top}\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right)^{-1}(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y}) \quad \\ &=\boldsymbol{A}^{\top}(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y}) \end{aligned}\]
结果有
\[\begin{aligned} \|\nabla f(\boldsymbol{x})\|_{2}^{2} &=(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y})^{\top} \boldsymbol{A} \boldsymbol{A}^{\top}(\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y}) \\ & \geq \lambda_{\min }\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right)\|\boldsymbol{A} \boldsymbol{x}-\boldsymbol{y}\|_{2}^{2} \\ &=2 \lambda_{\min }\left(\boldsymbol{A} \boldsymbol{A}^{\top}\right) f(\boldsymbol{x}) \quad \blacksquare \end{aligned}\]凸且光滑的问题 Convex and smooth problems
没有强凸性时,研究收敛性往往用目标函数值
\[\| f(x^{t})-f(x^{*})\|\]的收敛而不是最优解
\[\|x^{t}-x^{*}\|\]的收敛。举个例子,函数
\[f(x)= \frac{1}{x} \; \; (x>0)\]GD 迭代下去很可能难以收敛到
\[x^{*}=\infty\]相比之下,
\[f(x^{t})\]可能很快达到
\[f \left( x^{*} \right) = 0\]保证目标函数下降吗
那么问题来了,不具备强凸性时,我们能保证目标函数值下降(i.e., $f\left(\boldsymbol{x}^{t+1}\right)<f\left(\boldsymbol{x}^{t}\right)$)吗?如何选择步长才能保证充分的下降呢? 关键思想: majorization-minimization, 给 $f(x)$ 找到简单的 majorizing function 然后优化这个替代函数。
由于光滑,
\[\begin{aligned} f\left(\boldsymbol{x}^{t+1}\right)-f\left(\boldsymbol{x}^{t}\right) & \leq \nabla f\left(\boldsymbol{x}^{t}\right)^{\top}\left(\boldsymbol{x}^{t+1}-\boldsymbol{x}^{t}\right)+\frac{L}{2}\left\|\boldsymbol{x}^{t+1}-\boldsymbol{x}^{t}\right\|_{2}^{2} \\ &=-\eta_{t}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}+\frac{\eta_{t}^{2} L}{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2} \end{aligned}\]最后一个等号后面的就是由光滑得到的目标函数下降的 majorizing function,我们想要最大化每次迭代的下降程度的下限,就要最大化
\[\left(\eta_{t}-\frac{\eta_{t}^{2} L}{2}\right)\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\]选择 $\eta_{t}=1 / L$ 取到最大,此时每次迭代至少使目标函数下降
\[\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\]我们就有了下面的 Fact 2.
Fact 2 Suppose $f$ is L-smooth. Then GD with $\eta_{t}=1 / L$ obeys
\[f\left(\boldsymbol{x}^{t+1}\right) \leq f\left(\boldsymbol{x}^{t}\right)-\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}\]- 当步长足够小时,GD可以保证目标函数值下降。因为:令下降值下限 $\left(\eta_{t}-\frac{\eta_{t}^{2} L}{2}\right)\left|\nabla f\left(\boldsymbol{x}^{t}\right)\right|_{2}^{2}>0$ 可得 $0<\eta_t<2/L$.
- 并不依赖凸性!
GD 不仅可以优化目标函数值,只要步长不太大,迭代时也会逐渐靠近最优解。将 $f$ 看作 0-strongly convex 可以根据前面的分析得到
\[\left\|x^{t+1}-x^{*}\right\|_{2} \leq\left\|x^{t}-x^{*}\right\|_{2}\]也就是说,$\left|x^{t}-x^{*}\right|_{2}$ 对 $t$ 单调不增.
实际上,可以进一步证明除非 $\boldsymbol{x}^{t}$ 已经是最优解,$\left|x^{t}-x^{*}\right|_{2}$ 是严格下降的。
Fact 3 Suppose $f$ is convex and L-smooth. If $\eta_{t}=1 / L$, then
\[\left\|x^{t+1}-x^{*}\right\|_{2} \leq\left\|x^{t}-x^{*}\right\|_{2}-\frac{1}{L^{2}}\left\|\nabla f\left(x^{t}\right)\right\|_{2}^{2}\]-
证明:
\[\begin{aligned} \left\|x^{t+1}-x^{*}\right\|_{2}^{2} &=\left\|x^{t}-x^{*}-\eta\left(\nabla f\left(x^{t}\right)-\nabla f\left(x^{*}\right)\right)\right\|_{2}^{2} \\ &=\left\|x^{t}-x^{*}\right\|_{2}^{2}-2 \eta\left\langle\boldsymbol{x}^{t}-\boldsymbol{x}^{*}, \nabla f\left(\boldsymbol{x}^{t}\right)-\nabla f\left(\boldsymbol{x}^{*}\right)\right\rangle+\eta^{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)-\nabla f\left(\boldsymbol{x}^{*}\right)\right\|_{2}^{2} \end{aligned}\]由于 smooth 且 convex,
\[\left\langle\boldsymbol{x}^{t}-\boldsymbol{x}^{*}, \nabla f\left(\boldsymbol{x}^{t}\right)-\nabla f\left(\boldsymbol{x}^{*}\right)\right\rangle \geq \frac{1}{L}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)-\nabla f\left(\boldsymbol{x}^{*}\right)\right\|_{2}^{2},\]又因为 $\eta_{t}=1 / L$, 我们有
\[\left\|x^{t+1}-x^{*}\right\|_{2}^{2}\leq\left\|\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right\|_{2}^{2}-\eta^{2}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)-\nabla f\left(\boldsymbol{x}^{*}\right)\right\|_{2}^{2},\]其中 $\nabla f\left(\boldsymbol{x}^{*}\right)=0$. $\blacksquare$
现在可以证明前面的 Theorem 5 了。回顾一下 Theorem 5 说了什么。
Theorem 5 (GD for functions satisfying smoothness and PL condition, constant stepsize) Suppose $f$ is $L$-smooth and satisfies
\[\|\nabla f(\boldsymbol{x})\|_{2}^{2} \geq 2 \mu\left(f(\boldsymbol{x})-f\left(\boldsymbol{x}^{*}\right)\right), \quad \forall \boldsymbol{x}\]If $\eta_{t} \equiv \eta=\frac{1}{L}$, then
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq\left(1-\frac{\mu}{L}\right)^{t}\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right)\]Proof.
\[\begin{aligned} f\left(\boldsymbol{x}^{t+1}\right)-f\left(\boldsymbol{x}^{*}\right) & \leq f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)-\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2} \\ & \leq f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)-\frac{\mu}{L}\left(f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)\right) \\ &=\left(1-\frac{\mu}{L}\right)\left(f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)\right) \end{aligned}\]收敛性分析
不幸的是,没有强凸性时,收敛速度将远远慢于线性收敛(或几何收敛)。
Theorem 6 (GD for convex and smooth problems) Let $f$ be convex and $L$-smooth. If $\eta_{t} \equiv \eta=1 / L$, then GD obeys
\[f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right) \leq \frac{2 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}^{2}}{t}\]- 要达到 $\epsilon$-准确,需要 $O(1/\epsilon)$ 次迭代。线性收敛: $O(\log{\frac{1}{\epsilon}})$.
-
证明: 由 Fact 2,
\[f\left(\boldsymbol{x}^{t+1}\right)-f\left(\boldsymbol{x}^{t}\right) \leq-\frac{1}{2 L}\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}^{2}.\]为了递归的表示 $f\left(\boldsymbol{x}^{t}\right)$,我们将 $\left|\nabla f\left(\boldsymbol{x}^{t}\right)\right|_{2}$ 替换为 $f\left(\boldsymbol{x}^{t}\right)$ 的函数。 为此,利用 convexity 得到
\[\begin{aligned} &f\left(\boldsymbol{x}^{*}\right)-f\left(\boldsymbol{x}^{t}\right) \geq \nabla f\left(\boldsymbol{x}^{t}\right)^{\top}\left(\boldsymbol{x}^{*}-\boldsymbol{x}^{t}\right) \geq-\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2}\left\|\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right\|_{2} \\ &\Longrightarrow \quad\left\|\nabla f\left(\boldsymbol{x}^{t}\right)\right\|_{2} \geq \frac{f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)}{\left\|\boldsymbol{x}^{t}-\boldsymbol{x}^{*}\right\|_{2}} \ge \frac{f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)}{\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}} \end{aligned}\]令
\[\Delta_{t} :=f\left(\boldsymbol{x}^{t}\right)-f\left(\boldsymbol{x}^{*}\right)\]可得 (代入Fact 2)
\[\Delta_{t+1}-\Delta_{t} \leq-\frac{1}{2 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}^{2}} \Delta_{t}^{2}\]下面用归纳法证明 $\Delta_{t} \leq \frac{b}{t} \quad$, 其中
\[b=2 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}^{2}.\]如果该不等式对 $t$ 成立,那么
\[\Delta_{t+1} \leq \Delta_{t}-\Delta_{t}^2/b.\]而这个不等式在 $\Delta_{t}<b/2$ 时增, 我们让
\[\Delta_{t} \leq \frac{b}{t}\le \frac{b}{2},\]那么函数始终对 $\Delta_{t}$ 是增的, 也就是当 $t\ge 2$ 时函数对 $\Delta_{t}$ 增。 因此有
\[\Delta_{t+1} \leq \frac{b(t-1)}{t^{2}} \leq \frac{b}{t+1}. \blacksquare\]
非凸问题 Nonconvex problems
许多代价函数都是非凸的,比如低秩矩阵补全,盲逆卷积,字典学习,混合模型,深度神经网络学习……对于这样的函数,可能到处都有 bumps 和 局部最小值。没有算法可保证有效解决所有情况的非凸问题。
典型的收敛保证
我们很难希望快速收敛到全局最优解,但是我们或许可以有
- 收敛到驻点
- 收敛到局部最小
- 局部收敛到全局最小(需要合适的初始化)
如果我们只希望找到一个(近似的)驻点 $\epsilon$-approximate stationary point,那么我们的目标就是找到点 $x$ 使得
\[\|\nabla f(\boldsymbol{x})\|_{2} \leq \varepsilon\]GD 可以达到这个目标吗?
Theorem 7 Let $f$ be $L$-smooth and $\eta_{k} \equiv \eta=1 / L$. Assume $t$ is even.
-
in general, GD obeys
\[\min _{0 \leq k<t}\left\|\nabla f\left(\boldsymbol{x}^{k}\right)\right\|_{2} \leq \sqrt{\frac{2 L\left(f\left(\boldsymbol{x}^{0}\right)-f\left(\boldsymbol{x}^{*}\right)\right)}{t}}\] -
if $f$ is convex, then GD obeys
\[\min _{t / 2 \leq k<t}\left\|\nabla f\left(\boldsymbol{x}^{k}\right)\right\|_{2} \leq \frac{4 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}}{t}\]
GD 找 $\epsilon$-approximate stationary point 需要 $O\left(1 / \varepsilon^{2}\right)$ 次迭代。并不意味着 GD 收敛到驻点,只是说在 GD 的轨迹中存在一个$\epsilon$-approximate stationary point.
证明: 由 Fact 2 有 $\frac{1}{2 L}\left|\nabla f\left(\boldsymbol{x}^{k}\right)\right|_{2}^{2} \leq f\left(\boldsymbol{x}^{k}\right)-f\left(\boldsymbol{x}^{k+1}\right), \; \forall k$, 那么
\[\begin{aligned} \frac{1}{2 L} \sum_{k=t_{0}}^{t-1}\left\|\nabla f\left(\boldsymbol{x}^{k}\right)\right\|_{2}^{2} & \leq \sum_{k=t_{0}}^{t-1}\left(f\left(\boldsymbol{x}^{k}\right)-f\left(\boldsymbol{x}^{k+1}\right)\right)=f\left(\boldsymbol{x}^{t_{0}}\right)-f\left(\boldsymbol{x}^{t}\right) \\ & \leq f\left(\boldsymbol{x}^{t_{0}}\right)-f\left(\boldsymbol{x}^{*}\right) \\ \Longrightarrow \quad \min _{t_{0} \leq k<t}\left\|\nabla f\left(\boldsymbol{x}^{k}\right)\right\|_{2} & \leq \sqrt{\frac{2 L\left(f\left(\boldsymbol{x}^{t_{0}}\right)-f\left(\boldsymbol{x}^{*}\right)\right)}{t-t_{0}}} \end{aligned}\]对于一般情况,令 $t_{0}=0$ 即可得证。 如果 $f$ convex, 由 Theorem 6
\[f\left(\boldsymbol{x}^{t_{0}}\right)-f\left(\boldsymbol{x}^{*}\right) \leq \frac{2 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}^{2}}{t_{0}}\]令 $t_{0}=t / 2$ 可得
\[\min _{t_{0} \leq k<t}\left\|\nabla f\left(\boldsymbol{x}^{k}\right)\right\|_{2} \leq \frac{2 L}{\sqrt{t_{0}\left(t-t_{0}\right)}}\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}=\frac{4 L\left\|\boldsymbol{x}^{0}-\boldsymbol{x}^{*}\right\|_{2}}{t}\]逃离鞍点 Escaping saddles
至少有两种点梯度为0,一种是全局/局部最小,另一种是鞍点。鞍点看上去是不稳定的 critical points,我们有办法逃离鞍点吗?
GD 有时候确实逃离不了鞍点,比如 $x^0$ 恰好是鞍点,那么 GD 就陷入其中。但好在当随机初始化 random initialization 时这种情况通常可以被避免。 幸运的是,在温和条件下,随机初始化的 GD 几乎都能收敛到局部(有时甚至是全局)最优解。
References
[1] Chen, Yuxin, Lecture Notes: Gradient methods for unconstrained problems, 2018.
[2] Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Science & Business Media, 2009.