李宏毅机器学习课程笔记03 | 类神经网络优化技巧

文章目录

类神经网络优化技巧
- 局部最小值local minima 与鞍点saddle point
- - Saddle Point 的情况更常见
- Tips for training：Batch and Momentum
- - Small Batch vs Large Batch
  - - 回顾：optimization优化找到参数使L最小
    - 问题：为什么要用Batch，Batch对训练的帮助
    - - 考虑并行计算：不同batch size的消耗
      - noisy的gradient可以帮助训练
  - Momentum（动量）：对抗local minima
  - - 求 $\sigma$ 的一种常见方法：Root Mean Square均方根
    - 另外一种方法：RMSProp 调整当前步梯度与历史梯度的重要性
  - Learning Rate Scheduling => 让 $\eta$ 与训练时间有关
  - - 最常见的策略：Learning Rate Decay
    - 策略2(黑科技)：Warm Up
- Optimization的总结

笔记内容对应视频章节

类神经网络优化技巧

本章介绍的优化思路是：当Error Surface非常崎岖时，我们需要比较好的方法做optimization => 我们怎么走才能走得更好

下一次的优化思路是：将Error Surface铲平 => 让路更好走，更好训练

局部最小值local minima 与鞍点saddle point

主题：讨论在Optimization时怎么把gradient descent做得更好

问题： 为什么Optimization的时候会失败？

情况1： 发现deep network没有比linear model、比较shallow network做得更好，所以对loss不满意。

情况2： 模型训练不出来，不管怎么更新参数loss都不降低

猜想： 参数对loss的微分(gradient梯度)为0，Gradient descent不会再更新参数了，训练停止，loss也不会再下降了。

=> 局部最小值local minima和鞍点saddle point统称为critical point关键点，critical point都可能导致gradient=0

如何确定是local minima还是saddle point导致梯度接近0

这里推荐B站的国防科技大学高数教程，这部分在多元函数的极值

问题：假设因为critical point导致gradient接近0，如何确定时local minima还是saddle point

如果卡在local minima，那么暂时没有路可以走了，因为四周都比该点的loss高
如果卡在saddle point，saddle point周围存在比该点loss更低的点

假设给定参数 $\theta'$ ，在其附近的loss function可以表示为 $L(\theta) \approx L(\theta') + (\theta-\theta')^Tg+\frac{1}{2}(\theta-\theta')^TH(\theta-\theta')$ (tayler series approximation)

右边的式子是 $\theta'$ 某领域内 $\theta$ 的函数值 $L(\theta)$ 的近似计算公式，目的是用更高的精确度去逼近函数 $L(\theta)$

如果走到了critical point(驻点或稳定点)，梯度为0，右边第二项结果为0

=> $L(\theta) \approx L(\theta') +\frac{1}{2}(\theta-\theta')^TH(\theta-\theta')$

如果Hessian正定，则 $\theta'$ 为极小值点
如果Hessian负定，则 $\theta'$ 为极大值点
如果Hessian不定，则 $\theta'$ 为鞍点

如果发现卡住的地方 $\theta'$ 为鞍点，说明loss还可以下降 => 利用H的特征向量确定参数的更新方向

$\vec{u}$ 为H的特征向量， $\lambda$ 为 $\vec{u}$ 的特征值，在 $\theta'$ 的位置加上 $\vec{u}$ ,沿著 $\vec{u}$ 的方向做update得到 $\theta$ ，新的 $\theta$ 可以0让loss变小。

但由于需要算H需要求特征值特征向量，实际上很少采用这种方法逃离Saddle point

Saddle Point 的情况更常见

直觉：在一维中是Local Minima的点，在二维上，该点会不会是鞍点？

经验：Loss在一个维度很高的空间中，往往只会遇到鞍点而几乎不会遇到局部极小值点

Tips for training：Batch and Momentum

Small Batch vs Large Batch

回顾：optimization优化找到参数使L最小

第一讲中，我们在构建模型的第三步optimization优化，找到参数使L最小。

实际上，不会一次性将全部数据用于训练一个L，而是将全部资料分成n个batch(这里的n也是一个超参数)去训练n个L。

shuffle：1个epoch之后，会重新再分一次Batch，所以每轮的Batch不是完全一样。

问题：为什么要用Batch，Batch对训练的帮助

假设有20笔资料

左边需要看完所有资料更新一次参数，每次更新参数需要花费时间长，但参数更新结果比较精确。
右边一个样本就更新一次参数，每次更新参数的时间短，用一笔资料算出来的 Loss,显然是比较 Noisy 的，所以 Update 的方向是曲折的。

直觉上我们认为大batch size更新一次参数的时间 > 小batch size更新一次参数的时间

考虑并行计算：不同batch size的消耗

batch size大的不一定比小的batch size花的时间长，由于可以并行运算，即使需要一次看20笔资料，也可以并形成20个1笔

现象：

Batch Size 是从1到1000,所需要的时间几乎是一样的,
增加到 10000,乃至增加到60000的时候，一个 Batch所要耗费的时间,确实有随着 Batch Size 的增加而逐渐增长

原因：

有 GPU,可以做并行运算，所以1000笔资料所花的时间,并不是一笔资料的1000倍
GPU 平行运算的能力还是有它的极限,当你的 Batch Size 真的非常非常巨大的时候,GPU 在跑完一个 Batch,计算出 Gradient 所花费的时间,还是会随著 Batch Size 的增加,而逐渐增长

总时间：

由于可以并行计算。

实际上，小 Batch Size 跑完一个 Epoch(更新20次参数)的时间 > 大 Batch Size 跑完一个epoch的时间。

noisy的gradient可以帮助训练

发现batch size 越大，验证的正确率越差 => Optimization优化的问题

结论1：为什么小batch size会在traning set上得到比较好的结果？为什么noisy的update、noisy的gradient会在训练时得到较好的结果。

解释：不同的Batch 求得的Loss略有差异，可以避免局部极小值“卡住”

结论2： 为什么小的batch size对testing有帮助？

解释：这个解释不一定权威？

假设在training loss上存在多个local minima，local minima也有好坏之分

坏的local minima在峡谷里(尖锐最小值)
好的local minima在平原上(平坦最小值)

假设training loss 和 testing loss存在mismatch（可能training跟testing的distribution不一样，也可能是其他原因)

对于平坦最小值来说，在training和testing上的结果不会相差太大
对于尖锐最小值来说，在training和testing上的结果相差太大

大的batch size倾向于走到峡谷里，小的batch size倾向于走到盆地里

总结：BatchSize是一个需要调整的参数，它会影响训练速度与优化效果。

Momentum（动量）：对抗local minima

假设Error Surface误差曲线(loss 曲线)是一个真正的斜坡，参数是一个球。将球从斜坡上滚下来。Gradient Descent会在Local Minima和Saddle Point处停住。但在真实世界，由于惯性，球会一直滚。

问题：是否可以将真实世界的概念融入到Gradient Descent里？

复习：一般的Gradient Descent

参数移动方法说明：梯度的方向是函数值增加最快的方向，那么梯度的反方向是函数值减少最快的方向，所以我们要往反方向更新参数

Gradient Descent + Momentum

解读方向1：动量(新移动的方向) = 前一步Update的方向 + 梯度的反方向

解读方向2：当前n的动量=之前算出来(n-1)个gradient的weighted sum

Adaptive Learning Rate 自动调整学习率技术

技术核心：给每一个参数不同的Learning Rate

问题引入

训练的时候很少卡在Critical point：Critical point不是训练过程中最大的阻碍

现象1：训练停滞(Loss不再下降)不一定是梯度很小导致的

现象2：如果参数使用固定的学习率，即使是在凸面体的优化，都会让优化的过程非常困难 ⇒ 不同的参数需要不同的学习率

客制化的Learning Rate

原则

某个方向gradient的值很小(平坦)，learning rate调大一点，这样可以移动的远一点
某个方向gradient的值很大(陡峭)，learning rate调小一点，这样可以移动的近一点

做法

案例只放某一个参数update的式子。

假设有一个参数 $\theta_i$ ，i用来标识是哪一个参数，在第t次更新时值为 $\theta_i^t$ 。

求 $\sigma$ 的一种常见方法：Root Mean Square均方根

对本次的梯度及之前算出每一次更新的梯度求均方根

缺陷：同一个参数的learning rate需要随着时间而改变，该方法不能实时考虑梯度的变化情况

另外一种方法：RMSProp 调整当前步梯度与历史梯度的重要性

在RMS里面， $\sigma$ 的值取本次及历史梯度的均方值，说明每一个梯度同等重要。

在RMSProp添加参数 $\alpha$ ( $\alpha$ 是一个超参数，不随迭代变化)，越大说明过去的梯度信息更重要

α设很小趋近於0,就代表这一步算出的$ g_i $相较於之前所算出来的gradient而言比较重要
α设很大趋近於1,就代表现在算出来的$ g_i $比较不重要,之前算出来的gradient比较重要

RMSProp方法比之前的RMS方法灵敏度更高，对梯度的变化敏感

最常见optimization的策略：Adam = RMSProp + Momentum

代码中直接引入Adam，使用Pytorch中预设的参数就能够得到比较好的结果。

Learning Rate Scheduling => 让 $\eta$ 与训练时间有关

加上Adaptive Learning Rate之后上述案例的训练过程

最常见的策略：Learning Rate Decay

核心：让 $\eta$ 和训练时间有关，而不是一个常量

思路：随着时间进行，让 $\eta$ 越来越小， $\eta^t$

开始训练的时候离终点很远，随着参数不断update，距离终点越来越近，减小learning rate，让参数的更新慢下来

策略2(黑科技)：Warm Up

思路： $\eta$ 先变大后变小

变到多大，变小的速率怎么样，这些都是超参数，需要手动调整

解释

$\sigma$ 指示某一个方向它到底有多陡/多平滑，这是一个统计的结果，要看得够多笔数据以后才精准,所以一开始我们的统计是不精准。

一开始learning rate比较小，是让它探索收集一些有关error surface的情报，在这一阶段使用较小的 $\eta$ ，限制参数不会走的离初始的地方太远

等到 $\sigma$ 统计得比较精准以后再让 $\eta$ 慢慢爬升。

Optimization的总结

原始梯度下降的方法： $\theta_i^{t+1}$ <- $\theta_i^t - \eta g_i^t$

优化后的方法： $\theta_i^{t+1}$ <- $\theta_i^t - \frac{\eta^t}{\sigma_i^t} m_i^t$

优化	原来的做法	优化后的做法	公式	作用
更新update的方向：`Momentum`	沿着逆梯度的方法更新参数	$ m_i^t = $ 前一步`Update`的方向 + 梯度的反方向	$m_i^t=\lambda{m_i^{t-1}}-\eta{g^{t-1}}$	为了增加历史的惯性
update的步伐	学习效率 $\eta$	不同的参数需要不同的学习效率 $\sigma_i^t$	RMS、RMSProp、不同的方法计算不一样	缓和步伐的大小，让步伐的变化效果受梯度的影响
Learning rate scheduling	学习效率 $\eta$	学习效率 $\eta^t$	本章介绍了：`Warm Up`与`Learning Rate Decay`	让 $\eta$ 和训练时间有关，而不是一个常量

说明

Momentum是将梯度加起来，所以Momentum有考虑方向。
$\sigma$ 计算时，由于梯度取了平方，所以只考虑梯度的大小并不考虑梯度的方向。
$\lambda$ 是一个超参数。

李宏毅机器学习课程笔记03 | 类神经网络优化技巧

文章目录

类神经网络优化技巧

局部最小值local minima 与鞍点saddle point

如何确定是local minima还是saddle point导致梯度接近0

Saddle Point 的情况更常见

Tips for training：Batch and Momentum

Small Batch vs Large Batch

回顾：optimization优化找到参数使L最小

问题：为什么要用Batch，Batch对训练的帮助

考虑并行计算：不同batch size的消耗

noisy的gradient可以帮助训练

Momentum（动量）：对抗local minima

复习：一般的Gradient Descent

Gradient Descent + Momentum

Adaptive Learning Rate 自动调整学习率技术

问题引入

客制化的Learning Rate

求 $\sigma$ 的一种常见方法：Root Mean Square均方根

另外一种方法：RMSProp 调整当前步梯度与历史梯度的重要性

最常见optimization的策略：Adam = RMSProp + Momentum

Learning Rate Scheduling => 让 $\eta$ 与训练时间有关

最常见的策略：Learning Rate Decay

策略2(黑科技)：Warm Up

Optimization的总结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

李宏毅机器学习课程笔记03 | 类神经网络优化技巧

文章目录

类神经网络优化技巧

局部最小值local minima 与 鞍点saddle point

如何确定是local minima还是saddle point导致梯度接近0

Saddle Point 的情况更常见

Tips for training：Batch and Momentum

Small Batch vs Large Batch

回顾：optimization优化 找到参数使L最小

问题：为什么要用Batch，Batch对训练的帮助

考虑并行计算：不同batch size的消耗

noisy的gradient可以帮助训练

Momentum（动量）：对抗local minima

复习：一般的Gradient Descent

Gradient Descent + Momentum

Adaptive Learning Rate 自动调整学习率技术

问题引入

客制化的Learning Rate

求 σ \sigma σ的一种常见方法：Root Mean Square均方根

另外一种方法：RMSProp 调整当前步梯度与历史梯度的重要性

最常见optimization的策略：Adam = RMSProp + Momentum

Learning Rate Scheduling => 让 η \eta η与训练时间有关

最常见的策略：Learning Rate Decay

策略2(黑科技)：Warm Up

Optimization的总结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

局部最小值local minima 与鞍点saddle point

回顾：optimization优化找到参数使L最小

求 $\sigma$ 的一种常见方法：Root Mean Square均方根

Learning Rate Scheduling => 让 $\eta$ 与训练时间有关