欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 金融 > 深度学习-局部最小值与鞍点【Datawhale X 李宏毅苹果书 AI夏令营】

深度学习-局部最小值与鞍点【Datawhale X 李宏毅苹果书 AI夏令营】

2025/2/23 14:21:17 来源:https://blog.csdn.net/weixin_43186817/article/details/141475729  浏览:    关键词:深度学习-局部最小值与鞍点【Datawhale X 李宏毅苹果书 AI夏令营】

在网络优化时,有时会出现随时参数不断更新,训练的损失可能不会再下降,但训练结果并不满意。为什么会出现这样的情况呢?

假设排除数据集优劣的问题,可能需要进一步考虑的是为什么网络不再有新的最优值了,在此之前,先来了解有哪些情况会有最优值的出现。

出现最优值的时候是:当参数对损失的微分为0,梯度下降便不再更新参数了,训练就停止了,损失也就不再下降了。
梯度下降失效的情况
那么什么情况会导致参数对损失的微分为0呢?临界点时梯度为0。

  • 局部最小值
  • 鞍点:梯度是0,但有区别于局部极小值和局部最大值。
    局部最小值与鞍点
    如何判断临界点是局部极小值还是鞍点呢?
    需要知道损失函数的形状,但是损失函数的形式是很复杂的。有什么方法可以简化或者进一步解释吗?
    确实有,不得不提到海森矩阵H,这里就不详细展开说了,需要了解海森矩阵的可以自行去搜索了解。

判断的原理是:H的所有特征值都是正的,则说明H为正定矩阵,临界点是局部最小值,如果H的所有特征值都是负的,则说明H为负定矩阵,临界点是局部极大值,如果有正有负,则说明是临界点是鞍点。

但是,海森矩阵的计算量非常大,实际应用中基本不会使用海森矩阵计算来逃离鞍点。

常用的逃离鞍点的方法有哪些呢?
在三维空间上是鞍点的在四维空间上还会是鞍点吗?
也许局部极小值并没有鞍点那么常见,往往梯度不再更新可能遇到的是鞍点。

预知如何逃离鞍点,下期再见。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词