欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

2025/3/17 10:41:33 来源:https://blog.csdn.net/qq_30650051/article/details/141613803  浏览:    关键词:【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

局部极小值与鞍点

梯度为0的点我们统称为临界点,包括局部极小值、鞍点等
局部极小值和鞍点的梯度都为0,那如何判断呢?
先请出我们损失函数:L(θ),θ是模型中的参数的取值,是一个向量。
由于网络的复杂性,我们无法直接写出损失函数,不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识,我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似:
在这里插入图片描述
其中,θ是模型中的参数的取值,θ’是在θ附近的取值。
H是海森矩阵, H i j H_{ij} Hij是L对 θ i \theta_i θi θ j \theta_j θj的二阶偏导数。
那么如何判断是极值点还是鞍点呢?
当梯度也就是g为0时,第二项可消去,损失函数的值可变为如下形式:
在这里插入图片描述
当所有 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-\theta')^TH(\theta-\theta')>0 (θθ)TH(θθ)>0时, L(θ) < L(θ’),θ为极小值点
当所有 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-\theta')^TH(\theta-\theta')<0 (θθ)TH(θθ)<0时, L(θ) > L(θ’),θ为极大值点
当有的 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-\theta')^TH(\theta-\theta')>0 (θθ)TH(θθ)>0有的<0时, L(θ) > L(θ’),θ为鞍点

批量与动量

批量梯度下降法(BGD): 必须把一整个epoch训练数据都看完,才能够计算损失和梯度,参数才能够更新一次
随机梯度下降法(SGD): batch_size=1进行训练
批量梯度下降相比随机梯度下降,每次更新更稳定、更准确。
其计算量未必大,由于计算单元并行的特性可以对矩阵运算进行优化,其计算效率会随着batch_size的上升而更更接近性能极限。batch_size较小时,增加不会显著影响计算时间,单计算效率在提升,在接近计算单元性能极限时,会变成正比例函数。在模型效果方面,更小的batch_size可以引入噪声,帮助逃离鞍点和局部最优解,更大的batch_size可以使损失函数更加平滑,有利于优化,更快收敛。
所以,我们在训练时,需要选择一个合适的batch_size进行训练。
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词