欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > 强化学习(赵世钰版)-学习笔记(6.随机近似与随机梯度下降)

强化学习(赵世钰版)-学习笔记(6.随机近似与随机梯度下降)

2025/3/13 4:44:11 来源:https://blog.csdn.net/pzb19841116/article/details/146187960  浏览:    关键词:强化学习(赵世钰版)-学习笔记(6.随机近似与随机梯度下降)
本章内容不属于强化学习的算法或方法,是一个数学相关的内容。这章是为后面内容做铺垫,介绍后续相关算法的数学公式。本质上也是一个数学思想的介绍,如何不借助于方程本身来求解相关结果(也可能是方程的具体形式无法获得)。
我们用蒙特卡罗等方法计算样本均值时,一般有两种方法。一种是等所有需要的样本采集完成后,统一进行计算,这种方法的缺点是要等待样本齐全,速度慢。另一种是采用增量与迭代的方式计算。
这里证明了该思路的可行性,在数据增加的过程中,期望值变化的规律,可以看出添加一个新的采样后,期望值的变化是有规律的。
这种方法就是一种增量式的方法,获取到一个样本就能立即估算期望值。虽然一开始精度较差,但聊胜于无,且随着样本量的增加,估算的期望值也会逐渐逼近真实值。
将这个估算期望值的增量方法进行泛化,可以获得一个随机近似的通用算法,深度学习中的随机梯度下降法,本质上也是这类随机近似的算法。
随机近似是一大类随机迭代算法的统称,常用于求解方程的根与函数的优化问题。与其他方法相比,随机近似的最大优点是,它在求解过程中不需要知道方程的表达式以及方程的导数形式。
后面介绍了随机近似法的一个经典算法-Robbins-Monro算法。首先提出一个问题,计算方程g(w)=0的解。如果方程形式已知,那么用基于数学解公式的方法对其求解即可。如果方程形式未知(如神经网络模型),那么就需要用Robbins-Monro算法来求解。
Robbins-Monro算法的形式如下,各项的解释图中也包含,其实形式跟随机梯度下降是一样的,所以看起来很眼熟。
算法可以将方程抽象成一个黑盒,相应的噪声本质上是估计值与目标值之间的差异。
简单示例给了一个正切函数,可以看出这个误差乘以系数后,差异可以对原估计值进行修正,最后总会收敛到目标点,严格意义的证明没仔细看,太数学化,很繁琐。
然后用期望的估算距离,展示RM算法估算期望的流程。首先设置一个目标函数,这个函数等于零,则说明找到了期望值,等于w。
通过数学变换,可以得到期望值两次迭代之间的差异(就是红框中的公式)
下面这个定理(Dvoretzky’s Theorem)证明了这个迭代的序列是收敛的。
后续又介绍了随机梯度下降法(SGD),随机梯度下降法其实也是一个特殊的RM算法(这里真是巧妙,与深度学习的优化算法对接上了)。深度学习的优化,本质上就是在找寻目标函数全局最小值。
梯度下降法需要知道数值的分布(这个可能无法获取到),批量梯度下降法需要等到所有采样结束后才能估算(计算效率慢)。
而随机梯度下降法,可以一遍采集一遍估算,不用傻等,最后也能收敛的极值点(不一定是最值点,可能是非凸函数)。
通过一些列繁琐的证明,最后得出SGD确实是RM的一个特殊形式,通过拆解与RM的算法吻合(那个框图)。
后续又对批量梯度下降法(BGD),小批量梯度下降法(MBGD)和随机梯度下降法(SGD)做了比较。MBGD性能更折中一些,随机性要优于SGD,执行效率又优于BGD。
MBGD的参数设置有些特殊,如果批量数设为1,则退化成SGD。如果设置为所有样本的数量,却不一定变成BGD。因为BGD是一次使用所有的样本参与计算,而MBGD是抽样相同数量的样本参与运算,可能有些样本抽到了多次,有些一次都没抽到,这个不能保证。
三个算法估算梯度的方法如下(n是样本数量,m是批量样本的数量):
本章介绍了利用迭代法估算均值的思路,引出了RM算法,并证明了随机梯度下降法,其实就是RM算法的一种特殊形式。可以看出,这个RM算法的思路,是一个有力的优化工具。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词