欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 汽车 > 时评 > 强化学习（赵世钰版）-学习笔记（6.随机近似与随机梯度下降）

强化学习（赵世钰版）-学习笔记（6.随机近似与随机梯度下降）

2025/3/13 4:44:11 来源：https://blog.csdn.net/pzb19841116/article/details/146187960 浏览: 次关键词：强化学习（赵世钰版）-学习笔记（6.随机近似与随机梯度下降）

本章内容不属于强化学习的算法或方法，是一个数学相关的内容。这章是为后面内容做铺垫，介绍后续相关算法的数学公式。本质上也是一个数学思想的介绍，如何不借助于方程本身来求解相关结果（也可能是方程的具体形式无法获得）。

我们用蒙特卡罗等方法计算样本均值时，一般有两种方法。一种是等所有需要的样本采集完成后，统一进行计算，这种方法的缺点是要等待样本齐全，速度慢。另一种是采用增量与迭代的方式计算。

这里证明了该思路的可行性，在数据增加的过程中，期望值变化的规律，可以看出添加一个新的采样后，期望值的变化是有规律的。

这种方法就是一种增量式的方法，获取到一个样本就能立即估算期望值。虽然一开始精度较差，但聊胜于无，且随着样本量的增加，估算的期望值也会逐渐逼近真实值。

将这个估算期望值的增量方法进行泛化，可以获得一个随机近似的通用算法，深度学习中的随机梯度下降法，本质上也是这类随机近似的算法。

随机近似是一大类随机迭代算法的统称，常用于求解方程的根与函数的优化问题。与其他方法相比，随机近似的最大优点是，它在求解过程中不需要知道方程的表达式以及方程的导数形式。

后面介绍了随机近似法的一个经典算法-Robbins-Monro算法。首先提出一个问题，计算方程g（w）=0的解。如果方程形式已知，那么用基于数学解公式的方法对其求解即可。如果方程形式未知（如神经网络模型），那么就需要用Robbins-Monro算法来求解。

Robbins-Monro算法的形式如下，各项的解释图中也包含，其实形式跟随机梯度下降是一样的，所以看起来很眼熟。

算法可以将方程抽象成一个黑盒，相应的噪声本质上是估计值与目标值之间的差异。

简单示例给了一个正切函数，可以看出这个误差乘以系数后，差异可以对原估计值进行修正，最后总会收敛到目标点，严格意义的证明没仔细看，太数学化，很繁琐。

然后用期望的估算距离，展示RM算法估算期望的流程。首先设置一个目标函数，这个函数等于零，则说明找到了期望值，等于w。

通过数学变换，可以得到期望值两次迭代之间的差异（就是红框中的公式）

下面这个定理（Dvoretzky’s Theorem）证明了这个迭代的序列是收敛的。

后续又介绍了随机梯度下降法（SGD），随机梯度下降法其实也是一个特殊的RM算法（这里真是巧妙，与深度学习的优化算法对接上了）。深度学习的优化，本质上就是在找寻目标函数全局最小值。

梯度下降法需要知道数值的分布（这个可能无法获取到），批量梯度下降法需要等到所有采样结束后才能估算（计算效率慢）。

而随机梯度下降法，可以一遍采集一遍估算，不用傻等，最后也能收敛的极值点（不一定是最值点，可能是非凸函数）。

通过一些列繁琐的证明，最后得出SGD确实是RM的一个特殊形式，通过拆解与RM的算法吻合（那个框图）。

后续又对批量梯度下降法（BGD），小批量梯度下降法（MBGD）和随机梯度下降法（SGD）做了比较。MBGD性能更折中一些，随机性要优于SGD，执行效率又优于BGD。

MBGD的参数设置有些特殊，如果批量数设为1，则退化成SGD。如果设置为所有样本的数量，却不一定变成BGD。因为BGD是一次使用所有的样本参与计算，而MBGD是抽样相同数量的样本参与运算，可能有些样本抽到了多次，有些一次都没抽到，这个不能保证。

三个算法估算梯度的方法如下（n是样本数量，m是批量样本的数量）：

本章介绍了利用迭代法估算均值的思路，引出了RM算法，并证明了随机梯度下降法，其实就是RM算法的一种特殊形式。可以看出，这个RM算法的思路，是一个有力的优化工具。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词