欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 资讯 > 强化学习笔记（5）——PPO

强化学习笔记（5）——PPO

2025/3/12 12:41:44 来源：https://blog.csdn.net/qq_51013517/article/details/145433197 浏览: 次关键词：强化学习笔记（5）——PPO

PPO视频课程来源
首先理解采样期望的转换
请添加图片描述

变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加
经过转换后变成
x在q(x)分布下，f(x)*p(x)/q(x) 的期望。

起因是：求最大化回报的期望，所以对ceta求梯度

在这里插入图片描述

在这里插入图片描述

具体举例：上述公式计算的流程？如何求一条轨迹的梯度？
我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹（s,a,r,s,a…）出现概率
如何求一条轨迹的梯度？

然后PPO 推倒，对数概率连乘，等于概率累加

在这里插入图片描述

但这样有问题：用一整个回合的回报来计算梯度，会导致“未来的动作”影响过去的状态，且优势情况下，惩罚不明显
于是改成：

将优势函数转换成值函数表示，然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q（s,a）-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

为了防止：过去参数ceta’ 和 ceta 差距不要太大，有两种衡量方式；
1：KL散度：这貌似又叫TRPO
2：clip截断防止差的太大

伪代码
在这里插入图片描述
用old策略网络做动作和环境交互，然后梯度更新，每过K个epochs将old参数复制给new

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词