欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 强化学习笔记

强化学习笔记

2025/4/13 8:33:53 来源:https://blog.csdn.net/wuli2496/article/details/147169256  浏览:    关键词:强化学习笔记

思维导图

在这里插入图片描述

探索和利用

Exploitation:使用模型直接处理
Exploration:尝试新的方法来更新当前的模型
ϵ \epsilon ϵ-贪心表示以 ϵ \epsilon ϵ概率执行探索,以 1 − ϵ 1-\epsilon 1ϵ概率执行利用

关键概念

值函数:表示为在初始状态为s的情况下采取策略 π \pi π累积到h步的奖励期望值
V π ( s ) = E π [ ∑ i = 0 h r i ∣ s 0 = s ] V^{\pi}(s)=E_{\pi}\left[\sum_{i=0}^h r_i|s_0=s\right] Vπ(s)=Eπ[i=0hris0=s]
在考虑折扣因子 γ \gamma γ,状态步数为无穷远时值函数表示为
V π ( s ) = E π [ ∑ i = 0 ∞ γ i r i ∣ s 0 = s ] V^{\pi}(s)=E_{\pi}\left[\sum_{i=0}^\infty\gamma^i r_i|s_0=s\right] Vπ(s)=Eπ[i=0γiris0=s]
bellman方程
V π ( s ) = E π [ ∑ i = 0 h γ i r i ∣ s 0 = s ] = E π [ r 0 + ∑ i = 1 h γ i r i ∣ s 0 = s ] = π ( s ) ∑ s ′ ∈ S p ( s , s ′ ) E π [ r 0 + γ ∑ i = 0 h γ i r i ∣ s 0 = s ′ ] = π ( s ) ∑ s ′ ∈ S p ( s , s ′ ) [ r 0 + γ V π ( s ′ ) ] \begin{aligned} V^{\pi}(s) &=E_{\pi}\left[\sum_{i=0}^h \gamma^i r_i|s_0=s\right]\\ &= E_{\pi}\left[ r_0 + \sum_{i=1}^h \gamma^i r_i|s_0 = s\right] \\ & = \pi(s) \sum_{s' \in S} p(s,s')E_{\pi}\left[ r_0 +\gamma \sum_{i=0}^h \gamma^i r_i|s_0 = s' \right] \\ & = \pi(s) \sum_{s' \in S} p(s, s')\left[ r_0 + \gamma V^{\pi}(s')\right] \end{aligned} Vπ(s)=Eπ[i=0hγiris0=s]=Eπ[r0+i=1hγiris0=s]=π(s)sSp(s,s)Eπ[r0+γi=0hγiris0=s]=π(s)sSp(s,s)[r0+γVπ(s)]
V π ( s ) = π ( s ) ∑ s ′ ∈ S p ( s , s ′ ) [ r 0 + γ V π ( s ′ ) ] V^{\pi}(s)= \pi(s) \sum_{s' \in S} p(s, s')\left[ r_0 + \gamma V^{\pi}(s')\right] Vπ(s)=π(s)sSp(s,s)[r0+γVπ(s)]
当在某种策略中时,可表示为
V ( s ) = r + γ ∑ s ′ ∈ S p ( s , s ′ ) V ( s ′ ) V(s)= r+ \gamma \sum_{s' \in S} p(s, s')V(s') V(s)=r+γsSp(s,s)V(s)

动作值函数:表示在状态s,采取动作a时得到的值函数
Q ( s , a ) = ∑ s ′ ∈ S p ( s , s ′ ) [ r + γ V π ( s ′ ) ] = r s a + γ ∑ s ′ ∈ S p ( s , s ′ ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q ( s ′ , a ′ ) \begin{aligned} Q(s,a) &= \sum_{s' \in S} p(s, s')\left[ r + \gamma V^\pi(s')\right] \\ &= r_s^a+\gamma \sum_{s' \in S} p(s, s') \sum_{a' \in A} \pi(a'|s') Q(s',a') \end{aligned} Q(s,a)=sSp(s,s)[r+γVπ(s)]=rsa+γsSp(s,s)aAπ(as)Q(s,a)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词