强化学习——贝尔曼公式

2025/2/21 3:13:58 来源：https://blog.csdn.net/qq_56086076/article/details/139029705 浏览: 次关键词：强化学习——贝尔曼公式

文章目录

前言
一、Return的重要性
二、State Value
三、贝尔曼公式
总结

前言

一、Return的重要性

在不同策略下，最终得到的return都会有所不同。因此，return可以用来评估策略。

return的计算公式在基础概念中已经给出，通过包含 ${\gamma}$ 与r的乘积的式子计算出来。
即return = r₁ + r₂ * ${\gamma}$ + r₃ * ${\gamma}$ ² + …… r_n * ${\gamma}$ ^n-1

如下图所示，状态转移与奖励值如下图所示。使用v_i来表示从s_i出发的return。

v₁ = r₁ + ${\gamma}$ r₂ + ${\gamma}$ ² r₃ + …… （1）
v₂ = r₂ + ${\gamma}$ r₃ + ${\gamma}$ ² r₄ + …… （2）
v₃ = r₃ + ${\gamma}$ r₄ + ${\gamma}$ ² r₁ + …… （3）
v₄ = r₄ + ${\gamma}$ r₁ + ${\gamma}$ ² r₂ + …… （4）

根据式（1）（2）可得 v₁ = r₁ + ${\gamma}$ (r₂ + ${\gamma}$ r₃ + ……) = r₁ + ${\gamma}$ v₂ （5）
同理可得：
v₂ = r₂ + ${\gamma}$ v₃ （6）
v₃ = r₃ + ${\gamma}$ v₄ （7）
v₄ = r₄ + ${\gamma}$ v₁ （8）

上述推导公式表明，从任何一个状态出发所获得的return都是依赖于从其他地方出发获得的return。因此这种return依赖的现象被称为Bootstrapping。

将其表示成矩阵形式即V = r + ${\gamma}$ P v （9）

在上面最终所推导出的公式即为贝尔曼公式。但上述的公式只是基于特殊情况下成立的。
在这里插入图片描述

二、State Value

考虑简单的一步S_t —A_t—>R_t+1，S_t+1

t，t+1：描述时刻
S_t：t时刻的状态
A_t：在状态S_t时采取的行动
R_t+1：在执行A_t后所获得的reward
S_t+1：执行A_t后所转移到的状态

这步取决于下面所述的概率分布

S_t ——> A_t 取决于 ${\pi}$ (A_t = a|S_t = s)
S_t，A_t ——> R_t+1 取决于 p(R_t+1 = r|S_t = s，A_t = a)
S_t，A_t ——> S_t+1 取决于 p(S_t+1 = s’|S_t = s，A_t = a)

此时，我们假定知晓概率分布

可以将此单步转化成多步的trajectory
S_t —A_t—>R_t+1,S_t+1—A_t+1—>R_t+2，S_t+2—A_t+2—>R_t+3 + ……

discounted return G_t = R_t+1 + ${\gamma}$ R_t+2 + ${\gamma}$ ² R_t+3+ ……
其中 ${\gamma}$ ∈ [0，1) 表示discount rate
G_t是一个随机变量，因为R_t+1 ，R_t+2，……都是随机变量。

state value（mean、value）实际上是G_t 的期望。
v_${\pi}$（s）= E[G_t | S_t = s]
该值与开始的起点有关
其是一个基于策略 ${\pi}$ 的函数。不同策略下的state value不相同
state value不仅仅是一种数值，也表达一种价值。随着state value的增大，更多的rewards会被得到。

return和state value的区别在于前者是针对单个trajectory求return，state value是对多个trajectory求return的平均值。

三、贝尔曼公式

贝尔曼公式描述了不同状态下的state value的关系。

考虑一个随机的trajectory S_t —A_t—>R_t+1,S_t+1—A_t+1—>R_t+2，S_t+2—A_t+2—>R_t+3 + ……

G_t = R_t+1 + ${\gamma}$ R_t+2 + ${\gamma}$ ² R_t+3+ ……= R_t+1 + ${\gamma}$ (R_t+2 + ${\gamma}$ R_t+3 + ……) = R_t+1 + ${\gamma}$ G_t+1

根据 State value的定义：
v_${\pi}$（s）= E[G_t | S_t = s] = E[R_t+1 + ${\gamma}$ G_t+1 | S_t = s] = E[R_t+1 | S_t = s] + ${\gamma}$ E[G_t+1 | S_t = s]

首先先计算E[R_t+1 | S_t = s]
E[R_t+1 | S_t = s] = $\sum$ ${\pi}$ (a | s) E[R_t+1 | S_t = s, A_t = a] = $\sum$ ${\pi}$ (a | s) $\sum$ p(r | s，a)r
其代表的即时奖励的期望。