《Natural Actor-Critic》译读笔记

《Natural Actor-Critic》

摘要

本文提出了一种新型的强化学习架构，即自然演员-评论家（Natural Actor-Critic）。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现，而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力，因为这些梯度与所选策略表示的坐标框架无关，并且比常规策略梯度更高效。评论家利用了以策略梯度兼容的函数逼近实现的特殊基函数参数化（basis function parameterization）。本文证明了多个著名的强化学习方法，如原始的演员-评论家和Bradtke的线性二次Q学习，实际上是自然演员-评论家算法的特例。实证评估表明，与之前的方法相比，该技术非常有效，并且证明了它们在仿人机器人手臂上学习控制的applicability。

1 引言

基于价值函数近似的强化学习算法在 discrete lookup table parameterization 中已经取得了巨大成功。然而，当应用于连续函数近似时，这些算法中的许多都无法泛化，并且很少能获得收敛保证[24_ Sutton_Reinforcement_Learning]。这一问题的主要原因可归结于大多数方法采用的贪婪（greedy）或ε-贪婪（ε-greedy）策略更新机制——当结合近似价值函数使用时，此类更新无法保证策略的改进[8_Neuro-dynamic_programming]。在贪婪更新过程中，价值函数中的微小误差可能导致策略的剧烈变化，而这种策略变化又会引发价值函数的显著波动。若反复进行这一过程，算法可能陷入振荡或发散。即使在简单的示例系统中，许多知名的贪婪强化学习算法也会表现出此类不良行为[6_Gradient_descent_for_RL, 8_Neuro-dynamic_programming]。

作为贪婪强化学习的替代方案，策略梯度方法（Policy Gradient Methods）被提出。即使与近似值函数结合使用，策略梯度方法也具有较强的收敛性保证，并且近期的研究结果对从采样数据中估计策略梯度建立了理论上的稳固框架[25_Policy_Gradient, 15_Actor-Critic]。然而，即使在具有较少状态的简单示例中，策略梯度方法往往表现得效率低下[14_NPG]，部分原因是由于预期回报曲面上存在大面积的plateaus，在这些区域中，梯度值较小且通常并未直接指向最优解。Fig.1中的一个简单示例展示了这种情况。
在这里插入图片描述
类似于监督学习，基于Fisher信息度量[3_Natural_Gradient_Works_Efficiently]的最陡上升方向（被称为“natural”策略梯度）被证明比普通梯度明显会更高效。这种思路最初在[14_NPG]中以“平均自然策略梯度”的形式被提出用于强化学习，随后的初步工作[21_RL_for_Humanoid_Robotics, 4_Covariant_Policy_Search]进一步表明其本质即真正的自然策略梯度。本文在第2.2节中进一步推进了这一思路，引入了“Natural Actor-Critic”，它继承了 gradient methods 的收敛性保证。此外，在第3节中显示多种以往成功的强化学习方法均可视为这一更加通用架构的特例。本文最后通过Section4的实证评估展示了所提出方法的有效性。

2 Natural Actor-Critic

2.1 马尔可夫决策过程的符号与假设

本文假设底层的控制问题是离散时间下的MDP，其具有连续的状态集合 $\mathbb{X} = \mathbb{R}^n$ ，和一个连续的动作集合 $\mathbb{U} = \mathbb{R}^m$ [8_Neuro-dynamic_programming]。MDP的假设具有一定的限制，即假设拥有 very good state information 和马尔可夫环境。不过，类似于[2_Partially_Observable_MDP]中的情况，本文所呈现的结果可能可以扩展到部分状态信息（partial state information）的问题中。

系统在初始时刻 $t = 0$ 的状态 $\boldsymbol{x}_0 \in \mathbb{X}$ 由 start-state分布 $p(\boldsymbol{x}_0)$ 生成。在某个时刻 $t$ 系统处于状态 $x_t \in \mathbb{X}$ 时，执行者（actor）会根据随机参数策略 $\pi(\boldsymbol{u}_t|\boldsymbol{x}_t) = p(\boldsymbol{u}_t|\boldsymbol{x}_t, \boldsymbol{\theta})$ 选择动作 $\boldsymbol{u}_t \in \mathbb{U}$ ，其中参数 $\theta \in \mathbb{R}^N$ ，随后系统转移至新状态 $\boldsymbol{x}_{t+1}$ ，由状态转移分布 $p(\boldsymbol{x}_{t+1}|\boldsymbol{x}_t,\boldsymbol{u}_t)$ 中产生。每次动作执行后，系统产生标量奖励 $r_t = r(\bm{x}_t, \bm{u}_t) \in \mathbb{R}$ 。本文假设策略 $\pi_{\bm{\theta}}$ 对其参数 $\bm{\theta}$ 连续可微，且对于每个考虑的策略 $\pi_{\bm{\theta}}$ ，其 state-value函数 $V^\pi(\bm{x})$ 和 state-action价值函数 $Q^\pi(\bm{x}, \bm{u})$ 均存在，并定义为
$\begin{aligned} V^\pi(\bm{x}) & =E_\tau\left\{\textstyle\sum_{t=0}^{\infty} \gamma^t r_t \mid\bm{x}_0=\bm{x}\right\}, \\ Q^\pi(\boldsymbol{x}, \boldsymbol{u}) & =E_\tau\left\{\textstyle\sum_{t=0}^{\infty} \gamma^t r_t \mid \boldsymbol{x}_0=\boldsymbol{x}, \boldsymbol{u}_0=\boldsymbol{u}\right\}, \end{aligned}$
其中 $\gamma \in (0,1)$ 为折扣因子， $\tau$ 表示轨迹。

《Natural Actor-Critic》译读笔记