DP 问题 -- LQR中的DP问题

深入地介绍线性二次调节问题（Linear Quadratic Regulator, LQR），并详细说明它作为动态规划（DP）的一个经典应用问题的求解过程。

📌 一、LQR问题定义（最优控制视角）

LQR 问题是一种特殊的最优控制问题，系统动力学为线性、代价函数为二次型的优化问题：

离散时间线性系统：

$x_{t+1} = Ax_t + Bu_t$

$x_t \in \mathbb{R}^n$ 为系统状态
$u_t \in \mathbb{R}^m$ 为控制输入
$A, B$ 为系统动力学矩阵

目标是找到控制策略 $u_t = -K x_t$ ，最小化如下二次型代价函数：

$\sum_{t=0}^{\infty}(x_t^T Q x_t + u_t^T R u_t)$

其中：

$\ge 0$ （半正定矩阵），衡量状态代价
$R > 0$ 为控制成本矩阵，通常正定

📌 二、LQR的DP形式——贝尔曼方程

LQR 问题的值函数 $V (x)$ 是一个关于状态的二次型函数：

假设值函数具有如下形式：

$V(x) = x^T P x$

其中， $P$ 为待求的对称正定矩阵。

根据DP的贝尔曼方程：

$\min_{u}\left[ x^\top Q x + u^\top R u + \gamma V(x') \right]$

带入系统动力学 $x^{'} = A x + B u$ 和上述二次型值函数假设，有：

$\min_u\left[ x^T Q x + u^T R u + (Ax+Bu)^T P (Ax+Bu) \right]$

展开后：

$\min_u\left[ x^T Q x + u^T R u + x^T A^T P A x + u^T B^T P B u + 2x^T A^T P B u \right]$

其中， $P$ 为待确定的对称正定矩阵， $Q, R$ 分别为状态与控制的成本矩阵。

📌 三、LQR 的 DP 求解步骤（里卡提方程求解）

为了得到最优控制律 $u^* = -K x$ ，关键在于确定矩阵 $P$ 。
其求解通过动态规划（Bellman方程）导出离散里卡提方程（Discrete Algebraic Riccati Equation）：

👉 离散时间里卡提方程（DRE）

$P = Q + A^T P A - A^T P B(R + B^T P B)^{-1}B^T P A$

DP求解步骤：

初始化矩阵 $P$ 为某一正定矩阵（通常是 $Q$ ）。
迭代求解里卡提方程直到收敛。
- 每次迭代计算：
  $P_{k+1} = Q + A^T P_k A - A^T P_k B(R+B^T P_k B)^{-1}B^T P_k A$
收敛判断：
若 $\|P_{k+1}-P_k\|<\epsilon$ 时结束迭代，获得稳态解 $P^*$ 。
得到最优反馈控制律：
$u_t^*=-K x_t, \quad K=(R+B^T P B)^{-1} B^T P A$

📌 四、LQR的一个简单示例（二维状态、一维控制输入）

假设无人机高度控制问题：

状态：高度 $h$ 和速度 $v$
你给出的方程似乎格式有点小问题，这里帮你重新规范一下，并做详细解释：

🚩 正确的状态空间模型表示：

假设系统是一个二维状态系统（如无人机高度控制问题）：

状态定义：

状态向量：
$\begin{bmatrix} h \\ v \end{bmatrix}$

其中：

$h$ ：高度
$v$ ：速度

状态方程（离散时间系统）：

给定状态空间模型为：
$x_{k+1} = Ax_k + Bu_k$

具体的系统矩阵 $A, B$ 为：
$A=\begin{bmatrix} 1 & dt \\ 0 & 1 \end{bmatrix}, \quad B=\begin{bmatrix}0 \\ dt\end{bmatrix}$

这里 $d t$ 表示采样时间间隔。
$u_k$ 为在时刻 $k$ 时作用于系统的控制输入（加速度输入）。

系统模型的物理含义：

位置更新方式为： $h_{k+1} = h_k + v_k \cdot dt$ ；
速度更新方式为： $v_{k+1} = v_k + u_k \cdot dt$ 。

显然：

状态转移矩阵 $A$ 描述了状态的惯性关系；
控制矩阵 $B$ 表示控制输入 $u_k$ 如何影响状态（仅作用于速度方向）。

📌 完整的状态空间表达式

更清晰的矩阵形式写为：

$x_{k+1}=\begin{bmatrix} h_{k+1} \\ v_{k+1} \end{bmatrix}= \begin{bmatrix} 1 & dt \\[6pt] 0 & 1 \end{bmatrix} \begin{bmatrix} h_k \\ v_k \end{bmatrix}+ \begin{bmatrix} 0 \\ dt \end{bmatrix} u_k$

其中：

状态向量： $x_k=[h_k,v_k]^T$
控制输入： $u_k$ （加速度输入）
状态转移矩阵 $A$ 表示位置由速度积分更新
输入矩阵 $B$ 描述输入作用于速度

📌 基于DP的LQR问题求解步骤

以此为基础的LQR控制问题（LQR框架）：

🚩 步骤① 设定代价函数

假设代价函数为二次型：
$\sum_{k=0}^{\infty}(x_k^TQx_k + u_k^TRu_k)$
例如设定：

状态成本矩阵 $Q=\begin{bmatrix}q_h & 0\\0&q_v\end{bmatrix}$ ，用于惩罚高度和速度偏差。
控制成本 $R = r$ （标量，一维控制输入）。

🚩 步骤② 求解里卡提方程 (DP方法)

DP方程推导得到的离散里卡提方程：
$P = Q + A^TPA - A^TPB(R+B^TPB)^{-1}B^TPA$

具体执行：

初始化 $P = Q$
反复执行上述迭代，直至 $P$ 收敛。

📌 步骤③ 求取最优反馈控制律

稳定后得到的最优反馈增益 $K$ ：
$K = (R + B^TPB)^{-1}B^TPA$

此时最优控制输入：
$u_k=-Kx_k$
即反馈控制为：
$u_k=-[K_h, K_v]\begin{bmatrix}h_k \\ v_k\end{bmatrix}$

🚩 LQR最优控制具体执行步骤（总结）

给定 $A, B, Q, R$
通过 DP 求解里卡提方程，获得矩阵 $P$
根据矩阵 $P$ 求出反馈增益矩阵 $K$
实施反馈控制 $u = - K x$

📌 实际应用与扩展

这个示例清晰展示了如何从状态空间模型出发，使用动态规划（DP）思想求解最优控制问题（LQR）。

在无人机实际应用中， $A, B, Q, R$ 的选择决定了无人机轨迹跟踪的性能与响应特性。
可以结合强化学习算法进一步优化控制器参数，以应对动态环境变化（风速扰动、载荷变化等）。

🚩 总结与回顾

以上详细阐述了：

LQR问题的状态空间定义；
DP求解LQR的核心过程（里卡提方程）；
从值函数提取反馈控制策略的明确过程。

这种结合 DP 与控制理论的理解，为进一步理解强化学习和最优控制算法奠定了坚实基础。

📌 四、DP 求解 LQR 问题的意义与应用场景

DP 求解 LQR 的优势：

提供全局最优控制解；
提供了闭环控制律 $u = - K x$ ，实现实时控制；
计算高效（提前算出增益 $K$ ，实时仅需简单计算）。

典型应用：

无人机飞行稳定与轨迹跟踪控制；
自动驾驶汽车轨迹跟踪；
机器人姿态稳定控制（机械臂、机器人平衡）。

📌 四、LQR与强化学习的关系

LQR 是一个确定的、线性、二次型最优控制问题，是 DP 的特例。
强化学习可看作非线性、随机系统中的广义 LQR 问题：
- 状态空间更复杂、可能未知；
- 使用函数逼近（如神经网络）替代里卡提方程求解；
- 如 Deep RL 中的 DDPG 算法，可看作非线性随机环境中的广义LQR解法。