【【Reinforcement Learning For Quadruped Control】3

地形感知运动

导航具有高度表面不规则性的地形，如台阶、踏脚石和崎岖地形等，需要在控制回路中加入感知（对地形的感知）。从生物学角度，人类和动物可以依靠过去数据形成的空间模型（对世界的感知），以最小的努力在地形中进行导航。

为了获得对地形的感知，传感器如LiDAR、深度相机和RGB-D相机在四足机器人中常被使用。LiDAR（光学雷达）通过向目标发射激光束并测量光的飞行时间，从而计算源与目标之间的距离。利用这些测量数据，可以创建环境的点云分布。这个点云可以用来向机器人提供关于环境的感知信息。LiDAR积累的3D地图存在一些缺点，如光照条件变化、大气条件的影响（如尘土、雾霾）、高计算能力的需求和缺乏纹理数据。另一方面，RGB-D相机更适合近地面距离的测量，并且配有RGB传感器用于纹理和颜色的测量。这为输入空间添加了更多特征，这在深度神经网络（DNN）中是非常有用的。然而，这个传感器也面临着运动模糊和光照条件等问题。

从这些传感器获取的深度数据随后应转换为期望的输入特征。高度图和体素常在机器人文献中作为期望的输入特征。在高度图中，机器人与地面之间的距离数据被转换为一个与重力方向垂直的地面高度测量平面。体素是像素的3D对偶，可以创建一个3D体积数据表示。最近，研究已开始将传感器数据作为直接输入馈送到DNN策略中，并取得了令人印象深刻的结果。LiDAR或RGB-D数据被直接馈送到策略中，无需任何预处理步骤，从而允许DNN从数据中自行学习预处理和提取相关特征。图6展示了一个模块化的管道，用于处理传感器数据并将其转化为可以包含在控制回路中的表示，从而实现感知。
在这里插入图片描述
高度图是四足运动中最广泛使用的地形感知方法，但由于被遮挡的观测、状态估计误差和传感器噪声，它们容易受到多种伪影和噪声的影响。传感器安装在机器人上，某些地形区域可能被机器人遮挡，如果不加以处理，可能导致运动解决方案次优，而且高度图无法表示3D物体。高度图的准确性受状态估计误差的显著影响。这导致高度测量的漂移，可使用概率方法来解决这个问题。使用高度图作为地形感知四足机器人的输入特征时，不完美的高度图是导致鲁棒性较差的主要原因。传统的滤波技术被用来减少高度图中的噪声水平。
神经场景表示是一种基于体素的新的方法，用于解决与高度图相关的挑战。这是一种基于学习的技术，使用深度数据估计局部的体素地图。编码器架构，通常使用卷积神经网络（CNNs），可以从外感数据中提取嵌入。尽管在RL框架中训练编码器是可能的，但与监督学习框架相比，它可能会影响训练效率。
地形感知是四足机器人在复杂地形中运动的关键要求。为了实现这一目标，必须将地形信息考虑到控制回路中。与此相关的主要挑战是低计算时间和可泛化性，这些仍然与单一DNN模型的期望相矛盾。因此，必须在低计算时间和高可泛化性之间找到平衡点。通常，DRL策略的样本效率较低。更重要的是，添加复杂输入（如地形图）会进一步降低DRL策略的样本效率。对于仿真平台来说，渲染高度图在仿真中是计算密集型的，这可能会进一步增加DRL策略训练时的收敛时间。
传统上，为了集成地形感知能力，基于规则的系统被用来生成足部代价图，以识别足部着陆位置，其中代价最小的位置是最适合的足部位置。手工编写的特征图用于生成足部代价图，且实时控制通常不可实现。使用CNN替代了足部代价图生成器，从而实现了实时执行，但控制器仍然是基于模型的控制器。随着DRL进入控制策略设计领域，内感测测量被用作输入来设计运动控制策略。这些策略能够穿越简单的地形，但更复杂的地形，如踏脚石，需要在控制回路中加入视觉输入。
一些研究通过直接将地形信息纳入策略训练过程来训练策略。这些策略通常在策略架构中使用相对简单的DNN，以提高样本效率。然而，这些方法的一个显著限制是地形感知和控制组件在策略中的固有耦合。紧密的耦合需要在每次对地形感知模块进行修改或改进时，从头开始重新训练整个策略。为了解决这一限制，一些研究者使用自编码器训练感知网络。然后，将从该网络中提取的学习嵌入用作运动策略的输入，从而实现更加模块化的方法。

为了在使用原始传感器数据作为输入进行端到端训练时解决这种固有耦合问题，可以使用地形建模通过概率测量去除噪声或离群值。此外，地形建模还可以解决由于遮挡而遗漏或修补的信息问题，并去除其他相关问题，如漂移。这些方法的一些缺点包括增加的建模复杂性和计算复杂性。目前，扩展师生策略训练是解决这一问题的好方法。在这种情况下，教师策略利用仿真中关于地形的特权信息，从介于控制策略和输入之间的输入中提取信念状态。控制策略随后从这些信念状态中学习并生成动作。由于教师策略能够访问特权信息，它可以提出好的策略，而这些策略通常会由于噪声或随机化而无法被政策探索。然后，学生策略在输入噪声和随机化的情况下，学习模仿教师策略的动作，同时尽力生成与教师策略为输入产生的信念状态相同的信念状态，并减少噪声。这种方法使控制策略与地形感知组件的分离成为可能，同时在没有地形建模开销的情况下实现可接受的结果。

在动态环境中训练感知模块时，必须考虑传感器数据的时间依赖性。外感输入如深度图或基于像素的图像的复杂性和高方差，可能会给神经网络捕捉时间依赖关系带来挑战。循环神经网络（RNN），特别是长短期记忆网络（LSTM）和门控循环单元（GRU）架构，非常适合处理顺序数据并有效建模这些时间关系.通过将RNN整合到RL策略中，可以缓解部分可观察性的问题，同时提高决策能力。

在复杂传感器输入（如RGB图像和深度图）中冗余信息的存在，可能会阻碍运动任务的高效学习。为了解决这个问题，采用了注意力机制，使策略能够选择性地关注输入中最有信息量的部分。这种选择性注意力提高了对噪声的鲁棒性，并减少了计算需求，从而实现更高效的学习。

尽管文献中存在这些令人印象深刻的技术，但仿真仍然是无模型DRL应用的基础。尽管有GPU加速的快速仿真平台可用，但渲染深度图像在计算上非常昂贵，并且可能显著减慢仿真速度。因此，在仿真中，低分辨率扫描点被用来代替高度图。扫描点是一组表示环境的地面真实测量的（x，y）坐标，围绕四足机器人框架。它们可以直接从仿真中查询，并且计算速度较快。

参考资料来源网络，仅供学习使用
如有侵权，联系删除

【【Reinforcement Learning For Quadruped Control】3

地形感知运动

相关资讯

热文排行

最新新闻

推荐新闻

热搜词