该图展示了 MoMask (一种最先进的人体运动生成模型)生成的运动示例。MoMask 使用文本到运动范式进行操作,其中它将文本描述作为输入并生成相应的高质量人体运动。这种方法确保生成的动作准确反映给定的文本条件,展示了 MoMask 生成逼真且符合语境的动作的能力。
相关链接
-
论文:http://arxiv.org/abs/2501.18726v1
-
主页:https://aigeeksgroup.github.io
论文介绍
人体运动生成是生成式计算机视觉领域的一个重要研究方向,广泛应用于电影制作、视频游戏、AR/VR 和人机交互。当前的方法主要利用基于扩散的生成模型或自回归模型进行文本到运动的生成。然而,它们面临两个重大挑战:
-
生成过程耗时,对游戏、机器人操控和其他在线设置等实时应用构成重大障碍。
-
这些方法通常学习由文本引导的相对运动表示,因此很难生成具有精确关节级控制的运动序列。
这些挑战严重阻碍了人体运动生成技术的进步,并限制了其在现实世界中的应用。
为了解决这一问题,论文提出了一个由两个关键组件组成的简单而有效的架构。首先,我们的目标是提高基于 Transformer 的扩散模型的硬件效率和计算复杂度,以生成人体运动。通过定制 Flash 线性注意力,我们可以专门优化这些模型,以有效地生成人体运动。此外,我们将定制运动潜在空间中的一致性模型,以进一步加速运动生成。其次,我们引入了 Motion ControlNet,与以前的文本到运动生成方法相比,它可以更精确地控制人体运动的关节级。这些贡献代表了文本到运动生成的重大进步,使其更接近现实世界的应用。
方法
提出的方法主要包括两个部分:
-
高效运动变换器(Efficient Motion Transformer):通过自定义闪电线性注意机制,优化变换器模型在运动生成中的硬件效率和计算复杂性。该机制允许在现代计算架构上更高效地处理运动数据,显著提升生成性能。
-
运动控制网络(Motion ControlNet):该网络在运动潜在空间内进行定制,以实现更精确的关节级控制。每一层都附加了一个零初始化的线性层,以消除初始训练步骤中的随机噪声,从而提高生成运动的准确性和一致性。运动潜在一致性模型通过引入噪声并进行预测来加速生成过程,确保生成的运动序列与用户定义的轨迹一致。