现代机器人技术对动力学的需求,已超出经典解析动力学的能力范畴。经典解析动力学存在接触简化、运动学环路省略及模型不可微等问题,而神经机器人动力学(Neural Robot Dynamics,NeRD)能够通过以下方式攻克这些难题:
- 采用具有强表达能力的可微模型,实现长时段稳定状态预测;
- 捕捉复杂的多接触物理过程;
- 在任务、环境和控制器间实现泛化,缩小仿真与现实的差距;
- 基于真实数据进行微调。
与特定任务的神经仿真器不同,NeRD 可作为 Newton 等物理引擎的无缝接入后端,开发团队只需切换物理求解器,即可复用现有的策略学习环境。这种解析模块与机器人专用神经建模的结合,为机器人搭建了一条通过仿真与现实经验持续优化动力学性能的路径。
本文将探讨 NeRD 如何突破长期存在的仿真挑战,为 Newton 物理引擎等现代机器人技术奠定基础。
什么是 NeRD?
NeRD 是一种神经仿真框架。NeRD 模型是通过学习获得的特定动力学模型的具象化形态,能够预测多关节刚体(如多关节机器人)与环境接触时的未来状态。
训练完成后,NeRD 模型能够实现:
- 在数百至数千个仿真步骤中提供稳定且准确的预测;
- 针对特定机器人,在不同任务、环境和低阶控制器间实现泛化;
- 通过真实世界数据微调,弥合仿真与现实的差距。
NeRD 模型可基于任何仿真器的数据集训练,训练完成后可作为解析求解器的替代方案,直接应用于 Newton 等模块化框架中。这意味着用户无需重构现有策略学习环境,只需一行代码切换,即可激活 NeRD 作为新的物理后端。
立即在 Newton 引擎中使用 NeRD。查看我们在 arXiv 上的研究成果或访问项目页面。
机器人仿真的未来展望
随着机器人技术的进步,我们可以试图构想这样的机器人生命周期:每个机器人都配备从解析仿真中预训练的神经动力学模型,该模型可随着机器人与现实世界的交互不断微调,从而适应机器人的磨损和环境变化。
机器人的神经动力学模型可嵌入混合仿真系统——神经动力学负责对机器人自身进行仿真,而解析动力学则用于场景的其他部分(如障碍物)。这种持续优化的神经机器人动力学,能为数字孪生中的机器人提供更贴近现实的动力学仿真,助力其学习多样化的机器人技能。

神经机器人动力学的工作原理
NeRD 的核心创新在于两点——混合预测框架和机器人中心输入参数化,这使其实现了泛化能力和长时段预测精度。NeRD 模型替代了传统仿真器中的时间积分(求解器)部分。在 Newton 等框架中,碰撞检测与求解器分离,因此我们可将解析碰撞检测与学习模型结合使用。
这种混合框架使 NeRD 能够利用中间仿真量(即机器人状态、接触信息和关节空间扭矩)描述完整的仿真状态,为机器人动力学演化提供必要信息,且不受应用场景限制(如任务、场景和控制器)。这与以往的方式形成鲜明对比,以往仅将机器人状态和特定任务动作作为输入,因此容易过拟合于训练所用的任务。
其次,NeRD 采用机器人中心的输入参数化,使学习到的动力学模型具备空间泛化能力。具体而言,机器人状态和接触相关量在输入 NeRD 模型前,会先转换到机器人基坐标系中,如图 2(c) 所示。
这种以机器人为中心的状态表示,使 NeRD 在机器人运动中,当遇到未见过的空间位置时,仍然能够保持可靠预测,提升了模型的长时段预测精度。

训练数据集与网络架构
NeRD 的训练数据集以任务无关的方式从仿真器中生成。针对每个机器人实例,我们收集 10 万条随机轨迹,每条轨迹包含 100 个时间步。这些轨迹通过以下方式生成:随机化机器人初始状态、在机器人电机扭矩限制内生成随机关节扭矩序列,以及可选的随机化环境配置(如图 3 所示)。我们采用因果 Transformer 架构构建 NeRD 模型,具体为 GPT-2 Transformer 的轻量实现,模型以最近 10 步的仿真状态作为输入。
如果您想使用 NeRD,请查看我们在 GitHub 上的开源代码。
模型训练完成后,我们将其集成到 Newton 等模块化物理引擎中,作为仿真器的可替换求解器,替代现有的解析动力学和接触求解器。开发者可像往常一样使用集成 NeRD 的仿真器,并复用现有的策略学习环境。
使用 NeRD 训练机器人的优势
借助 NeRD 训练机器人,可实现高度稳定、准确且泛化的仿真,加速策略学习,并缩小仿真与现实的差距,确保机器人在真实世界的可靠部署。
稳定性与准确性
训练后的 NeRD 模型能准确预测混沌系统(如双摆)在数百个时间步内的动力学行为。单个 NeRD 模型还能够对不同的接触配置(如不同高度和方向的地面)进行仿真。图 4 展示了集成 NeRD 的仿真器与采用 Featherstone 求解器的基准解析仿真器的对比。

完全基于集成 NeRD 的仿真器学习机器人策略
NeRD 在任务、控制器和空间上的高效性与泛化能力,支持大规模机器人策略学习以适应多样化的下游任务。我们为 ANYmal 机器预训练 NeRD 模型,然后在集成 NeRD 的仿真器中使用 PPO 强化学习算法训练前向行走和侧向行走策略,整个过程无需依赖基准解析仿真器。
习得的策略可零样本迁移至基准解析仿真器,且性能损失极小(1000 步轨迹的累积奖励误差 <0.1%)。图 5 和图 6 展示了在集成 NeRD 的仿真器与基准解析仿真器中执行 NeRD 训练策略的对比。


零样本仿真到现实迁移
我们在 7 自由度 Franka 机械臂上验证了 NeRD 模型的准确性,基于完全在集成 NeRD 的仿真器中训练的目标位姿(到达)策略,实现了零样本仿真到现实的迁移(图 7)。

基于真实世界数据微调 NeRD 模型
NeRD 模型固有的可微性使其能通过真实世界数据快速微调。我们使用真实世界的抛立方体数据集,对预训练的 NeRD 模型进行抛立方体任务微调。结果显示,微调后的 NeRD 模型动力学准确性显著优于解析仿真器(如图 8 所示)。

总结
神经机器人动力学(NeRD)是一种基于神经网络的机器人仿真框架,旨在精准预测复杂多关节机器人的长时段动力学行为。传统仿真器使用简化模型,难以应对现代机器人的复杂性,而 NeRD 不同,它能直接从数据中学习机器人专用动力学,实现稳定、泛化且精确的仿真。
单个训练完成的 NeRD 模型可针对特定机器人在多样化任务、环境和控制器间实现泛化,并能通过真实世界数据微调以缩小仿真与现实的差距,是一种适应性非常强的先进机器人仿真解决方案。
未来方向
开发能对复杂真实世界机器人动力学进行仿真的高效神经仿真器是当前研究的热点。为实现具有泛化性和可微调性的机器人神经动力学模型,本研究未来将向以下几个方向拓展:
更复杂结构和更高自由度的机器人
为更复杂的机器人(如人形机器人)开发神经仿真器,可显著提升仿真效率,加速下游应用(如人形机器人全身控制器的学习)。
基于部分可观测真实世界数据的微调
受传感器限制,对于真实世界的机器人,我们往往仅能观测到其部分数据,比如,可能无法精确获取接触点。研究如何基于部分可观测的真实世界数据,微调预训练 NeRD 模型,可提升真实世界动力学预测精度,进一步缩小仿真与现实的差距。
机器人操作仿真
目前 NeRD 框架的开发主要集中于移动任务,支持操作任务仿真是其自然延伸,可进一步拓宽其应用范围。
开始使用 NeRD
NeRD 模型使用 Newton 引擎中的仿真模块进行训练。查看 GitHub README.md 获取 NeRD 使用指南。
- 首先下载 Newton,Newton 是一款开源、可扩展的物理引擎,用于编写 GPU 加速的基于内核的仿真、AI、机器人和机器学习程序。
- 下载 NeRD 开源代码并查看 README 获取使用说明。
- 从 arXiv 上的 NeRD 论文了解神经机器人动力学的更多详情。
请关注 NeRD 训练和推理代码的发布,这些技术将助力开发者使用神经物理求解器对动态机器人进行仿真。
更多研究成果,请关注 9 月 27 日至 10 月 2 日在韩国首尔举办的 CoRL 及 Humanoids 会议。