
当前的类人型远程操作系统,要么缺乏可靠的底层控制策略,要么难以获取精确的全身控制指令,这使得对类人型机器人进行移动操作任务的远程控制变得困难。为了解决这些问题,我们提出了 HOMIE,这是一种新型的类人型远程操作驾驶舱,它集成了类人型移动操作策略和基于低成本外骨骼的硬件系统。该策略使类人型机器人能够在适应任意上身姿势的同时,行走并下蹲到特定高度。这是通过我们基于强化学习的新型训练框架实现的,该框架融入了上身姿势课程、高度跟踪奖励以及对称性利用,且不依赖于任何运动先验知识。作为对该策略的补充,硬件系统集成了同构外骨骼手臂、一副动作感应手套和一个踏板,使得单个操作员能够实现对类人型机器人的全面控制。我们的实验表明,与基于逆运动学的方法相比,我们的驾驶舱促进了更稳定、快速和精确的类人型移动操作远程控制,加快了任务完成速度,并消除了重定向误差。我们还验证了由我们的驾驶舱收集的数据对于模仿学习的有效性。

强化学习
我们在基于强化学习的训练框架中引入了三项核心技术,以显著扩展类人型机器人的操作工作空间,同时确保其运动的稳健性:
- 上身姿势课程:在不断变化的上身姿势下实现平衡。
- 高度跟踪奖励:使机器人能够稳健且快速地蹲到任何所需的高度。
- 对称性利用:使机器人的动作更加对称,并提高数据效率。
我们的框架完全无需动作捕捉,从而形成了更高效的流程。
我们的框架可用于训练不同种类的机器人,如宇树科技的 G1 和傅利叶智能的 GR-1。
在英伟达 RTX 4090 上使用我们的框架训练约 3 小时后,我们可以得到能够直接部署在现实世界中,驱动机器人稳健行走和下蹲的策略。

我们进行了几次消融实验来验证我们框架的有效性,并且发现:
- 我们的上身姿势课程能够帮助机器人比没有课程或采用其他课程风格的方法,更好地逐步学习在动态上身运动下保持平衡。
- 引入新颖的高度跟踪奖励可以加速机器人下蹲的训练。
- 对称性利用既能显著地将训练过程加速超过 10 倍,又能保证所训练策略的对称性。
硬件系统
我们的硬件系统具有同构外骨骼手臂、一副动作感应手套和一个踏板。用于获取移动指令的踏板设计解放了操作员的上身,使其能够同时获取上身姿势。由于外骨骼手臂与被控制的机器人同构,并且每只手套有 15 个自由度(这比大多数现有的灵巧手的自由度都多),我们可以直接根据外骨骼的读数设置上身关节位置,无需逆运动学计算,从而实现更快、更精确的远程控制。
手臂和手部
踏板
我们为宇树科技的 G1 和傅利叶智能的 GR-1 都设计了硬件系统。值得注意的是,我们的手套可以从手臂上拆卸下来,使其能够在与不同机器人同构的系统中重复使用。
宇树科技 G1 的同构外骨骼(下图1)

傅利叶智能 GR-1 的同构外骨骼(下图2)

使用我们的硬件系统,单个操作员可以选择控制:
各种灵巧的手部动作。
类人型机器人的上身。
类人型机器人的全身。
硬件系统的总成本仅为 500 美元,显著低于动作捕捉设备的成本。我们在此列出所有部件的详细成本。
部署
我们在现实世界中将训练好的策略部署到宇树科技的 G1 上,并使用我们的同构外骨骼硬件系统对其进行远程操作,以执行各种移动操作任务。
在上身姿势变化的情况下行走。
在上身姿势变化的情况下下蹲。
下蹲拿起花并转移。
下蹲抓取瓶子。
交接物品以及拾取和放置。
后退并打开烤箱。
从较低位置到较高位置转移抓取的物品。
将一个盒子从一个架子转移到另一个架子。
推坐在椅子上的人。
两个机器人之间的交接。
我们进一步进行了一些实验来展示我们策略的稳健性。
强力撞击。
用重球撞击。
为了展示同构外骨骼的有效性,我们比较了我们的硬件系统和 OpenTelevision 在四个不同任务上的任务完成时间。
拾取和放置。
扫描条形码。
交接物品。
打开烤箱。
与 OpenTelevision 相比,这些任务的完成时间是基于来自三个不同操作员的数据计算得出的,每个操作员执行任务三次。我们的硬件系统可以将远程操作速度加快约 2 倍,特别是在需要径向移动的任务中。
扩展
模拟:我们将宇树科技 G1 和傅利叶智能 GR-1 在 Isaac Gym 中训练好的策略转移到由 GRUtopia 开发的场景中,因此,与在现实世界中可行的情况相比,机器人能够以更具成本效益的方式,并在更广泛的场景中执行各种移动操作任务。
宇树科技 G1 在 GRUtopia 场景中。
傅利叶智能 GR-1 在 GRUtopia 场景中。
在 GRUtopia 中完成移动操作任务。

模仿学习:为了验证 HOMIE 为模仿学习算法收集的演示数据的有效性,我们设计了两个不同的任务,通过远程操作收集数据,使用模仿学习算法进行训练,并在现实世界中部署。我们实现了超过 70% 的成功率,展示了使用收集的数据训练模仿学习算法的可行性。
下蹲拾取拾取和放置。
Leave a Reply