HANDOFF：通过蒸馏互补教师实现的人形代理任务空间全身控制

论文信息

标题: HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

作者: Lizhi Yang, Junheng Li, Nehar Poddar, et al.

发布日期: 2026-06-04

PDF 链接: 下载 PDF

论文背景与研究动机

人形机器人完成"倒一杯咖啡"这样看似简单的任务，背后隐藏着巨大的技术挑战。传统方法中，规划器需要向底层控制器发送密集的全身上下关节运动参考轨迹，这意味着规划器必须像一个高级的"数据重放引擎"，高度依赖于海量的人类遥操作或动作捕捉数据。每当需要机器人执行一项新技能，研发人员就必须重新采集数据、进行运动重定向、过滤动态不可行的帧，并重复整个繁琐的流程。

这引发了研究团队的核心思考：规划器真正需要什么样的指令接口？人类在日常生活中规划动作时，并不会精确计算每个关节的角度；相反，我们以稀疏的子目标形式思考——"走到咖啡机前"、"伸手拿杯子"——而将具体的行走步态、平衡调整等交由低层的运动神经回路处理。与此类比，一个理想的人形机器人指令空间应具备四个关键属性：直观性（人类、几何规划器或视觉语言模型都能生成有效指令）、通用性（同一接口适用于不同操作任务）、模块化（规划、感知和控制解耦）以及全身表达性（紧凑指令仍能激发协调的全身行为）。

现有的全身控制器在这四个属性上存在显著折衷：基于运动追踪的方案需要密集的关节角度参考轨迹，而拆分架构的方案虽然能在下肢使用紧凑的速度指令，上肢却仍需要关节级参考。HANDOFF 通过一个仅有 10 维的显式命令空间解决了这一难题。

核心方法与技术细节

紧凑的 10 维命令接口

HANDOFF 设计的命令向量 $c_t = [v_x, v_y, \omega_z, z, p_L^P, p_R^P]$ 包含了完成任务所需的最少信息：平面基座速度 $(v_x, v_y)$ 、偏航角速率 $\omega_z$ 、期望的根部高度 $z$ ，以及以骨盆坐标系为参考的双侧手腕目标位置 $p_L^P$ 和 $p_R^P$ 。这六个标量每个都对应一个直观的操作语义：运动规划器产生速度命令，抓取规划器输出末端执行器目标，任何蹲下或够取的动作通过设定高度值即可触发。

多教师知识蒸馏与混合专家架构

仅凭单一训练范式无法同时实现精确的速度追踪、协调的全身操作和鲁棒的跌倒恢复能力。HANDOFF 巧妙地引入了三个互补的"专家教师"：

全身运动追踪教师：在经 CoP（压力中心）滤波后的重定向人类动作数据上训练，提供姿态先验、双臂协调和蹲下行为的知识。训练前，研究者开发了一个基于控制屏障函数的闭式投影，专门纠正数据集中动态不可行的蹲下帧（图 2 展示了修正前后的对比），确保机器人实际执行时的安全性。
运动教师：在平地上训练一个仅包含腿部和腰部的 15 自由度"身体切片"策略，手臂运动通过课程混合的动作数据样本驱动，使得该教师对下游蒸馏过程中的质心偏移具有鲁棒性。
跌倒恢复教师：利用对抗性运动先验在包含跌倒与恢复配对序列的混合数据集上训练，以全 29 自由度输出，部分环境在重置时被故意延迟在倒地状态，以保证恢复分布的充分覆盖。

知识蒸馏的关键在于上下文条件的门控机制。学生策略接收一个运行时状态信号 $\mathbf{x}_t = (\|c_t^{\mathrm{vel}}\|, \mathrm{recover}_t)$ ，即命令速度大小和恢复标志。该信号驱动一个连续门 $\alpha = \sigma((\|c_t^{\mathrm{vel}}\| - 0.1) / 0.02)$ ，在低速度下将身体切片的 KL 散度监督倾向于运动追踪教师，在高于 0.1 m/s 时逐渐切换到运动教师；手臂切片则始终锚定于运动追踪教师。跌倒恢复标志则触发一个硬掩码，将恢复教师的监督作用到整个动作空间。这种混合专家（MoE）架构有三个独立的网络头（每个对应一个教师），通过一个路由网络计算 3 路 softmax 权重进行软组合，避免了硬 top-k 路由引入的双峰分布瑕疵。

学生训练的损失函数整合了 PPO 目标、上下文条件的 KL 散度项、MoE 负载均衡损失以及恢复路由损失，使得三个教师的知识被协同一体地蒸馏进一个可部署的单一策略中。

创新点与贡献

HANDOFF 的核心贡献体现在几个层面。首先，它首次在人体机器人全身控制领域提供了一个完全满足直觉性、通用性、模块化和全身表达性四项要求的显式命令接口，这从根本上改变了人形机器人的控制范式——从"规划器被动适应控制器"转变为"控制器主动适配规划器"。

其次，基于上下文条件的多教师 distilling 与 MoE 架构的组合本身就是一项创新。不同于以往工作在单一运动追踪流形内的 MoE 或保留专家网络独立运行的门控方案，HANDOFF 应对的是不同训练范式之间的"体制冲突"：运动追踪教师覆盖范围有限但表达性强，运动教师可靠但专业性强，恢复教师则在特殊场合发挥作用。蒸馏使得这些互补的知识融为一体。

第三，CoP 安全滤波的引入从数据源头保证了操作安全性，其封闭式投影方法具有严格的理论基础，并可扩展到部署时的速度域滤波，确保了仿真到真实硬件的迁移一致性。

最后，与 VLM 驱动的智能体规划器的无缝集成（图 4 展示了端到端的部署流程）证明了该接口的实践可行性与通用性。

实验结果分析

研究团队在 Unitree G1 人形机器人上进行了全面的仿真与真实硬件验证。表 2 的定量评估涉及速度追踪精度（三个轴的绝对误差均值）和鲁棒性工作空间体积两个维度。

速度追踪的消融实验清楚地揭示了每个组件的必要性：仅使用运动追踪教师时， $v_x$ 和 $v_y$ 的误差分别高达 0.29 和 0.43 m/s；加入独立运动教师后，误差大幅下降（0.14 和 0.25）；随机化命令进一步减小了 $v_y$ 误差至 0.13；分裂 KL 与 MoE 架构使 $v_x$ 误差降至 0.07；最终叠加稳定性奖励后，综合性能达到最优（ $v_x$ 误差 0.06），同时鲁棒工作空间体积达到 0.31 m³，超过了 AMO、FALCON、OpenHomie 和 SONIC 等当前最优方法。

在与 FALCON、AMO、SONIC 等方法的对比中，HANDOFF 展现出独特优势：它在速度追踪上与其他最优方法处于同一水平，却在双侧手腕工作空间的体积和可行性上显著领先。SONIC 虽然某些速度追踪指标略优，但其需要密集的 29 维关节角度参考，而 HANDOFF 仅需 10 维指令；当为基线方法适配差分 IK 解算器（将手腕目标转化为关节角度）后，HANDOFF 固有的手腕-运动-平衡耦合学习能力使其在动态可达性上保持优势。

真实硬件部署（图 5）成功展示了拾取放置、拾取运输放置、蹲下拾取、双手交递和双侧拾取放置等多种操作任务，甚至包含跌倒恢复后的任务延续，所有场景下控制器无需任何微调或任务特定数据采集——这直接体现了接口的通用性与控制器的鲁棒性。

实践应用建议与未来发展方向

对于人形机器人控制领域的研究者和工程师，HANDOFF 的框架提供了几条具有操作性的经验：一是命令空间的设计应从规划器的实际能力出发，紧凑的任务空间命令（如基座速度、末端位置）远比密集关节角度更容易被高级推理层生成，这为与 VLA（视觉-语言-动作）模型的对接打开了大门；二是多教师蒸馏结合 MoE 架构可有效整合互补的技能，研究者可根据需要添加新的专家（如适应不同地形、处理重载的专家），只需增加一条新的 KL 项和上下文条件即可，框架具有良好的可扩展性；三是安全滤波（如 CoP 投影）可在数据阶段消除不安全行为，这比仅在训练中依赖奖励函数塑造更为可靠。

未来的改进方向包括：将手腕目标升级为全 6 维的抓取器位姿（包括姿态），以解锁更精细的桌面操作和工具使用能力；引入可动的头部和手腕摄像头以克服当前单摄像头带来的视场局限；扩展专家集合以覆盖更多样的操作环境和物理接触条件；探索与 VLA 模型更紧密的耦合，使得从自然语言指令到末端执行器动作的策略可以直接利用 HANDOFF 的 10 维接口，而无需独立的感知与规划层。

总结与展望

HANDOFF 通过一个精心设计的 10 维命令接口与创新的多教师知识蒸馏框架，成功地在一个单一部署策略中统一了全身运动追踪、速度指令驱动的运动和跌倒恢复三种互补行为。该方法不仅匹配了当前最先进的速度追踪性能，而且以紧凑的接口实现了最大的鲁棒操作工作空间。硬件上的成功部署证实了其即插即用的模块化特性——控制器可以在不修改的前提下被 VLM 驱动的智能体规划器所调用，完成从语言指令到复杂操作的闭环。这项工作为人形机器人的通用操作控制设定了一个新的范式：指令接口的极简性与全身行为的丰富性不再是一对矛盾。