TempoVLA:学习速度可控的视觉-语言-动作策略

arXiv: 2606.06491v1

论文信息

标题: TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

作者: Dong Jing, Jingchen Nie, Tianqi Zhang, et al.

发布日期: 2026-06-04

arXiv ID: 2606.06491v1

PDF 链接: 下载 PDF

背景与动机:机器人操作中的速度控制难题

近年来,视觉-语言-动作模型(Vision-Language-Action models, VLAs)成为通用机器人操作的主流范式。它们通过模仿大量遥操作演示数据,能够理解语言指令并控制机械臂、四足机器人甚至人形机器人执行复杂任务。然而,部署这类策略时的一个关键维度——执行速度——却被长期忽视。

真实世界的操作任务天然地交替出现在低风险的通行阶段(应快速执行)和高风险的接触阶段(需缓慢、精确的动作)。但现有 VLA 模型只能从训练演示中继承一个单一固定的执行速度。此前加速 VLA 的努力(如模型压缩、KV 缓存复用、强化学习微调)只是把策略从一个固定速度切换到另一个固定速度,没有提供显式的、按需的速度控制。更严重的是,这些工作几乎只关注加速,而减速——对精密插入、易碎物品交接等接触密集型行为至关重要——几乎无人问津。

一个关键观察为速度可控性提供了直接路径:每个预测动作的幅度已经决定了机器人的移动速度。基于此,作者团队提出了 TempoVLA,一个单一策略即可通过显式条件输入控制执行速度的框架。它包含数据侧的可变速轨迹增强(VSTA)和模型侧的速度条件化机制,无需重新设计基础架构,轻量且适用于所有现有 VLA。

核心方法:可变速轨迹增强与速度条件化

TempoVLA 通过两个耦合的组件实现速度可控性,同时保持底层控制器不变。

数据侧:可变速轨迹增强(VSTA)

VSTA 在训练中动态地对演示轨迹进行重定时,以匹配任意目标速度 ss,其中 s>1s > 1 加速,s<1s < 1 减速,s=1s=1 保持原速。整个过程分为三步:

  1. 运动一致性分割:将每条演示切分为内部运动一致的片段。每一帧根据平移和旋转幅度被标记为静止、平移、旋转或同时平移加旋转四种模式之一,模式变化处设置边界;在同一模式内,当运动方向反转(余弦相似度低于阈值)时也进行分割。夹爪开合事件作为硬边界,确保离散状态切换不被重采样模糊化。

  2. 块级速度变换:在每个片段内,将目标速度 ss 表示为互质整数之比 s=q/ps = q/p,即将 qq 个原始帧映射为 pp 个输出帧。具体做法是,对片段内的每个不重叠的 qq 帧块,累加其总动作位移 Δ=i=1qai\Delta = \sum_{i=1}^{q} a_i,然后将 Δ\Delta 重新分割为 pp 个等幅步长(通过累加位移的线性插值实现)。这样,块的积分运动总量被完全保留,仅更改内部动作的分布形状。该操作适用于线性可组合的动作空间,如笛卡尔平移和轴角旋转增量;对于单位四元数等不可加法表示,需先映射至切空间或采用流形插值(如 SLERP)。夹爪指令离散复制,不参与平均。

  3. 在线块起始采样:加速后,仅块起始帧对应的观测才是有效的训练输入,其余 q1q-1 帧会被丢弃。为避免永久丢失信息,VSTA 随机采样片段内的块起始偏移 rr,每次采样演示时重新抽取,确保每个原始帧最终都有机会成为块起始帧,从而充分利用数据。

模型侧:速度条件注入

在 VSTA 生成的多速度增强数据集 D~\widetilde{\mathcal{D}} 上,TempoVLA 训练一个速度条件策略 πθ(ot,s)\pi_\theta(o_t, s)。作者设计了三种轻量级的速度信号注入方案:

  • 文本前缀:直接在原语言指令前添加如“以 ssx 速度执行任务。”的短语,无需任何架构改动。
  • 速度调制的 RMSNorm:一个小型双隐层 MLP 将速度标量嵌入为一个向量,与流匹配时间步嵌入相加,用于调整动作专家 Transformer 各层 RMSNorm 的缩放系数,从而影响特征统计量。
  • 软提示锚点:维护一个学习张量,为 KK 个训练速度锚点各保存 PP 个软提示令牌;推理时选取最近锚点的令牌插入到编码器输入中。

实验表明,三种方案效果几乎无差异,文本前缀凭借其零架构改动和最大灵活性被选为默认方案。

动态速度调度

将速度条件策略与外部大视觉-语言模型(VLM)结合,即可实现动态速度调度。部署时,VLM 根据当前场景观测,为接下来若干动作块下发速度 sts_t,TempoVLA 据此执行,从而实现低风险阶段加速、高风险阶段减速的自主行为。VLM 与策略仅通过标量 ss 通信,易于独立升级。

创新点与贡献

论文的核心贡献可归纳为:

  1. 首次实现显式、双向的速度可控 VLA 策略。VSTA 与速度条件化的结合,无需新采集数据,即可赋予单个策略从减速到加速的连续速度调节能力,且减速性能同样出色。

  2. 发现变速度训练是一种有效的数据增强。在模拟和真实世界中,多速度训练一致地将原始 1×1\times 成功率的基线提升,最高达 8 个百分点,显示了更好的数据利用。

  3. 展示速度作为高层推理器的新控制通道。与 VLM 的动态调度相结合,将执行速度从固定属性转变为可被推理规划的资源,进一步提升了任务成功率。

实验结果分析

模拟实验:LIBERO 基准

在 LIBERO 的四套任务(空间、物体、目标、长程)上,使用 π0.5\pi_{0.5} 模型进行实验。

  • VSTA 可行性:重放变换后的演示数据,成功率从 0.5×0.5\times 速度的 83.0% 到 1.25×1.25\times 的 92.4%,虽在极端速度下下降,但运动误差始终低于 5×1085\times 10^{-8},几乎不影响控制器执行。

  • 速度注入方案消融:三种方案的平均成功率分别为 96.8%、96.8% 和 96.5%,表明速度控制容易注入,独立于具体机制。

  • 训练速度范围的影响:在所有速度范围设定下,1×1\times 速度的成功率均达到或超过单速度基线(96.7%),最高提升至 96.9%,且峰值成功率偏向 1.25×1.25\times1.5×1.5\times,显示出对演示数据中节奏冗余的压缩效果。细粒度速度范围(步长 0.25)比粗粒度进一步提升了各速度的性能。模型实际执行速度比在 1.5×1.5\times 及以下与目标紧密匹配,但在 2×2\times 时因控制器跟踪带宽受限而出现饱和。

真实世界实验:Franka 机械臂

在五个任务(四种抓放、一种可变形物体)上,TempoVLA 同样表现亮眼。

  • 速度控制与增强1.25×1.25\times1.5×1.5\times 速度下的成功率均优于基线,同时 1×1\times 速度下的成功率从 80.0% 提升至 88.0%,证实了 VSTA 的数据增强效应。

  • VLM 动态调度:采用 GPT-4o 作为调度器,虽然其决策偏向保守(多数时间选用 1×1\times1.25×1.25\times),但平均成功率进一步提升至 96%,且实际平均执行速度为 1.21×1.21\times,展现出相位感知速度控制的优势。

实践应用建议

TempoVLA 为现实机器人部署提供了灵活的速度调控手段。具体建议包括:

  • 直接部署速度条件策略:对于需要加速搬运、减速精密装配的任务,可使用文本前缀方式植入速度条件,训练时覆盖 0.75×0.75\times1.5×1.5\times 的速度范围,以利用数据增强并保证速度可控。

  • 结合高级规划器实现自适应速度:将 TempoVLA 与 VLM 调度器集成,让系统在自由空间自动加速,在接近或操作时减速,提高整体效率与安全性,且调度策略可独立更新。

  • 注意控制器带宽匹配:当目标速度过高(例如 2×2\times 以上)时,策略可能受限于底层控制器的跟踪能力,此时需考虑提高控制频率、放宽动作限幅或联合调优控制器,以释放完整的速度控制能力。

  • 处理动作空间不兼容问题:若动作表示为四元数等不可加法空间,需先将数据转换至线性可组合表示(如轴角),应用 VSTA 后再转换回原格式。

未来发展方向

论文指出几个改进方向:将 VSTA 扩展到非可加动作空间(如采用流形插值),进一步与底层控制器进行联合调优以突破高频加速瓶颈,降低 VLM 调度延迟(如异步调用),以及对演示数据进行速度归一化以提供更一致的 1×1\times 参考基准。这些方向将扩展 TempoVLA 的适用范围和执行效率。

总结与展望

TempoVLA 以轻量、插件化的方式解决了 VLA 策略执行速度不可控的问题,首次实现了单一模型的双向速度调节。其数据增强效应不仅没有牺牲原始性能,反而带来了额外提升,且支持与高层推理器协同实现动态速度调度。这项研究为具身智能体的运动节奏控制提供了新维度,使机器人能够像人类一样根据任务阶段调节快慢,为更安全、高效的现实世界部署铺平了道路。随着后续对控制器和规划器层面的进一步整合,未来机器人将能以更智能、更类人的节奏完成各种复杂操作。