TempoVLA:学习速度可控的视觉-语言-动作策略
论文信息
标题: TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies
作者: Dong Jing, Jingchen Nie, Tianqi Zhang, et al.
发布日期: 2026-06-04
arXiv ID: 2606.06491v1
PDF 链接: 下载 PDF
背景与动机:机器人操作中的速度控制难题
近年来,视觉-语言-动作模型(Vision-Language-Action models, VLAs)成为通用机器人操作的主流范式。它们通过模仿大量遥操作演示数据,能够理解语言指令并控制机械臂、四足机器人甚至人形机器人执行复杂任务。然而,部署这类策略时的一个关键维度——执行速度——却被长期忽视。
真实世界的操作任务天然地交替出现在低风险的通行阶段(应快速执行)和高风险的接触阶段(需缓慢、精确的动作)。但现有 VLA 模型只能从训练演示中继承一个单一固定的执行速度。此前加速 VLA 的努力(如模型压缩、KV 缓存复用、强化学习微调)只是把策略从一个固定速度切换到另一个固定速度,没有提供显式的、按需的速度控制。更严重的是,这些工作几乎只关注加速,而减速——对精密插入、易碎物品交接等接触密集型行为至关重要——几乎无人问津。
一个关键观察为速度可控性提供了直接路径:每个预测动作的幅度已经决定了机器人的移动速度。基于此,作者团队提出了 TempoVLA,一个单一策略即可通过显式条件输入控制执行速度的框架。它包含数据侧的可变速轨迹增强(VSTA)和模型侧的速度条件化机制,无需重新设计基础架构,轻量且适用于所有现有 VLA。
核心方法:可变速轨迹增强与速度条件化
TempoVLA 通过两个耦合的组件实现速度可控性,同时保持底层控制器不变。
数据侧:可变速轨迹增强(VSTA)
VSTA 在训练中动态地对演示轨迹进行重定时,以匹配任意目标速度 ,其中 加速, 减速, 保持原速。整个过程分为三步:
-
运动一致性分割:将每条演示切分为内部运动一致的片段。每一帧根据平移和旋转幅度被标记为静止、平移、旋转或同时平移加旋转四种模式之一,模式变化处设置边界;在同一模式内,当运动方向反转(余弦相似度低于阈值)时也进行分割。夹爪开合事件作为硬边界,确保离散状态切换不被重采样模糊化。
-
块级速度变换:在每个片段内,将目标速度 表示为互质整数之比 ,即将 个原始帧映射为 个输出帧。具体做法是,对片段内的每个不重叠的 帧块,累加其总动作位移 ,然后将 重新分割为 个等幅步长(通过累加位移的线性插值实现)。这样,块的积分运动总量被完全保留,仅更改内部动作的分布形状。该操作适用于线性可组合的动作空间,如笛卡尔平移和轴角旋转增量;对于单位四元数等不可加法表示,需先映射至切空间或采用流形插值(如 SLERP)。夹爪指令离散复制,不参与平均。
-
在线块起始采样:加速后,仅块起始帧对应的观测才是有效的训练输入,其余 帧会被丢弃。为避免永久丢失信息,VSTA 随机采样片段内的块起始偏移 ,每次采样演示时重新抽取,确保每个原始帧最终都有机会成为块起始帧,从而充分利用数据。
模型侧:速度条件注入
在 VSTA 生成的多速度增强数据集 上,TempoVLA 训练一个速度条件策略 。作者设计了三种轻量级的速度信号注入方案:
- 文本前缀:直接在原语言指令前添加如“以 x 速度执行任务。”的短语,无需任何架构改动。
- 速度调制的 RMSNorm:一个小型双隐层 MLP 将速度标量嵌入为一个向量,与流匹配时间步嵌入相加,用于调整动作专家 Transformer 各层 RMSNorm 的缩放系数,从而影响特征统计量。
- 软提示锚点:维护一个学习张量,为 个训练速度锚点各保存 个软提示令牌;推理时选取最近锚点的令牌插入到编码器输入中。
实验表明,三种方案效果几乎无差异,文本前缀凭借其零架构改动和最大灵活性被选为默认方案。
动态速度调度
将速度条件策略与外部大视觉-语言模型(VLM)结合,即可实现动态速度调度。部署时,VLM 根据当前场景观测,为接下来若干动作块下发速度 ,TempoVLA 据此执行,从而实现低风险阶段加速、高风险阶段减速的自主行为。VLM 与策略仅通过标量 通信,易于独立升级。
创新点与贡献
论文的核心贡献可归纳为:
-
首次实现显式、双向的速度可控 VLA 策略。VSTA 与速度条件化的结合,无需新采集数据,即可赋予单个策略从减速到加速的连续速度调节能力,且减速性能同样出色。
-
发现变速度训练是一种有效的数据增强。在模拟和真实世界中,多速度训练一致地将原始 成功率的基线提升,最高达 8 个百分点,显示了更好的数据利用。
-
展示速度作为高层推理器的新控制通道。与 VLM 的动态调度相结合,将执行速度从固定属性转变为可被推理规划的资源,进一步提升了任务成功率。
实验结果分析
模拟实验:LIBERO 基准
在 LIBERO 的四套任务(空间、物体、目标、长程)上,使用 模型进行实验。
-
VSTA 可行性:重放变换后的演示数据,成功率从 速度的 83.0% 到 的 92.4%,虽在极端速度下下降,但运动误差始终低于 ,几乎不影响控制器执行。
-
速度注入方案消融:三种方案的平均成功率分别为 96.8%、96.8% 和 96.5%,表明速度控制容易注入,独立于具体机制。
-
训练速度范围的影响:在所有速度范围设定下, 速度的成功率均达到或超过单速度基线(96.7%),最高提升至 96.9%,且峰值成功率偏向 或 ,显示出对演示数据中节奏冗余的压缩效果。细粒度速度范围(步长 0.25)比粗粒度进一步提升了各速度的性能。模型实际执行速度比在 及以下与目标紧密匹配,但在 时因控制器跟踪带宽受限而出现饱和。
真实世界实验:Franka 机械臂
在五个任务(四种抓放、一种可变形物体)上,TempoVLA 同样表现亮眼。
-
速度控制与增强: 和 速度下的成功率均优于基线,同时 速度下的成功率从 80.0% 提升至 88.0%,证实了 VSTA 的数据增强效应。
-
VLM 动态调度:采用 GPT-4o 作为调度器,虽然其决策偏向保守(多数时间选用 或 ),但平均成功率进一步提升至 96%,且实际平均执行速度为 ,展现出相位感知速度控制的优势。
实践应用建议
TempoVLA 为现实机器人部署提供了灵活的速度调控手段。具体建议包括:
-
直接部署速度条件策略:对于需要加速搬运、减速精密装配的任务,可使用文本前缀方式植入速度条件,训练时覆盖 至 的速度范围,以利用数据增强并保证速度可控。
-
结合高级规划器实现自适应速度:将 TempoVLA 与 VLM 调度器集成,让系统在自由空间自动加速,在接近或操作时减速,提高整体效率与安全性,且调度策略可独立更新。
-
注意控制器带宽匹配:当目标速度过高(例如 以上)时,策略可能受限于底层控制器的跟踪能力,此时需考虑提高控制频率、放宽动作限幅或联合调优控制器,以释放完整的速度控制能力。
-
处理动作空间不兼容问题:若动作表示为四元数等不可加法空间,需先将数据转换至线性可组合表示(如轴角),应用 VSTA 后再转换回原格式。
未来发展方向
论文指出几个改进方向:将 VSTA 扩展到非可加动作空间(如采用流形插值),进一步与底层控制器进行联合调优以突破高频加速瓶颈,降低 VLM 调度延迟(如异步调用),以及对演示数据进行速度归一化以提供更一致的 参考基准。这些方向将扩展 TempoVLA 的适用范围和执行效率。
总结与展望
TempoVLA 以轻量、插件化的方式解决了 VLA 策略执行速度不可控的问题,首次实现了单一模型的双向速度调节。其数据增强效应不仅没有牺牲原始性能,反而带来了额外提升,且支持与高层推理器协同实现动态速度调度。这项研究为具身智能体的运动节奏控制提供了新维度,使机器人能够像人类一样根据任务阶段调节快慢,为更安全、高效的现实世界部署铺平了道路。随着后续对控制器和规划器层面的进一步整合,未来机器人将能以更智能、更类人的节奏完成各种复杂操作。