TempoVLA：学习速度可控的视觉-语言-动作策略

论文信息

标题: TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

作者: Dong Jing, Jingchen Nie, Tianqi Zhang, et al.

发布日期: 2026-06-04

PDF 链接: 下载 PDF

背景与动机：机器人操作中的速度控制难题

近年来，视觉-语言-动作模型（Vision-Language-Action models, VLAs）成为通用机器人操作的主流范式。它们通过模仿大量遥操作演示数据，能够理解语言指令并控制机械臂、四足机器人甚至人形机器人执行复杂任务。然而，部署这类策略时的一个关键维度——执行速度——却被长期忽视。

真实世界的操作任务天然地交替出现在低风险的通行阶段（应快速执行）和高风险的接触阶段（需缓慢、精确的动作）。但现有 VLA 模型只能从训练演示中继承一个单一固定的执行速度。此前加速 VLA 的努力（如模型压缩、KV 缓存复用、强化学习微调）只是把策略从一个固定速度切换到另一个固定速度，没有提供显式的、按需的速度控制。更严重的是，这些工作几乎只关注加速，而减速——对精密插入、易碎物品交接等接触密集型行为至关重要——几乎无人问津。

一个关键观察为速度可控性提供了直接路径：每个预测动作的幅度已经决定了机器人的移动速度。基于此，作者团队提出了 TempoVLA，一个单一策略即可通过显式条件输入控制执行速度的框架。它包含数据侧的可变速轨迹增强（VSTA）和模型侧的速度条件化机制，无需重新设计基础架构，轻量且适用于所有现有 VLA。

核心方法：可变速轨迹增强与速度条件化

TempoVLA 通过两个耦合的组件实现速度可控性，同时保持底层控制器不变。

数据侧：可变速轨迹增强（VSTA）

VSTA 在训练中动态地对演示轨迹进行重定时，以匹配任意目标速度 $s$ ，其中 $s > 1$ 加速， $s < 1$ 减速， $s=1$ 保持原速。整个过程分为三步：

运动一致性分割：将每条演示切分为内部运动一致的片段。每一帧根据平移和旋转幅度被标记为静止、平移、旋转或同时平移加旋转四种模式之一，模式变化处设置边界；在同一模式内，当运动方向反转（余弦相似度低于阈值）时也进行分割。夹爪开合事件作为硬边界，确保离散状态切换不被重采样模糊化。
块级速度变换：在每个片段内，将目标速度 $s$ 表示为互质整数之比 $s = q/p$ ，即将 $q$ 个原始帧映射为 $p$ 个输出帧。具体做法是，对片段内的每个不重叠的 $q$ 帧块，累加其总动作位移 $\Delta = \sum_{i=1}^{q} a_i$ ，然后将 $\Delta$ 重新分割为 $p$ 个等幅步长（通过累加位移的线性插值实现）。这样，块的积分运动总量被完全保留，仅更改内部动作的分布形状。该操作适用于线性可组合的动作空间，如笛卡尔平移和轴角旋转增量；对于单位四元数等不可加法表示，需先映射至切空间或采用流形插值（如 SLERP）。夹爪指令离散复制，不参与平均。
在线块起始采样：加速后，仅块起始帧对应的观测才是有效的训练输入，其余 $q-1$ 帧会被丢弃。为避免永久丢失信息，VSTA 随机采样片段内的块起始偏移 $r$ ，每次采样演示时重新抽取，确保每个原始帧最终都有机会成为块起始帧，从而充分利用数据。

模型侧：速度条件注入

在 VSTA 生成的多速度增强数据集 $\widetilde{\mathcal{D}}$ 上，TempoVLA 训练一个速度条件策略 $\pi_\theta(o_t, s)$ 。作者设计了三种轻量级的速度信号注入方案：

文本前缀：直接在原语言指令前添加如 “以 $s$ x 速度执行任务。” 的短语，无需任何架构改动。
速度调制的 RMSNorm：一个小型双隐层 MLP 将速度标量嵌入为一个向量，与流匹配时间步嵌入相加，用于调整动作专家 Transformer 各层 RMSNorm 的缩放系数，从而影响特征统计量。
软提示锚点：维护一个学习张量，为 $K$ 个训练速度锚点各保存 $P$ 个软提示令牌；推理时选取最近锚点的令牌插入到编码器输入中。

实验表明，三种方案效果几乎无差异，文本前缀凭借其零架构改动和最大灵活性被选为默认方案。

动态速度调度

将速度条件策略与外部大视觉-语言模型（VLM）结合，即可实现动态速度调度。部署时，VLM 根据当前场景观测，为接下来若干动作块下发速度 $s_t$ ，TempoVLA 据此执行，从而实现低风险阶段加速、高风险阶段减速的自主行为。VLM 与策略仅通过标量 $s$ 通信，易于独立升级。

创新点与贡献

论文的核心贡献可归纳为：

首次实现显式、双向的速度可控 VLA 策略。VSTA 与速度条件化的结合，无需新采集数据，即可赋予单个策略从减速到加速的连续速度调节能力，且减速性能同样出色。
发现变速度训练是一种有效的数据增强。在模拟和真实世界中，多速度训练一致地将原始 $1\times$ 成功率的基线提升，最高达 8 个百分点，显示了更好的数据利用。
展示速度作为高层推理器的新控制通道。与 VLM 的动态调度相结合，将执行速度从固定属性转变为可被推理规划的资源，进一步提升了任务成功率。

实验结果分析

模拟实验：LIBERO 基准

在 LIBERO 的四套任务（空间、物体、目标、长程）上，使用 $\pi_{0.5}$ 模型进行实验。

VSTA 可行性：重放变换后的演示数据，成功率从 $0.5\times$ 速度的 83.0% 到 $1.25\times$ 的 92.4%，虽在极端速度下下降，但运动误差始终低于 $5\times 10^{-8}$ ，几乎不影响控制器执行。
速度注入方案消融：三种方案的平均成功率分别为 96.8%、96.8% 和 96.5%，表明速度控制容易注入，独立于具体机制。
训练速度范围的影响：在所有速度范围设定下， $1\times$ 速度的成功率均达到或超过单速度基线（96.7%），最高提升至 96.9%，且峰值成功率偏向 $1.25\times$ 或 $1.5\times$ ，显示出对演示数据中节奏冗余的压缩效果。细粒度速度范围（步长 0.25）比粗粒度进一步提升了各速度的性能。模型实际执行速度比在 $1.5\times$ 及以下与目标紧密匹配，但在 $2\times$ 时因控制器跟踪带宽受限而出现饱和。

真实世界实验：Franka 机械臂

在五个任务（四种抓放、一种可变形物体）上，TempoVLA 同样表现亮眼。

速度控制与增强： $1.25\times$ 和 $1.5\times$ 速度下的成功率均优于基线，同时 $1\times$ 速度下的成功率从 80.0% 提升至 88.0%，证实了 VSTA 的数据增强效应。
VLM 动态调度：采用 GPT-4o 作为调度器，虽然其决策偏向保守（多数时间选用 $1\times$ 或 $1.25\times$ ），但平均成功率进一步提升至 96%，且实际平均执行速度为 $1.21\times$ ，展现出相位感知速度控制的优势。

实践应用建议

TempoVLA 为现实机器人部署提供了灵活的速度调控手段。具体建议包括：

直接部署速度条件策略：对于需要加速搬运、减速精密装配的任务，可使用文本前缀方式植入速度条件，训练时覆盖 $0.75\times$ 至 $1.5\times$ 的速度范围，以利用数据增强并保证速度可控。
结合高级规划器实现自适应速度：将 TempoVLA 与 VLM 调度器集成，让系统在自由空间自动加速，在接近或操作时减速，提高整体效率与安全性，且调度策略可独立更新。
注意控制器带宽匹配：当目标速度过高（例如 $2\times$ 以上）时，策略可能受限于底层控制器的跟踪能力，此时需考虑提高控制频率、放宽动作限幅或联合调优控制器，以释放完整的速度控制能力。
处理动作空间不兼容问题：若动作表示为四元数等不可加法空间，需先将数据转换至线性可组合表示（如轴角），应用 VSTA 后再转换回原格式。

未来发展方向

论文指出几个改进方向：将 VSTA 扩展到非可加动作空间（如采用流形插值），进一步与底层控制器进行联合调优以突破高频加速瓶颈，降低 VLM 调度延迟（如异步调用），以及对演示数据进行速度归一化以提供更一致的 $1\times$ 参考基准。这些方向将扩展 TempoVLA 的适用范围和执行效率。

总结与展望

TempoVLA 以轻量、插件化的方式解决了 VLA 策略执行速度不可控的问题，首次实现了单一模型的双向速度调节。其数据增强效应不仅没有牺牲原始性能，反而带来了额外提升，且支持与高层推理器协同实现动态速度调度。这项研究为具身智能体的运动节奏控制提供了新维度，使机器人能够像人类一样根据任务阶段调节快慢，为更安全、高效的现实世界部署铺平了道路。随着后续对控制器和规划器层面的进一步整合，未来机器人将能以更智能、更类人的节奏完成各种复杂操作。