向量策略优化:多样性训练提升测试时搜索

arXiv: 2605.22817v1

论文信息

标题: Vector Policy Optimization: Training for Diversity Improves Test-Time Search

作者: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, et al.

发布日期: 2026-05-21

arXiv ID: 2605.22817v1

PDF 链接: 下载 PDF

研究背景与动机:当模型不再独行

大型语言模型(LLM)正经历一场部署范式的变迁。过去,模型只需根据输入生成一个“最佳”答案即可;而如今,越来越多的 AI 系统将模型嵌入到测试时搜索流程中——从简单的拒绝采样到复杂的进化搜索(如 AlphaEvolve),系统会在推理阶段生成大量候选解,再根据特定奖励函数择优采纳。标准 RL 后训练范式(如 GRPO)却与这一趋势背道而驰:它通过优化一个预先定义的标量奖励,将模型策略推向单一高峰,导致输出分布高度集中、候选池趋近重复,无法满足搜索对“多样性”的渴望。

论文指出,这是一个尚未得到充分讨论的结构性矛盾。标量 RL 训练天然倾向于探索与利用的统一,但在测试时搜索可用的场景下,这两者可以也应该分离:训练应专注生成丰富且高质量的候选解集,而将“选择最优”的任务完全交由测试时搜索完成。正是基于这一洞察,作者提出了**向量策略优化(VPO)**方法。

核心方法论:奖励多样性与集合级优化

VPO 的核心思想来源于一个实际观察:许多现实任务的奖励信号天然可分解为向量形式。代码生成中,每个测试用例的正确性构成一个维度;RLHF 中,不同偏好维度(如流畅度、准确性、安全性)各自独立;多跳推理中,每个子问题的成败可分别度量。这一分解本身就提供了天然的多样性轴线。

奖励多样性:比语义多样性更关键

传统观念往往认为“多样性”意味着生成内容在表面文本或语义层面的差异。论文引入了一个更精确的概念——奖励多样性:一个候选池具备奖励多样性,意味着其中的不同解在奖励向量的不同加权组合下各有擅长,覆盖帕累托前沿而非仅聚于一点。这对于搜索过程至关重要:即便部署目标是一个固定的标量加权向量 ww^*,跨区域覆盖的候选池也远比单一化的池子更有可能发现最终得分更高的解——部分看似在目标加权下“次优”的解,可能蕴藏着关键的推理路径或问题分解策略,经搜索重新组合后反超。

VPO 的两大支柱

一、多答案链式生成

VPO 借鉴了 Puri 等人的工作,训练模型在单次自回归生成中输出 mm 个候选解,解之间用分隔符标记,依次排列。这意味着模型在生成第 ii 个解时,上下文中已包含前 i1i-1 个解。多样性由此从随机采样噪声的副产品,升级为一种上下文内显式机制——模型可以“看到”已覆盖的解决方向,并有意将后续解导向不同区域。

然而,纯粹的多答案生成本身并非解药。实验显示,若仍用固定标量奖励训练多答案模型(即 Multi-RLVR),候选池仍会迅速坍缩。这催生了第二支柱。

二、随机标量化的集合级优化

VPO 将固定的奖励加权替换为一个分布:每次训练前,从 Dirichlet 分布 Dir(1)\mathrm{Dir}(\mathbf{1}) 中采样一个权重向量 wΔd1w \in \Delta^{d-1}dd 是奖励维度),该分布均匀覆盖整个单纯形。真正的目标不再是最大化某个解在单一加权下的得分,而是最大化整个候选集在随机加权下的期望最优解得分:

R(S)=EwDir(1)[maxySwr(x,y)]R(S) = \mathbb{E}_{w \sim \mathrm{Dir}(\mathbf{1})} \left[ \max_{y \in S} \, w^\top r(x, y) \right]

这个目标直接奖励对奖励空间的覆盖:不同元素在不同 ww 采样下成为“最优解”,而坍缩的集仅能在局部区域表现良好。该目标可被理解为直接优化期望的 “best-of-N” 性能。

在实现层面,VPO 作为一个“即插即用”的替代方案接入 GRPO 框架:给定一个提示 xx,采样 GG 个多答案链条(每链条 mm 个候选解),并采样 KK 个共享的标量化权重。每条链条的蒙特卡洛奖励为:

R^(S(g))=1Kk=1KmaxsS(g)w(k)r(x,s)\hat{R}(S^{(g)}) = \frac{1}{K} \sum_{k=1}^K \max_{s \in S^{(g)}} \, w^{(k)\top} r(x, s)

随后按标准 GRPO 流程计算优势值并广播到链条的每一个 token,完成梯度更新。

创新点与贡献

论文的贡献可归纳为三个层面:

  1. 概念重构:明确提出“RL 后训练专注于多样性、测试时搜索专注于利用”这一分工框架,挑战了标量 RL 训练的传统认知。
  2. 方法创新:VPO 巧妙结合多答案生成和随机标量化,首次将集合级帕累托覆盖转化为可训练的 GRPO 优势估计器,且无需额外模型或复杂架构。
  3. 实证验证:在跨域实验(迷宫导航、多跳推理、工具调用、编码)中,VPO 在 test-time search 的 best@kk 指标上系统性地匹配或超越最强标量基线,且优势随搜索预算增长而扩大。尤其在 LiveCodeBench 的进化搜索环节,VPO 解锁了标量 GRPO 完全无法解决的问题。

实验结果深度分析

主要发现

在四个基准任务上,VPO 一致地提升 best@kk。以 MuSiQue 为例:当 kk 从 3 增至 30,VPO 的 best@kk 从 0.742 升至 0.832,而 GRPO 仅从 0.711 升至 0.728。标量方法快速饱和,反映候选池坍缩;VPO 则持续从更多样本中获益。奖励空间多样性指标直接证实:VPO 训练过程中的候选对间 L1 距离远高于 Multi-RLVR,在多数域中后者多样性甚至低于未训练基模型。

消融实验的启示

  • 多答案生成不是充分条件:Multi-RLVR(有向量奖励,但仅用固定加权)在跨域评估中始终不及 VPO,且训练期多样性急剧下降。唯一的例外是 EUREQA 域,该域 Multi-RLVR 的多样性跟踪 VPO 的表现——进一步印证多样性是关键驱动因素。
  • 更多计算不是解释:即便给 GRPO 和 GDPO 提供 3 倍推理计算和评估器信号(n=24n=24),仍无法匹敌 VPO 在标准计算量(n=8n=8)下的表现。
  • 显式目标条件不是捷径:将权重向量作为额外输入喂给模型(目标条件化策略)非但不能匹配 VPO,甚至导致模型忽略条件信息而坍缩。

规模与复杂搜索

LiveCodeBench 的案例研究极具说服力。在单次推理(pass@1)中,标量 GRPO 获胜——因为无需多样性。一旦启用 best@kkk>1k>1),VPO 实现反超且差距随 kk 扩大。进而在 OpenEvolve 进化搜索(200 轮迭代)中,VPO 持续发现新解,解锁了两种方法在标准 best@30 中均得零分的最难问题。

失效边界

论文坦诚地描述了 VPO 不生效的场景。在 UltraFeedback 的 ArmoRM-5 奖励模型下,五个名义维度近乎共线(ρˉ=0.95\bar{\rho} = 0.95),帕累托前沿退化为线,VPO 在绝对 best@kk 上不敌标量 GRPO。但这反而佐证了 VPO 的逻辑:奖励多样性仅在奖励维度真正竞争时才创造价值。

实践应用建议

对于考虑将 LLM 部署于搜索框架中的从业者,本文提供了几项具体指导:

  1. 识别奖励向量结构:许多任务的奖励天然可拆解——如代码的逐个测试用例、对话的多个评估准则、知识问答的逐跳正确性。显式地模型化奖励向量而非过早聚合,是应用 VPO 的基础。
  2. 训练与推理的协同设计:若预期采用 best-of-N 或进化搜索,RL 后训练阶段应牺牲一定的 pass@1,换取候选池多样性。这需要重新评估模型评估指标,避免片面追求单样本精度。
  3. 探索向量化奖励的额外应用:VPO 的框架可以拓展至强化学习中的更复杂的目标——例如在 RLHF 中,可针对不同用户画像训练可覆盖多偏好的策略;在智能体任务中,可同时优化路径效率、安全约束和任务完成度。
  4. 注意监控多样性崩塌:实验表明,标量 RL 训练中奖励空间多样性的下降早于表面文本多样性的消失。开展类似本文的奖励向量分布监测,有助于及早发现策略坍缩。

未来发展方向与总结

VPO 打开了若干研究方向:第一,如何自适应调整 mm 和权重 ww 的采样策略,以平衡探索与效率;第二,在多轮交互或分层搜索中应用 VPO,让策略生成的候选池天然适配更复杂的搜索结构;第三,探索除 Dirichlet 外的扰动分布或基于任务难度动态调整多样性的方法;第四,在更大的尺度和更复杂的真实生产环境中验证 VPO 的鲁棒性。

总之,VPO 深刻地回应了一个现实问题:当大模型从“单打独斗”走向“众筹择优”,训练目标必须随之演进。通过拥抱奖励向量结构并将多样性内化于训练过程,VPO 为构建适应搜索流程的 LLM 提供了简明而有效的蓝图。如果说传统的 RL 训练是在画布上勾勒唯一的最佳笔触,VPO 则是教会画家绘制整个风景,留待策展人从容挑选——这或许是 AI 系统走向更复杂协作与自我进化的一步重要跨越。