平衡推理者：学习吸引子实现可扩展推理

论文信息

标题: Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

作者: Benhao Huang, Zhengyang Geng, Zico Kolter

发布日期: 2026-05-20

PDF 链接: 下载 PDF

研究动机与问题背景

现代人工智能系统正经历一次范式转变：除了在训练阶段堆砌更多数据和更大模型，研究者开始关注如何通过增加 “测试时计算”（test-time compute）来提升模型表现。这种思路在游戏 AI 和链式思考推理中已有应用，但效果并不总是正向——有时额外计算带来的回报递减，甚至导致性能下降。这引发了一个根本性的问题：什么样的内部机制能够支撑可扩展、可泛化的推理？

本文以受控的结构化推理任务（如数独和迷宫求解）为实验平台，系统性地探究了这一问题。这类任务的优点是能清晰区分 “记忆” 与 “泛化”，从而剥离出推理机制的本质特征。论文的核心假设是：可泛化的推理来自于模型学习到了任务条件化的 “吸引子”（attractor）——一种潜在的动力学系统，其中稳定的不动点对应于有效解。基于这一假说，作者提出了均衡推理器框架，将推理过程形式化为在潜在空间中向吸引子收敛的动态演化过程。

核心方法与技术框架

吸引子景观视角

论文的核心贡献在于提出了一个统一的动力学视角来理解迭代推理。传统的前馈网络将推理看作从输入到输出的直接映射，而迭代模型则在潜在空间中反复应用同一个更新算子 $f_{\theta}$ ，形成一条状态轨迹 $\{\mathbf{z}_k\}_{k \ge 0}$ 。当这条轨迹趋向于某个稳定不动点或吸引子时，我们就说模型 “收敛” 了。

关键是，吸引子的性质决定了推理的成败。如果模型学习到的潜在空间吸引子恰好对应于正确的任务解，那么更多的迭代步骤就能推动状态更靠近解，从而提升性能。反之，如果存在 “伪吸引子”（即收敛到错误解的低残差区域），那么单纯的迭代加深不但无益，反而可能将推理锁死在错误区域。

深度与广度的双轴缩放

基于吸引子理论，论文识别出测试时计算的两个独立缩放维度：

深度缩放：增加单条轨迹的迭代步数 $D$ ，让状态有更多机会在其进入的吸引盆内精细调整。
广度缩放：从不同初始状态启动 $B$ 条独立轨迹，通过聚合它们的输出（如多数投票或基于收敛度的选择）来覆盖更多可能的吸引盆。

两个维度形成互补关系：广度缩放只有在深度足够使轨迹能够有效探索和抵达吸引盆时才发挥效用，这一 “深度—广度交互” 在实验中得到了清晰验证。

训练干预：塑造吸引子景观

理解吸引子机制后，下一个关键问题是：如何训练模型，使其学到的潜在动态系统具备 “好” 的吸引子结构？论文提出了两种轻量级的、不依赖外部验证器的训练干预手段：

随机状态初始化：训练时从高斯分布中采样初始潜在状态 $\mathbf{z}_0$ ，而非使用固定的零初始化。这扩大了训练期间探索的状态空间区域，使模型接触到更多可能的吸引盆，同时在多条轨迹间促进一致性，实现路径独立性。
噪声注入与路径随机性：在每个迭代步骤注入小幅度高斯噪声，将确定性更新改为 $\mathbf{z}_{k+1} = \mathbf{z}_k + (1-\lambda) r_{\theta}(\mathbf{z}_k; \mathbf{x}) + \beta \varepsilon_k$ 。这防止了轨迹过早陷入伪吸引子，增强了探索能力，可以类比为状态空间的 “温度缩放”。

实验分析与关键发现

从前馈到迭代的构建路径

论文首先通过一系列受控实验，逐步展示了将前馈网络改造为强迭代模型的关键组件。实验在 Sudoku-Extreme 基准上进行，从 42 层前馈 MLP 的 2.6% 精确率出发，依次加入权重绑定（提升至 32.6%）、分段在线训练与深度缩放（74.7%）、分层迭代（76.5%）和自适应计算时间训练（84.8%）。这一清晰路径揭示了迭代模型成功的本质：权重绑定创造了可复用的计算容量，但要充分释放这一容量，需要相匹配的训练策略来塑造收敛行为。

均衡推理器的性能突破

应用吸引子景观塑造干预后，均衡推理器在标准的训练预算下已经超越了基线模型（Sudoku 从 84.8% 提升到 86.4%，Maze 从 44.9% 飙升到 82.2%）。真正令人瞩目的是测试时缩放的增益：

在 Sudoku 上，将深度从 16 增加到 64，精确率从 86.4% 提升到 93.0%，再结合广度缩放（B=128），达到99.8% 的惊人表现。
在 Maze 上，同样从 82.2% 起步，分别达到 88.9% 和93.0%。

这些结果相当于将模型展开到超过 40,000 个有效层的深度，而模型在训练时最多只见过 16 次迭代。这种从有限训练到极限推理的泛化能力，正是吸引子假设的有力证据。

收敛作为可靠选择信号

经过吸引子塑造后，固定点残差 $\|f_{\theta}(\mathbf{z}; \mathbf{x}) - \mathbf{z}\|$ 与任务错误之间建立了紧密关联。这使得 “基于收敛度的选择” 成为广度缩放下的高效聚合策略：在多条独立轨迹中，选择残差最小的那条进行解码，其效果可与多数投票相媲美甚至更好，且计算开销更低。值得注意的是，这一选择规则的可靠性直接取决于吸引子景观的质量——在未经干预的基准模型中，低残差可能只是收敛到伪吸引子的信号，因而基于收敛度的选择会失效。

自适应计算的效率增益

面对困难程度高度异质的推理实例，论文进一步展示了自适应计算时间的价值。通过学习一个 “停止头”，模型能在判断状态已进入吸引盆后提前终止迭代，将计算资源集中分配给仍未解决的复杂样本。在 Sudoku-Lite 上，结合 ACT 的 EqR 在保持相近准确率的同时，将平均函数评估次数从 1024 降至 58.7（减少 17.4 倍），或在广度缩放设定下从 8192 降至 1400.6（减少 5.8 倍），显著优化了推理的计算效率。

实践应用与未来展望

对迭代推理系统设计的启示

超越准确性评估：不应仅关注模型在固定预算下的输出正确率，还需监控其内部动态——收敛行为是否稳定、残差是否随迭代递减、是否存在伪吸引子等诊断指标。
训练策略的核心地位：权重绑定本身并不自动导致可泛化的迭代推理。分段在线训练、合理的监督点安排、以及本文提出的随机初始化和噪声注入，这些训练策略对塑造有利于求解的潜在空间几何至关重要。
自适应资源配置：实际部署中应采用弹性推理预算，让简单问题快速退出、复杂问题获得更多精炼，这比统一分配计算资源要高效得多。

理论拓展方向

更丰富的初始状态设计：当前使用简单高斯分布作为初始化，未来可探索学习得到的、依赖于输入的初始状态生成器，进一步提升广度缩放的效率。
噪声策略的形式化：路径随机性在实验中展现出了类似温度缩放的效应，但不同噪声幅度、不同注入策略与任务特征之间的关系值得深入探究。
跨越任务类型的验证：本文以受控的结构化推理任务为实验载体，吸引子视角是否能推广到自然语言推理、视觉推理等更开放的领域，是一个重要的开放问题。

总结

均衡推理器为理解迭代推理模型的内在机制提供了优雅而有力的框架。通过将神经网络中的计算定义为在潜在吸引子景观上的动态演化，论文成功解释了测试时计算为何能超越训练分布的限制带来性能提升，并指出了成功的关键条件：吸引子必须与任务度量对齐，且其吸引盆必须足够宽广可及。基于这一洞察，随机状态初始化和路径噪声等简单干预便能显著重塑潜在空间几何，使得深度和广度缩放成为可靠的性能增益杠杆。这项工作不仅贡献了在 Sudoku 和 Maze 上的突破性结果，更重要的是建立了一套收敛诊断和景观分析的通用语言，为未来迭代推理系统的设计和分析指明了方向。