UniPool:一种用于混合专家的全局共享专家池

arXiv: 2605.06665v1

论文信息

标题: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

作者: Minbin Huang, Han Shi, Chuanyang Zheng, et al.

发布日期: 2026-05-07

arXiv ID: 2605.06665v1

PDF 链接: 下载 PDF

背景与研究动机

在大语言模型迅猛发展的今天,Mixture-of-Experts(MoE)架构凭借其条件计算能力,已成为扩展模型容量的核心手段。典型的 MoE 设计中,每个 Transformer 层都拥有一个独立的专家集合,前向传播时通过路由器选择 top-k 专家进行激活。这种“逐层私有专家”的范式带来一个固有问题:专家参数的总量随网络深度线性增长,即 NexpertsL×Eper_layerN_{\text{experts}} \propto L \times E_{\text{per\_layer}}。当模型层数增加时,即便每层所需的有效专家容量并未同步上升,参数预算依然被强制膨胀,造成严重的冗余。

论文作者通过一个精巧的路由探测实验揭示了这一冗余的严重性。他们对多个生产级 MoE 模型(如 DeepSeek-V2、Qwen1.5-MoE 等)的深层路由器进行干预:将学习到的 top-k 路由器替换为均匀随机路由,发现下游任务的准确率仅下降 1.0–1.6 个百分点。这表明深层网络对特定专家的依赖远低于浅层,许多层的独立专家容量实际上是浪费的。受此启发,论文提出 UniPool,一种将专家能力视为全局架构预算的 MoE 新范式:用一个全局共享的专家池取代逐层的专家所有权,所有层通过独立的路由器动态访问同一个池中的专家。

核心方法:全局共享专家池的设计

UniPool 的核心思想是解耦“网络深度”与“专家数量”之间的强绑定关系。具体而言,传统 MoE 中第 ll 层拥有专家集合 El={El,1,,El,E}\mathcal{E}_l = \{E_{l,1}, \dots, E_{l,E}\},总专家数为 L×EL \times E。UniPool 则定义一个尺寸为 SS 的全局专家池 G={G1,,GS}\mathcal{G} = \{G_1, \dots, G_S\},所有层的 MoE 模块都从这个池中选取专家。每层保留独立的路由器 RlR_l,它根据当前层的输入 token 表示,计算出与池中每个专家的亲和度分数,并通过 top-k 选择激活的专家。这种设计使得专家参数成为一种可跨层复用的全局资源,而不必为每一层单独分配。

池级负载均衡损失

共享池设计面临的首要挑战是训练不稳定性:如果某些专家被所有层频繁选中,而另一些专家几乎不被使用,模型容量将无法充分利用。传统的逐层辅助损失(auxiliary loss)无法应对跨层竞争,因为每层只关心自身专家负载均衡,全局视角缺失。UniPool 引入了一种池级辅助损失(pool-level auxiliary loss),它在整个池的尺度上鼓励专家利用率的均衡。记 fl,if_{l,i} 为第 ll 层路由器分配给专家 ii 的概率(或门控值),该损失函数可形式化为:

Lpool=αi=1S(1Ll=1Lfl,i)log(1Ll=1Lfl,i)\mathcal{L}_{\text{pool}} = \alpha \cdot \sum_{i=1}^{S} \left( \frac{1}{L} \sum_{l=1}^{L} f_{l,i} \right) \cdot \log \left( \frac{1}{L} \sum_{l=1}^{L} f_{l,i} \right)

其中 α\alpha 为平衡系数。该损失基于熵最大化原理,推动所有专家在跨层平均利用率上趋向均匀分布,从而避免全局热门专家的出现,保障训练稳定性。

NormRouter:稀疏且尺度稳定的路由

共享专家池带来的另一个挑战是路由分数的尺度稳定性。在传统逐层设计中,每层路由器的输入分布相对可控;但在 UniPool 中,不同层的表示可能具有显著不同的范数,导致 softmax 输出的概率分布过于尖锐或平坦,破坏稀疏性和负载均衡。为此,作者采用 NormRouter——在计算专家亲和度之前,先对输入 token 表示进行 L2 归一化,同时对专家嵌入向量也进行归一化,使得内积等价于余弦相似度:

scorel,i=hlhlwiwi\text{score}_{l,i} = \frac{\mathbf{h}_l}{\|\mathbf{h}_l\|} \cdot \frac{\mathbf{w}_i}{\|\mathbf{w}_i\|}

随后通过一个可学习的温度参数 τ\tau 进行缩放,再应用 softmax 和 top-k 选择。这一设计约束了分数范围,使路由决策对表示范数的变化不敏感,保证了跨层的稀疏性和训练稳定性。

细粒度专家分解的兼容性

UniPool 的设计与细粒度专家分解(fine-grained expert decomposition)天然兼容。传统方法将每个专家进一步拆分为更小的子专家并增加激活数量,以提升组合灵活性。在 UniPool 中,只需将全局池中的每个专家视为一个“细粒度单元”,路由器从更大的子专家集合中选取 top-k,无需改变架构内核。这种兼容性使得 UniPool 能够无缝继承现有 MoE 优化的成果。

创新点与贡献

UniPool 的主要创新可以归纳为三个层面:

  1. 架构范式的转变:首次系统性地挑战了“逐层私有专家”的惯例,提出专家能力应以全局池的形式被所有层共享。这一视角将专家参数从深度耦合中解放出来,使专家数量成为独立于层数的超参数,为 MoE 的缩放法则提供了新的自由度。

  2. 池级负载均衡与 NormRouter:针对共享池场景设计的专用训练技巧,解决了跨层竞争带来的负载失衡和路由尺度漂移问题。这些技术保证了共享池 MoE 能够稳定训练,并避免专家崩溃(expert collapse)。

  3. 深度缩放超参数的发现:实验证明,专家池的尺寸 SS 可以作为一个独立的深度缩放超参数。通过减小池尺寸,UniPool 仅使用传统 MoE 的 41.6%–66.7% 专家参数量,就能达到甚至超越原始模型的性能。这意味着在共享池设计下,专家参数可以以次线性方式随深度增长,大幅提升参数效率。

实验结果分析

作者在五个不同规模的 LLaMA 架构模型上进行了严格验证,参数量从 182M 到 978M,训练数据为 Pile 的 300 亿 tokens。所有实验均与匹配的逐层 MoE 基线进行对比,保证激活参数量和训练 FLOPs 相等。

验证损失与困惑度提升

在全部五个规模下,UniPool 均取得了更低的验证损失(validation loss)。最大改进达到 0.0386,这在语言模型预训练中是一个显著的差距。相应地,困惑度(perplexity)也一致下降,表明模型对序列的建模能力增强。值得关注的是,这些收益仅通过改变专家分配方式获得,并未增加任何计算开销。

缩减池尺寸的实验

作者进一步探索了 SS 的影响。对于 830M 参数的模型,标准逐层设计的专家参数量约为 256(每层 16 专家 × 16 层),而 UniPool 仅用 128 个全局专家(50%)即可匹配基线性能;用 170 个专家(66.7%)则实现超越。在 978M 规模下,使用 41.6% 的专家参数同样取得更优损失。这直接证实了论文的核心主张:专家参数无需随深度线性增长,共享池支持更高效的参数配置。

深层路由器冗余的再验证

论文在 UniPool 模型上也重复了路由探测实验。将最后几层路由器替换为随机路由,性能下降依然极小,表明 UniPool 并未消除这种深层冗余,而是通过共享池更高效地利用了浅层的专家容量,将冗余参数从浅层挪移到池中供全局使用。

与细粒度分解的协同

在 650M 规模的实验中,作者将专家进一步分解为 2 倍或 4 倍的细粒度子专家,UniPool 依然能带来一致的损失下降。这说明全局池设计与细粒度扩展相互正交,组合使用可获得叠加收益。

实践应用建议与未来方向

实践应用建议

对于希望训练大规模 MoE 模型的团队,UniPool 提供了直接的架构改进路径:

  • 降低参数冗余:在确定模型深度后,不必按线性关系设定专家数量。可以从较小的全局池(如 50% 的逐层专家总数)开始实验,通过扩大池尺寸观察性能饱和点,以最小参数预算达到目标性能。
  • 训练稳定性保障:在实现全局池时,务必引入池级负载均衡损失和 NormRouter。池级损失可在现有 MoE 训练框架上简单扩展:收集所有层的门控分数,计算跨层平均值后再施加均衡目标。NormRouter 则只需在路由前增加归一化步骤,代价极小。
  • 逐步迁移:对于已有的逐层 MoE 模型,可考虑冻结部分浅层参数,将深层专家替换为共享池进行微调,逐步过渡到纯 UniPool 架构,降低一次性重构的风险。

未来发展方向

  1. 更细粒度的动态池管理:当前 UniPool 的池是静态的,未来可以研究根据输入数据动态调整池大小或激活模式,甚至让模型学习何时从池中“淘汰”或“新增”专家,实现生命周期管理。
  2. 跨模型共享与联邦学习:全局池的概念天然适合多模型协作场景。不同模型或不同任务可以共享同一个专家池,在联邦学习或多任务学习中按需调用,提升知识复用程度。
  3. 理论分析:为何深层路由器倾向于均匀分布?是否存在信息论或优化景观上的解释?深入的理论研究可能启发更精简的路由机制。
  4. 硬件适配优化:共享池设计改变了专家间的访问模式,可能对分布式训练中的专家并行策略提出新要求。探索专门针对 UniPool 的通信与计算融合方案,能进一步释放其端到端效率。

总结与展望

UniPool 用简洁而深刻的方式重新审视了 MoE 架构中的专家容量分配问题。它通过一个全局共享的专家池,打破了深度与专家参数之间的线性紧耦合,为模型缩放引入了一个独立且高效的超参数。实验数据充分表明,这种设计不仅能直接提升预训练损失,还能在极大压缩专家参数的前提下保持竞争力,揭示了现有 MoE 架构中普遍存在的深层专家冗余。

展望未来,随着模型规模继续向万亿参数迈进,参数效率的重要性愈发凸显。UniPool 所代表的“全局资源池化”思想,可能不仅限于专家网络,还会渗透到注意力头、适配器模块等其他条件计算组件中,推动整个高效大模型架构设计的范式演进。对于工程实践者而言,现在是重新思考“是否每一层都需要自己的专家”的时候了——答案很可能是否定的,而 UniPool 已经给出了一个优雅的替代方案。