UniPool：一种用于混合专家的全局共享专家池

论文信息

标题: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

作者: Minbin Huang, Han Shi, Chuanyang Zheng, et al.

发布日期: 2026-05-07

PDF 链接: 下载 PDF

背景与研究动机

在大语言模型迅猛发展的今天，Mixture-of-Experts（MoE）架构凭借其条件计算能力，已成为扩展模型容量的核心手段。典型的 MoE 设计中，每个 Transformer 层都拥有一个独立的专家集合，前向传播时通过路由器选择 top-k 专家进行激活。这种 “逐层私有专家” 的范式带来一个固有问题：专家参数的总量随网络深度线性增长，即 $N_{\text{experts}} \propto L \times E_{\text{per\_layer}}$ 。当模型层数增加时，即便每层所需的有效专家容量并未同步上升，参数预算依然被强制膨胀，造成严重的冗余。

论文作者通过一个精巧的路由探测实验揭示了这一冗余的严重性。他们对多个生产级 MoE 模型（如 DeepSeek-V2、Qwen1.5-MoE 等）的深层路由器进行干预：将学习到的 top-k 路由器替换为均匀随机路由，发现下游任务的准确率仅下降 1.0–1.6 个百分点。这表明深层网络对特定专家的依赖远低于浅层，许多层的独立专家容量实际上是浪费的。受此启发，论文提出 UniPool，一种将专家能力视为全局架构预算的 MoE 新范式：用一个全局共享的专家池取代逐层的专家所有权，所有层通过独立的路由器动态访问同一个池中的专家。

核心方法：全局共享专家池的设计

UniPool 的核心思想是解耦 “网络深度” 与 “专家数量” 之间的强绑定关系。具体而言，传统 MoE 中第 $l$ 层拥有专家集合 $\mathcal{E}_l = \{E_{l,1}, \dots, E_{l,E}\}$ ，总专家数为 $L \times E$ 。UniPool 则定义一个尺寸为 $S$ 的全局专家池 $\mathcal{G} = \{G_1, \dots, G_S\}$ ，所有层的 MoE 模块都从这个池中选取专家。每层保留独立的路由器 $R_l$ ，它根据当前层的输入 token 表示，计算出与池中每个专家的亲和度分数，并通过 top-k 选择激活的专家。这种设计使得专家参数成为一种可跨层复用的全局资源，而不必为每一层单独分配。

池级负载均衡损失

共享池设计面临的首要挑战是训练不稳定性：如果某些专家被所有层频繁选中，而另一些专家几乎不被使用，模型容量将无法充分利用。传统的逐层辅助损失（auxiliary loss）无法应对跨层竞争，因为每层只关心自身专家负载均衡，全局视角缺失。UniPool 引入了一种池级辅助损失（pool-level auxiliary loss），它在整个池的尺度上鼓励专家利用率的均衡。记 $f_{l,i}$ 为第 $l$ 层路由器分配给专家 $i$ 的概率（或门控值），该损失函数可形式化为：

\mathcal{L}_{\text{pool}} = \alpha \cdot \sum_{i=1}^{S} \left( \frac{1}{L} \sum_{l=1}^{L} f_{l,i} \right) \cdot \log \left( \frac{1}{L} \sum_{l=1}^{L} f_{l,i} \right)

其中 $\alpha$ 为平衡系数。该损失基于熵最大化原理，推动所有专家在跨层平均利用率上趋向均匀分布，从而避免全局热门专家的出现，保障训练稳定性。

NormRouter：稀疏且尺度稳定的路由

共享专家池带来的另一个挑战是路由分数的尺度稳定性。在传统逐层设计中，每层路由器的输入分布相对可控；但在 UniPool 中，不同层的表示可能具有显著不同的范数，导致 softmax 输出的概率分布过于尖锐或平坦，破坏稀疏性和负载均衡。为此，作者采用 NormRouter——在计算专家亲和度之前，先对输入 token 表示进行 L2 归一化，同时对专家嵌入向量也进行归一化，使得内积等价于余弦相似度：

\text{score}_{l,i} = \frac{\mathbf{h}_l}{\|\mathbf{h}_l\|} \cdot \frac{\mathbf{w}_i}{\|\mathbf{w}_i\|}

随后通过一个可学习的温度参数 $\tau$ 进行缩放，再应用 softmax 和 top-k 选择。这一设计约束了分数范围，使路由决策对表示范数的变化不敏感，保证了跨层的稀疏性和训练稳定性。

细粒度专家分解的兼容性

UniPool 的设计与细粒度专家分解（fine-grained expert decomposition）天然兼容。传统方法将每个专家进一步拆分为更小的子专家并增加激活数量，以提升组合灵活性。在 UniPool 中，只需将全局池中的每个专家视为一个 “细粒度单元”，路由器从更大的子专家集合中选取 top-k，无需改变架构内核。这种兼容性使得 UniPool 能够无缝继承现有 MoE 优化的成果。

创新点与贡献

UniPool 的主要创新可以归纳为三个层面：

架构范式的转变：首次系统性地挑战了 “逐层私有专家” 的惯例，提出专家能力应以全局池的形式被所有层共享。这一视角将专家参数从深度耦合中解放出来，使专家数量成为独立于层数的超参数，为 MoE 的缩放法则提供了新的自由度。
池级负载均衡与 NormRouter：针对共享池场景设计的专用训练技巧，解决了跨层竞争带来的负载失衡和路由尺度漂移问题。这些技术保证了共享池 MoE 能够稳定训练，并避免专家崩溃（expert collapse）。
深度缩放超参数的发现：实验证明，专家池的尺寸 $S$ 可以作为一个独立的深度缩放超参数。通过减小池尺寸，UniPool 仅使用传统 MoE 的 41.6%–66.7% 专家参数量，就能达到甚至超越原始模型的性能。这意味着在共享池设计下，专家参数可以以次线性方式随深度增长，大幅提升参数效率。

实验结果分析

作者在五个不同规模的 LLaMA 架构模型上进行了严格验证，参数量从 182M 到 978M，训练数据为 Pile 的 300 亿 tokens。所有实验均与匹配的逐层 MoE 基线进行对比，保证激活参数量和训练 FLOPs 相等。

验证损失与困惑度提升

在全部五个规模下，UniPool 均取得了更低的验证损失（validation loss）。最大改进达到 0.0386，这在语言模型预训练中是一个显著的差距。相应地，困惑度（perplexity）也一致下降，表明模型对序列的建模能力增强。值得关注的是，这些收益仅通过改变专家分配方式获得，并未增加任何计算开销。

缩减池尺寸的实验

作者进一步探索了 $S$ 的影响。对于 830M 参数的模型，标准逐层设计的专家参数量约为 256（每层 16 专家 × 16 层），而 UniPool 仅用 128 个全局专家（50%）即可匹配基线性能；用 170 个专家（66.7%）则实现超越。在 978M 规模下，使用 41.6% 的专家参数同样取得更优损失。这直接证实了论文的核心主张：专家参数无需随深度线性增长，共享池支持更高效的参数配置。

深层路由器冗余的再验证

论文在 UniPool 模型上也重复了路由探测实验。将最后几层路由器替换为随机路由，性能下降依然极小，表明 UniPool 并未消除这种深层冗余，而是通过共享池更高效地利用了浅层的专家容量，将冗余参数从浅层挪移到池中供全局使用。

与细粒度分解的协同

在 650M 规模的实验中，作者将专家进一步分解为 2 倍或 4 倍的细粒度子专家，UniPool 依然能带来一致的损失下降。这说明全局池设计与细粒度扩展相互正交，组合使用可获得叠加收益。

实践应用建议与未来方向

实践应用建议

对于希望训练大规模 MoE 模型的团队，UniPool 提供了直接的架构改进路径：

降低参数冗余：在确定模型深度后，不必按线性关系设定专家数量。可以从较小的全局池（如 50% 的逐层专家总数）开始实验，通过扩大池尺寸观察性能饱和点，以最小参数预算达到目标性能。
训练稳定性保障：在实现全局池时，务必引入池级负载均衡损失和 NormRouter。池级损失可在现有 MoE 训练框架上简单扩展：收集所有层的门控分数，计算跨层平均值后再施加均衡目标。NormRouter 则只需在路由前增加归一化步骤，代价极小。
逐步迁移：对于已有的逐层 MoE 模型，可考虑冻结部分浅层参数，将深层专家替换为共享池进行微调，逐步过渡到纯 UniPool 架构，降低一次性重构的风险。

未来发展方向

更细粒度的动态池管理：当前 UniPool 的池是静态的，未来可以研究根据输入数据动态调整池大小或激活模式，甚至让模型学习何时从池中 “淘汰” 或 “新增” 专家，实现生命周期管理。
跨模型共享与联邦学习：全局池的概念天然适合多模型协作场景。不同模型或不同任务可以共享同一个专家池，在联邦学习或多任务学习中按需调用，提升知识复用程度。
理论分析：为何深层路由器倾向于均匀分布？是否存在信息论或优化景观上的解释？深入的理论研究可能启发更精简的路由机制。
硬件适配优化：共享池设计改变了专家间的访问模式，可能对分布式训练中的专家并行策略提出新要求。探索专门针对 UniPool 的通信与计算融合方案，能进一步释放其端到端效率。

总结与展望

UniPool 用简洁而深刻的方式重新审视了 MoE 架构中的专家容量分配问题。它通过一个全局共享的专家池，打破了深度与专家参数之间的线性紧耦合，为模型缩放引入了一个独立且高效的超参数。实验数据充分表明，这种设计不仅能直接提升预训练损失，还能在极大压缩专家参数的前提下保持竞争力，揭示了现有 MoE 架构中普遍存在的深层专家冗余。

展望未来，随着模型规模继续向万亿参数迈进，参数效率的重要性愈发凸显。UniPool 所代表的 “全局资源池化” 思想，可能不仅限于专家网络，还会渗透到注意力头、适配器模块等其他条件计算组件中，推动整个高效大模型架构设计的范式演进。对于工程实践者而言，现在是重新思考 “是否每一层都需要自己的专家” 的时候了——答案很可能是否定的，而 UniPool 已经给出了一个优雅的替代方案。