神经元群体随尺度表现出分歧选择性

论文信息

标题: Neuron Populations Exhibit Divergent Selectivity with Scale

作者: Amil Dravid, Yasaman Bahri, Alexei A. Efros, et al.

发布日期: 2026-06-02

PDF 链接: 下载 PDF

论文背景与研究动机

神经网络的内部表征如何随规模演化，是深度学习与神经科学的共同核心问题。传统上，缩放定律主要刻画损失、困惑度等宏观指标随模型大小、数据量和计算量的幂律下降，但很少揭示神经元层面的结构变化。与此同时，可解释性研究一直在追问：单个神经元究竟编码了怎样的概念？随着模型容量增加，神经元是否变得更 “专注”（单语义）还是更 “混杂”（多语义）？

Dravid 等人之前的工作引入了 Rosetta 神经元——在不同独立训练的模型中具有高度相似激活模式的神经元，它们像罗塞塔石碑一样揭示了跨模型共享的表征基元。这篇新论文将 Rosetta 神经元作为一种可观测的内部标度变量，系统研究了其群体数量、选择性和领域专业化如何随规模变化。作者发现了一个神经元极化效应：随着模型变大，Rosetta 神经元越来越纯净、越来越专门化，而非 Rosetta 神经元则混在叠加态中，形成鲜明的两极分化。这一发现从神经元层面为宏观缩放定律提供了微观解释，并且指出：模型缩放不仅改进性能，还系统性地重组了内部表征的结构。

核心方法：Rosetta 神经元的识别与量化

论文以 Transformer 架构中的 MLP 神经元为研究对象。对于语言模型，将文本对齐到共享的字节边界，得到跨模型统一的 token 位置；对于视觉模型，则将不同 patch 大小的激活图通过双线性插值重采样到统一的网格。在同一组输入上运行两个模型，对任意一对来自不同模型的神经元，计算所有对齐位置上激活值的皮尔逊相关系数，然后通过互最近邻筛选出跨模型匹配的神经元对（取 top-1，即 $k=1$ ），这些对就构成了 Rosetta 神经元。

这种匹配策略与以往基于表征相似性或模型拼接的方法互补，它直接定位到单个神经元的粒度，且不依赖任何目标任务或预定义概念。论文使用了多种语言模型家族（Pythia、GPT-2、OPT、Qwen-2.5，参数规模从 80M 到 30B）和视觉模型家族（OpenCLIP、DINOv2、Pixio 以及基于 Diffusion Transformer 的生成模型，参数规模从 80M 到 5B），并将两两模型匹配后产生的 Rosetta 神经元数量相对于平均总神经元数进行幂律拟合。

创新性贡献：神经元缩放定律与极化效应

论文的核心贡献可归纳为以下三点：

Rosetta 神经元数量的次线性幂律缩放 在语言和视觉任务中，Rosetta 神经元数量 $|\mathcal{R}|$ 与模型总神经元数 $x$ 的关系可拟合为 $|\mathcal{R}| = c x^\alpha, \quad \alpha \approx 0.5-0.7$ 这意味着绝对数量随规模增长，但占比下降：更大的模型虽然在绝对意义上拥有更多可复现的神经元，但这些神经元在整体神经元池中的份额越来越小。作者在未训练网络和破坏对齐的控制实验中均未观察到类似规律，证实这是学习动态的产物。
神经元极化效应 论文提出并验证了一个关键预测：随着模型规模增加，Rosetta 神经元的平均选择性（用单语义性衡量）显著提升，而非 Rosetta 神经元的平均选择性却下降或保持低位。
- 在语言模型中，使用词汇空间投影的峰度衡量输出侧的选择性：将神经元输出权重与词嵌入做余弦相似度，峰度越高表示该神经元更集中在少量词元上。在 Pythia 系列中，Rosetta 神经元的平均峰度随模型增大而单调上升，非 Rosetta 群体则趋近于零。
- 在视觉模型中，利用 VLM（视觉语言模型）作为评判器，判断神经元的最强激活图像是否反映单一连贯特征。结果同样显示 Rosetta 群体的单语义率随规模上升，非 Rosetta 群体则下降。这种分化证实了论文提出的 “有限的神经元容量迫使特征竞争：高重要性特征被独立分配干净的神经元（成为 Rosetta），而低重要性特征只能混合在叠加态中（成为非 Rosetta 背景）”。
领域专业化与数据过滤 作者进一步发现，随着语言模型规模增加，Rosetta 神经元对代码、数学等专业化文本的激活占比显著上升，对通用文本的占比下降。在定量实验中，他们从 Pythia-6.9B 中选取一个对 JavaScript 代码高度选择性的 Rosetta 神经元，用其激活值从 CodeSearchNet 中过滤数据，仅用一个神经元就能以接近预言的 F1 值（0.98）恢复出 JavaScript 子集，并用该数据继续预训练 GPT-2 1.5B，困惑度接近直接使用全部 JavaScript 数据的效果。这直接展示了 Rosetta 神经元在数据工程中的实用潜力。

分析模型：特征重要性与容量分配

为了解释上述现象，论文构建了一个基于特征重要性谱的容量分配模型。假设网络有 $N$ 个神经元坐标，需要表示 $A(N) > N$ 个潜在特征（叠加态），特征重要性服从幂律 $w_r \propto r^{-\beta}$ ( $\beta>1$ )。每个特征在它最专属的神经元中的隔离度 $s_r$ 定义为信号与干扰的比值（类似信噪比）。网络通过优化一个受约束的分配问题来最大化效用：

\max_{s_r \ge 0} \sum_r w_r \log(1+s_r) \quad \text{s.t.} \quad \sum_r s_r \le \kappa N

这里对数效用源于从含噪观测中解码特征时条件熵的减少量，线性约束来自于激活向量总方差的界。该问题在连续极限下的最优解呈现尖锐的前沿结构：

s^\star(r;N) = \left[\left(\frac{r_0(N)}{r}\right)^\beta - 1\right]_+

其中 $r_0(N) = \Theta(N^{1/\beta})$ 是获得正隔离度的最大特征等级。Rosetta 可检测特征要求 $s_r \ge \tau$ ，由此得到 Rosetta 数量 $R_\tau(N) = \Theta(N^{1/\beta})$ ，即次线性增长。模型同时预测：

Rosetta 平均隔离度 $\bar{s}_{\text{Rosetta}} = \Theta(N^{(\beta-1)/\beta})$ ，随 $N$ 增长；
非 Rosetta 尾部平均隔离度 $O(N^{1/\beta}/A(N))\to 0$ ，解释了极化。

该模型仅依赖于特征重要性的幂律分布和容量约束，无需指定具体任务或架构，为实验结果提供了优雅的理论支撑。

实践应用建议

可解释性工具开发 Rosetta 神经元天然跨模型对齐，可以作为一种无监督的发现工具，自动提取大规模模型中的通用概念，用于构建概念字典或监控模型行为。特别地，其规模分化特性意味着可以从更大的模型中提取更纯净、更专门的神经元用于下游分析。
数据过滤与领域适应 论文所示的单神经元过滤范例表明，可以利用大模型中高度专门化的 Rosetta 神经元对特定领域数据进行高精度筛选，从而低成本地构建高质量继续预训练数据。这对于获取受限或标注稀缺的领域尤其有价值。
缩放定律与模型设计 理解神经元如何随规模极化，可以为模型架构设计提供指导：例如，是否可以通过改变 MLP 扩展比或引入显式的容量分配机制，更早地推动有用特征的 “Rosetta 化”，从而在相同参数量下获得更好的表征质量和迁移能力。
训练动态监控 在训练过程中追踪 Rosetta 神经元的出现和纯度变化，有望作为一种内部信号来评估模型是否充分学习了稳定的概念结构，或者判断是否出现表征退化。

局限性与未来发展方向

本文的分析建立在 Rosetta 神经元这一特定观测上，它可能只是全部共享计算的一部分，许多功能可能以注意力头、回路或完全分布式的形式存在，无法由单个神经元捕捉。此外，单语义性的度量依赖于启发式指标和 VLM 判断，未来需要更严格、更自动化的定义和检测手段。

未来工作可从以下几方面展开：

从优化动态导出 Rosetta 现象：当前分析模型是静态分配，尚未解释梯度下降如何在训练中逐步产生这种共享结构。动态理论将更具解释力。
扩展到其他模态和架构：本文覆盖语言和视觉，未来可检查多模态模型、强化学习智能体或混合专家模型中的对应规律。
将 Rosetta 神经元用于实际下游任务：除数据过滤外，还可探索它们在模型压缩、幻觉检测或安全对齐中的应用。
研究后训练（微调、RLHF）对 Rosetta 神经元的影响：这些共享基元在适应新分布时是保持、变形还是消失？

总结与展望

这篇论文在宏观缩放定律与微观神经元选择性之间架起了一座桥梁。通过引入 Rosetta 神经元这一可复现的群体，它证明了模型内部共享结构的增长是可预测的次线性幂律，且伴随着深层的极化效应：高重要性特征被逐步纯化并专门化，低重要性特征继续拥挤在叠加背景中。分析模型以简洁的容量分配逻辑解释了这些规律，而数据过滤实验则展示了即使单个神经元也能携带足够丰富的信息来支撑实际应用。这项工作不仅丰富了我们对神经网络标度行为的理解，也为构建更透明、更结构化的未来大模型提供了新的观测工具和理论基石。