ELF:嵌入式语言流

arXiv: 2605.10938v1

论文信息

标题: ELF: Embedded Language Flows

作者: Keya Hu, Linlu Qiu, Yiyang Lu, et al.

发布日期: 2026-05-11

arXiv ID: 2605.10938v1

PDF 链接: 下载 PDF

引言:从图像到语言的连续扩散模型

扩散模型和基于流的生成模型在图像、视频等连续数据领域已经取得了巨大成功,成为事实上的标准方案。这些方法的核心在于模拟一个从噪声到数据的连续演化过程,通过逐步去噪生成高质量样本。近年来,将这类模型迁移到语言建模领域的尝试日益增多,但主流做法仍然是在离散令牌(token)空间上构建扩散过程。离散扩散语言模型(DLM)在采样时需要逐步修正离散的令牌序列,其设计往往需要精心构造转移矩阵或掩码策略,并且难以直接复用图像领域成熟的连续扩散技巧,如无分类器引导(Classifier-Free Guidance, CFG)。

本文介绍的 ELF(Embedded Language Flows)给出了一种新的视角:直接在连续的嵌入空间中建模语言生成,仅在最后一步映射回离散令牌。通过采用连续时间流匹配(Flow Matching)框架,ELF 将语言建模统一到了与图像生成相似的连续扩散范式下。实验表明,这种“最小化离散领域适配”的策略不仅简单有效,而且在生成质量和采样效率上都显著优于现有的离散和连续扩散语言模型。

背景与动机:离散与连续之间的裂隙

语言天然是离散的符号序列,但现代语言模型通常将每个令牌映射到一个高维连续嵌入向量。在图像扩散模型中,数据本身就是连续的像素值,前向扩散过程可以自然地通过添加高斯噪声来进行。然而对于文本,如果直接在离散令牌上定义扩散,就需要设计一套离散状态间的转移机制,例如通过掩码令牌(mask)或基于转移矩阵的随机游走。这类方法在理论上有其优雅之处,但面临几方面挑战:采样步骤通常较多,生成质量受限于特定离散转移设计,而且连续的引导技术(如 CFG)难以直接移植。

连续扩散语言模型并非全新概念,早期工作尝试在词嵌入向量上添加高斯噪声,然后通过一个学习到的 denoiser 预测原始嵌入,再映射回离散令牌。但这类方法往往需要在每个采样步骤都执行离散化(例如取最近邻嵌入),使得模型的推理路径反复跨越连续与离散空间,造成信息丢失和训练-推理不一致。此外,它们通常受限于固定的步数调度,难以利用连续时间扩散带来的灵活性和理论保证。

流动匹配(Flow Matching)是近期兴起的一类生成建模框架,它直接学习一个从先验分布到数据分布的连续时间速度场,从而避免了扩散模型中复杂的随机微分方程(SDE)推导。通过条件流匹配(Conditional Flow Matching),我们可以定义一个简单的条件概率路径,并用神经网络直接预测该路径上的速度向量。ELF 正是基于这一框架,将语言生成的整个扩散过程都置于连续的嵌入空间中,只在最后一步使用一个共享权重的网络将去噪后的嵌入映射为离散令牌。这种设计从根本上消除了训练和推理之间的离散化缝隙。

核心方法:嵌入空间中的流动

嵌入表示与正向路径

ELF 首先将文本序列中的每一个令牌 xx 映射到对应的嵌入向量 e=Emb(x)e = \text{Emb}(x),这些嵌入可以来自预训练模型,也可以随机初始化并与模型其他部分联合训练。令一条长度为 LL 的序列对应的嵌入矩阵为 ERL×d\mathbf{E} \in \mathbb{R}^{L \times d},其中 dd 是嵌入维度。

正向过程从数据分布出发,逐渐向先验噪声分布演化。给定一个时间 t[0,1]t \in [0,1],条件流匹配通常定义一条线性插值路径:

Et=(1t)E0+tϵ,ϵN(0,I)\mathbf{E}_t = (1 - t)\mathbf{E}_0 + t \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})

其中 E0\mathbf{E}_0 为真实的嵌入序列,ϵ\boldsymbol{\epsilon} 为高斯噪声。对应的真实速度场为 vt=ϵE0\mathbf{v}_t = \boldsymbol{\epsilon} - \mathbf{E}_0。神经网络 vθ(Et,t)v_\theta(\mathbf{E}_t, t) 被训练去预测该速度,从而学习到从噪声向数据映射的动力学。训练目标为简单的均方误差:

L=Et,E0,ϵ[vθ(Et,t)(ϵE0)2]\mathcal{L} = \mathbb{E}_{t, \mathbf{E}_0, \boldsymbol{\epsilon}} \left[ \| v_\theta(\mathbf{E}_t, t) - (\boldsymbol{\epsilon} - \mathbf{E}_0) \|^2 \right]

这一过程完全在连续嵌入空间中进行,无需任何离散操作。

从连续到离散的单步映射

在采样(逆向过程)的最后一个时间步 t=1t=1(实际实现中可能使用一个接近 1 的终点时刻),模型需要将去噪后的连续嵌入 E^1\hat{\mathbf{E}}_1 转换回离散令牌序列。不同于以往在每个中间步都进行离散化的做法,ELF 仅在最终一步引入一个映射网络 fϕ:RL×dRL×Vf_\phi: \mathbb{R}^{L \times d} \to \mathbb{R}^{L \times |\mathcal{V}|},其输出为词汇表 V\mathcal{V} 上的 logits,再通过 argmax 得到离散令牌。重要的是,这个映射网络的权重与嵌入层共享:即线性映射的权重矩阵就是嵌入矩阵的转置。这种共享设计不仅减少了参数量,还使得整个训练过程保持一致性——嵌入空间的结构受到分类目标的直接约束,有利于保持语义的连续性。

无分类器引导的简易迁移

图像扩散模型中强大的可控生成技术 CFG,在连续语言模型中可以毫无障碍地应用。在 ELF 中,我们只需在训练时以一定概率随机丢弃条件信息(例如源文本或类别标签),得到一个同时可作为条件模型和无条件模型的网络。推理时,通过混合有条件和无条件预测的速度场:

v~θ(Et,t,c)=(1+w)vθ(Et,t,c)wvθ(Et,t,)\tilde{v}_\theta(\mathbf{E}_t, t, c) = (1 + w) v_\theta(\mathbf{E}_t, t, c) - w v_\theta(\mathbf{E}_t, t, \emptyset)

其中 ww 为引导强度。这种简单的线性外推就能显著提升生成文本的质量与可控性,而无需像离散方法那样设计复杂的重新参数化。

训练与推理的细节

训练过程中,时间 tt[0,1][0,1] 均匀采样,不同序列长度通过填充达到一致。网络架构采用标准的 Transformer 编码器,输入为带噪声的嵌入加上时间步编码,输出为与输入同维度的速度预测。推理时使用常微分方程(ODE)求解器,如 Euler 方法,沿学习到的速度场从 t=0t=0t=1t=1 进行积分。由于整个动态系统是平滑且确定性的(除最后的 argmax 外),采样的数值稳定性好,所需函数评估次数(NFE)远少于传统离散扩散模型的采样步数。

创新点与贡献

ELF 的核心贡献在于指出了一个反直觉的事实:让扩散语言模型尽可能“连续化”反而能获得更好的性能。其创新点可归纳为三方面:

  1. 范式统一:将语言生成完全纳入连续时间流匹配框架,仅保留最终一步的离散化,大大减少了工程复杂度和理论割裂。这使得图像扩散领域的大量技巧(CFG、蒸馏加速、潜在空间扩散等)可以被直接搬用。

  2. 共享权重的映射设计:通过共享嵌入矩阵和输出分类层的权重,确保连续嵌入空间与离散令牌空间在训练过程中相互校准,避免了单独训练一个解码器所带来的不一致性,也减少了模型参数。

  3. 超越现有 DLMs 的性能:在标准文本基准上,ELF 以更少的采样步数(例如 5-10 步)取得了比离散掩码扩散模型(如 MDLM)和基于分数的连续扩散模型更低的困惑度(perplexity)和更高的生成质量(MAUVE 分数),证明了连续扩散路径在语言建模中的潜力。

实验结果分析

论文在多个文本生成基准上进行了系统评估,包括无条件语言建模(如 LM1B、OpenWebText)和条件文本生成任务。以下为关键比较维度:

  • 生成质量:在困惑度指标上,ELF 在 5 步采样时便超越了需要 100 步以上的离散扩散模型(如 D3PM、MDLM)。随着引导强度 ww 的引入,MAUVE 分数(衡量生成文本与人类文本分布相似度的指标)进一步提升,达到了最优水平。
  • 采样效率:离散 DLMs 通常需要 100-1000 个细化步骤才能生成高质量文本,而 ELF 由于使用连续 ODE 求解器,只需 5-20 次网络前向就能收敛,这在部署效率上极具优势。
  • 可扩展性:实验表明,将 ELF 与预训练嵌入结合时效果更佳,且模型规模扩大后性能稳定提升,未出现连续与离散之间的鸿沟问题。
  • 消融实验:去除共享权重映射会导致连续性被破坏,质量显著下降;在早期步就执行离散化同样损害性能,这印证了“全程保持连续”设计原则的正确性。

这些结果清楚地表明,连续扩散语言模型不仅可行,而且在现阶段已经能够超越精心设计的离散模型,为未来大语言模型的可控生成提供了新的技术路径。

实践应用建议

ELF 的成功为实际系统带来多方面的启示:

  • 高效率文本生成服务:在对话系统、新闻摘要、故事生成等需要快速响应的场景中,ELF 的少步采样特性可大幅降低推理延迟。结合蒸馏技术或更好的 ODE 求解器,有望实现实时级别的可控文本生成。
  • 可控生成与风格迁移:借助 CFG,开发者可以轻松地将条件控制(如情感标签、主题词)融入生成过程,无需专门设计离散规则的引导机制。这在营销文案生成、个性化推荐内容生成等商业应用中具有很强的实用性。
  • 与预训练大模型的结合:ELF 的连续嵌入空间天然适合作为大语言模型的“中间层”,可以将预训练 Transformer 的嵌入蒸馏为一个快速生成模型,或作为候选回答的重排序与细化模块。例如,在量化交易领域,利用 ELF 基于市场数据描述生成研究报告或交易决策摘要,能够兼顾生成质量与速度。
  • 多模态扩展:该框架很容易推广到文本-图像、文本-视频等跨模态生成任务,只需将不同模态的数据映射到联合连续空间,即可共享同一流匹配训练流程。

未来发展方向

ELF 为连续扩散语言模型开辟了道路,但仍有许多可探索的方向:

  1. 大规模实验:当前实验主要在中型模型上进行,将 ELF 扩展到数十亿参数并验证其在大规模语料上的竞争力,是下一阶段的重要工作。
  2. 更优的映射策略:目前使用共享权重线性映射已经足够有效,但未来可以尝试更复杂的解码器,如小型 Transformer,来捕捉去噪后嵌入中的局部依赖,进一步提升文本流畅度。
  3. 与离散采样的融合:在最后一步之前引入一点离散噪声或波束搜索,或许能在不损失连续优势的情况下提升输出多样性。
  4. 理论分析:连续扩散在离散符号空间中是否存在根本性的模式坍塌倾向?通过信息论或微分几何工具进行深入分析,可能揭示这类模型的能力边界与改进方向。
  5. 应用于代码、数学等结构化语言:ELF 也可以用于代码生成或数学公式生成,利用其连续路径在结构约束下进行优化,配合编译器反馈形成闭环提升。

总结与展望

ELF(Embedded Language Flows)以一种简洁且深刻的方式重新审视了语言生成的连续扩散建模问题。通过将整个扩散过程保留在嵌入空间、仅最终一步做离散化,并采用流动匹配训练范式,它成功地将图像扩散模型中积累的大量技术红利引入语言领域,在质量和效率上均实现对传统离散扩散语言模型的超越。这一工作不仅提供了高性能的文本生成工具,更重要的是挑战了“语言扩散必须离散化”的惯性思维,为生成模型在符号与连续信号之间的融合指明了新路。

展望未来,随着更大规模实验的推进和更多工程技巧的整合,基于连续嵌入空间的流匹配模型极有可能成为新一代高效可控文本生成的基础架构,并在多模态、交互式应用等复杂场景中发挥核心作用。