FTPrimitiveBench：面向硬件驱动与有偏噪声模型下逻辑计算的基准测试套件

论文信息

标题: FTPrimitiveBench: A Benchmark Suite For Logical Computation Under Hardware-Motivated and Biased Noise Models

作者: Shuwen Kan, Adrian Harkness, Zefan Du, et al.

发布日期: 2026-05-05

PDF 链接: 下载 PDF

研究背景：从理想均匀噪声到硬件激励的结构化挑战

容错量子计算的核心在于用量子纠错码（如表面码）保护逻辑信息，使其不受物理量子比特噪声的污染。然而，在真实硬件上评估纠错方案的有效性历来依赖大规模高性能计算下的噪声稳定子模拟，并配合一个所谓 “均匀去极化噪声模型” 作为基准。该模型假设每个量子比特发生的泡利错误（X、Y、Z）概率相同且独立，测量误差与空间、时间上的相关性也被视为弱耦合，可以忽略。这种对称性和均匀性的简化极大地降低了模拟难度，但现实世界的超导、离子阱、中性原子等量子处理器却充满了更丰富的噪声结构：泡利错误偏向于某一种类型（Pauli bias）、测量错误率远高于泡利错误（measurement bias），以及由于芯片制造工艺、串扰或环境温度梯度造成的空间或时空非均匀噪声。

当实际噪声偏离均匀去极化模型时，以该模型为基准优化的纠错码和译码器将面临性能坍塌。更关键的是，这些结构化特征并非纯然障碍——恰恰相反，它们为真正的硬件与码协同设计（hardware–code co-design）打开了机遇窗口。例如，倘若量子比特更倾向发生 Z 错误，则可以通过设计对 Z 错误抑制更强的纠错码或调整译码策略来提升逻辑性能。但是，要把握这种机遇，研究者必须在模拟层面拥有一种既能忠实体现硬件噪声特征，又保持计算可追踪性的噪声模型，以及基于此模型的标准化评估平台。这就是 FTPrimitiveBench 所要填补的空白。

核心方法：在硬件噪声模型上构建逻辑原语基准

FTPrimitiveBench 提出了一个系统化的基准测试框架，其核心思想是将逻辑操作原语（logical primitives）与硬件激励的噪声模型紧密结合，并通过统一的接口生成标准化的逻辑电路和噪声注入流程，使得不同 QEC 协议与译码器可以在相同的 “噪声背景” 下进行比较。

结构化噪声族

框架支持三类最典型的硬件相关结构化噪声，并允许用户通过配置参数自定义精细的噪声模型：

泡利偏置噪声（Pauli bias） 真实量子比特的弛豫（ $T_1$ ）和退相干（ $T_2$ ）误差往往导致 X、Y、Z 泡利错误的比例严重失衡。例如，在部分超导量子比特中 Z 错误率远高于 X 错误。该噪声族将单比特错误概率分解为不同泡利通道的概率权重，从而保持泡利框架内的简单性，同时引入各向异性。
测量偏置噪声（Measurement bias） 许多平台中，测量保真度远低于量子门保真度，且测量错误（将 $|0\rangle$ 误读为 $|1\rangle$ 等）具有明显的非对称分布。FTPrimitiveBench 显式地为测量分配独立的错误模型，不再将其简单地混入门操作的误差中，从而暴露出测量密集的逻辑原语在真实硬件下的脆弱性。
空间与时-空非均匀噪声 硬件中的频率拥挤、控制线串扰、局部热源等因素会造成芯片上不同区域量子比特的错误率差异。框架允许为每个数据量子比特和辅助量子比特指定独立或区域分组的错误参数，甚至可以引入时间上的缓变或脉冲性相关性，反映实际设备的漂移特征。

这些噪声模型均被精心设计为泡利信道（Pauli channel）形式，使得它们可以直接作用于稳定子模拟，从而保持仿真效率并兼容标准 Clifford 电路模拟器。

逻辑原语生成器

容错量子计算的基本构件并非单块解码后的物理量子比特，而是由表面码等拓扑码构造的逻辑操作单元。FTPrimitiveBench 内置了四个核心表面码 Clifford 原语的自动生成器：

逻辑存储（Logical memory） 评估静态逻辑量子比特在一段时间中的存活能力，是衡量 “逻辑错误率 vs 码距” 曲线的基础。
格点手术（Lattice surgery） 在二维平面表面码架构中实现逻辑 CNOT 或逻辑多比特纠缠的主流方式，其实现包含大量的辅助比特测量和合并/分裂操作，对测量偏置及时序噪声极为敏感。
横向逻辑 Hadamard 门（Transversal logical Hadamard） 通过逐比特物理 Hadamard 与换位操作实现，因其天然的横向性质（错误不会在逻辑比特间传播）而被青睐，但该操作会改变码的结构，进而与泡利偏置产生微妙的相互作用。
基于格点手术的逻辑相位门（Logical phase gate via lattice surgery） 将魔法态注入或小角度旋转通过格点手术融入逻辑电路，是通往非 Clifford 门的桥梁。

每个原语生成器接收码距、深度、边界条件等参数，输出带有时序记录的标准电路表示。然后，噪声注入层根据用户选择的噪声模型，在物理门、空闲等待、初始化、测量等环节插入错误的泡利算子。

创新与贡献：基准体系的三重跨越

FTPrimitiveBench 的学术贡献可以从三个维度来理解：

第一，从存储基准迈向主动计算基准。 过去的纠错模拟基准（如经典的内存实验）通常只关注逻辑存储性能，却忽略了逻辑操作过程中错误传播模式的剧烈变化。本文明确指出，逻辑 Hadamard、格点手术这类主动操作会重新分布噪声的群体效应，同一个噪声模型对存储和对操作带来的逻辑错误率增加可能呈现截然不同的趋势。基准覆盖全流程原语，才能真正暴露硬件-码耦合的脆弱点。

第二，以标准化接口促进可复现比较。 科研社区长期面临一个痛楚：不同团队使用不同的内部噪声模型和实验设定，导致 QEC 性能声称难以横向比较。FTPrimitiveBench 提供了一套规范的 YAML/JSON 配置方式，从噪声参数到原语定义，均被结构化为可版本控制、可共享的配置文件。任何研究者都可以用相同的噪声模型重新运行他人的基准实验，或在此基础上引入新的译码器，彻底打破了封闭式评估的壁垒。

第三，揭示噪声结构、原语类型与译码器之间的三方交互效应。 这是本文最深刻的发现。传统思维倾向于寻找一个 “万能” 的纠错方案，但实验结果暗示，某个译码器在均匀去极化下表现优越，未必能在高测量偏置的格点手术中胜出；另一种译码器可能更擅长利用泡利偏置中的短程相关性。这种三方依赖关系从根本上要求硬件工程师和纠错码理论家必须进行协同设计，而不仅仅是把已知最优方案移植到新硬件上。

实验观察：结构化噪声带来质变的逻辑性能图谱

虽然论文重点是工具发布，但文章通过展示代表性实验揭示了结构化噪声对逻辑原语的定性区分。几个典型现象可以概括为：

在逻辑存储实验中，泡利偏置主要通过改变有效错误距离来影响逻辑错误率，但该影响相对平稳，且可以通过调整码的取向（旋转表面码与未旋转码）来部分缓解。
而当执行格点手术时，测量偏置会急剧放大逻辑错误，因为手术流程中连续进行的多次辅助量子比特测量形成了一条脆弱的测量链，任何单次测量错误的传播都可能污染相邻数据比特，在译码图中产生复杂的超边结构。
逻辑 Hadamard 门由于要在码边界进行物理 Hadamard，将原本的 X/Z 错误角色交换。若硬件中存在严重的 Z 偏置，交换后 X 错误成为主导，原以为可被抑制的错误类型反而爆发，这体现了操作对噪声对称性的颠覆作用。

这些现象的共同结论是：简单地将存储基准下的结论外推到实际计算场景是危险的，必须用全原语套件在目标噪声环境下检验任何 QEC 方案的泛化能力。

实践应用建议：以协同设计驱动容错架构的决策

基于 FTPrimitiveBench 揭示的噪声-原语-译码器交互效应，量子计算硬件与软件的实践者可以从以下几方面获益：

硬件定向前期选型：在芯片设计阶段，利用该基准模拟不同码距、不同操作混频下的逻辑性能，可以为物理比特布局、测量线路分配提供数据驱动的指导。例如，如果模拟显示测量偏置将严重限制格点手术保真度，那么设计者应当优先投资提高测量保真度，甚至考虑在量子比特层面加入针对测量噪声的定制主动重置脉冲。
译码器适配而非盲目移植：当团队将一套成熟的纠错方案迁移到新的硬件时，必须重新对基准中涉及的四种原语进行全扫描测试。若发现译码器在格点手术场景下性能骤降，可探索多尺寸匹配的窗口译码或基于机器学习的译码器，它们可能对某些结构化噪声具有天然的适应力。
噪声感知的资源估算：大型量子算法资源估算常常假设均匀去极化噪声。若能代入 FTPrimitiveBench 给出的更逼真的逻辑错误率公式（作为码距和深度的函数），资源预测将更为准确，进而影响整个容错架构的层级设计（如魔法态工厂蒸馏层次）。

未来发展方向：向非 Clifford 与全系统模拟延伸

当前 FTPrimitiveBench 聚焦于 Clifford 原语，这使其与高效的稳定子模拟完美适配，但其局限性也很明显：现实量子算法必然需要非 Clifford 门（如 T 门）。未来工作可将魔法态制备、蒸馏及逻辑 T 门注入等原语纳入基准，并借助准概率分解或更重的模拟技术估测噪声影响。此外，结合量子芯片的实际校准数据生成噪声模型，实现从物理层到逻辑层的自动闭环优化，将是连接实验室与理论的下一步关键桥梁。时间相关的复杂噪声（如低频 1/f 噪声）以及多逻辑量子比特之间的纠缠门也更加贴近未来的容错处理器形态，值得后续拓展。

总结与展望

FTPrimitiveBench 通过对硬件激励噪声的结构化建模和对核心表面码逻辑原语的统一抽象，把量子纠错评估从孤立的存储基准推向了更贴近真实容错计算的主动操作基准。其标准化的噪声-原语-译码器三方接口不仅促进了学术界的可重复性研究，更以实验揭示的三方交互效应为量子计算硬件与软件的协同设计指明了方向。可以预见，随着量子处理器规模和异质性的持续增长，像 FTPrimitiveBench 这样的基准工具将成为设计空间探索与早期决策不可或缺的模拟基础设施。开源生态的构建将进一步催化社区围绕硬件感知容错架构形成共同语言，从而加速实用量子计算的到来。