面向人工智能时代的数据中心供电层级架构设计

论文信息

标题: Designing Datacenter Power Delivery Hierarchies for the AI Era

作者: Grant Wilkins, Fiodar Kazhamiaka, Alok Gautam Kumbhare, et al.

发布日期: 2026-05-15

PDF 链接: 下载 PDF

论文背景与研究动机

人工智能的爆发式增长正在根本性地改变数据中心的设计范式。论文指出，AI 加速器机架的功率密度正以远超传统服务器的速度攀升：当前 AI 加速器机架已超过 150 kW，公有路线图显示，到 2027 年左右，机架级和 Pod 级系统的部署功耗将逼近 1 MW。这一趋势对数据中心供电架构设计者构成了重大挑战。

数据中心大厅在建造时就确定了供电架构，并在长达 15 至 25 年的生命周期内跨越多个硬件世代。问题在于，为今日硬件选择的供电架构，必须对几年后到来的、功率密度大幅提升的系统仍然保持高效。更棘手的是，机架部署的可行性是分层级的：一个机架或 Pod 必须同时满足供电路径上每一级的容量和冗余约束。随着部署单元功耗增长到占据 UPS、母线、配电单元和冷却容量的显著比例，总装机功率成为一个误导性指标——一座大厅可能仍拥有可观的剩余功率，却无法接纳下一个部署，因为剩余容量被碎片化在各个域中。论文将这种无法使用的容量称为 “搁浅容量”（stranded capacity）。

标准规划指标无法捕捉这一效应。装机的兆瓦数和每瓦资本支出衡量的只是安装的电气容量，而非供电架构在经历多年设备到达和部分填充后仍能继续接纳的负载。随着部署单元功耗显著且快速地增长，这一问题变得愈发不可忽视。论文由此提出：AI 数据中心供电设计的核心目标不应是装机兆瓦数，而应是随时间推移的可部署容量（deployable capacity over time）。

核心方法：基于生命周期的供电架构评估框架

为应对上述挑战，论文构建了一个评估框架，通过模拟现实中的设备到达序列、功率超配和退役过程，对供电架构设计进行吞吐量、功耗和成本等多维度评估。

机架资源与部署模型

框架将 IT 设备分为三类：GPU 加速器、通用计算和存储。每个机架在安装时带有功率需求 $P_r(\tau)$ 和冷却需求向量 $C_r(\tau)$ ，后者由功率转换而来：气冷按 165 CFM/kW 计算，直接芯片液冷按每机架 2 LPM 计算。机架还分为高可用性（HA）和低可用性（LA）两个层级，HA 机架必须在满足任意单条供电线路故障仍能维持运行的条件下才能部署，LA 机架则可占用储备容量。

分层级放置约束与可行性条件

供电架构被建模为从变电站到机架排的树状结构。一个部署的可行性条件是：在所有资源维度 $m \in\{\text{功率},\text{气冷},\text{液冷},\text{空间}\}$ 上，对于候选位置的祖先路径中的每一级节点 $\ell_k$ ，满足：

L_{\ell_k}^{(m)} + d_r^{(m)} \leq C_{\ell_k,\text{eff}}^{(m)}

其中 $C_{\ell_k,\text{eff}}^{(m)}$ 是考虑冗余约束后的有效容量。对于分布式冗余 $xN/y$ 设计，高可用性部署的有效容量为 $(y/x) \cdot C_\ell$ ；对于块冗余设计，主用线路可加载到额定容量 $C_\ell$ 。

放置策略与搁浅度量

框架评估了四种在线放置启发式策略：最小浪费、随机、轮询和方差最小化。实验表明，方差最小化——以最小化 UPS 域间不平衡为目标进行部署——在分布式冗余设计中尤其有效，能显著降低搁浅容量。论文将搁浅容量定义为已配置但因其他约束首先绑定而无法转化为部署负载的容量。报告的成本指标包括：初始 $/MW（按铭牌容量归一化的单厅资本支出）和有效 $/MW（按最终部署 IT 负载归一化的总资本支出），二者差距反映了已建基础设施无法转化为可部署负载的程度。

创新贡献与技术细节

论文的核心贡献在于识别并量化了两种供电拓扑结构导致容量搁浅的不同机理。

分布式冗余：储备碎片化

在分布式 $xN/y$ 设计中，储备散布在各活动线路之间。每个线路只能使用其额定容量的一部分用于 HA 负载，剩余部分必须留作故障转移。考虑一个部署 $r$ 连接到 $k_r \geq 2$ 个父节点，当某一父节点故障时，其他父节点必须吸收的转移负载为：

\Delta(P_r, k_r) = \frac{P_r}{k_r - 1}

只有当足够数量的父节点同时拥有至少这么多本地余量时，部署才可行。总松驰量不足以保证可行性——一座大厅总余量大于 $P_r$ ，仍可能因松驰量分散在各父节点之间而无法部署。一个具体的例子是：10N/8 大厅中十个 2.5 MW 的 UPS 单元提供 20 MW HA 容量，当均匀部署了 18 MW 后，每个 UPS 剩余 200 kW 余量。一个 650 kW、 $k_r = 4$ 的机架，每个父节点需要约 217 kW 余量，因此尽管总余量仍为 2 MW，部署却会失败。

块冗余：线路容量量化

块冗余设计中故障转移由专门的备用线路承担，避免了跨父节点的储备碎片化问题，但代价是可用容量变得更为粗粒度。对于可部署容量为 $C$ 的块和部署功耗 $P_r$ ，块能容纳 $\lfloor C/P_r \rfloor$ 个部署，剩余容量为：

\eta(P_r) = (C - \lfloor C/P_r \rfloor P_r) / C

关键点在于可分割性：刚好在 $P_r = C/q$ 阈值之下时，可容纳 $q$ 个部署；刚好超过阈值时，只能容纳 $q-1$ 个，剩余容量不足以接纳另一个相同规格的部署。

单 SKU 扫描实验与机理解耦

论文通过单 SKU 扫描实验清晰地分离了这两种搁浅机理。对于每个功率点，用一个相同规格的部署反复填充一座大厅直至失败，然后测量已配置但无法使用的容量比例。结果显示：块冗余设计在部署功耗越过可部署块容量的可整除阈值时出现尖锐跳跃；分布式冗余设计则因同时满足多个父节点的余量约束失败而呈现出更平滑的搁浅增长。这一实验将两种结构性搁浅原因清晰分离，即使在真实机群中这种模式会因异构 SKU、到达顺序和收回等因素而平滑化，但在高功率密度下这些结构性机制不会被根本消除。

实验结果分析

论文基于 2026 至 2034 年、累计 IT 需求 10 GW（其中 GPU 6 GW、计算 2.8 GW、存储 1.2 GW）的仿真设置，进行了系统的对比评估。

关键发现一：在生命周期下，设计排序发生显著反转。 在静态指标上，4N/3 和 3+1 具有相似的装机 HA 容量和基线成本，表面上 4N/3 略优。但在 8 年机群生命周期评估中，3+1 出现了严重得多的尾部搁浅（P90），需要多建 23 座大厅才能服务同样的需求，导致有效资本支出差距从静态的约 3% 扩大到 5.8%。这种反转是因为未来部署必须适配前期部署留下的残差容量格局；随着 GPU 功耗上升，更大的部署量占据供电路径上各级组件的更大比例，使这一现象变得显著。

关键发现二：生命周期搁浅遵循拓扑特定机理。 在 3+1 设计中，高搁浅点聚类于 2.5 MW UPS 块的 $C/q$ 阈值附近，与单 SKU 扫描中的量化效应一致；4N/3 设计的搁浅则随部署功耗上升而更平滑地增加，未出现离散阈值效应。变体 Pod 组合会改变部署量程对供电架构的 “可视” 量值：某些量值对上和上级电气额定值匹配不佳，引发可部署容量的骤降。

关键发现三：Pod 效率增益的有效性是条件的。 论文针对 MoE-132T 工作负载展示了 Pod 规模扩大带来的取舍：更大的 Pod 将更多专家并行通信保留在本地高带宽域内，提升推理吞吐量（每瓦特 tokens 数），但同时增加可部署性惩罚，推高有效成本。在 10N/8 设计中，更大 Pod 的吞吐增益在机群尺度上保留更多；在 8+2 设计中，相同的性能增益更早被可部署性惩罚抵消。论文定义了 “Pod 收益” 指标：只有当通信增益超过部署量子变大带来的部署能力损失时，Pod 规模扩大才具有正向净收益。

实践应用建议与未来方向

实践应用建议

在供电架构设计阶段引入生命周期可部署性评估：传统比较仅依赖装机 MW 和初始 $/W，对于 AI 数据中心应改为评估整个生命周期内的可部署容量、有效 $/W 和吞吐量等指标。论文的仿真框架提供了一种可操作的方法。
根据部署量程选择冗余拓扑：在低功率密度或高密度部署比例较低的过渡期，块冗余仍可能是有效的选择；一旦 AI 部署功率密度增长到使部署粒度成为一阶约束，分布式冗余的优势就凸显出来。
部署粒度与通信增益的权衡评估：在决策 Pod 规模时，不应仅考虑理论硬件性能提升，还必须评估数据中心的供电架构能否高效承载这些更大粒度的部署。论文提出的 Pod 收益指标为这一权衡提供了量化手段。
操作杠杆的局限性认知：调整部署量子或强化功率收回可以缓解部分搁浅，但不能根本改变供电架构结构带来的约束。在架构约束绑定后，剩余松驰量的可用性在结构上就已被限定。

未来发展方向

研究更为灵活的供电架构，如 800V 直流配电、动态拓扑重配置等，以在保持可用性的同时降低结构碎片化。
将工作负载的时空特性更紧密地集成到供电架构评估中，例如 AI 训练工作负载的同步性对峰值功率的影响。
在数据中心规划的早期阶段同时优化供电架构和硬件部署策略，而非依次进行。

总结与展望

本文针对 AI 加速器功率密度快速攀升带来的数据中心供电架构设计挑战，提出了一种基于生命周期可部署容量的评估范式。论文清晰地揭示了传统静态指标（装机 MW、初始 $/W）在评估长期效率时的误导性，并通过量化分布式冗余与块冗余两种拓扑在多层约束下搁浅容量的不同机理，为设计选择提供了结构化理解。实验结果表明，在 AI 时代的功率密度轨迹下，供电架构的选择会对可部署容量、有效成本和最终的服务吞吐量产生数十亿美元的财务影响。论文的核心启示是：AI 数据中心供电设计的正确目标不应是装机兆瓦，而是随时间推移的可部署容量。这一转变对于减少大规模基础设施建设中的低效和浪费具有重要的理论价值和实践指导意义。