游戏社交搭建10万卡GPU集群技艺指南

手把手教你搭建10万卡GPU集群

引子

建设10万卡集群的必要性可想而知，面前AI公司第一梯队的门票还是是3.2万卡集群。展望来岁，这一数字将飞腾至10万卡(H100)集群，擢起飞间巨大。

由10万张H100组成的AI集群，其功耗高达150MW,投资跳动40亿好意思元(约300亿东谈主民币)。每年耗能约为$1.59\times10^9$千瓦时。按照0.078好意思元/kWh的费率计较，每年电费高达1.24亿好意思元。这一数字令东谈主瞠目，足以激发对动力耗尽和资本效益的长远念念考。

挑战

（1）动力跟空间挑战

算力瓶颈的背后，有着“动力”和“工程智商”这两座大山。

"10万块H100组成的集群，功率需求高达150MW,高出了当今天下最大的超等计较机El Capitan的30MW,后者的功率仅为前者的五分之一。"

在H100 Server里面，每块GPU的独建功耗约为700W。为险恶其运行需求，约莫需要575W的电源来驱动与之配套的CPU、汇注接口卡(NIC)和电源单位(PSU)。

H100 Server外部，AI集群还囊括了存储职业器、汇注交换机、光收发器等许多其他征战，约占总功耗的10%。

X.AI 将田纳西州孟菲斯市的一家旧工场改酿成了数据中心，每天耗尽100万加仑水和150兆瓦电力。当今天下上还莫得任何一座数据中心有智商部署150MW的AI集群。

这些AI集群通过光通讯进行互联，而光通讯的资本与传输距离成正比。

多模 SR 和 AOC收发器的最长传输距离约为50米。

在数据中心的天下中，每栋大楼皆被赞美为一个“计较岛”。这些岛屿里面充满了多个“计较仓”，它们之间的明白是通过经济实用的铜缆或者多模互联罢了的。而为了罢了这些岛屿之间的联通，咱们选拔长距离的单模光通讯技艺。这种形式不仅高效，并且约略确保数据的认知传输，从而险恶当代数据中心对高性能和可靠性的需求。

由于数据并行相对的通讯量比较少，因此，不错跑在不同计较岛之间：

当今，这个领有10万+节点的集群中，已有3栋建筑(3个计较岛)完工，每座计较岛容纳约1000-1100个机柜，总功耗约为50MW。

（2）汇注架构及并行政策

数据并行（Data Parallelism）

这种并行形式的通讯条款最低，因为GPU之间只需要传递梯度数据。

干系词，数据并行条款每块GPU具备充足的内存以存储统共这个词模子的权重。关于领有1.8万亿参数的GPT-4模子而言，这意味着高达10.8TB的内存需求。

张量并行（Tensor Parallelism）

为了克服数据并行带来的内存截至，东谈主们发明了张量并行技艺。

在张量并行中，GPU之间需要不时通讯，以交换中间计较收尾，从而罢了更高效的计较。因此，张量并行需要高带宽和低蔓延的汇注明白。

通过张量并行，不错灵验减少每块GPU的内存条款。例如，使用8个张量并行等第进行NVLink明白时，每块GPU使用的内存不错减少8倍。

活水线并行（Pipeline Parallelism）

另一个克服GPU内存截至的程序是活水线并行技艺。

活水线并行是一种在散布式计较环境中罢了模子并行的技艺，主要用于深度学习领域，特等是在处理大鸿沟神经汇注模子时。通过将模子的不同部分(如神经汇注的层)分拨到不同的计较节点上，活水线并行约略在不殉国磨练效果的情况下，欺诈集群中的多台机器共同完成模子磨练。

当一块GPU完成层的前向、反向传播运算后，它不错将中间收尾传递给下一块GPU,以便立即入手计较下一个数据批次。这么不错提高计较效果，缩小磨练时代。

尽管引入了GPU之间的通讯量，但每个GPU在完成计较后需将数据传递给下一个GPU,因此需要高效的汇注明白以确保数据快速传输。

活水线并行对通讯量的条款很高，但莫得张量并行那么高。

3D并行（3D Parallelism）

选拔H100 Server内的GPU张量并行，计较岛内节点活水线并行，跨计较岛罢了数据并行，提高效果。

汇注架构

进行汇注拓扑筹谋时需要同期斟酌到所用的并行化决议。

GPU部署有多种汇注，包括前端汇注、后端汇注和膨胀汇注(NVLink),每个采麇集运行不同的并行决议。

NVLink汇注是处理张量并行带宽需求的独一快速取舍。尽管后端汇注能精辟搪塞大多数其他类型的并行，但在存在约束比问题时，数据并行成为首选。

面前建设10万张H100的超等AI算力集群，不错取舍的汇注决议主要有三种，分手是Broadcom Tomahawk 5,Nvidia Infiniband,以及Nvidia Spectrum-X。在大型AI集群中，Spectrum-X比较InfiniBand具有权贵上风，包括性能、功耗和资本。其中，Spectrum-X是NVIDIA推出的高性能以太网交换芯片平台，仅用于Spectrum-X平台，不只独销售。

这三种决议各有优劣，具体取舍需要凭据践诺需求进行评估。要是您需要更多信息，请参考有关文件或推敲专科东谈主士。

InfiniBand

InfiniBand的上风在于，以太网并不维持SHARP汇注内缩减。

InfiniBand NDR Quantum-2交换机领有64个400G端口，相较之下，Spectrum-X以太网的SN5600交换机和Broadcom的Tomahawk 5交换机ASIC均提供128个400G端口，提供了更高的端口密度和性能。

"Quantum-2交换机端口有限，10万节点集群中最多只可罢了65,536个H100 GPU的统统互联。"

下一代InfiniBand交换机Quantum-X800将通过144个800G端口处置容量问题，但仅适用于NVL72和NVL36系统，因此不太可能在B200或B100集群中叶俗应用。

Spectrum-X

Spectrum-X,收获于NVIDIA库如NCCL的一级维持，为您带来无与伦比的上风。加入他们的新家具线，您将成为首批客户，体验前所未有的立异。

Spectrum-X需搭配Nvidia LinkX收发器购买，因为其他收发器可能无法往时职责或未通过考据。

英伟达在400G Spectrum-X中，选拔Bluefield-3替代了ConnectX-7行动暂时的处置决议，而ConnectX-8展望将与800G Spectrum-X好意思满协同。

在巨大的数据中心中，Bluefield-3和ConnectX-7的资天职别为约300好意思元/ASP,但Bluefield-3需额外耗尽50瓦电力。因此，每个节点需加多400瓦功率，从而抑遏了举座磨练职业器的每皮焦尔智能度。

Spectrum-X在数据中心部署10万个GPU需5MW功率，相较之下，Broadcom Tomahawk 5无需此功率。

为了幸免给英伟达支付昂贵的用度，许多客户取舍部署基于Broadcom Tomahawk 5的交换机。这款芯片约略以5.5W的功率为800Gbps的流量供电，减少了将信号驱动到交换机前端的可插拔光学器件的需要。此外，Broadcom周二推出了该公司最新的交换芯片Tomahawk 5,约略在端点之间互连料到每秒51.2太比特的带宽。

基于Tomahawk 5的交换机与Spectrum-X SN5600交换机相通具备128个400G端口，若公司领有不凡的汇注工程师，可罢了等同性能。此外，您可从任何供应商购打通用收发器及铜缆并进行搀杂使用。

繁密客户取舍与ODM厂商配合，如Celestica的交换机、Innolight和Eoptolink的收发器等。

"凭据交换机和通用收发器的资本斟酌，Tomahawk 5在价钱上大大优于Nvidia InfiniBand。并且，与Nvidia Spectrum-X比较，它更具资本效益。"

缺憾的是，要为Tomahawk 5修补和优化NCCL通讯集群，您需要具备塌实的工程技巧。虽然，NCCL开箱即用，但其仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。

要是你有40亿好意思元用于10万个集群，那么你应该也有满盈的工程智商来修补NCCL并进行优化。

软件开发充满挑战，干系词Semianalysis预测，超大鸿沟数据中心将转向其他优化决议，抛弃InfiniBand。

轨谈优化

为了提高汇注注意性和延长铜缆(

"轨谈优化技艺，让每台H100职业器与八个独处的叶交换机建立明白，而非汇聚在归拢机架。这种筹谋让每个GPU仅需一次跳转就能与更远的GPU进行通讯，从而大幅擢升全对全集体通讯性能。"

比如在搀杂巨匠（MoE）并行中，就大皆使用了全对全集体通讯。

365站群

在归拢机架内，交换机可选拔无源直连电缆(DAC)和有源电缆(AEC)。但在轨谈优化筹谋中，若交换机位置不同，需借助光学器件罢了明白。

此外，叶交换机到骨架交换机的距离可能大于50米，因此必须使用单模光收发器。

通过非轨谈优化筹谋，您不错用低价的直连铜缆替换明白GPU和叶交换机的98304个光纤收发器，从而使您的GPU链路中铜缆占比提高至25-33%。

DAC铜缆在运行温度、耗电和资本方面相较于光缆具有权贵上风，同期可靠性更高。这种筹谋灵验抑遏了汇注链路间歇性瘫痪和故障，是高速互连领域光学器件所面对的主要挑战的重要处置决议。

Quantum-2IB骨架交换机在选拔DAC铜缆时，功耗为747瓦；若使用多模光纤收发器，功耗将升至1500瓦。

入手布线对数据中心技艺东谈主员来说耗时巨大，每条链路两头距离50米且不在归拢机架，轨谈优化筹谋助力擢升效果。

在中间机架筹谋中，叶交换机与统共明白的GPU分享归拢机架。致使在筹谋完成前，就不错在集成工场测试计较节点到叶交换机的链路，因为统共链路皆在归拢机架内。

组网例如

如图所示，这是常见的三层Fat-Tree拓扑(SuperSpine-Spine-Leaf),其中两个Spine-Leaf组成一个Pod。

Spine Switch 和 SuperSpine Switch 需要明白，因此相应 Group 的数量要减半。一个 Pod 有 64 个 Spine Switch,对应 8 个 Group。因此，一个 Pod 有 64 个 Leaf Switch。

有了多个 Pod，不错进一步构建 64 个 SuperSpine Fabric，每一个 Fabric 要与不同 Pod 中的 Spine Switch 罢了全互联。这里以 8 个 Pod 为例，将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 罢了 Full Mesh，这里有 8 个 Pod，因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。

以上设置 8 个 Pod 对应：

总的 GPU：4096*8=32768

SuperSpine Switch：64*4=256

Spine Switch：64*8=512

Leaf Switch：64*8=512

总的 Switch：256+512+512=1280

总的光模块数：1280*128+32768=196608

践诺上表面最多不错维持 128 个 Pod，对应的征战数为：

GPU：4096*128=524288=2*(128/2)^3

SuperSpine Switch：64*64=4096=(128/2)^2

Spine Switch：64*128=8192=2*(128/2)^2

Leaf Switch：64*128=8192=2*(128/2)^2

优化后的著述：Switch性能分析：$4096+8192+8192$ =20480,额外于$5\times(128/2)^2$.

万卡集群顺次膨胀3个访佛的pod即可。

（3）可靠性与报酬

同步模子磨练导致巨型集群的可靠性成问题。常见问题包括GPU HBM ECC造作、GPU驱动卡死、光纤收发器故障和网卡过热等。

为了缩小故障报酬时代，数据中心需设置热备与冷备征战。在发生问题时，最好政策是欺诈备用节点赓续磨练，而非胜仗中断。

数据中心技艺东谈主员可在数小时内诞生受损GPU职业器，但在某些情况下，节点可能需数日方可重新参加使用。

在磨练模子历程中，为了幸免HBM ECC等造作，咱们需要依期将查验点存储到CPU内存或SSD抓久化存储。一朝出现造作，重新加载模子和优化器权重并赓续磨练是必不成少的。

容错磨练技艺可用于提供用户级应用驱动程序，以处理GPU和汇注故障。

缺憾的是，不时备份查验点和容错磨练技艺可能导致系统举座MFU受损。集群需不竭暂停以保存权重至抓久存储或CPU内存。

每100次迭代仅保存一次查验点，可能导致首要升天。以一个领有10万卡的集群为例，若每次迭代耗时2秒，那么在第99次迭代失败时，可能升天高达229个GPU日的职责。

另一种故障报酬政策是欺诈备用节点通事后端结构从其他GPU进行RDMA复制。这种程序具有高效性，后端GPU的速率高达400Gbps,每个GPU还配备了80GB的HBM内存，因此复制历程仅需约1.6秒。

通过此政策，最多升天1个法子(因为更多GPU HBM将赢得权重更新),从而在2.3个GPU日的计较时代内完成，再加上从其他GPU HBM内存RDMA复制权重所需的1.85个GPU日。

繁密顶尖AI实验室已汲取此技艺，然许多微型公司仍着力繁琐、慢慢且低效的形式——重启处理以报酬故障。借助内存重构罢了故障报酬，可大幅擢升大型磨练运行的MFU效果，省俭数个百分点的时代。

在汇注故障领域，Infiniband/RoCE链路故障是最常见的问题。尽管收发器数量较多，但在全新且往时运行的集群中，第一次功课故障仅需26.28分钟，即使每个网卡到最底层交换机链路的平均故障率为5年。

在10万卡GPU集群中，光纤故障导致重新启动运行所需时代远超模子计较，未经内存重建的故障报酬政策将影响效果。

由于GPU与ConnectX-7网卡胜仗链接，汇注架构无容错筹谋，导致故障需在用户磨练代码中处置，从而加多代码库复杂性。

大言语模子(LLM)在节点内使用张量并行，要是一个网卡、一个收发器或一个GPU故障，统共这个词职业器就会宕机。由于该政策触及的汇注通讯量较大，需要欺诈职业器里面的不同计较征战之间进行高速通讯带宽。

当今，有许多职责正在进行，以使汇注可重设置，减少节点的脆弱性。这项职责至关进犯，因为近况意味着统共这个词GB200 NVL72仅因一个GPU或光学故障就会宕机。

RAS引擎通过长远分析诸如温度、ECC重试次数、时钟速率和电压等重要芯片级数据，准确预测潜在故障并实时见知数据中心工程师，确保系统认知运行。

"此举使技艺团队能主动注意，如擢升电扇速率以保认知，并在注意窗口期将职业器震恐运行队伍进行长远查验。"

在磨练任务入手前，每颗芯片的RAS引擎将进行全面自检，例如践诺已知收尾的矩阵乘法以侦测静默数据损坏(SDC)。

（4）物料清单

具体来说，不错分为四种（原文中是7：1，践诺上应该是8：1？）：

"遒劲的4层InfiniBand汇注，领有32,768个GPU集群，轨谈优化技艺，罢了7:1约束速率擢升。"

Spectrum X汇注是一种以太网平台，由NVIDIA开发。它是一种专为提高Ethernet-based AI云的性能和效果而筹谋的以太网平台。该汇注平台提供了3层架构，其中包括32,768个GPU集群，轨谈优化筹谋，7:1约束比。

3. 3层InfiniBand汇注，包含24,576个GPU集群，非轨谈优化筹谋，用于前端汇注的集群间明白。

"搭载3层Broadcom Tomahawk 5以太网汇注，领有32,768个GPU集群，罢了轨谈优化，7:1约束比。"

经比较，选项1价钱较其他选项高1.3至1.6倍；选项2提供更大集群、更高带宽和左近资本，但耗电更多；选项3可能导致并行决议纯真性大幅抑遏。

基于Broadcom Tomahawk 5的32k集群，搭配7:1的约束比，是最具资本效益的选项。这亦然多家公司取舍构建访佛汇注的原因。

（5）平面布局

临了，在集群的筹谋上，还需要优化机架布局。

因为要是将多模收发器放在行的结尾，中间的骨干交换机将超出距离范围。

Spectrum-X/Tomahawk 5的32k集群平面图，选拔轨谈优化筹谋，展望至少需80*60m平面空间。

365建站客服QQ：800083652

当今，这个巨大的集群领有10万+节点，其中3栋建筑还是完工(共3个计较岛)。每个计较岛容纳约1000~1100个机柜，总功耗约为50MW。

-对此，您有什么看法主张？-

上一篇：游戏竞技 2025游戏大年! 来一齐望望TGA的爆料

下一篇：游戏社交外网玩家称《黑神话：悟空》自身便是神话：TGA并不是惟一

让建站和SEO变得简单

你的位置：游戏在线园 > 游戏竞技乐园 >

游戏社交搭建10万卡GPU集群技艺指南

热点资讯

相关资讯

让建站和SEO变得简单

你的位置：游戏在线园 > 游戏竞技乐园 >

游戏社交 搭建10万卡GPU集群技艺指南

热点资讯

相关资讯

游戏社交搭建10万卡GPU集群技艺指南