手把手教你搭建10万卡GPU集群
引子
建设10万卡集群的必要性可想而知,面前AI公司第一梯队的门票还是是3.2万卡集群。展望来岁,这一数字将飞腾至10万卡(H100)集群,擢起飞间巨大。
由10万张H100组成的AI集群,其功耗高达150MW,投资跳动40亿好意思元(约300亿东谈主民币)。每年耗能约为$1.59\times10^9$千瓦时。按照0.078好意思元/kWh的费率计较,每年电费高达1.24亿好意思元。这一数字令东谈主瞠目,足以激发对动力耗尽和资本效益的长远念念考。
挑战
(1)动力跟空间挑战
算力瓶颈的背后,有着“动力”和“工程智商”这两座大山。
"10万块H100组成的集群,功率需求高达150MW,高出了当今天下最大的超等计较机El Capitan的30MW,后者的功率仅为前者的五分之一。"
在H100 Server里面,每块GPU的独建功耗约为700W。为险恶其运行需求,约莫需要575W的电源来驱动与之配套的CPU、汇注接口卡(NIC)和电源单位(PSU)。
H100 Server外部,AI集群还囊括了存储职业器、汇注交换机、光收发器等许多其他征战,约占总功耗的10%。
X.AI 将田纳西州孟菲斯市的一家旧工场改酿成了数据中心,每天耗尽100万加仑水和150兆瓦电力。当今天下上还莫得任何一座数据中心有智商部署150MW的AI集群 。
这些AI集群通过光通讯进行互联,而光通讯的资本与传输距离成正比。
多模 SR 和 AOC收发器的最长传输距离约为50米。
在数据中心的天下中,每栋大楼皆被赞美为一个“计较岛”。这些岛屿里面充满了多个“计较仓”,它们之间的明白是通过经济实用的铜缆或者多模互联罢了的。而为了罢了这些岛屿之间的联通,咱们选拔长距离的单模光通讯技艺。这种形式不仅高效,并且约略确保数据的认知传输,从而险恶当代数据中心对高性能和可靠性的需求。
由于数据并行相对的通讯量比较少,因此,不错跑在不同 计较岛之间:
当今,这个领有10万+节点的集群中,已有3栋建筑(3个计较岛)完工,每座计较岛容纳约1000-1100个机柜,总功耗约为50MW。
(2) 汇注架构及并行政策
数据并行(Data Parallelism)
这种并行形式的通讯条款最低,因为GPU之间只需要传递梯度数据。
干系词,数据并行条款每块GPU具备充足的内存以存储统共这个词模子的权重。关于领有1.8万亿参数的GPT-4模子而言,这意味着高达10.8TB的内存需求。
张量并行(Tensor Parallelism)
为了克服数据并行带来的内存截至,东谈主们发明了张量并行技艺。
在张量并行中,GPU之间需要不时通讯,以交换中间计较收尾,从而罢了更高效的计较。因此,张量并行需要高带宽和低蔓延的汇注明白。
通过张量并行,不错灵验减少每块GPU的内存条款。例如,使用8个张量并行等第进行NVLink明白时,每块GPU使用的内存不错减少8倍。
活水线并行(Pipeline Parallelism)
另一个克服GPU内存截至的程序是活水线并行技艺。
活水线并行是一种在散布式计较环境中罢了模子并行的技艺,主要用于深度学习领域,特等是在处理大鸿沟神经汇注模子时。通过将模子的不同部分(如神经汇注的层)分拨到不同的计较节点上,活水线并行约略在不殉国磨练效果的情况下,欺诈集群中的多台机器共同完成模子磨练 。
当一块GPU完成层的前向、反向传播运算后,它不错将中间收尾传递给下一块GPU,以便立即入手计较下一个数据批次。这么不错提高计较效果,缩小磨练时代。
尽管引入了GPU之间的通讯量,但每个GPU在完成计较后需将数据传递给下一个GPU,因此需要高效的汇注明白以确保数据快速传输。
活水线并行对通讯量的条款很高,但莫得张量并行那么高。
3D并行(3D Parallelism)
选拔H100 Server内的GPU张量并行,计较岛内节点活水线并行,跨计较岛罢了数据并行,提高效果。
汇注架构
进行汇注拓扑筹谋时需要同期斟酌到所用的并行化决议。
GPU部署有多种汇注,包括前端汇注、后端汇注和膨胀汇注(NVLink),每个采麇集运行不同的并行决议。
NVLink汇注是处理张量并行带宽需求的独一快速取舍。尽管后端汇注能精辟搪塞大多数其他类型的并行,但在存在约束比问题时,数据并行成为首选。
面前建设10万张H100的超等AI算力集群,不错取舍的汇注决议主要有三种,分手是Broadcom Tomahawk 5,Nvidia Infiniband,以及Nvidia Spectrum-X。在大型AI集群中,Spectrum-X比较InfiniBand具有权贵上风,包括性能、功耗和资本 。其中,Spectrum-X是NVIDIA推出的高性能以太网交换芯片平台,仅用于Spectrum-X平台,不只独销售。
这三种决议各有优劣,具体取舍需要凭据践诺需求进行评估。要是您需要更多信息,请参考有关文件或推敲专科东谈主士。
InfiniBand
InfiniBand的上风在于,以太网并不维持SHARP汇注内缩减。
InfiniBand NDR Quantum-2交换机领有64个400G端口,相较之下,Spectrum-X以太网的SN5600交换机和Broadcom的Tomahawk 5交换机ASIC均提供128个400G端口,提供了更高的端口密度和性能。
"Quantum-2交换机端口有限,10万节点集群中最多只可罢了65,536个H100 GPU的统统互联。"
下一代InfiniBand交换机Quantum-X800将通过144个800G端口处置容量问题,但仅适用于NVL72和NVL36系统,因此不太可能在B200或B100集群中叶俗应用。
Spectrum-X
Spectrum-X,收获于NVIDIA库如NCCL的一级维持,为您带来无与伦比的上风。加入他们的新家具线,您将成为首批客户,体验前所未有的立异。
Spectrum-X需搭配Nvidia LinkX收发器购买,因为其他收发器可能无法往时职责或未通过考据。
英伟达在400G Spectrum-X中,选拔Bluefield-3替代了ConnectX-7行动暂时的处置决议,而ConnectX-8展望将与800G Spectrum-X好意思满协同。
在巨大的数据中心中,Bluefield-3和ConnectX-7的资天职别为约300好意思元/ASP,但Bluefield-3需额外耗尽50瓦电力。因此,每个节点需加多400瓦功率,从而抑遏了举座磨练职业器的每皮焦尔智能度。
Spectrum-X在数据中心部署10万个GPU需5MW功率,相较之下,Broadcom Tomahawk 5无需此功率。
为了幸免给英伟达支付昂贵的用度,许多客户取舍部署基于Broadcom Tomahawk 5的交换机。这款芯片约略以5.5W的功率为800Gbps的流量供电,减少了将信号驱动到交换机前端的可插拔光学器件的需要。此外,Broadcom周二推出了该公司最新的交换芯片Tomahawk 5,约略在端点之间互连料到每秒51.2太比特的带宽。
基于Tomahawk 5的交换机与Spectrum-X SN5600交换机相通具备128个400G端口,若公司领有不凡的汇注工程师,可罢了等同性能。此外,您可从任何供应商购打通用收发器及铜缆并进行搀杂使用。
繁密客户取舍与ODM厂商配合,如Celestica的交换机、Innolight和Eoptolink的收发器等。
"凭据交换机和通用收发器的资本斟酌,Tomahawk 5在价钱上大大优于Nvidia InfiniBand。并且,与Nvidia Spectrum-X比较,它更具资本效益。"
缺憾的是,要为Tomahawk 5修补和优化NCCL通讯集群,您需要具备塌实的工程技巧。虽然,NCCL开箱即用,但其仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。
要是你有40亿好意思元用于10万个集群,那么你应该也有满盈的工程智商来修补NCCL并进行优化。
软件开发充满挑战,干系词Semianalysis预测,超大鸿沟数据中心将转向其他优化决议,抛弃InfiniBand。
轨谈优化
为了提高汇注注意性和延长铜缆(
"轨谈优化技艺,让每台H100职业器与八个独处的叶交换机建立明白,而非汇聚在归拢机架。这种筹谋让每个GPU仅需一次跳转就能与更远的GPU进行通讯,从而大幅擢升全对全集体通讯性能。"
比如在搀杂巨匠(MoE)并行中,就大皆使用了全对全集体通讯。
365站群在归拢机架内,交换机可选拔无源直连电缆(DAC)和有源电缆(AEC)。但在轨谈优化筹谋中,若交换机位置不同,需借助光学器件罢了明白。
此外,叶交换机到骨架交换机的距离可能大于50米,因此必须使用单模光收发器。
通过非轨谈优化筹谋,您不错用低价的直连铜缆替换明白GPU和叶交换机的98304个光纤收发器,从而使您的GPU链路中铜缆占比提高至25-33%。
DAC铜缆在运行温度、耗电和资本方面相较于光缆具有权贵上风,同期可靠性更高。这种筹谋灵验抑遏了汇注链路间歇性瘫痪和故障,是高速互连领域光学器件所面对的主要挑战的重要处置决议。
Quantum-2IB骨架交换机在选拔DAC铜缆时,功耗为747瓦;若使用多模光纤收发器,功耗将升至1500瓦。
入手布线对数据中心技艺东谈主员来说耗时巨大,每条链路两头距离50米且不在归拢机架,轨谈优化筹谋助力擢升效果。
在中间机架筹谋中,叶交换机与统共明白的GPU分享归拢机架。致使在筹谋完成前,就不错在集成工场测试计较节点到叶交换机的链路,因为统共链路皆在归拢机架内。
组网例如
如图所示,这是常见的三层Fat-Tree拓扑(SuperSpine-Spine-Leaf),其中两个Spine-Leaf组成一个Pod。
Spine Switch 和 SuperSpine Switch 需要明白,因此相应 Group 的数量要减半。一个 Pod 有 64 个 Spine Switch,对应 8 个 Group。因此,一个 Pod 有 64 个 Leaf Switch。
有了多个 Pod,不错进一步构建 64 个 SuperSpine Fabric,每一个 Fabric 要与不同 Pod 中的 Spine Switch 罢了全互联。这里以 8 个 Pod 为例,将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 罢了 Full Mesh,这里有 8 个 Pod,因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。
以上设置 8 个 Pod 对应:
总的 GPU:4096*8=32768
SuperSpine Switch:64*4=256
Spine Switch:64*8=512
Leaf Switch:64*8=512
总的 Switch:256+512+512=1280
总的光模块数:1280*128+32768=196608
践诺上表面最多不错维持 128 个 Pod,对应的征战数为:
GPU:4096*128=524288=2*(128/2)^3
SuperSpine Switch:64*64=4096=(128/2)^2
Spine Switch:64*128=8192=2*(128/2)^2
Leaf Switch:64*128=8192=2*(128/2)^2
优化后的著述:Switch性能分析:$4096+8192+8192$ =20480,额外于$5\times(128/2)^2$.
万卡集群顺次膨胀3个访佛的pod即可。
(3)可靠性与报酬
同步模子磨练导致巨型集群的可靠性成问题。常见问题包括GPU HBM ECC造作、GPU驱动卡死、光纤收发器故障和网卡过热等。
为了缩小故障报酬时代,数据中心需设置热备与冷备征战。在发生问题时,最好政策是欺诈备用节点赓续磨练,而非胜仗中断。
数据中心技艺东谈主员可在数小时内诞生受损GPU职业器,但在某些情况下,节点可能需数日方可重新参加使用。
在磨练模子历程中,为了幸免HBM ECC等造作,咱们需要依期将查验点存储到CPU内存或SSD抓久化存储。一朝出现造作,重新加载模子和优化器权重并赓续磨练是必不成少的。
容错磨练技艺可用于提供用户级应用驱动程序,以处理GPU和汇注故障。
缺憾的是,不时备份查验点和容错磨练技艺可能导致系统举座MFU受损。集群需不竭暂停以保存权重至抓久存储或CPU内存。
每100次迭代仅保存一次查验点,可能导致首要升天。以一个领有10万卡的集群为例,若每次迭代耗时2秒,那么在第99次迭代失败时,可能升天高达229个GPU日的职责。
另一种故障报酬政策是欺诈备用节点通事后端结构从其他GPU进行RDMA复制。这种程序具有高效性,后端GPU的速率高达400Gbps,每个GPU还配备了80GB的HBM内存,因此复制历程仅需约1.6秒。
通过此政策,最多升天1个法子(因为更多GPU HBM将赢得权重更新),从而在2.3个GPU日的计较时代内完成,再加上从其他GPU HBM内存RDMA复制权重所需的1.85个GPU日。
繁密顶尖AI实验室已汲取此技艺,然许多微型公司仍着力繁琐、慢慢且低效的形式——重启处理以报酬故障。借助内存重构罢了故障报酬,可大幅擢升大型磨练运行的MFU效果,省俭数个百分点的时代。
在汇注故障领域,Infiniband/RoCE链路故障是最常见的问题。尽管收发器数量较多,但在全新且往时运行的集群中,第一次功课故障仅需26.28分钟,即使每个网卡到最底层交换机链路的平均故障率为5年。
在10万卡GPU集群中,光纤故障导致重新启动运行所需时代远超模子计较,未经内存重建的故障报酬政策将影响效果。
由于GPU与ConnectX-7网卡胜仗链接,汇注架构无容错筹谋,导致故障需在用户磨练代码中处置,从而加多代码库复杂性。
大言语模子(LLM)在节点内使用张量并行,要是一个网卡、一个收发器或一个GPU故障,统共这个词职业器就会宕机。 由于该政策触及的汇注通讯量较大,需要欺诈职业器里面的不同计较征战之间进行高速通讯带宽。
当今,有许多职责正在进行,以使汇注可重设置,减少节点的脆弱性。这项职责至关进犯,因为近况意味着统共这个词GB200 NVL72仅因一个GPU或光学故障就会宕机。
RAS引擎通过长远分析诸如温度、ECC重试次数、时钟速率和电压等重要芯片级数据,准确预测潜在故障并实时见知数据中心工程师,确保系统认知运行。
"此举使技艺团队能主动注意,如擢升电扇速率以保认知,并在注意窗口期将职业器震恐运行队伍进行长远查验。"
在磨练任务入手前,每颗芯片的RAS引擎将进行全面自检,例如践诺已知收尾的矩阵乘法以侦测静默数据损坏(SDC)。
(4)物料清单
具体来说,不错分为四种(原文中是7:1,践诺上应该是8:1?):
"遒劲的4层InfiniBand汇注,领有32,768个GPU集群,轨谈优化技艺,罢了7:1约束速率擢升。"
Spectrum X汇注是一种以太网平台,由NVIDIA开发。它是一种专为提高Ethernet-based AI云的性能和效果而筹谋的以太网平台。该汇注平台提供了3层架构,其中包括32,768个GPU集群,轨谈优化筹谋,7:1约束比。
3. 3层InfiniBand汇注,包含24,576个GPU集群,非轨谈优化筹谋,用于前端汇注的集群间明白。
"搭载3层Broadcom Tomahawk 5以太网汇注,领有32,768个GPU集群,罢了轨谈优化,7:1约束比。"
经比较,选项1价钱较其他选项高1.3至1.6倍;选项2提供更大集群、更高带宽和左近资本,但耗电更多;选项3可能导致并行决议纯真性大幅抑遏。
基于Broadcom Tomahawk 5的32k集群,搭配7:1的约束比,是最具资本效益的选项。这亦然多家公司取舍构建访佛汇注的原因。
(5)平面布局
临了,在集群的筹谋上,还需要优化机架布局。
因为要是将多模收发器放在行的结尾,中间的骨干交换机将超出距离范围。
Spectrum-X/Tomahawk 5的32k集群平面图,选拔轨谈优化筹谋,展望至少需80*60m平面空间。
365建站客服QQ:800083652当今,这个巨大的集群领有10万+节点,其中3栋建筑还是完工(共3个计较岛)。每个计较岛容纳约1000~1100个机柜,总功耗约为50MW。
-对此,您有什么看法主张?-