1.萬卡集群可用度達(dá)到98%,集群秒級(jí)快恢(訓(xùn)練+推理)
2.集群線性度達(dá)到95%+
3.千種故障模式庫,分鐘級(jí)故障診斷
想象一下,你正在用手機(jī)導(dǎo)航規(guī)劃長(zhǎng)途路線,背后可能有幾十個(gè)AI模型同時(shí)在分析路況、預(yù)測(cè)擁堵;醫(yī)院用AI輔助診斷癌癥時(shí),系統(tǒng)需要瞬間處理成百上千張CT影像。這些看似簡(jiǎn)單的智能應(yīng)用,背后都依賴著像“超級(jí)大腦”一樣的AI算力集群在24小時(shí)地不停運(yùn)轉(zhuǎn)。
如果把AI算力集群比作一個(gè)大型工廠的生產(chǎn)線,高可用性就相當(dāng)于讓這條生產(chǎn)線具備“永不罷工”的能力,給AI算力集群上了一份“保險(xiǎn)”,讓這個(gè)支撐智能時(shí)代的“數(shù)字發(fā)動(dòng)機(jī)”既能承受日常的“小磕小碰”,又能在遇到突發(fā)故障時(shí)保持穩(wěn)定運(yùn)行。只有確保算力資源隨時(shí)可用、持續(xù)輸出,才能讓AI真正成為驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新的可靠引擎,而不是隨時(shí)可能熄火的“半成品”。
高可用核心基礎(chǔ)面向超節(jié)點(diǎn)的故障感知、管理及容錯(cuò)
AI大集群?jiǎn)栴}定位復(fù)雜,系統(tǒng)規(guī)模大、軟硬技術(shù)棧復(fù)雜、調(diào)用鏈長(zhǎng),先要跨域故障定界,然后各域內(nèi)部故障定界定位,故障診斷面臨巨大挑戰(zhàn);當(dāng)前定位時(shí)間從數(shù)小時(shí)到數(shù)天,技能要求高,難以找到故障設(shè)備和根因。華為團(tuán)隊(duì)為了讓集群運(yùn)維工具能夠快速找到問題原因,有效提升現(xiàn)網(wǎng)問題的閉環(huán)效率,提出了全棧可觀測(cè)能力,構(gòu)建了大規(guī)模集群的故障感知能力,主要由集群運(yùn)行視圖、告警視圖、網(wǎng)絡(luò)鏈路監(jiān)控、告警接入和配置、網(wǎng)絡(luò)流可觀測(cè)能力組成;同時(shí)還提出了包括全棧故障模式庫、跨域故障診斷、計(jì)算節(jié)點(diǎn)故障診斷、網(wǎng)絡(luò)故障診斷四大能力的故障診斷技術(shù)。
在當(dāng)前行業(yè)水平下,萬卡級(jí)別的AI集群平均每天會(huì)出現(xiàn)一次甚至多次故障,這不僅嚴(yán)重影響了訓(xùn)練效率,還導(dǎo)致了算力資源的大量浪費(fèi)。為解決這一問題,華為團(tuán)隊(duì)通過建立AI集群全系統(tǒng)可靠性分析模型,實(shí)現(xiàn)對(duì)可靠性指標(biāo)的預(yù)計(jì)評(píng)估和分配分解。從可分析、可增強(qiáng)、可驗(yàn)證、可診斷等方面,持續(xù)構(gòu)建可靠性系統(tǒng)工程能力,突破關(guān)鍵可靠性技術(shù),實(shí)現(xiàn)CloudMatrix超節(jié)點(diǎn)萬卡集群MTBF大于24小時(shí)的硬件高可靠能力。
超節(jié)點(diǎn)需要做大超節(jié)點(diǎn)規(guī)模,才能充分發(fā)揮超平面網(wǎng)絡(luò)的優(yōu)勢(shì),目前業(yè)界沒有使用光鏈路來構(gòu)建超節(jié)點(diǎn)的成功案例,因此華為團(tuán)隊(duì)提出了相應(yīng)的超節(jié)點(diǎn)光鏈路軟件容錯(cuò)方案。通過多層防護(hù)體系,借助超時(shí)代答、綠色通道等關(guān)鍵技術(shù)實(shí)現(xiàn)無超節(jié)點(diǎn)級(jí)故障,通過鏈路級(jí)重傳,光模塊動(dòng)態(tài)升降Lane,HCCL算子重執(zhí)行,借軌通信,雙層路由收斂,Step級(jí)重調(diào)度等特性,實(shí)現(xiàn)光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測(cè)技術(shù)等,實(shí)現(xiàn)光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構(gòu)建Step級(jí)重調(diào)度能力,高頻的HBM多比特ECC故障恢復(fù)時(shí)間縮短至1min,對(duì)于因?yàn)楣收显斐傻挠脩羲懔?strong>損失下降5%。
高可用助力業(yè)務(wù)萬卡集群上千億模型的線性度和訓(xùn)推快恢
線性度指標(biāo)用于衡量訓(xùn)練任務(wù)速度或吞吐的提高比例(即完成時(shí)間縮短比例)隨算力卡數(shù)增長(zhǎng)比例的比值。華為團(tuán)隊(duì)提出拓?fù)涓兄膮f(xié)同編排技術(shù)TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù)NSF、拓?fù)涓兄膶哟位贤ㄐ偶夹g(shù)NB、無侵入通信跨層測(cè)量與診斷技術(shù)AICT四項(xiàng)關(guān)鍵技術(shù),實(shí)現(xiàn)Pangu訓(xùn)練線性度提升??傮w方案如下圖所示:
實(shí)驗(yàn)及理論分析結(jié)果顯示,訓(xùn)練Pangu Ultra 135B稠密模型時(shí),4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓(xùn)練Pangu Ultra MoE 718B稀疏模型時(shí),8K卡Atlas 800T A2集群相比512卡基線,線性度為95.05%;4K卡CloudMatrix集群相比256卡基線,線性度為96.48%。
大規(guī)模AI集群運(yùn)行過程中頻繁因?yàn)楦黝愑布?、軟件故障?dǎo)致訓(xùn)練任務(wù)中斷,業(yè)界通常使用訓(xùn)練過程中周期保存的CKPT恢復(fù)訓(xùn)練任務(wù)。華為基于軟硬件全棧的技術(shù)方案創(chuàng)新打造了如下分層分級(jí)的訓(xùn)練任務(wù)故障快恢系統(tǒng),不同層級(jí)的故障恢復(fù)能力如下圖所示。
通過數(shù)據(jù)集索引構(gòu)建加速、模型編譯緩存加速、集合通信建鏈加速、存儲(chǔ)CKPT加速等關(guān)鍵技術(shù)優(yōu)化,萬卡集群的訓(xùn)練恢復(fù)時(shí)間可以做到10min以內(nèi),進(jìn)程級(jí)重調(diào)度恢復(fù)能夠有效縮短訓(xùn)練恢復(fù)時(shí)間到3min以內(nèi),進(jìn)程級(jí)在線恢復(fù)進(jìn)一步縮短訓(xùn)練恢復(fù)時(shí)間到30s以內(nèi),同時(shí)可以降低訓(xùn)練回滾時(shí)間到一個(gè)訓(xùn)練迭代的時(shí)間,且與集群規(guī)模、模型規(guī)?;緹o關(guān),極大提升了AI集群可用度和大模型訓(xùn)練效率。
隨著千億MOE模型架構(gòu)演進(jìn),實(shí)例部署的組網(wǎng)架構(gòu)從傳統(tǒng)的一機(jī)八卡演進(jìn)為大EP組網(wǎng)架構(gòu),目前在大EP組網(wǎng)架構(gòu)下主要面臨部署規(guī)模擴(kuò)大導(dǎo)致的故障概率數(shù)量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會(huì)導(dǎo)致整個(gè)Decode實(shí)例不可用,進(jìn)而導(dǎo)致推理業(yè)務(wù)受損,甚至中斷。
針對(duì)大EP推理架構(gòu)的可靠性難題,華為團(tuán)隊(duì)提出三級(jí)容錯(cuò)方案,實(shí)例間切換、實(shí)例內(nèi)重啟恢復(fù)、實(shí)例內(nèi)無損恢復(fù),從芯片驅(qū)動(dòng)層、框架層、平臺(tái)層相互協(xié)作,構(gòu)筑端到端可靠性體系。在不同的故障場(chǎng)景下,采用不同的容錯(cuò)恢復(fù)手段,可以最小化用戶損失。
其中實(shí)例內(nèi)重啟恢復(fù)技術(shù),可構(gòu)筑帶內(nèi)快速故障感知和重調(diào)度、參數(shù)權(quán)重和鏡像預(yù)熱技術(shù)等技術(shù),將實(shí)例內(nèi)重啟恢復(fù)時(shí)間壓縮到5min內(nèi)。TOKEN級(jí)重試技術(shù),基于DeepSeekV3 1P2D多機(jī)CloudMatrix 384場(chǎng)景下,針對(duì)HBM KV Cache故障,故障恢復(fù)時(shí)長(zhǎng)(從故障發(fā)生到Token重新輸出時(shí)間),小于10s。相較于業(yè)界的10min恢復(fù)實(shí)例,TLR可將故障影響減少60倍。
總結(jié)與展望
針對(duì)AI算力集群的高可用性,華為團(tuán)隊(duì)提出了六大創(chuàng)新方案,即故障感知診斷、故障管理、集群光鏈路容錯(cuò)等高可用所需要的三大基礎(chǔ)能力,以及集群線性度、訓(xùn)練快恢、推理快恢等高可用為業(yè)務(wù)帶來的三大支撐能力。這六大創(chuàng)新均帶來了非??捎^的收益,比如萬卡集群可用度達(dá)到98%、集群訓(xùn)推最快達(dá)到秒級(jí)快恢、集群線性度達(dá)到95%+、千種故障模式庫與分鐘級(jí)故障診斷等。
面向未來,華為團(tuán)隊(duì)會(huì)持續(xù)在以場(chǎng)景多元化與復(fù)合化為代表的新應(yīng)用驅(qū)動(dòng)、異構(gòu)融合與對(duì)資源池化為代表的新架構(gòu)突破、極致可觀可測(cè)與智能自治免維代表的新工程范式三個(gè)方向進(jìn)行探索,帶來更多的創(chuàng)新成果。
文/駱敏
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.