成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

昇騰AI算力集群有多穩(wěn)?萬卡可用度98%,秒級(jí)恢復(fù)故障不用愁

0
分享至

1.萬卡集群可用度達(dá)到98%,集群秒級(jí)快恢(訓(xùn)練+推理)

2.集群線性度達(dá)到95%+

3.千種故障模式庫,分鐘級(jí)故障診斷

想象一下,你正在用手機(jī)導(dǎo)航規(guī)劃長(zhǎng)途路線,背后可能有幾十個(gè)AI模型同時(shí)在分析路況、預(yù)測(cè)擁堵;醫(yī)院用AI輔助診斷癌癥時(shí),系統(tǒng)需要瞬間處理成百上千張CT影像。這些看似簡(jiǎn)單的智能應(yīng)用,背后都依賴著像“超級(jí)大腦”一樣的AI算力集群在24小時(shí)地不停運(yùn)轉(zhuǎn)。

如果把AI算力集群比作一個(gè)大型工廠的生產(chǎn)線,高可用性就相當(dāng)于讓這條生產(chǎn)線具備“永不罷工”的能力,給AI算力集群上了一份“保險(xiǎn)”,讓這個(gè)支撐智能時(shí)代的“數(shù)字發(fā)動(dòng)機(jī)”既能承受日常的“小磕小碰”,又能在遇到突發(fā)故障時(shí)保持穩(wěn)定運(yùn)行。只有確保算力資源隨時(shí)可用、持續(xù)輸出,才能讓AI真正成為驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新的可靠引擎,而不是隨時(shí)可能熄火的“半成品”。

高可用核心基礎(chǔ)面向超節(jié)點(diǎn)的故障感知、管理及容錯(cuò)

AI大集群?jiǎn)栴}定位復(fù)雜,系統(tǒng)規(guī)模大、軟硬技術(shù)棧復(fù)雜、調(diào)用鏈長(zhǎng),先要跨域故障定界,然后各域內(nèi)部故障定界定位,故障診斷面臨巨大挑戰(zhàn);當(dāng)前定位時(shí)間從數(shù)小時(shí)到數(shù)天,技能要求高,難以找到故障設(shè)備和根因。華為團(tuán)隊(duì)為了讓集群運(yùn)維工具能夠快速找到問題原因,有效提升現(xiàn)網(wǎng)問題的閉環(huán)效率,提出了全棧可觀測(cè)能力,構(gòu)建了大規(guī)模集群的故障感知能力,主要由集群運(yùn)行視圖、告警視圖、網(wǎng)絡(luò)鏈路監(jiān)控、告警接入和配置、網(wǎng)絡(luò)流可觀測(cè)能力組成;同時(shí)還提出了包括全棧故障模式庫、跨域故障診斷、計(jì)算節(jié)點(diǎn)故障診斷、網(wǎng)絡(luò)故障診斷四大能力的故障診斷技術(shù)。

在當(dāng)前行業(yè)水平下,萬卡級(jí)別的AI集群平均每天會(huì)出現(xiàn)一次甚至多次故障,這不僅嚴(yán)重影響了訓(xùn)練效率,還導(dǎo)致了算力資源的大量浪費(fèi)。為解決這一問題,華為團(tuán)隊(duì)通過建立AI集群全系統(tǒng)可靠性分析模型,實(shí)現(xiàn)對(duì)可靠性指標(biāo)的預(yù)計(jì)評(píng)估和分配分解。從可分析、可增強(qiáng)、可驗(yàn)證、可診斷等方面,持續(xù)構(gòu)建可靠性系統(tǒng)工程能力,突破關(guān)鍵可靠性技術(shù),實(shí)現(xiàn)CloudMatrix超節(jié)點(diǎn)萬卡集群MTBF大于24小時(shí)的硬件高可靠能力。

超節(jié)點(diǎn)需要做大超節(jié)點(diǎn)規(guī)模,才能充分發(fā)揮超平面網(wǎng)絡(luò)的優(yōu)勢(shì),目前業(yè)界沒有使用光鏈路來構(gòu)建超節(jié)點(diǎn)的成功案例,因此華為團(tuán)隊(duì)提出了相應(yīng)的超節(jié)點(diǎn)光鏈路軟件容錯(cuò)方案。通過多層防護(hù)體系,借助超時(shí)代答、綠色通道等關(guān)鍵技術(shù)實(shí)現(xiàn)無超節(jié)點(diǎn)級(jí)故障,通過鏈路級(jí)重傳,光模塊動(dòng)態(tài)升降Lane,HCCL算子重執(zhí)行,借軌通信,雙層路由收斂,Step級(jí)重調(diào)度等特性,實(shí)現(xiàn)光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測(cè)技術(shù)等,實(shí)現(xiàn)光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構(gòu)建Step級(jí)重調(diào)度能力,高頻的HBM多比特ECC故障恢復(fù)時(shí)間縮短至1min,對(duì)于因?yàn)楣收显斐傻挠脩羲懔?strong>損失下降5%。

高可用助力業(yè)務(wù)萬卡集群上千億模型的線性度和訓(xùn)推快恢

線性度指標(biāo)用于衡量訓(xùn)練任務(wù)速度或吞吐的提高比例(即完成時(shí)間縮短比例)隨算力卡數(shù)增長(zhǎng)比例的比值。華為團(tuán)隊(duì)提出拓?fù)涓兄膮f(xié)同編排技術(shù)TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù)NSF、拓?fù)涓兄膶哟位贤ㄐ偶夹g(shù)NB、無侵入通信跨層測(cè)量與診斷技術(shù)AICT四項(xiàng)關(guān)鍵技術(shù),實(shí)現(xiàn)Pangu訓(xùn)練線性度提升??傮w方案如下圖所示:



實(shí)驗(yàn)及理論分析結(jié)果顯示,訓(xùn)練Pangu Ultra 135B稠密模型時(shí),4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓(xùn)練Pangu Ultra MoE 718B稀疏模型時(shí),8K卡Atlas 800T A2集群相比512卡基線,線性度為95.05%;4K卡CloudMatrix集群相比256卡基線,線性度為96.48%。

大規(guī)模AI集群運(yùn)行過程中頻繁因?yàn)楦黝愑布?、軟件故障?dǎo)致訓(xùn)練任務(wù)中斷,業(yè)界通常使用訓(xùn)練過程中周期保存的CKPT恢復(fù)訓(xùn)練任務(wù)。華為基于軟硬件全棧的技術(shù)方案創(chuàng)新打造了如下分層分級(jí)的訓(xùn)練任務(wù)故障快恢系統(tǒng),不同層級(jí)的故障恢復(fù)能力如下圖所示。



通過數(shù)據(jù)集索引構(gòu)建加速、模型編譯緩存加速、集合通信建鏈加速、存儲(chǔ)CKPT加速等關(guān)鍵技術(shù)優(yōu)化,萬卡集群的訓(xùn)練恢復(fù)時(shí)間可以做到10min以內(nèi),進(jìn)程級(jí)重調(diào)度恢復(fù)能夠有效縮短訓(xùn)練恢復(fù)時(shí)間到3min以內(nèi),進(jìn)程級(jí)在線恢復(fù)進(jìn)一步縮短訓(xùn)練恢復(fù)時(shí)間到30s以內(nèi),同時(shí)可以降低訓(xùn)練回滾時(shí)間到一個(gè)訓(xùn)練迭代的時(shí)間,且與集群規(guī)模、模型規(guī)?;緹o關(guān),極大提升了AI集群可用度和大模型訓(xùn)練效率。

隨著千億MOE模型架構(gòu)演進(jìn),實(shí)例部署的組網(wǎng)架構(gòu)從傳統(tǒng)的一機(jī)八卡演進(jìn)為大EP組網(wǎng)架構(gòu),目前在大EP組網(wǎng)架構(gòu)下主要面臨部署規(guī)模擴(kuò)大導(dǎo)致的故障概率數(shù)量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會(huì)導(dǎo)致整個(gè)Decode實(shí)例不可用,進(jìn)而導(dǎo)致推理業(yè)務(wù)受損,甚至中斷。

針對(duì)大EP推理架構(gòu)的可靠性難題,華為團(tuán)隊(duì)提出三級(jí)容錯(cuò)方案,實(shí)例間切換、實(shí)例內(nèi)重啟恢復(fù)、實(shí)例內(nèi)無損恢復(fù),從芯片驅(qū)動(dòng)層、框架層、平臺(tái)層相互協(xié)作,構(gòu)筑端到端可靠性體系。在不同的故障場(chǎng)景下,采用不同的容錯(cuò)恢復(fù)手段,可以最小化用戶損失。



其中實(shí)例內(nèi)重啟恢復(fù)技術(shù),可構(gòu)筑帶內(nèi)快速故障感知和重調(diào)度、參數(shù)權(quán)重和鏡像預(yù)熱技術(shù)等技術(shù),將實(shí)例內(nèi)重啟恢復(fù)時(shí)間壓縮到5min內(nèi)。TOKEN級(jí)重試技術(shù),基于DeepSeekV3 1P2D多機(jī)CloudMatrix 384場(chǎng)景下,針對(duì)HBM KV Cache故障,故障恢復(fù)時(shí)長(zhǎng)(從故障發(fā)生到Token重新輸出時(shí)間),小于10s。相較于業(yè)界的10min恢復(fù)實(shí)例,TLR可將故障影響減少60倍。

總結(jié)與展望

針對(duì)AI算力集群的高可用性,華為團(tuán)隊(duì)提出了六大創(chuàng)新方案,即故障感知診斷、故障管理、集群光鏈路容錯(cuò)等高可用所需要的三大基礎(chǔ)能力,以及集群線性度、訓(xùn)練快恢、推理快恢等高可用為業(yè)務(wù)帶來的三大支撐能力。這六大創(chuàng)新均帶來了非??捎^的收益,比如萬卡集群可用度達(dá)到98%、集群訓(xùn)推最快達(dá)到秒級(jí)快恢、集群線性度達(dá)到95%+、千種故障模式庫與分鐘級(jí)故障診斷等。

面向未來,華為團(tuán)隊(duì)會(huì)持續(xù)在以場(chǎng)景多元化與復(fù)合化為代表的新應(yīng)用驅(qū)動(dòng)、異構(gòu)融合與對(duì)資源池化為代表的新架構(gòu)突破、極致可觀可測(cè)與智能自治免維代表的新工程范式三個(gè)方向進(jìn)行探索,帶來更多的創(chuàng)新成果。

文/駱敏

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被高云翔評(píng)論區(qū)笑死了:哥,你給董璇氣成啥樣,讓她找了個(gè)粑粑柑

被高云翔評(píng)論區(qū)笑死了:哥,你給董璇氣成啥樣,讓她找了個(gè)粑粑柑

甜檸聊史
2025-08-22 11:53:33
馬英九大陸遇冷才明白:不是大陸需要他,是他高估了自己的分量!

馬英九大陸遇冷才明白:不是大陸需要他,是他高估了自己的分量!

遠(yuǎn)方風(fēng)林
2025-07-28 16:30:09
一雙“匿名襪子”,把985學(xué)生弄崩潰了,文化人罵人也這么有趣

一雙“匿名襪子”,把985學(xué)生弄崩潰了,文化人罵人也這么有趣

熙熙說教
2025-09-04 19:33:02
上海中考同分不同命,不同區(qū)的中考差距有多大?

上海中考同分不同命,不同區(qū)的中考差距有多大?

愛下廚的阿椅
2025-09-04 11:01:43
浙江頂級(jí)富豪沈國(guó)軍:銀泰創(chuàng)始人,娶小21歲女星,如今身價(jià)570億

浙江頂級(jí)富豪沈國(guó)軍:銀泰創(chuàng)始人,娶小21歲女星,如今身價(jià)570億

禾寒?dāng)?/span>
2025-09-04 12:33:20
1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

百態(tài)人間
2025-08-27 11:24:18
恭喜齊達(dá)內(nèi)!德尚官宣離開!留完美陣容,兩翼齊飛,再奪一冠封神

恭喜齊達(dá)內(nèi)!德尚官宣離開!留完美陣容,兩翼齊飛,再奪一冠封神

阿泰希特
2025-09-04 14:15:34
4億買下的香港寫字樓,轉(zhuǎn)手賣給了恒大125億,李嘉誠只愿90億接盤

4億買下的香港寫字樓,轉(zhuǎn)手賣給了恒大125億,李嘉誠只愿90億接盤

科學(xué)發(fā)掘
2025-08-26 18:37:28
額相藏兇:馬拉松張水華的“敗運(yùn)天花板”

額相藏兇:馬拉松張水華的“敗運(yùn)天花板”

山股長(zhǎng)
2025-09-04 20:29:08
特朗普不來北京看閱兵,美防長(zhǎng)想打電話給中國(guó),中方“已讀不回”

特朗普不來北京看閱兵,美防長(zhǎng)想打電話給中國(guó),中方“已讀不回”

歷史求知所
2025-09-03 20:05:03
本輪冷空氣持續(xù)發(fā)力,局地氣溫波動(dòng)超15℃,明日9月5~6號(hào)降雨如下

本輪冷空氣持續(xù)發(fā)力,局地氣溫波動(dòng)超15℃,明日9月5~6號(hào)降雨如下

小嵩
2025-09-04 18:06:30
九三閱兵剛結(jié)束,民進(jìn)黨對(duì)洪秀柱的最新反應(yīng)來了,雷聲大雨點(diǎn)小?

九三閱兵剛結(jié)束,民進(jìn)黨對(duì)洪秀柱的最新反應(yīng)來了,雷聲大雨點(diǎn)小?

DS北風(fēng)
2025-09-04 17:07:07
富士康旗下衡陽工廠關(guān)停,全面停止生產(chǎn)!

富士康旗下衡陽工廠關(guān)停,全面停止生產(chǎn)!

恪守原則和底線
2025-09-04 05:20:03
中國(guó)臺(tái)灣藝人賴冠霖曬閱兵觀禮照,并發(fā)文“祝祖國(guó)繁榮昌盛”,評(píng)論區(qū)被網(wǎng)友刷屏

中國(guó)臺(tái)灣藝人賴冠霖曬閱兵觀禮照,并發(fā)文“祝祖國(guó)繁榮昌盛”,評(píng)論區(qū)被網(wǎng)友刷屏

極目新聞
2025-09-03 19:38:41
豐田打響“第一槍”,從45萬跌至23萬,長(zhǎng)超5米1的大7座,油耗5L

豐田打響“第一槍”,從45萬跌至23萬,長(zhǎng)超5米1的大7座,油耗5L

鹿鹿156
2025-08-30 14:31:55
我出差回家去樓下超市買避孕套,老板笑著說怎么又來,我頓感不妙

我出差回家去樓下超市買避孕套,老板笑著說怎么又來,我頓感不妙

白云故事
2025-09-03 22:00:04
全球首例!浙大邵逸夫醫(yī)院用AI機(jī)器人“一站式”精準(zhǔn)殲滅雙肺高危病灶

全球首例!浙大邵逸夫醫(yī)院用AI機(jī)器人“一站式”精準(zhǔn)殲滅雙肺高危病灶

文匯報(bào)
2025-09-04 12:58:09
北京閱兵結(jié)束,特朗普通告全球,一連說了6個(gè)“不”,中方太強(qiáng)了

北京閱兵結(jié)束,特朗普通告全球,一連說了6個(gè)“不”,中方太強(qiáng)了

大白話瞰世界
2025-09-04 11:18:16
每吃一次,大腦就萎縮一步?這5種零食或是大腦老化的“催化劑”

每吃一次,大腦就萎縮一步?這5種零食或是大腦老化的“催化劑”

牛鍋巴小釩
2025-09-04 03:00:14
河北千喜鶴飲食股份有限公司因涉嫌串通投標(biāo)被暫停全軍采購資格

河北千喜鶴飲食股份有限公司因涉嫌串通投標(biāo)被暫停全軍采購資格

齊魯壹點(diǎn)
2025-09-04 11:49:06
2025-09-04 21:15:00
每日經(jīng)濟(jì)新聞 incentive-icons
每日經(jīng)濟(jì)新聞
中國(guó)主流財(cái)經(jīng)全媒體平臺(tái)。
1338960文章數(shù) 2717769關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機(jī)新品

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國(guó)沒有的我們也都有了

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國(guó)沒有的我們也都有了

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報(bào)

財(cái)經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對(duì)話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

本地
旅游
游戲
公開課
軍事航空

本地新聞

食味印象 | 夜未央 在自由時(shí)光邂逅煙火氣

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

大話手游輸出神族強(qiáng)不強(qiáng)?輸出流神裔保姆級(jí)教學(xué),全敏加點(diǎn)很靠譜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨(dú)家!九三閱兵全圖鑒

無障礙瀏覽 進(jìn)入關(guān)懷版