在通往通用人工智能(AGI)的路上,如何像其他領(lǐng)域一樣實(shí)現(xiàn)彎道超車,是業(yè)界繞不開的話題。
在過去的十余年時間里,各項單點(diǎn)技術(shù)飛速演進(jìn),但隨著單點(diǎn)技術(shù)演進(jìn)的邊際效應(yīng)遞減和系統(tǒng)復(fù)雜度的提升,系統(tǒng)性能的天花板逐步從單點(diǎn)技術(shù)的上限演變成系統(tǒng)工程上限:單點(diǎn)優(yōu)勢越來越像是精致的零件,提升空間有限;但采用系統(tǒng)工程創(chuàng)新,各個部分完美配合、高效協(xié)同,實(shí)現(xiàn)整個系統(tǒng)的效能最優(yōu),才有更積極的現(xiàn)實(shí)意義。
如何在發(fā)揮單點(diǎn)技術(shù)優(yōu)勢的同時,以整體視角重新構(gòu)建路徑,通過對復(fù)雜系統(tǒng)的極致把控與再組織、找到新的突破可能?解決這個看似不可能的問題,就有望為我們獨(dú)立引領(lǐng)最前沿技術(shù)發(fā)展創(chuàng)造條件。
近期,虎嗅將推出《華為技術(shù)披露集》系列內(nèi)容,通過一系列技術(shù)報告,首次全面詳述相關(guān)技術(shù)細(xì)節(jié),為業(yè)界提供參考價值。
我們期待通過本系列內(nèi)容,攜手更多伙伴共同構(gòu)建開放協(xié)作的生態(tài)系統(tǒng),助力昇騰生態(tài)在中國的蓬勃發(fā)展。
《華為技術(shù)披露集》系列 VOL.16 :384超節(jié)點(diǎn)
在5月底的昇騰AI峰會上,華為正式推出“昇騰 CloudMatrix 384超節(jié)點(diǎn)”算力集群解決方案。
根據(jù)官方公告,這個算力平臺基于384顆昇騰芯片構(gòu)建,通過全互聯(lián)對等架構(gòu)實(shí)現(xiàn)芯片間高效協(xié)同,可提供高達(dá)300 PFLOPs的稠密BF16算力。
這一能力,已經(jīng)超越了英偉達(dá)此前發(fā)布的B200 NVL 72平臺,180PFLOPs的稠密BF16算力,為中國企業(yè)終結(jié)了底層算力的憂慮。
在禁令層層加碼的情況下,為什么華為還能利用工藝制程落后的昇騰910系列芯片,在算力集群上實(shí)現(xiàn)后來居上?
“以非摩爾補(bǔ)摩爾、以集群補(bǔ)單芯片”
在討論華為如何短時間內(nèi)實(shí)現(xiàn)趕超的問題前,我們需要先明確一個問題:“384超節(jié)點(diǎn)”算是華為在制裁下的無奈之舉嗎?
不完全是。
除了制裁下尋求破局這個角度,華為打造“超節(jié)點(diǎn)”這件事,恰恰展現(xiàn)了其作為全球頂尖科技公司的遠(yuǎn)見——隨著制程技術(shù)的不斷升級,半導(dǎo)體性能提升的摩爾效應(yīng)正在加速失效,不僅芯片需要面對漏電、結(jié)構(gòu)迫近物理極限等一系列問題。技術(shù)升級帶來的成本指數(shù)級飆升,也正在拉低新制程的革新優(yōu)勢。
以實(shí)際的芯片落地為例,即使客戶選擇全球頂尖代工廠,從5納米升級到3納米制程,代工成本將增加數(shù)倍,但晶體管密度也只有15%-20%的提升。這種“投入多,但提升少”的困境,正隨著制程工藝的持續(xù)升級而不斷加劇。
既然無法從“單點(diǎn)”解決發(fā)展的挑戰(zhàn),那就只能從“系統(tǒng)層面”下手了。通過系統(tǒng)工程的創(chuàng)新,彌補(bǔ)芯片工藝落后的問題。
前不久,黃仁勛公開表達(dá),“從技術(shù)參數(shù)看,華為的CloudMatrix 384超節(jié)點(diǎn),性能上超越了英偉達(dá)”。CloudMatrix384超節(jié)點(diǎn)里面有384個卡,這些卡要連在一起像一臺計算機(jī)一樣高效的工作,除了計算,還包括內(nèi)存,通信,存儲,架構(gòu),調(diào)度,并行,散熱,供電,高速互聯(lián)等資源調(diào)度問題。
只有讓各個組成部分有效地配合在一起運(yùn)行,才能使整個系統(tǒng)效能最佳。一位華為技術(shù)專家向虎嗅表示, “超大規(guī)模MoE模型的訓(xùn)練就是一項復(fù)雜的系統(tǒng)工程,挑戰(zhàn)很大,如果你深入下去就會發(fā)現(xiàn)到處是擁塞,很多是串行,到處是等待,很大情況是資源不匹配,還有一些則是重復(fù)計算或重復(fù)數(shù)據(jù)搬運(yùn),蘊(yùn)藏著巨大的改進(jìn)空間”。
面對這些問題,華為的研發(fā)人員決定從底層重構(gòu)現(xiàn)有的算力架構(gòu)。
一場“系統(tǒng)工程的勝利”
昇騰團(tuán)隊做的第一個“重構(gòu)”,就是“全對等高速互聯(lián)的架構(gòu)”。
展開來說,這是一項基于高速總線互聯(lián)技術(shù)實(shí)現(xiàn)的重大突破,它相當(dāng)于把總線從服務(wù)器內(nèi)部,擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜。
在超節(jié)點(diǎn)范圍內(nèi),用高速總線互聯(lián)替代傳統(tǒng)以太,通信帶寬提升了15倍;單跳通信時延也從2微秒做到200納秒,降低了10倍,使集群如同一臺計算機(jī)般協(xié)同工作,有效突破系統(tǒng)性能限制。
緊接著,團(tuán)隊又設(shè)計了“全局內(nèi)存統(tǒng)一編址”,通過虛擬化技術(shù)將分散在各節(jié)點(diǎn)的內(nèi)存池虛擬為統(tǒng)一地址空間,支持跨節(jié)點(diǎn)直接內(nèi)存訪問。
這使得大模型訓(xùn)練中頻繁的參數(shù)同步操作,無需經(jīng)過傳統(tǒng)的“序列化-網(wǎng)絡(luò)傳輸-反序列化”流程,直接通過內(nèi)存語義通信完成,可滿足大模型訓(xùn)練/推理中的小包通信需求,提升專家網(wǎng)絡(luò)小包數(shù)據(jù)傳輸及離散隨機(jī)訪存通信效率。
值得一提的是,研發(fā)團(tuán)隊還對“384 超節(jié)點(diǎn)”的資源調(diào)度進(jìn)行了升級:細(xì)粒度動態(tài)切分,基于對MoE模型結(jié)構(gòu)的深度感知,超節(jié)點(diǎn)可將模型層間計算任務(wù)按專家分布動態(tài)切分至不同節(jié)點(diǎn)。例如對包含288個專家的模型,可將每個專家分配至獨(dú)立NPU,同時通過智能路由算法優(yōu)化跨節(jié)點(diǎn)通信路徑,使計算與通信耗時比從傳統(tǒng)的1:1升至3:1。
事后來看,完成上述重構(gòu)設(shè)計,行業(yè)中可能只有華為能在短時間內(nèi)完成。因?yàn)槠浔澈笫巧婕暗氖腔A(chǔ)軟件、計算、內(nèi)存、通信、架構(gòu)、調(diào)度、散熱、供電、高速互聯(lián)等多個領(lǐng)域的“協(xié)同作戰(zhàn)”,而且每個領(lǐng)域都需要深厚的技術(shù)積累。
就比如說最基礎(chǔ)的通信,傳統(tǒng)銅纜在龐大規(guī)模的集群節(jié)點(diǎn)中會產(chǎn)生明顯的信號衰減,因此昇騰團(tuán)隊選擇了華為自主研發(fā)的400G光模塊解決互聯(lián)問題;又由于“超節(jié)點(diǎn)”的網(wǎng)絡(luò)拓?fù)浒l(fā)生變化,還不能用傳統(tǒng)的光調(diào)度系統(tǒng),但華為此前研發(fā)的OXC(全光交叉聯(lián)接)剛好可以解決這個問題。
類似的例子還有很多,應(yīng)該說在CloudMatrix 384超節(jié)點(diǎn)的研發(fā)過程中,華為過去幾十年在硬件工程和基礎(chǔ)軟件方面積累的經(jīng)驗(yàn),被集中展示了出來。
據(jù)悉,華為內(nèi)部有個算力會戰(zhàn),集結(jié)了超過萬人的團(tuán)隊,把華為云、模型、底座、芯片、硬件工程、基礎(chǔ)軟件的人集結(jié)在一起,跨部門作戰(zhàn),深度協(xié)同,實(shí)現(xiàn)了“大雜燴”技術(shù)的有效利用和協(xié)同創(chuàng)新。這種“多產(chǎn)業(yè)集群”優(yōu)勢,恐怕是行業(yè)內(nèi)任何一家公司都不具備的。
此外,從縱向來看,也就是把范圍縮小到AI產(chǎn)業(yè)中,華為也是為數(shù)不多既能做算力基礎(chǔ)設(shè)施,也能做基礎(chǔ)大模型的公司,這可以在公司內(nèi)部形成一個高效運(yùn)轉(zhuǎn)的“技術(shù)飛輪”。華為專家強(qiáng)調(diào):“只有做基礎(chǔ)大模型,才知道對算力底座有什么要求,才知道算力底座該怎么改進(jìn)。沒有這樣的牽引和支撐驅(qū)動機(jī)制,可能都不能發(fā)現(xiàn)深層次的問題?!?/strong>
近期華為披露了盤古Ultra MoE準(zhǔn)萬億模型,同時,盤古Pro MoE大模型在SuperCLUE榜單并列百億模型榜首的成績,這充分映證了基于昇騰國產(chǎn)算力平臺也可以訓(xùn)練出世界一流的大模型。
生態(tài),還是生態(tài)
大家都知道,國產(chǎn)算力在生態(tài)方面是劣于英偉達(dá)CUDA生態(tài)的,這個問題需要長時間的改進(jìn)。
“能用”和“易用”是兩個維度上的問題。想要將“384超節(jié)點(diǎn)”變成一套“易用”的算力平臺,則需要華為在生態(tài)上提供更加全面的支持。
尤其考慮到此前開發(fā)者早已習(xí)慣于PyTorch、TensorFlow這種深度學(xué)習(xí)框架,或者是英偉達(dá)的CUDA。
而華為也早早地考慮到了這個問題。昇騰的異構(gòu)計算架構(gòu)CANN,從誕生之日起,就支持包括上述的開源學(xué)習(xí)框架。另外一方面,華為的AI框架昇思MindSpore已將生態(tài)兼容性列為最重要的事情,越來越貼近開發(fā)者的使用習(xí)慣。
虎嗅了解到,華為內(nèi)部明確要求將MindSpore的易用性放在首位,要做到讓開發(fā)者“過去怎么用PyTorch,現(xiàn)在就可以怎么用MindSpore”。針對企業(yè)遷移痛點(diǎn),華為推出專為昇騰打造的“遷移助手”MSAdaptor,在用戶界面與PyTorch API 保持一致,實(shí)現(xiàn)模型Day0遷移和一鍵部署。
華為還針對端到端的故障定位和故障快速恢復(fù)進(jìn)行了技術(shù)改進(jìn)。一位華為內(nèi)部人士向虎嗅透漏,在718B參數(shù)的Pangu Ultra MoE訓(xùn)練中,其故障恢復(fù)能夠由之前的幾個小時縮短到“分鐘級”。
值得一提的是,華為盤古大模型首先要考慮的問題是幫助關(guān)基行業(yè),像礦山、鋼鐵、電力、交通、能源、醫(yī)療、金融、港口等智能化升級,為此華為設(shè)立了由中高級專家組成的“小巧靈突擊隊”,到一線現(xiàn)場支持客戶用好昇騰。
在生態(tài)方面的建設(shè)工作,注定會是漫長的過程,昇騰的生態(tài)也在逐步完善,也包括對業(yè)界主流生態(tài)的兼容。據(jù)悉,華為近期將對外公布盤古模型和相關(guān)技術(shù)代碼的開源計劃,進(jìn)一步使能客戶自主開發(fā)、優(yōu)化,匹配客戶的應(yīng)用需求和開發(fā)模式。
在AI基礎(chǔ)設(shè)施加速推進(jìn)的今天,昇騰算力平臺,承載的不僅是這家公司的技術(shù)野心,更是中國AI產(chǎn)業(yè)突破技術(shù)限制的希望。這場以整合創(chuàng)新驅(qū)動的算力革命,或許正在書寫科技競爭的全新范本。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4475805.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.