模型發(fā)展的兩極化趨勢(shì)已經(jīng)愈發(fā)明顯,一方面,在企業(yè)級(jí)應(yīng)用側(cè),小參數(shù)模型成為應(yīng)用落地的最佳選擇;另一方面,通用大模型的參數(shù)正在不斷攀升,大模型已經(jīng)進(jìn)入了萬(wàn)億參數(shù)時(shí)代。
當(dāng)前,MoE (Mixture of Experts)高效模型架構(gòu)正在驅(qū)動(dòng)大模型參數(shù)規(guī)模持續(xù)提升,比如采用 MoE混合專家架構(gòu)的KIMI K2開(kāi)源模型,其總參數(shù)量達(dá)1.2萬(wàn)億,但每個(gè)Token 推理時(shí)僅激活32B參數(shù)。
算力系統(tǒng)面臨挑戰(zhàn)
隨著模型參數(shù)的不斷增加,萬(wàn)億參數(shù)模型時(shí)代已經(jīng)到來(lái),無(wú)論是KIMI K2,還是GPT、Grok,參數(shù)量都已經(jīng)發(fā)展到萬(wàn)億階段,而萬(wàn)億參數(shù)的模型也對(duì)算力系統(tǒng)架構(gòu)提出新的挑戰(zhàn)。
首先要面臨的就是龐大算力需求。萬(wàn)億參數(shù)模型的訓(xùn)練需要極高的算力支撐。以GPT-3為例,其1750億參數(shù)的訓(xùn)練量相當(dāng)于在2.5萬(wàn)張A100 GPU上運(yùn)行90-100天。萬(wàn)億參數(shù)模型的算力需求可能達(dá)到數(shù)十倍,傳統(tǒng)計(jì)算架構(gòu)難以滿足。
同時(shí),模型并行和數(shù)據(jù)并行的分布式訓(xùn)練雖能分?jǐn)傆?jì)算壓力,但跨節(jié)點(diǎn)的通信開(kāi)銷(如梯度同步)會(huì)顯著降低算力利用率。例如,GPT-4訓(xùn)練的算力利用率(MFU)僅為32%-36%,主要受限于顯存帶寬導(dǎo)致的“內(nèi)存墻”問(wèn)題。
此外,超大規(guī)模MoE模型的訓(xùn)練穩(wěn)定性也是不小的挑戰(zhàn)。參數(shù)規(guī)模和數(shù)據(jù)體量的激增會(huì)導(dǎo)致梯度范數(shù)頻繁突刺,影響收斂效率。同時(shí),模型參數(shù)量的增加以及序列長(zhǎng)度的增加將會(huì)帶來(lái)KV cache(鍵值緩存,Transformer架構(gòu)大模型在推理過(guò)程中常用的一種優(yōu)化技術(shù)),數(shù)量的激增,尤其是序列長(zhǎng)度的增加可能會(huì)帶來(lái)指數(shù)級(jí)的KV cache存儲(chǔ)空間的需求。
以FP16格式計(jì)算,萬(wàn)億參數(shù)模型僅權(quán)重就需約20TB顯存,加上KV cache、激活值等動(dòng)態(tài)數(shù)據(jù),實(shí)際內(nèi)存需求可能超過(guò)50TB。例如,GPT-3的1750億參數(shù)需350GB顯存,而萬(wàn)億參數(shù)模型可能需要2.3TB,遠(yuǎn)超單卡顯存容量(如H100的120GB)。此外,長(zhǎng)序列(如2000K Tokens)的訓(xùn)練會(huì)使計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng),進(jìn)一步加劇內(nèi)存壓力。這些需求遠(yuǎn)超過(guò)了傳統(tǒng)AI服務(wù)器的顯存能力極限,亟需構(gòu)建具有更大顯存空間的計(jì)算系統(tǒng)承載,才能解決模型“放得下”的問(wèn)題。
此外,MoE架構(gòu)的路由機(jī)制容易導(dǎo)致專家負(fù)載不均衡,部分專家因過(guò)度使用成為計(jì)算瓶頸,而其他專家則訓(xùn)練不足。具體來(lái)看,傳統(tǒng)局部負(fù)載均衡損失(Micro-batch LBL)會(huì)阻礙專家領(lǐng)域特化,因?yàn)閱蝹€(gè)Micro-batch的數(shù)據(jù)分布往往單一。
對(duì)此,阿里云提出了全局負(fù)載均衡損失(Global-batch LBL),通過(guò)跨Micro-batch同步專家激活頻率,在保障全局均衡的同時(shí)允許局部波動(dòng),顯著提升了模型性能(平均PPL降低 1.5 個(gè)點(diǎn))。
此外,當(dāng)大模型技術(shù)方向逐漸從訓(xùn)練轉(zhuǎn)向推理場(chǎng)景,清程極智CEO湯雄超在WAIC 2025期間曾向筆者表示,AI技術(shù)的主要方向,已經(jīng)從預(yù)訓(xùn)練轉(zhuǎn)向了后訓(xùn)練及推理階段,“算力需求也正在從訓(xùn)練側(cè),轉(zhuǎn)向推理側(cè)?!睖鄢赋?。
大模型推理屬于敏感型計(jì)算,對(duì)分布式計(jì)算通信延時(shí)要求很高,以MoE架構(gòu)模型為例,其分布式訓(xùn)練涉及大量跨設(shè)備通信,如Token分發(fā)與結(jié)果聚合,通信時(shí)間占比可高達(dá)40%。浪潮信息副總經(jīng)理趙帥表示,在此背景下,企業(yè)需要構(gòu)建更大Scale Up高速互連域。
總體來(lái)看,趙帥告訴筆者,萬(wàn)億模型對(duì)算力系統(tǒng)也提出了很大挑戰(zhàn),“企業(yè)需要具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點(diǎn)系統(tǒng)支持?!壁w帥指出。
構(gòu)建大規(guī)模Scale Up系統(tǒng)或是最優(yōu)解
面對(duì)算力需求的增加,以及新需求所帶來(lái)的挑戰(zhàn),傳統(tǒng)Scale Out 集群通過(guò)增加節(jié)點(diǎn)數(shù)量擴(kuò)展算力,但節(jié)點(diǎn)間通信瓶頸(如InfiniBand 的10微秒時(shí)延)在萬(wàn)億參數(shù)模型訓(xùn)練中被無(wú)限放大。單節(jié)點(diǎn)已經(jīng)不能滿足超大規(guī)模參數(shù)模型的訓(xùn)練需求,Scale Up系統(tǒng)通過(guò)超節(jié)點(diǎn)技術(shù),將數(shù)百顆AI芯片封裝為統(tǒng)一計(jì)算實(shí)體,實(shí)現(xiàn)跨節(jié)點(diǎn)通信性能接近節(jié)點(diǎn)內(nèi)水平。
從大模型應(yīng)用角度出發(fā),面對(duì)單點(diǎn)算力/顯存的天花板,構(gòu)建大規(guī)模Scale Up 系統(tǒng),通過(guò)并行計(jì)算技術(shù)(如專家并行、張量并行)將模型權(quán)重與KV Cache拆分到多個(gè)AI芯片上協(xié)同工作,在趙帥看來(lái),這種路徑是解決萬(wàn)億參數(shù)模型計(jì)算挑戰(zhàn)的唯一可行路徑?!拔覀冃枰獦?gòu)建大規(guī)模、高集成度的Scale Up系統(tǒng),通過(guò)緊密耦合大量的AI芯片形成單一高速互連域,才能匯聚起超大顯存池以承載模型,并通過(guò)優(yōu)化互連拓?fù)渑c協(xié)議實(shí)現(xiàn)芯片間超低延遲、高帶寬通信,從而滿足萬(wàn)億模型推理‘放得下、算得快’的要求?!壁w帥指出。
通過(guò)Scale Up系統(tǒng)的方式,已經(jīng)成為未來(lái)萬(wàn)億參數(shù)模型的必然趨勢(shì),對(duì)于萬(wàn)億大模型推理,不僅需要構(gòu)建更大的顯存空間,還需要實(shí)現(xiàn)卡間超低延遲的互連,構(gòu)建更大的scale up高速互連域。
除了構(gòu)建龐大的系統(tǒng)之外,多芯片協(xié)同也是目前企業(yè)較為常用的一種方式,將多枚芯片封裝到一個(gè)計(jì)算帶上,縮短芯片間的距離,以實(shí)現(xiàn)更高的性能。
針對(duì)此,服務(wù)器廠商也在尋找新的技術(shù)方向,以滿足客戶在超大規(guī)模參數(shù)模型訓(xùn)推方面的需求。以浪潮信息為例,在近日舉辦的2025開(kāi)放計(jì)算技術(shù)大會(huì)上,浪潮信息就發(fā)布了面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。趙帥向筆者介紹道,該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu),以開(kāi)放系統(tǒng)設(shè)計(jì)聚合64路本土GPU芯片。
具體來(lái)看,此次發(fā)布的元腦SD200在可單機(jī)運(yùn)行1.2萬(wàn)億參數(shù)Kimi K2模型的同時(shí),還支持DeepSeek、Qwen、GLM等模型同時(shí)運(yùn)行,并支持多Agent協(xié)同按需調(diào)用?!皹?gòu)建具有更大顯存空間、更大scale up高速互連域,以及更高算力的超節(jié)點(diǎn)系統(tǒng),應(yīng)對(duì)萬(wàn)億模型的算力挑戰(zhàn)?!壁w帥與筆者分享了浪潮信息推出元腦SD200的“初心”。
從系統(tǒng)開(kāi)放協(xié)同角度出發(fā),元腦SD200基于全局路由自動(dòng)構(gòu)建技術(shù),得以實(shí)現(xiàn)64卡P2P全互連與業(yè)務(wù)感知的拓補(bǔ)動(dòng)態(tài)切換,并配合多層級(jí)通信機(jī)制,降低了All Reduce/All Gather 時(shí)延。
與此同時(shí),依托開(kāi)放PD分離框架,支持異步KV Cache高效傳輸與差異化并行策略,在提升業(yè)務(wù)SLO的同時(shí)保持對(duì)多元算力的兼容性,實(shí)現(xiàn)計(jì)算與通信架構(gòu)的深度協(xié)同優(yōu)化。
從架構(gòu)創(chuàng)新角度出發(fā),元腦SD200采用了多主機(jī)3D Mesh系統(tǒng)架構(gòu),基于Open Fabric Switch實(shí)現(xiàn)64路GPU高速互連。面對(duì)為何選擇創(chuàng)新性的3D Mesh系統(tǒng)架構(gòu)的提問(wèn),趙帥表示,3D Mesh系統(tǒng)架構(gòu)能夠讓服務(wù)器擁有一個(gè)更大的、統(tǒng)一地址的顯存空間,“通過(guò)3D Mesh系統(tǒng)架構(gòu),將原先單機(jī)8卡全互連拓展到了多機(jī),跨域互連。”趙帥指出。
從應(yīng)用角度出發(fā),隨著推理場(chǎng)景的不斷發(fā)展,對(duì)低延遲的要求也越來(lái)越高,這也導(dǎo)致了Scale Up會(huì)成為接下來(lái)技術(shù)重點(diǎn)發(fā)展的方向,“Scale Out技術(shù)已經(jīng)相對(duì)成熟,同時(shí),在推理場(chǎng)景中,Scale Up是首先需要解決的問(wèn)題,這也讓Scale Up成為未來(lái)大模型技術(shù)發(fā)展重點(diǎn)探索的領(lǐng)域,”趙帥進(jìn)一步指出,“但這也并不意味著Scale Out就不適用了,Scale Up與Scale Out會(huì)保持同步前行的狀態(tài)。”
軟硬協(xié)同是關(guān)鍵
Scale Up的發(fā)展除了硬件架構(gòu)的變革之外,也離不開(kāi)軟件系統(tǒng)的搭建,只有做好軟硬協(xié)同,才能激發(fā)芯片更大的潛能,提升算力利用率。
當(dāng)前,軟硬協(xié)同是解決萬(wàn)億參數(shù)大模型算力瓶頸的核心路徑,其本質(zhì)是通過(guò)軟件層深度適配硬件特性、硬件層針對(duì)性支撐軟件需求,實(shí)現(xiàn)“1+1>2”的效率躍升。
硬件能力的釋放需軟件層深度適配,比如,字節(jié)跳動(dòng) COMET 技術(shù)通過(guò)動(dòng)態(tài) KV 緩存重組,將MoE模型的通信延遲從0.944秒降至 0.053 秒,使超節(jié)點(diǎn)硬件利用率突破 90%。若缺乏軟件優(yōu)化,即使硬件帶寬提升 10 倍,實(shí)際通信效率可能僅提升 2-3 倍。
基于此,趙帥表示,通過(guò)多年,歷經(jīng)從實(shí)驗(yàn)室到應(yīng)用,再到用戶POC的過(guò)程,浪潮信息發(fā)現(xiàn),軟件在超節(jié)點(diǎn)復(fù)雜的系統(tǒng)中,發(fā)揮著重要的作用,“當(dāng)scale up鏈路復(fù)雜程度逐漸升高之后,就更需要對(duì)其進(jìn)行更為細(xì)致的監(jiān)控和管理,”趙帥進(jìn)一步指出,“這種監(jiān)控和管理與之前單機(jī)內(nèi)的監(jiān)控管理相比,復(fù)雜度更高,同時(shí)還需要在上層實(shí)現(xiàn)匹配創(chuàng)新系統(tǒng)架構(gòu)的應(yīng)用框架?!?/p>
以此次浪潮信息發(fā)布的元腦SD200為例,其中就針對(duì)3D Mesh系統(tǒng)架構(gòu)開(kāi)發(fā)了一套PD分離框架,但受限于PD分離技術(shù)定制化程度高、開(kāi)源方案經(jīng)驗(yàn)少等特點(diǎn),趙帥表示,在整體開(kāi)發(fā)過(guò)程中,還是經(jīng)歷了很長(zhǎng)的POC環(huán)節(jié),才將軟硬協(xié)同做到最優(yōu)。
除此之外,數(shù)據(jù)中心就像一枚硬幣,一面是要面對(duì)日益增加的單機(jī)柜功率,另一面是要有序推進(jìn)碳中和進(jìn)程,如何平衡好硬幣的兩面,也是當(dāng)前企業(yè)需要考慮的因素。尤其是使用超節(jié)點(diǎn),其功耗密度已達(dá)兆瓦級(jí)(如萬(wàn)卡集群功耗 > 10MW),軟硬協(xié)同是破局關(guān)鍵,若軟件未適配硬件的動(dòng)態(tài)功耗調(diào)節(jié),可能導(dǎo)致芯片長(zhǎng)期處于高功耗狀態(tài),甚至引發(fā)過(guò)熱降頻。
萬(wàn)億參數(shù)大模型的爆發(fā)式增長(zhǎng),正推動(dòng)算力系統(tǒng)進(jìn)入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。龐大的參數(shù)規(guī)模、激增的顯存需求、復(fù)雜的通信開(kāi)銷,以及MoE架構(gòu)帶來(lái)的負(fù)載均衡與訓(xùn)練穩(wěn)定性挑戰(zhàn),共同指向一個(gè)核心命題:傳統(tǒng)算力架構(gòu)已難以承載智能進(jìn)化的新需求。在此背景下,硬件架構(gòu)的創(chuàng)新需要軟件層的精準(zhǔn)適配,從動(dòng)態(tài)KV cache重組到全局負(fù)載均衡策略,從通信協(xié)議優(yōu)化到功耗智能調(diào)控,軟件系統(tǒng)正在成為釋放硬件潛能的“鑰匙”。唯有讓硬件特性與軟件需求形成閉環(huán),才能真正突破“內(nèi)存墻”、“通信墻”的桎梏,將超節(jié)點(diǎn)的算力優(yōu)勢(shì)轉(zhuǎn)化為大模型落地的實(shí)際效能。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.