網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型進(jìn)入萬(wàn)億參數(shù)時(shí)代，超節(jié)點(diǎn)是唯一“解”么？丨ToB產(chǎn)業(yè)觀察

2025-08-08 17:47:40　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

模型發(fā)展的兩極化趨勢(shì)已經(jīng)愈發(fā)明顯，一方面，在企業(yè)級(jí)應(yīng)用側(cè)，小參數(shù)模型成為應(yīng)用落地的最佳選擇；另一方面，通用大模型的參數(shù)正在不斷攀升，大模型已經(jīng)進(jìn)入了萬(wàn)億參數(shù)時(shí)代。

當(dāng)前，MoE （Mixture of Experts）高效模型架構(gòu)正在驅(qū)動(dòng)大模型參數(shù)規(guī)模持續(xù)提升，比如采用 MoE混合專家架構(gòu)的KIMI K2開(kāi)源模型，其總參數(shù)量達(dá)1.2萬(wàn)億，但每個(gè)Token 推理時(shí)僅激活32B參數(shù)。

算力系統(tǒng)面臨挑戰(zhàn)

隨著模型參數(shù)的不斷增加，萬(wàn)億參數(shù)模型時(shí)代已經(jīng)到來(lái)，無(wú)論是KIMI K2，還是GPT、Grok，參數(shù)量都已經(jīng)發(fā)展到萬(wàn)億階段，而萬(wàn)億參數(shù)的模型也對(duì)算力系統(tǒng)架構(gòu)提出新的挑戰(zhàn)。

首先要面臨的就是龐大算力需求。萬(wàn)億參數(shù)模型的訓(xùn)練需要極高的算力支撐。以GPT-3為例，其1750億參數(shù)的訓(xùn)練量相當(dāng)于在2.5萬(wàn)張A100 GPU上運(yùn)行90-100天。萬(wàn)億參數(shù)模型的算力需求可能達(dá)到數(shù)十倍，傳統(tǒng)計(jì)算架構(gòu)難以滿足。

同時(shí)，模型并行和數(shù)據(jù)并行的分布式訓(xùn)練雖能分?jǐn)傆?jì)算壓力，但跨節(jié)點(diǎn)的通信開(kāi)銷（如梯度同步）會(huì)顯著降低算力利用率。例如，GPT-4訓(xùn)練的算力利用率（MFU）僅為32%-36%，主要受限于顯存帶寬導(dǎo)致的“內(nèi)存墻”問(wèn)題。

此外，超大規(guī)模MoE模型的訓(xùn)練穩(wěn)定性也是不小的挑戰(zhàn)。參數(shù)規(guī)模和數(shù)據(jù)體量的激增會(huì)導(dǎo)致梯度范數(shù)頻繁突刺，影響收斂效率。同時(shí)，模型參數(shù)量的增加以及序列長(zhǎng)度的增加將會(huì)帶來(lái)KV cache（鍵值緩存，Transformer架構(gòu)大模型在推理過(guò)程中常用的一種優(yōu)化技術(shù)）,數(shù)量的激增，尤其是序列長(zhǎng)度的增加可能會(huì)帶來(lái)指數(shù)級(jí)的KV cache存儲(chǔ)空間的需求。

以FP16格式計(jì)算，萬(wàn)億參數(shù)模型僅權(quán)重就需約20TB顯存，加上KV cache、激活值等動(dòng)態(tài)數(shù)據(jù)，實(shí)際內(nèi)存需求可能超過(guò)50TB。例如，GPT-3的1750億參數(shù)需350GB顯存，而萬(wàn)億參數(shù)模型可能需要2.3TB，遠(yuǎn)超單卡顯存容量（如H100的120GB）。此外，長(zhǎng)序列（如2000K Tokens）的訓(xùn)練會(huì)使計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng)，進(jìn)一步加劇內(nèi)存壓力。這些需求遠(yuǎn)超過(guò)了傳統(tǒng)AI服務(wù)器的顯存能力極限，亟需構(gòu)建具有更大顯存空間的計(jì)算系統(tǒng)承載，才能解決模型“放得下”的問(wèn)題。

此外，MoE架構(gòu)的路由機(jī)制容易導(dǎo)致專家負(fù)載不均衡，部分專家因過(guò)度使用成為計(jì)算瓶頸，而其他專家則訓(xùn)練不足。具體來(lái)看，傳統(tǒng)局部負(fù)載均衡損失（Micro-batch LBL）會(huì)阻礙專家領(lǐng)域特化，因?yàn)閱蝹€(gè)Micro-batch的數(shù)據(jù)分布往往單一。

對(duì)此，阿里云提出了全局負(fù)載均衡損失（Global-batch LBL），通過(guò)跨Micro-batch同步專家激活頻率，在保障全局均衡的同時(shí)允許局部波動(dòng)，顯著提升了模型性能（平均PPL降低 1.5 個(gè)點(diǎn)）。

此外，當(dāng)大模型技術(shù)方向逐漸從訓(xùn)練轉(zhuǎn)向推理場(chǎng)景，清程極智CEO湯雄超在WAIC 2025期間曾向筆者表示，AI技術(shù)的主要方向，已經(jīng)從預(yù)訓(xùn)練轉(zhuǎn)向了后訓(xùn)練及推理階段，“算力需求也正在從訓(xùn)練側(cè)，轉(zhuǎn)向推理側(cè)?！睖鄢赋?。

大模型推理屬于敏感型計(jì)算，對(duì)分布式計(jì)算通信延時(shí)要求很高，以MoE架構(gòu)模型為例，其分布式訓(xùn)練涉及大量跨設(shè)備通信，如Token分發(fā)與結(jié)果聚合，通信時(shí)間占比可高達(dá)40%。浪潮信息副總經(jīng)理趙帥表示，在此背景下，企業(yè)需要構(gòu)建更大Scale Up高速互連域。

總體來(lái)看，趙帥告訴筆者，萬(wàn)億模型對(duì)算力系統(tǒng)也提出了很大挑戰(zhàn)，“企業(yè)需要具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點(diǎn)系統(tǒng)支持?！壁w帥指出。

構(gòu)建大規(guī)模Scale Up系統(tǒng)或是最優(yōu)解

面對(duì)算力需求的增加，以及新需求所帶來(lái)的挑戰(zhàn)，傳統(tǒng)Scale Out 集群通過(guò)增加節(jié)點(diǎn)數(shù)量擴(kuò)展算力，但節(jié)點(diǎn)間通信瓶頸（如InfiniBand 的10微秒時(shí)延）在萬(wàn)億參數(shù)模型訓(xùn)練中被無(wú)限放大。單節(jié)點(diǎn)已經(jīng)不能滿足超大規(guī)模參數(shù)模型的訓(xùn)練需求，Scale Up系統(tǒng)通過(guò)超節(jié)點(diǎn)技術(shù)，將數(shù)百顆AI芯片封裝為統(tǒng)一計(jì)算實(shí)體，實(shí)現(xiàn)跨節(jié)點(diǎn)通信性能接近節(jié)點(diǎn)內(nèi)水平。

從大模型應(yīng)用角度出發(fā)，面對(duì)單點(diǎn)算力/顯存的天花板，構(gòu)建大規(guī)模Scale Up 系統(tǒng)，通過(guò)并行計(jì)算技術(shù)（如專家并行、張量并行）將模型權(quán)重與KV Cache拆分到多個(gè)AI芯片上協(xié)同工作，在趙帥看來(lái)，這種路徑是解決萬(wàn)億參數(shù)模型計(jì)算挑戰(zhàn)的唯一可行路徑?！拔覀冃枰獦?gòu)建大規(guī)模、高集成度的Scale Up系統(tǒng)，通過(guò)緊密耦合大量的AI芯片形成單一高速互連域，才能匯聚起超大顯存池以承載模型，并通過(guò)優(yōu)化互連拓?fù)渑c協(xié)議實(shí)現(xiàn)芯片間超低延遲、高帶寬通信，從而滿足萬(wàn)億模型推理‘放得下、算得快’的要求?！壁w帥指出。

通過(guò)Scale Up系統(tǒng)的方式，已經(jīng)成為未來(lái)萬(wàn)億參數(shù)模型的必然趨勢(shì)，對(duì)于萬(wàn)億大模型推理，不僅需要構(gòu)建更大的顯存空間，還需要實(shí)現(xiàn)卡間超低延遲的互連，構(gòu)建更大的scale up高速互連域。

除了構(gòu)建龐大的系統(tǒng)之外，多芯片協(xié)同也是目前企業(yè)較為常用的一種方式，將多枚芯片封裝到一個(gè)計(jì)算帶上，縮短芯片間的距離，以實(shí)現(xiàn)更高的性能。

針對(duì)此，服務(wù)器廠商也在尋找新的技術(shù)方向，以滿足客戶在超大規(guī)模參數(shù)模型訓(xùn)推方面的需求。以浪潮信息為例，在近日舉辦的2025開(kāi)放計(jì)算技術(shù)大會(huì)上，浪潮信息就發(fā)布了面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。趙帥向筆者介紹道，該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu)，以開(kāi)放系統(tǒng)設(shè)計(jì)聚合64路本土GPU芯片。

具體來(lái)看，此次發(fā)布的元腦SD200在可單機(jī)運(yùn)行1.2萬(wàn)億參數(shù)Kimi K2模型的同時(shí)，還支持DeepSeek、Qwen、GLM等模型同時(shí)運(yùn)行，并支持多Agent協(xié)同按需調(diào)用?！皹?gòu)建具有更大顯存空間、更大scale up高速互連域，以及更高算力的超節(jié)點(diǎn)系統(tǒng)，應(yīng)對(duì)萬(wàn)億模型的算力挑戰(zhàn)?！壁w帥與筆者分享了浪潮信息推出元腦SD200的“初心”。

從系統(tǒng)開(kāi)放協(xié)同角度出發(fā)，元腦SD200基于全局路由自動(dòng)構(gòu)建技術(shù)，得以實(shí)現(xiàn)64卡P2P全互連與業(yè)務(wù)感知的拓補(bǔ)動(dòng)態(tài)切換，并配合多層級(jí)通信機(jī)制，降低了All Reduce/All Gather 時(shí)延。

與此同時(shí)，依托開(kāi)放PD分離框架，支持異步KV Cache高效傳輸與差異化并行策略，在提升業(yè)務(wù)SLO的同時(shí)保持對(duì)多元算力的兼容性，實(shí)現(xiàn)計(jì)算與通信架構(gòu)的深度協(xié)同優(yōu)化。

從架構(gòu)創(chuàng)新角度出發(fā)，元腦SD200采用了多主機(jī)3D Mesh系統(tǒng)架構(gòu)，基于Open Fabric Switch實(shí)現(xiàn)64路GPU高速互連。面對(duì)為何選擇創(chuàng)新性的3D Mesh系統(tǒng)架構(gòu)的提問(wèn)，趙帥表示，3D Mesh系統(tǒng)架構(gòu)能夠讓服務(wù)器擁有一個(gè)更大的、統(tǒng)一地址的顯存空間，“通過(guò)3D Mesh系統(tǒng)架構(gòu)，將原先單機(jī)8卡全互連拓展到了多機(jī)，跨域互連。”趙帥指出。

從應(yīng)用角度出發(fā)，隨著推理場(chǎng)景的不斷發(fā)展，對(duì)低延遲的要求也越來(lái)越高，這也導(dǎo)致了Scale Up會(huì)成為接下來(lái)技術(shù)重點(diǎn)發(fā)展的方向，“Scale Out技術(shù)已經(jīng)相對(duì)成熟，同時(shí)，在推理場(chǎng)景中，Scale Up是首先需要解決的問(wèn)題，這也讓Scale Up成為未來(lái)大模型技術(shù)發(fā)展重點(diǎn)探索的領(lǐng)域，”趙帥進(jìn)一步指出，“但這也并不意味著Scale Out就不適用了，Scale Up與Scale Out會(huì)保持同步前行的狀態(tài)。”

軟硬協(xié)同是關(guān)鍵

Scale Up的發(fā)展除了硬件架構(gòu)的變革之外，也離不開(kāi)軟件系統(tǒng)的搭建，只有做好軟硬協(xié)同，才能激發(fā)芯片更大的潛能，提升算力利用率。

當(dāng)前，軟硬協(xié)同是解決萬(wàn)億參數(shù)大模型算力瓶頸的核心路徑，其本質(zhì)是通過(guò)軟件層深度適配硬件特性、硬件層針對(duì)性支撐軟件需求，實(shí)現(xiàn)“1+1>2”的效率躍升。

硬件能力的釋放需軟件層深度適配，比如，字節(jié)跳動(dòng) COMET 技術(shù)通過(guò)動(dòng)態(tài) KV 緩存重組，將MoE模型的通信延遲從0.944秒降至 0.053 秒，使超節(jié)點(diǎn)硬件利用率突破 90%。若缺乏軟件優(yōu)化，即使硬件帶寬提升 10 倍，實(shí)際通信效率可能僅提升 2-3 倍。

基于此，趙帥表示，通過(guò)多年，歷經(jīng)從實(shí)驗(yàn)室到應(yīng)用，再到用戶POC的過(guò)程，浪潮信息發(fā)現(xiàn)，軟件在超節(jié)點(diǎn)復(fù)雜的系統(tǒng)中，發(fā)揮著重要的作用，“當(dāng)scale up鏈路復(fù)雜程度逐漸升高之后，就更需要對(duì)其進(jìn)行更為細(xì)致的監(jiān)控和管理，”趙帥進(jìn)一步指出，“這種監(jiān)控和管理與之前單機(jī)內(nèi)的監(jiān)控管理相比，復(fù)雜度更高，同時(shí)還需要在上層實(shí)現(xiàn)匹配創(chuàng)新系統(tǒng)架構(gòu)的應(yīng)用框架?！?/p>

以此次浪潮信息發(fā)布的元腦SD200為例，其中就針對(duì)3D Mesh系統(tǒng)架構(gòu)開(kāi)發(fā)了一套PD分離框架，但受限于PD分離技術(shù)定制化程度高、開(kāi)源方案經(jīng)驗(yàn)少等特點(diǎn)，趙帥表示，在整體開(kāi)發(fā)過(guò)程中，還是經(jīng)歷了很長(zhǎng)的POC環(huán)節(jié)，才將軟硬協(xié)同做到最優(yōu)。

除此之外，數(shù)據(jù)中心就像一枚硬幣，一面是要面對(duì)日益增加的單機(jī)柜功率，另一面是要有序推進(jìn)碳中和進(jìn)程，如何平衡好硬幣的兩面，也是當(dāng)前企業(yè)需要考慮的因素。尤其是使用超節(jié)點(diǎn)，其功耗密度已達(dá)兆瓦級(jí)（如萬(wàn)卡集群功耗 > 10MW），軟硬協(xié)同是破局關(guān)鍵，若軟件未適配硬件的動(dòng)態(tài)功耗調(diào)節(jié)，可能導(dǎo)致芯片長(zhǎng)期處于高功耗狀態(tài)，甚至引發(fā)過(guò)熱降頻。

萬(wàn)億參數(shù)大模型的爆發(fā)式增長(zhǎng)，正推動(dòng)算力系統(tǒng)進(jìn)入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。龐大的參數(shù)規(guī)模、激增的顯存需求、復(fù)雜的通信開(kāi)銷，以及MoE架構(gòu)帶來(lái)的負(fù)載均衡與訓(xùn)練穩(wěn)定性挑戰(zhàn)，共同指向一個(gè)核心命題：傳統(tǒng)算力架構(gòu)已難以承載智能進(jìn)化的新需求。在此背景下，硬件架構(gòu)的創(chuàng)新需要軟件層的精準(zhǔn)適配，從動(dòng)態(tài)KV cache重組到全局負(fù)載均衡策略，從通信協(xié)議優(yōu)化到功耗智能調(diào)控，軟件系統(tǒng)正在成為釋放硬件潛能的“鑰匙”。唯有讓硬件特性與軟件需求形成閉環(huán)，才能真正突破“內(nèi)存墻”、“通信墻”的桎梏，將超節(jié)點(diǎn)的算力優(yōu)勢(shì)轉(zhuǎn)化為大模型落地的實(shí)際效能。（本文首發(fā)于鈦媒體APP，作者｜張申宇，編輯丨蓋虹達(dá)）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.