成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型進(jìn)入萬(wàn)億參數(shù)時(shí)代,超節(jié)點(diǎn)是唯一“解”么?丨ToB產(chǎn)業(yè)觀察

0
分享至


模型發(fā)展的兩極化趨勢(shì)已經(jīng)愈發(fā)明顯,一方面,在企業(yè)級(jí)應(yīng)用側(cè),小參數(shù)模型成為應(yīng)用落地的最佳選擇;另一方面,通用大模型的參數(shù)正在不斷攀升,大模型已經(jīng)進(jìn)入了萬(wàn)億參數(shù)時(shí)代。

當(dāng)前,MoE (Mixture of Experts)高效模型架構(gòu)正在驅(qū)動(dòng)大模型參數(shù)規(guī)模持續(xù)提升,比如采用 MoE混合專家架構(gòu)的KIMI K2開(kāi)源模型,其總參數(shù)量達(dá)1.2萬(wàn)億,但每個(gè)Token 推理時(shí)僅激活32B參數(shù)。

算力系統(tǒng)面臨挑戰(zhàn)

隨著模型參數(shù)的不斷增加,萬(wàn)億參數(shù)模型時(shí)代已經(jīng)到來(lái),無(wú)論是KIMI K2,還是GPT、Grok,參數(shù)量都已經(jīng)發(fā)展到萬(wàn)億階段,而萬(wàn)億參數(shù)的模型也對(duì)算力系統(tǒng)架構(gòu)提出新的挑戰(zhàn)。

首先要面臨的就是龐大算力需求。萬(wàn)億參數(shù)模型的訓(xùn)練需要極高的算力支撐。以GPT-3為例,其1750億參數(shù)的訓(xùn)練量相當(dāng)于在2.5萬(wàn)張A100 GPU上運(yùn)行90-100天。萬(wàn)億參數(shù)模型的算力需求可能達(dá)到數(shù)十倍,傳統(tǒng)計(jì)算架構(gòu)難以滿足。

同時(shí),模型并行和數(shù)據(jù)并行的分布式訓(xùn)練雖能分?jǐn)傆?jì)算壓力,但跨節(jié)點(diǎn)的通信開(kāi)銷(如梯度同步)會(huì)顯著降低算力利用率。例如,GPT-4訓(xùn)練的算力利用率(MFU)僅為32%-36%,主要受限于顯存帶寬導(dǎo)致的“內(nèi)存墻”問(wèn)題。

此外,超大規(guī)模MoE模型的訓(xùn)練穩(wěn)定性也是不小的挑戰(zhàn)。參數(shù)規(guī)模和數(shù)據(jù)體量的激增會(huì)導(dǎo)致梯度范數(shù)頻繁突刺,影響收斂效率。同時(shí),模型參數(shù)量的增加以及序列長(zhǎng)度的增加將會(huì)帶來(lái)KV cache(鍵值緩存,Transformer架構(gòu)大模型在推理過(guò)程中常用的一種優(yōu)化技術(shù)),數(shù)量的激增,尤其是序列長(zhǎng)度的增加可能會(huì)帶來(lái)指數(shù)級(jí)的KV cache存儲(chǔ)空間的需求。

以FP16格式計(jì)算,萬(wàn)億參數(shù)模型僅權(quán)重就需約20TB顯存,加上KV cache、激活值等動(dòng)態(tài)數(shù)據(jù),實(shí)際內(nèi)存需求可能超過(guò)50TB。例如,GPT-3的1750億參數(shù)需350GB顯存,而萬(wàn)億參數(shù)模型可能需要2.3TB,遠(yuǎn)超單卡顯存容量(如H100的120GB)。此外,長(zhǎng)序列(如2000K Tokens)的訓(xùn)練會(huì)使計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng),進(jìn)一步加劇內(nèi)存壓力。這些需求遠(yuǎn)超過(guò)了傳統(tǒng)AI服務(wù)器的顯存能力極限,亟需構(gòu)建具有更大顯存空間的計(jì)算系統(tǒng)承載,才能解決模型“放得下”的問(wèn)題。

此外,MoE架構(gòu)的路由機(jī)制容易導(dǎo)致專家負(fù)載不均衡,部分專家因過(guò)度使用成為計(jì)算瓶頸,而其他專家則訓(xùn)練不足。具體來(lái)看,傳統(tǒng)局部負(fù)載均衡損失(Micro-batch LBL)會(huì)阻礙專家領(lǐng)域特化,因?yàn)閱蝹€(gè)Micro-batch的數(shù)據(jù)分布往往單一。

對(duì)此,阿里云提出了全局負(fù)載均衡損失(Global-batch LBL),通過(guò)跨Micro-batch同步專家激活頻率,在保障全局均衡的同時(shí)允許局部波動(dòng),顯著提升了模型性能(平均PPL降低 1.5 個(gè)點(diǎn))。

此外,當(dāng)大模型技術(shù)方向逐漸從訓(xùn)練轉(zhuǎn)向推理場(chǎng)景,清程極智CEO湯雄超在WAIC 2025期間曾向筆者表示,AI技術(shù)的主要方向,已經(jīng)從預(yù)訓(xùn)練轉(zhuǎn)向了后訓(xùn)練及推理階段,“算力需求也正在從訓(xùn)練側(cè),轉(zhuǎn)向推理側(cè)?!睖鄢赋?。

大模型推理屬于敏感型計(jì)算,對(duì)分布式計(jì)算通信延時(shí)要求很高,以MoE架構(gòu)模型為例,其分布式訓(xùn)練涉及大量跨設(shè)備通信,如Token分發(fā)與結(jié)果聚合,通信時(shí)間占比可高達(dá)40%。浪潮信息副總經(jīng)理趙帥表示,在此背景下,企業(yè)需要構(gòu)建更大Scale Up高速互連域。

總體來(lái)看,趙帥告訴筆者,萬(wàn)億模型對(duì)算力系統(tǒng)也提出了很大挑戰(zhàn),“企業(yè)需要具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點(diǎn)系統(tǒng)支持?!壁w帥指出。

構(gòu)建大規(guī)模Scale Up系統(tǒng)或是最優(yōu)解

面對(duì)算力需求的增加,以及新需求所帶來(lái)的挑戰(zhàn),傳統(tǒng)Scale Out 集群通過(guò)增加節(jié)點(diǎn)數(shù)量擴(kuò)展算力,但節(jié)點(diǎn)間通信瓶頸(如InfiniBand 的10微秒時(shí)延)在萬(wàn)億參數(shù)模型訓(xùn)練中被無(wú)限放大。單節(jié)點(diǎn)已經(jīng)不能滿足超大規(guī)模參數(shù)模型的訓(xùn)練需求,Scale Up系統(tǒng)通過(guò)超節(jié)點(diǎn)技術(shù),將數(shù)百顆AI芯片封裝為統(tǒng)一計(jì)算實(shí)體,實(shí)現(xiàn)跨節(jié)點(diǎn)通信性能接近節(jié)點(diǎn)內(nèi)水平。

從大模型應(yīng)用角度出發(fā),面對(duì)單點(diǎn)算力/顯存的天花板,構(gòu)建大規(guī)模Scale Up 系統(tǒng),通過(guò)并行計(jì)算技術(shù)(如專家并行、張量并行)將模型權(quán)重與KV Cache拆分到多個(gè)AI芯片上協(xié)同工作,在趙帥看來(lái),這種路徑是解決萬(wàn)億參數(shù)模型計(jì)算挑戰(zhàn)的唯一可行路徑?!拔覀冃枰獦?gòu)建大規(guī)模、高集成度的Scale Up系統(tǒng),通過(guò)緊密耦合大量的AI芯片形成單一高速互連域,才能匯聚起超大顯存池以承載模型,并通過(guò)優(yōu)化互連拓?fù)渑c協(xié)議實(shí)現(xiàn)芯片間超低延遲、高帶寬通信,從而滿足萬(wàn)億模型推理‘放得下、算得快’的要求?!壁w帥指出。

通過(guò)Scale Up系統(tǒng)的方式,已經(jīng)成為未來(lái)萬(wàn)億參數(shù)模型的必然趨勢(shì),對(duì)于萬(wàn)億大模型推理,不僅需要構(gòu)建更大的顯存空間,還需要實(shí)現(xiàn)卡間超低延遲的互連,構(gòu)建更大的scale up高速互連域。

除了構(gòu)建龐大的系統(tǒng)之外,多芯片協(xié)同也是目前企業(yè)較為常用的一種方式,將多枚芯片封裝到一個(gè)計(jì)算帶上,縮短芯片間的距離,以實(shí)現(xiàn)更高的性能。

針對(duì)此,服務(wù)器廠商也在尋找新的技術(shù)方向,以滿足客戶在超大規(guī)模參數(shù)模型訓(xùn)推方面的需求。以浪潮信息為例,在近日舉辦的2025開(kāi)放計(jì)算技術(shù)大會(huì)上,浪潮信息就發(fā)布了面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。趙帥向筆者介紹道,該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu),以開(kāi)放系統(tǒng)設(shè)計(jì)聚合64路本土GPU芯片。

具體來(lái)看,此次發(fā)布的元腦SD200在可單機(jī)運(yùn)行1.2萬(wàn)億參數(shù)Kimi K2模型的同時(shí),還支持DeepSeek、Qwen、GLM等模型同時(shí)運(yùn)行,并支持多Agent協(xié)同按需調(diào)用?!皹?gòu)建具有更大顯存空間、更大scale up高速互連域,以及更高算力的超節(jié)點(diǎn)系統(tǒng),應(yīng)對(duì)萬(wàn)億模型的算力挑戰(zhàn)?!壁w帥與筆者分享了浪潮信息推出元腦SD200的“初心”。

從系統(tǒng)開(kāi)放協(xié)同角度出發(fā),元腦SD200基于全局路由自動(dòng)構(gòu)建技術(shù),得以實(shí)現(xiàn)64卡P2P全互連與業(yè)務(wù)感知的拓補(bǔ)動(dòng)態(tài)切換,并配合多層級(jí)通信機(jī)制,降低了All Reduce/All Gather 時(shí)延。

與此同時(shí),依托開(kāi)放PD分離框架,支持異步KV Cache高效傳輸與差異化并行策略,在提升業(yè)務(wù)SLO的同時(shí)保持對(duì)多元算力的兼容性,實(shí)現(xiàn)計(jì)算與通信架構(gòu)的深度協(xié)同優(yōu)化。

從架構(gòu)創(chuàng)新角度出發(fā),元腦SD200采用了多主機(jī)3D Mesh系統(tǒng)架構(gòu),基于Open Fabric Switch實(shí)現(xiàn)64路GPU高速互連。面對(duì)為何選擇創(chuàng)新性的3D Mesh系統(tǒng)架構(gòu)的提問(wèn),趙帥表示,3D Mesh系統(tǒng)架構(gòu)能夠讓服務(wù)器擁有一個(gè)更大的、統(tǒng)一地址的顯存空間,“通過(guò)3D Mesh系統(tǒng)架構(gòu),將原先單機(jī)8卡全互連拓展到了多機(jī),跨域互連。”趙帥指出。

從應(yīng)用角度出發(fā),隨著推理場(chǎng)景的不斷發(fā)展,對(duì)低延遲的要求也越來(lái)越高,這也導(dǎo)致了Scale Up會(huì)成為接下來(lái)技術(shù)重點(diǎn)發(fā)展的方向,“Scale Out技術(shù)已經(jīng)相對(duì)成熟,同時(shí),在推理場(chǎng)景中,Scale Up是首先需要解決的問(wèn)題,這也讓Scale Up成為未來(lái)大模型技術(shù)發(fā)展重點(diǎn)探索的領(lǐng)域,”趙帥進(jìn)一步指出,“但這也并不意味著Scale Out就不適用了,Scale Up與Scale Out會(huì)保持同步前行的狀態(tài)。”

軟硬協(xié)同是關(guān)鍵

Scale Up的發(fā)展除了硬件架構(gòu)的變革之外,也離不開(kāi)軟件系統(tǒng)的搭建,只有做好軟硬協(xié)同,才能激發(fā)芯片更大的潛能,提升算力利用率。

當(dāng)前,軟硬協(xié)同是解決萬(wàn)億參數(shù)大模型算力瓶頸的核心路徑,其本質(zhì)是通過(guò)軟件層深度適配硬件特性、硬件層針對(duì)性支撐軟件需求,實(shí)現(xiàn)“1+1>2”的效率躍升。

硬件能力的釋放需軟件層深度適配,比如,字節(jié)跳動(dòng) COMET 技術(shù)通過(guò)動(dòng)態(tài) KV 緩存重組,將MoE模型的通信延遲從0.944秒降至 0.053 秒,使超節(jié)點(diǎn)硬件利用率突破 90%。若缺乏軟件優(yōu)化,即使硬件帶寬提升 10 倍,實(shí)際通信效率可能僅提升 2-3 倍。

基于此,趙帥表示,通過(guò)多年,歷經(jīng)從實(shí)驗(yàn)室到應(yīng)用,再到用戶POC的過(guò)程,浪潮信息發(fā)現(xiàn),軟件在超節(jié)點(diǎn)復(fù)雜的系統(tǒng)中,發(fā)揮著重要的作用,“當(dāng)scale up鏈路復(fù)雜程度逐漸升高之后,就更需要對(duì)其進(jìn)行更為細(xì)致的監(jiān)控和管理,”趙帥進(jìn)一步指出,“這種監(jiān)控和管理與之前單機(jī)內(nèi)的監(jiān)控管理相比,復(fù)雜度更高,同時(shí)還需要在上層實(shí)現(xiàn)匹配創(chuàng)新系統(tǒng)架構(gòu)的應(yīng)用框架?!?/p>

以此次浪潮信息發(fā)布的元腦SD200為例,其中就針對(duì)3D Mesh系統(tǒng)架構(gòu)開(kāi)發(fā)了一套PD分離框架,但受限于PD分離技術(shù)定制化程度高、開(kāi)源方案經(jīng)驗(yàn)少等特點(diǎn),趙帥表示,在整體開(kāi)發(fā)過(guò)程中,還是經(jīng)歷了很長(zhǎng)的POC環(huán)節(jié),才將軟硬協(xié)同做到最優(yōu)。

除此之外,數(shù)據(jù)中心就像一枚硬幣,一面是要面對(duì)日益增加的單機(jī)柜功率,另一面是要有序推進(jìn)碳中和進(jìn)程,如何平衡好硬幣的兩面,也是當(dāng)前企業(yè)需要考慮的因素。尤其是使用超節(jié)點(diǎn),其功耗密度已達(dá)兆瓦級(jí)(如萬(wàn)卡集群功耗 > 10MW),軟硬協(xié)同是破局關(guān)鍵,若軟件未適配硬件的動(dòng)態(tài)功耗調(diào)節(jié),可能導(dǎo)致芯片長(zhǎng)期處于高功耗狀態(tài),甚至引發(fā)過(guò)熱降頻。

萬(wàn)億參數(shù)大模型的爆發(fā)式增長(zhǎng),正推動(dòng)算力系統(tǒng)進(jìn)入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。龐大的參數(shù)規(guī)模、激增的顯存需求、復(fù)雜的通信開(kāi)銷,以及MoE架構(gòu)帶來(lái)的負(fù)載均衡與訓(xùn)練穩(wěn)定性挑戰(zhàn),共同指向一個(gè)核心命題:傳統(tǒng)算力架構(gòu)已難以承載智能進(jìn)化的新需求。在此背景下,硬件架構(gòu)的創(chuàng)新需要軟件層的精準(zhǔn)適配,從動(dòng)態(tài)KV cache重組到全局負(fù)載均衡策略,從通信協(xié)議優(yōu)化到功耗智能調(diào)控,軟件系統(tǒng)正在成為釋放硬件潛能的“鑰匙”。唯有讓硬件特性與軟件需求形成閉環(huán),才能真正突破“內(nèi)存墻”、“通信墻”的桎梏,將超節(jié)點(diǎn)的算力優(yōu)勢(shì)轉(zhuǎn)化為大模型落地的實(shí)際效能。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA創(chuàng)辦79年很多紀(jì)錄被打破,但是只有這6個(gè)我敢說(shuō)永遠(yuǎn)破不了

NBA創(chuàng)辦79年很多紀(jì)錄被打破,但是只有這6個(gè)我敢說(shuō)永遠(yuǎn)破不了

毒舌NBA
2025-09-02 13:47:58
荷媒:要轉(zhuǎn)會(huì)話語(yǔ)權(quán)以及未能與球員有效溝通導(dǎo)致滕哈格下課

荷媒:要轉(zhuǎn)會(huì)話語(yǔ)權(quán)以及未能與球員有效溝通導(dǎo)致滕哈格下課

懂球帝
2025-09-02 19:00:09
逆跌神話!38天票房不降反升,陳佩斯《戲臺(tái)》打了誰(shuí)的臉?

逆跌神話!38天票房不降反升,陳佩斯《戲臺(tái)》打了誰(shuí)的臉?

小娛樂(lè)悠悠
2025-09-02 08:39:41
河北被害女孩瑤瑤的兒子醒后呼喚媽媽,只能對(duì)著照片觸摸媽媽臉龐

河北被害女孩瑤瑤的兒子醒后呼喚媽媽,只能對(duì)著照片觸摸媽媽臉龐

觀察鑒娛
2025-09-02 09:08:56
官媒再次發(fā)聲,“全民強(qiáng)制社?!辈淮嬖?,虛驚一場(chǎng)?

官媒再次發(fā)聲,“全民強(qiáng)制社保”不存在,虛驚一場(chǎng)?

財(cái)話連篇
2025-09-01 22:24:02
樊振東為何連輸兩場(chǎng),德國(guó)主力說(shuō)出實(shí)情:這里和中國(guó)不一樣

樊振東為何連輸兩場(chǎng),德國(guó)主力說(shuō)出實(shí)情:這里和中國(guó)不一樣

徐云流浪中國(guó)
2025-09-02 14:00:52
54歲大媽每周兩次性生活,堅(jiān)持半年后,58歲老伴的身體卻出了問(wèn)題

54歲大媽每周兩次性生活,堅(jiān)持半年后,58歲老伴的身體卻出了問(wèn)題

普陀動(dòng)物世界
2025-09-01 04:27:30
三大指數(shù)全線翻紅

三大指數(shù)全線翻紅

界面新聞
2025-09-02 09:33:30
9月3日大閱兵唯一“遺憾”,國(guó)人這次真的不能忍了!

9月3日大閱兵唯一“遺憾”,國(guó)人這次真的不能忍了!

來(lái)科點(diǎn)譜
2025-08-31 09:18:32
上海女主持人陳辰,傳來(lái)喜訊!

上海女主持人陳辰,傳來(lái)喜訊!

魯中晨報(bào)
2025-09-01 09:35:52
從上合到九三閱兵,兩個(gè)主場(chǎng)外交……

從上合到九三閱兵,兩個(gè)主場(chǎng)外交……

新民周刊
2025-09-01 13:04:48
浙江大學(xué)開(kāi)學(xué),一家5口人坐45小時(shí)火車送孩子上學(xué),笑死在評(píng)論區(qū)

浙江大學(xué)開(kāi)學(xué),一家5口人坐45小時(shí)火車送孩子上學(xué),笑死在評(píng)論區(qū)

坦然風(fēng)云
2025-08-31 12:28:57
平心而論,能讓中國(guó)女排實(shí)力大幅度提升的非這3人莫屬!

平心而論,能讓中國(guó)女排實(shí)力大幅度提升的非這3人莫屬!

田先生籃球
2025-09-01 21:29:13
凈支出超1億!曼城夏窗:標(biāo)王賴因德斯5500萬(wàn)+簽多納魯馬、謝爾基

凈支出超1億!曼城夏窗:標(biāo)王賴因德斯5500萬(wàn)+簽多納魯馬、謝爾基

直播吧
2025-09-02 19:22:54
美網(wǎng)刺激:挽救8個(gè)賽點(diǎn)逆轉(zhuǎn)+轟13個(gè)Ace!祝賀鄭欽文 保住世界前十

美網(wǎng)刺激:挽救8個(gè)賽點(diǎn)逆轉(zhuǎn)+轟13個(gè)Ace!祝賀鄭欽文 保住世界前十

侃球熊弟
2025-09-01 23:50:46
我?guī)团畠簬鈱O,女婿問(wèn)我要房租,我果斷回家,1年后派出所民警敲門

我?guī)团畠簬鈱O,女婿問(wèn)我要房租,我果斷回家,1年后派出所民警敲門

今天說(shuō)故事
2025-07-21 18:24:37
別再以為仁愛(ài)礁破船上的菲方士兵快撐不住了,我們可能想太簡(jiǎn)單了

別再以為仁愛(ài)礁破船上的菲方士兵快撐不住了,我們可能想太簡(jiǎn)單了

書中自有顏如玉
2025-09-02 06:06:33
金正恩還沒(méi)抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

金正恩還沒(méi)抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

吳欣純Deborah
2025-08-29 13:08:46
開(kāi)價(jià)1萬(wàn)3僅撈出300斤魚(yú),李維剛想給錢塘主一分不要,家里是真窮

開(kāi)價(jià)1萬(wàn)3僅撈出300斤魚(yú),李維剛想給錢塘主一分不要,家里是真窮

嫹筆牂牂
2025-09-01 07:29:21
川超成都隊(duì)大名單公布:網(wǎng)紅向男入選,多人曾有職業(yè)履歷

川超成都隊(duì)大名單公布:網(wǎng)紅向男入選,多人曾有職業(yè)履歷

懂球帝
2025-09-02 17:58:14
2025-09-02 19:44:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
123182文章數(shù) 861009關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技稱將在四季度提交IPO申請(qǐng)

頭條要聞

美國(guó)又對(duì)芯片下黑手 專家:中企可能已經(jīng)有了備選方案

頭條要聞

美國(guó)又對(duì)芯片下黑手 專家:中企可能已經(jīng)有了備選方案

體育要聞

等了十年,石宇奇終于說(shuō)出這句話

娛樂(lè)要聞

“廚神對(duì)決!”誰(shuí)做的菜好吃?

財(cái)經(jīng)要聞

一級(jí)市場(chǎng)不靈,LP勸我去炒股

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

旅游
房產(chǎn)
健康
數(shù)碼
教育

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

內(nèi)分泌科專家破解身高八大謠言

數(shù)碼要聞

價(jià)格倒掛DDR4比DDR5還貴!兩大巨頭變卦延長(zhǎng)生產(chǎn)

教育要聞

四川中小學(xué)懲戒規(guī)則將施行

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版