NVIDIA的下一塊未來版圖 Spectrum-XGS 定義行星級AI超級工廠

2025-08-23 19:03:06　來源: 至頂頭條

北京舉報

分享至

人工智能的競賽，早已從模型算法的精細(xì)化比拼，演變?yōu)橐粓觥八娒骸奔墑e的“重工業(yè)”較量。以O(shè)penAI、Google為首的科技巨頭們，正在以前所未有的規(guī)模建設(shè)“AI工廠”——其作為由數(shù)萬乃至數(shù)十萬塊GPU組成的龐大計算集群，是驅(qū)動AI時代創(chuàng)新的核心引擎。

伴隨萬億參數(shù)模型的算力需求指數(shù)級爆漲，“AI工廠”的規(guī)模正迎來更高級形態(tài)——"十億瓦級"AI工廠（Gigawatt-Scale AI Factory）。

但同時，一個嚴(yán)峻的物理挑戰(zhàn)正橫亙在所有“玩家”面前：規(guī)模極限！

一座數(shù)據(jù)中心的建設(shè)，受限于土地、能源和散熱影響。目前，超大規(guī)模AI數(shù)據(jù)中心的功率上限普遍在100～150兆瓦左右。但在萬億、乃至未來十萬億參數(shù)模型的恐怖算力需求面前，顯得捉襟見肘。當(dāng)一個數(shù)據(jù)中心的“容量”被填滿，唯一的出路就是——建造下一個。

于是，AI巨頭們開始在全球范圍內(nèi)布局，數(shù)據(jù)中心如雨后春筍般涌現(xiàn)。而新的問題隨之而來，這些地理上分散的“算力孤島”，如何才能協(xié)同工作。

答案是“網(wǎng)絡(luò)”。

然而，用于連接不同數(shù)據(jù)中心的廣域網(wǎng)（WAN）或城域網(wǎng)（MAN），最初設(shè)計是為了滿足網(wǎng)頁瀏覽、視頻會議等對延遲和抖動不敏感的通用應(yīng)用需求。

相比之下，AI訓(xùn)練作為高度緊耦合的任務(wù)，需要數(shù)萬個GPU以微秒級延遲、幾乎零抖動的條件下完成海量數(shù)據(jù)交換（或者說“集合通信”，Collective Communications）。一旦網(wǎng)絡(luò)出現(xiàn)極其細(xì)微的波動，都會讓GPU集群被迫停滯等待，導(dǎo)致大規(guī)模算力的嚴(yán)重浪費(fèi)。

這就構(gòu)成了AI競賽中的“下一公里”的難題，如何將分散在全球的AI工廠，無縫連接成一個十億瓦級的AI超級工廠。

行業(yè)困頓之際，作為AI“風(fēng)向標(biāo)”的NVIDIA，帶來了答案。在2025年8月22日的Hot Chips上，NVIDIA更新了一項重磅技術(shù)——Spectrum-XGS以太網(wǎng)。

該項技術(shù)是NVIDIA Spectrum-X以太網(wǎng)平臺的全新拓展，其能夠?qū)pectrum-X以太網(wǎng)的超高性能與彈性，延伸至多個分布式數(shù)據(jù)中心，并整合為具備“十億瓦級”的超級AI工廠。

這次發(fā)布，NVIDIA顯然有著更深的考量。其用這張全新的“網(wǎng)”，拆掉“規(guī)模受限”這堵墻，為NVIDIA在AI計算版圖上，拼上“下一塊拼圖”。

01 “Scale-Across”：AI計算的“第三大支柱”

“新工業(yè)革命已經(jīng)到來，AI工廠是這場變革的核心基礎(chǔ)設(shè)施?！边@是 NVIDIA CEO 黃仁勛的標(biāo)志性觀點，也是整個行業(yè)正在形成的共識。

過去，NVIDIA在 AI計算依托兩大核心支柱——Scale-Up（縱向擴(kuò)展）和 Scale-Out（橫向擴(kuò)展），逐步構(gòu)建出如今的AI工廠雛形。

然而，當(dāng)AI的規(guī)模擴(kuò)張跨越單一數(shù)據(jù)中心的邊界。面對"十億瓦級"級的算力需求，僅依賴縱向和橫向擴(kuò)展，已無法滿足全球化的訓(xùn)練和推理任務(wù)。這便是第三根支柱——Scale-Across（跨區(qū)域擴(kuò)展）的使命。

該技術(shù)專為跨區(qū)域的算力整合而設(shè)計，能助力多座相互獨立的數(shù)據(jù)中心融合成邏輯統(tǒng)一、性能一致的“十億瓦級 AI 超級工廠”。

截取自NVIDIA官方資料

當(dāng)然，Spectrum-XGS做的并不是將傳統(tǒng)廣域網(wǎng)（WAN）技術(shù)做遷移，而是在Spectrum-X 數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)核心技術(shù)的基礎(chǔ)上，進(jìn)一步針對跨區(qū)域AI通信的復(fù)雜需求，進(jìn)行了深度優(yōu)化。具體而言在于三方面：

其一是動態(tài)距離適應(yīng)。該網(wǎng)絡(luò)能夠自動感知數(shù)據(jù)中心之間的物理距離，并據(jù)此動態(tài)調(diào)整擁塞控制、路由和延遲策略，使距離不再是不可控的瓶頸，而成為可計算、可優(yōu)化的變量。

其二是精準(zhǔn)延遲管理與端到端遙測。通過先進(jìn)算法有效抑制長距離傳輸中的抖動（Jitter），確保分布式訓(xùn)練與推理能夠始終維持穩(wěn)定、可預(yù)測的性能表現(xiàn)。

其三是性能的提升。NVIDIA官網(wǎng)數(shù)據(jù)顯示，在跨區(qū)域場景下，Spectrum-XGS能將NVIDIA集合通信庫（NCCL）的性能提升近1.9倍。其中，NCCL作為主流AI框架進(jìn)行多GPU通信的基石，這一提升意味著，AI訓(xùn)練和推理的效率在跨區(qū)域數(shù)據(jù)中心場景下得到了根本性的改善。

目前，Spectrum-XGS已經(jīng)進(jìn)入實際部署階段。云服務(wù)商CoreWeave已率先成為優(yōu)先部署Spectrum-XGS的合作伙伴。CoreWeave聯(lián)合創(chuàng)始人兼CTO Peter Salanki表示：“通過 NVIDIA Spectrum-XGS，我們可以將數(shù)據(jù)中心連接成一個統(tǒng)一的超級計算機(jī)。”

02 Scale-Up、Scale-Out、Scale-Across NVIDIA“三位遞進(jìn)”的計算網(wǎng)絡(luò)戰(zhàn)略

Spectrum-XGS的發(fā)布，讓NVIDIA的網(wǎng)絡(luò)戰(zhàn)略拼圖，更加豐富。一個覆蓋從芯片內(nèi)部到全球范圍的“三位一體”網(wǎng)絡(luò)體系已經(jīng)形成。

如果把世界比喻成一個主體，可以這樣理解，Scale-Up的作用是連接AI的“超級大腦”的“神經(jīng)束，Scale-Out得作用是連接同一城市中的所有大腦的“毛細(xì)血管”，而 Scale-Across 就是搭建起跨越區(qū)域的神經(jīng)網(wǎng)絡(luò)的“主動脈”，讓全球的大腦像整體一樣思考。

具體拆解這三層，也依托了NVIDIA一些列顛覆性技術(shù)和產(chǎn)品：

第一層：“神經(jīng)束”Scale-Up—— NVLink與NVLink Fusion

AI 計算的最小單位，或許如今已經(jīng)不再被定義為單個GPU。而是一個由 NVLink 互聯(lián)形成的 GPU域。在最新的 Blackwell 架構(gòu) GB200 NVL72系統(tǒng) 中，NVIDIA 通過第五代 NVLink Switch，將72個GPU 以高達(dá)1.8 TB/s 的帶寬進(jìn)行全互聯(lián)，整機(jī)聚合帶寬更是高達(dá)130 TB/s——這個數(shù)字甚至超過了互聯(lián)網(wǎng)骨干網(wǎng)的總帶寬。

這種互聯(lián)方式，具備了“內(nèi)存語義”的連接，能夠?qū)⑺蠫PU的顯存融合為統(tǒng)一的巨大內(nèi)存池，讓大模型可以一次性完整加載，無需再在不同 GPU 之間進(jìn)行復(fù)雜的數(shù)據(jù)切分和拷貝，有效提升模型訓(xùn)練和推理的效率，也讓多GPU協(xié)同計算的上限，被進(jìn)一步拉高。

更具戰(zhàn)略意義的是，在今年的COMPUTEX 2025上，NVIDIA還推出了NVLink Fusion。該技術(shù)將機(jī)柜級“Scale-Up”開放，允許第三方（如大型云廠商 Hyperscaler）將自研的 CPU 或 XPU（專用處理器）通過標(biāo)準(zhǔn)化接口（如 UCIe）接入NVLink生態(tài)。

截取自NVIDIA官方資料

這一開放策略，進(jìn)一步鞏固了NVLink作為行業(yè)事實標(biāo)準(zhǔn)的地位，也通過更廣泛的合作，吸引并綁定了生態(tài)伙伴，為NVIDIA的技術(shù)版圖奠定了更牢固的基礎(chǔ)。

第二層：“毛細(xì)血管”Scale-Out—— Spectrum-X以太網(wǎng)

當(dāng)計算規(guī)模超出單個機(jī)柜，就需要“Scale-Out”模式將數(shù)千個節(jié)點連接起來。而NVIDIA提供的便是Spectrum-X以太網(wǎng)平臺。

和為通用業(yè)務(wù)設(shè)計的傳統(tǒng)以太網(wǎng)不同，Spectrum-X是為AI量身定制的。其通過RoCE（RDMA over Converged Ethernet）技術(shù)，結(jié)合自適應(yīng)路由、擁塞控制機(jī)制，實現(xiàn)了接近無損、低延遲的數(shù)據(jù)傳輸。其核心組件包括：

其核心組件中，Spectrum 系列交換機(jī)可提供高密度、高帶寬端口，構(gòu)建AI網(wǎng)絡(luò)的主干；ConnectX系列SuperNIC（超級網(wǎng)卡）：能夠?qū)⒓贤ㄐ诺葟?fù)雜的網(wǎng)絡(luò)任務(wù)從 CPU/GPU 卸載，在網(wǎng)卡層直接處理，從而顯著降低通信開銷。

根據(jù)NVIDIA的數(shù)據(jù)，Spectrum-X平臺提供的帶寬密度比傳統(tǒng)以太網(wǎng)高出1.6倍，能夠保證在擁擠的AI網(wǎng)絡(luò)環(huán)境中依然維持高達(dá)95%的有效吞吐率，而傳統(tǒng)以太網(wǎng)可能因沖突和丟包下降到60%甚至更低。

截取自NVIDIA官網(wǎng)

第三層是“洲際動脈”Scale-Across—— Spectrum-XGS

新推出的Spectrum-XGS將Spectrum-X的能力從數(shù)據(jù)中心內(nèi)部延展至全球，通過克服長距離帶來的物理限制，使得構(gòu)建一個真正意義上的全球化超級AI工廠成為可能。這三層網(wǎng)絡(luò)，從內(nèi)到外，層層遞進(jìn)，共同構(gòu)成了一個無縫、高效的AI計算基礎(chǔ)設(shè)施。

03 技術(shù)底座“CPO”：擁抱光，告別銅

要支撐如此規(guī)模的網(wǎng)絡(luò)，在帶寬和能耗上，傳統(tǒng)的電信號（銅纜）傳輸已力不從心。這一次，NVIDIA還推出了顛覆網(wǎng)絡(luò)硬件形態(tài)的根本性創(chuàng)新產(chǎn)品——Co-Packaged Optics (CPO，共封裝光學(xué))。

其實，在傳統(tǒng)交換機(jī)中，電信號由交換芯片（ASIC）輸出后，需要經(jīng)過PCB、電路連接器，最終到達(dá)可插拔光模塊，在模塊中被轉(zhuǎn)換為光信號。這個過程路徑長、環(huán)節(jié)多，因此帶來了一系列問題。

一方面，信號衰減嚴(yán)重。電信號在長距離傳輸中損耗可達(dá)22dB，為了補(bǔ)償損耗，必須依賴復(fù)雜的數(shù)字信號處理（DSP）芯片，這不僅增加了功耗，也延長了延遲。另一方面，功耗和散熱壓力巨大。單個高速可插拔光模塊的功耗可達(dá)30W，而一個擁有數(shù)百個端口的交換機(jī)，僅光模塊的功耗就可能達(dá)到數(shù)千瓦，成為數(shù)據(jù)中心的“電老虎”，同時帶來嚴(yán)重散熱難題。此外，可靠性低也是傳統(tǒng)架構(gòu)的痛點?？刹灏文K和連接器是網(wǎng)絡(luò)硬件中故障率最高的部分，長期運(yùn)維成本高。

CPO技術(shù)徹底改變了這一格局。其可將負(fù)責(zé)光電轉(zhuǎn)換的光學(xué)引擎（Silicon Photonics）與交換芯片ASIC，直接封裝在同一基板上，光纖可以直接連接到這一集成模塊。

這一創(chuàng)新帶來了一系列優(yōu)化。

具體而言，在信號完整性方面，信號路徑被大幅度縮短，電氣損耗從22dB降至約4dB，信號質(zhì)量提升約64倍。

能效提升上，無需強(qiáng)大DSP和冗長的電路，每個端口功耗從30W降至9W，整體能效提升3.5倍。對于擁有數(shù)萬個端口的AI工廠，這意味著每年可節(jié)省數(shù)百萬甚至數(shù)千萬美元的電費(fèi)。

可靠性方面，大幅減少了分立元件和連接點，使網(wǎng)絡(luò)硬件可靠性提高約10倍。

如今，NVIDIA已將CPO技術(shù)全面應(yīng)用于下一代網(wǎng)絡(luò)產(chǎn)品線，包括Spectrum-X Photonics和Quantum-X Photonics系列交換機(jī)。基于CPO的交換機(jī)單臺即可提供高達(dá)409.6Tb/s的帶寬和512個800Gb/s端口。

截取自NVIDIA官網(wǎng)

04 寫在最后

從NVLink的“神經(jīng)束”（Scale-Up），到Spectrum-X的“毛細(xì)血管”（Scale-Out），再到Spectrum-XGS的“洲際動脈”（Scale-Across），NVIDIA的“三位遞進(jìn)”戰(zhàn)略闡述了一套關(guān)于規(guī)模、空間與協(xié)同的計算戰(zhàn)略“方法論”。

依托這套方法論，NVIDIA通過多層次、統(tǒng)一的通信，構(gòu)建出計算架構(gòu)的“局部性原理”，讓Spectrum-XGS以算法確定性對沖地理延遲，實現(xiàn)全球算力孤島的微秒級同步，而基于CPO光子技術(shù)，則也標(biāo)志著大規(guī)模計算通信從“電力時代”邁向“光力時代”。

NVIDIA將這一“宏觀”與“微觀”的“連接”融入世界AI版圖時，真正的競賽便已不在于GPU的數(shù)量，更在于，誰能構(gòu)建讓全球算力如單體般“思考”的“行星級”中樞系統(tǒng)。

如果規(guī)模極限不再成為阻礙，光與網(wǎng)絡(luò)便鋪就了新的前行階梯！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.