NVIDIA 搭載 Blackwell 架構(gòu)的 AI 超級(jí)芯片相比 H100 等上一代 GPU 擁有顯著優(yōu)勢(shì)。GB300 已然是 NVIDIA 迄今為止最出色的產(chǎn)品,其計(jì)算能力實(shí)現(xiàn)了顯著的提升,內(nèi)存容量和帶寬也大幅提升,這對(duì)于繁重的 AI 工作負(fù)載至關(guān)重要。CoreWeave 進(jìn)行的最新基準(zhǔn)測(cè)試也印證了這一點(diǎn),該測(cè)試發(fā)現(xiàn) NVIDIA 的最新平臺(tái)可以通過降低張量并行度來顯著提高吞吐量。
CoreWeave 在 DeepSeek R1 推理模型中測(cè)試了這兩個(gè)平臺(tái),這是一個(gè)相當(dāng)復(fù)雜的模型,但主要區(qū)別在于配置的顯著差異。一方面,它需要 16 個(gè) NVIDIA H100 集群來運(yùn)行 DeepSeek R1 模型,但另一方面,它只需要 NVIDIA GB300 NVL72 基礎(chǔ)架構(gòu)上的 4 個(gè) GB300 GPU 即可完成任務(wù)。
盡管使用了四分之一的 GPU,基于 GB300 的系統(tǒng)卻實(shí)現(xiàn)了 6 倍的單 GPU 原始吞吐量,這展現(xiàn)了該 GPU 在復(fù)雜 AI 工作負(fù)載方面相對(duì)于 H100 的巨大優(yōu)勢(shì)。
圖片來源:CoreWeave
如上所述,GB300 明顯優(yōu)于 H100 系統(tǒng),因?yàn)榍罢邇H需 4 路張量并行即可運(yùn)行相同模型。由于分割次數(shù)減少,GPU 間通信得到改善,更高的內(nèi)存容量和帶寬也在性能大幅提升中發(fā)揮了關(guān)鍵作用。憑借如此架構(gòu)上的飛躍,GB300 NVL72 平臺(tái)看起來非常穩(wěn)定,這要?dú)w功于高帶寬 NVLink 和 NVSwitch 互連技術(shù),它們使 GPU 能夠以驚人的速度交換數(shù)據(jù)。
對(duì)于客戶而言,這可以加快詞元生成速度并降低延遲,同時(shí)更高效地?cái)U(kuò)展企業(yè) AI 工作負(fù)載。CoreWeave 重點(diǎn)介紹了 NVIDIA GB300 NVL72 機(jī)架式系統(tǒng)的卓越規(guī)格和功能,該系統(tǒng)提供高達(dá) 37 TB 的內(nèi)存容量(GB300 NVL72 最高支持 40 TB),可用于運(yùn)行大型復(fù)雜的 AI 模型,以及可提供 130 TB/s 內(nèi)存帶寬的超快互連。
總而言之,NVIDIA GB300 不僅注重原始 TFLOP,更注重效率。張量并行度的降低使 GB300 能夠最大限度地降低 GPU 通信開銷,而這通常會(huì)阻礙大規(guī)模 AI 訓(xùn)練和推理。借助 GB300,企業(yè)現(xiàn)在即使使用更少的 GPU 也能實(shí)現(xiàn)更高的吞吐量,這不僅可以降低總體成本,還能幫助他們高效擴(kuò)展。
新聞來源:CoreWeave
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.