網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CoreWeave通過DeepSeek R1演示GB300 NVL72的6倍GPU吞吐量

2025-08-27 09:06:27　來源: cnBeta.COM

浙江舉報(bào)

分享至

NVIDIA 搭載 Blackwell 架構(gòu)的 AI 超級(jí)芯片相比 H100 等上一代 GPU 擁有顯著優(yōu)勢(shì)。GB300 已然是 NVIDIA 迄今為止最出色的產(chǎn)品，其計(jì)算能力實(shí)現(xiàn)了顯著的提升，內(nèi)存容量和帶寬也大幅提升，這對(duì)于繁重的 AI 工作負(fù)載至關(guān)重要。CoreWeave 進(jìn)行的最新基準(zhǔn)測(cè)試也印證了這一點(diǎn)，該測(cè)試發(fā)現(xiàn) NVIDIA 的最新平臺(tái)可以通過降低張量并行度來顯著提高吞吐量。

CoreWeave 在 DeepSeek R1 推理模型中測(cè)試了這兩個(gè)平臺(tái)，這是一個(gè)相當(dāng)復(fù)雜的模型，但主要區(qū)別在于配置的顯著差異。一方面，它需要 16 個(gè) NVIDIA H100 集群來運(yùn)行 DeepSeek R1 模型，但另一方面，它只需要 NVIDIA GB300 NVL72 基礎(chǔ)架構(gòu)上的 4 個(gè) GB300 GPU 即可完成任務(wù)。

盡管使用了四分之一的 GPU，基于 GB300 的系統(tǒng)卻實(shí)現(xiàn)了 6 倍的單 GPU 原始吞吐量，這展現(xiàn)了該 GPU 在復(fù)雜 AI 工作負(fù)載方面相對(duì)于 H100 的巨大優(yōu)勢(shì)。

圖片來源：CoreWeave

如上所述，GB300 明顯優(yōu)于 H100 系統(tǒng)，因?yàn)榍罢邇H需 4 路張量并行即可運(yùn)行相同模型。由于分割次數(shù)減少，GPU 間通信得到改善，更高的內(nèi)存容量和帶寬也在性能大幅提升中發(fā)揮了關(guān)鍵作用。憑借如此架構(gòu)上的飛躍，GB300 NVL72 平臺(tái)看起來非常穩(wěn)定，這要?dú)w功于高帶寬 NVLink 和 NVSwitch 互連技術(shù)，它們使 GPU 能夠以驚人的速度交換數(shù)據(jù)。

對(duì)于客戶而言，這可以加快詞元生成速度并降低延遲，同時(shí)更高效地?cái)U(kuò)展企業(yè) AI 工作負(fù)載。CoreWeave 重點(diǎn)介紹了 NVIDIA GB300 NVL72 機(jī)架式系統(tǒng)的卓越規(guī)格和功能，該系統(tǒng)提供高達(dá) 37 TB 的內(nèi)存容量（GB300 NVL72 最高支持 40 TB），可用于運(yùn)行大型復(fù)雜的 AI 模型，以及可提供 130 TB/s 內(nèi)存帶寬的超快互連。

總而言之，NVIDIA GB300 不僅注重原始 TFLOP，更注重效率。張量并行度的降低使 GB300 能夠最大限度地降低 GPU 通信開銷，而這通常會(huì)阻礙大規(guī)模 AI 訓(xùn)練和推理。借助 GB300，企業(yè)現(xiàn)在即使使用更少的 GPU 也能實(shí)現(xiàn)更高的吞吐量，這不僅可以降低總體成本，還能幫助他們高效擴(kuò)展。

新聞來源：CoreWeave

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.