在2023年Hot Chips大會上,英偉達(dá)的超級芯片架構(gòu)引入了一種全新的加速工作負(fù)載編程模型,通過高速NVLink結(jié)構(gòu)將CPU與GPU耦合,使PCIe相比之下顯得極其緩慢。
但問題在于,在數(shù)據(jù)中心或云環(huán)境之外,開發(fā)者很難充分利用這一架構(gòu)優(yōu)勢。
英偉達(dá)的Project Digits項目(現(xiàn)已更名為DGX Spark)旨在改變這一現(xiàn)狀,通過推出名為GB10的英偉達(dá)超級芯片架構(gòu)小型化版本面向大眾市場——至少面向那些有超過2999美元預(yù)算的開發(fā)者。
在本周的Hot Chips大會上,GB10首席架構(gòu)師Andi Skende詳細(xì)介紹了其架構(gòu)設(shè)計。
GB10采用臺積電3nm制程工藝制造,由兩個不同的計算核心組成:聯(lián)發(fā)科設(shè)計的CPU芯片和英偉達(dá)設(shè)計的GPU芯片。這兩個芯片通過臺積電2.5D先進(jìn)封裝技術(shù)整合在一起,并通過英偉達(dá)專有的NVLink芯片間互連技術(shù)連接,提供600GB/s的雙向帶寬。
CPU芯片或S芯片采用大小核架構(gòu),包含20個Arm v9.2核心,分布在兩個集群中,X925和Cortex A725核心數(shù)量相等。這些計算集群配備32MB L3緩存(每個集群16MB)以及額外的16MB L4緩存,旨在優(yōu)化GB10計算引擎間的通信。
關(guān)于GB10圖形芯片或G芯片的具體細(xì)節(jié),英偉達(dá)透露信息有限。據(jù)介紹,該芯片在稀疏性條件下可提供約1 petaFLOP的峰值FP4性能,或約31 teraFLOPS的單精度計算性能(FP32)。
這使得GB10以及DGX Spark的AI性能大致與RTX 5070相當(dāng),后者的建議零售價約為550美元。然而,浮點性能并不能說明全部情況。
首先,GB10的功耗效率更高。RTX 5070的TDP為250瓦,而GB10僅為140瓦。
GB10還配備了128GB顯存,而5070只有12GB。充足的顯存容量對于DGX Spark設(shè)計用途的工作負(fù)載至關(guān)重要,因為即使在FP4精度下,模型權(quán)重仍需要每十億參數(shù)約500MB的存儲空間。
與其大型產(chǎn)品GB200和GB300不同,GB10沒有使用超高速HBM內(nèi)存。受功耗和成本限制,英偉達(dá)選擇了時鐘頻率為9400MT/s的LPDDR5x內(nèi)存。
由于該內(nèi)存與CPU芯片的256位內(nèi)存總線結(jié)合,GB10可提供273GB/s至301GB/s的帶寬。內(nèi)存帶寬是推理性能的關(guān)鍵指標(biāo)——內(nèi)存速度越快,芯片輸出Token的速度就越快。使用LPDDR的決定表明英偉達(dá)在內(nèi)存容量和帶寬之間做出了明顯的妥協(xié)。
不過,DGX Spark的設(shè)計用途遠(yuǎn)不止運行本地模型。英偉達(dá)將這款小型AI工作站定位為開發(fā)平臺,用于原型設(shè)計、模型微調(diào)以及本地推理。
微調(diào)是一項計算和內(nèi)存密集型任務(wù),即使使用低秩適應(yīng)和量化技術(shù)來最小化計算需求也是如此。在這種場景下,計算和內(nèi)存容量比帶寬更為重要。
據(jù)英偉達(dá)介紹,Spark的128GB LPDDR5x內(nèi)存足以微調(diào)700億參數(shù)的模型,并可對多達(dá)2000億參數(shù)的模型進(jìn)行推理。
如果需要更大容量,GB10還配備了ConnectX-7網(wǎng)卡,具有一對200GbE端口,允許工作負(fù)載分布在兩臺DGX Spark上,有效地將微調(diào)和推理能力提升一倍。
更重要的是,由于GB10基于與其數(shù)據(jù)中心產(chǎn)品相同的技術(shù),在小型化工作站上開發(fā)的工作負(fù)載無需重構(gòu)即可部署到生產(chǎn)環(huán)境。
Q&A
Q1:GB10芯片有什么特別之處?
A:GB10是英偉達(dá)推出的小型化超級芯片,采用臺積電3nm工藝制造,由聯(lián)發(fā)科設(shè)計的CPU芯片和英偉達(dá)設(shè)計的GPU芯片組成。通過NVLink互連技術(shù)提供600GB/s雙向帶寬,功耗僅140瓦但配備128GB顯存,專為本地AI開發(fā)設(shè)計。
Q2:DGX Spark相比RTX 5070有什么優(yōu)勢?
A:雖然AI性能相當(dāng),但DGX Spark功耗更低(140瓦 vs 250瓦),顯存容量更大(128GB vs 12GB)。128GB顯存可以微調(diào)700億參數(shù)模型,進(jìn)行2000億參數(shù)模型推理,更適合AI開發(fā)和模型微調(diào)工作。
Q3:GB10如何實現(xiàn)擴(kuò)展性?
A:GB10配備ConnectX-7網(wǎng)卡和一對200GbE端口,允許兩臺DGX Spark設(shè)備協(xié)同工作,有效將微調(diào)和推理能力提升一倍。由于采用與數(shù)據(jù)中心產(chǎn)品相同技術(shù),開發(fā)的工作負(fù)載可直接部署到生產(chǎn)環(huán)境無需重構(gòu)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.