英偉達公司今日宣布在人工智能軟件和網(wǎng)絡(luò)創(chuàng)新方面取得重大進展,旨在加速AI基礎(chǔ)設(shè)施建設(shè)和模型部署。
作為驅(qū)動AI經(jīng)濟發(fā)展的圖形處理單元制造商,英偉達為其專門針對AI工作負(fù)載設(shè)計的Spectrum-X以太網(wǎng)交換平臺推出了Spectrum-XGS"千兆級"技術(shù)。Spectrum-X能夠連接數(shù)據(jù)中心內(nèi)的整個集群,讓海量數(shù)據(jù)集在AI模型間流動。而Spectrum-XGS則進一步擴展了這一能力,提供數(shù)據(jù)中心間的編排和互連功能。
"大家聽過我們使用'向上擴展'和'向外擴展'這些術(shù)語?,F(xiàn)在我們引入一個新概念——'跨域擴展',"英偉達加速計算產(chǎn)品總監(jiān)戴夫·薩爾瓦托表示。"這些交換機專門用于支持多站點規(guī)模擴展,讓不同數(shù)據(jù)中心能夠相互通信,本質(zhì)上就像一個超大GPU。"
在數(shù)據(jù)中心應(yīng)用方面,"向上擴展"意味著更大的機器,"向外擴展"指的是數(shù)據(jù)中心內(nèi)更多的機器。然而,許多數(shù)據(jù)中心在功耗或散熱能力方面存在限制,超過閾值就會影響效率。這限制了特定位置可部署的機器數(shù)量或計算能力。
薩爾瓦托表示,該系統(tǒng)能最大程度降低抖動和延遲——即數(shù)據(jù)包到達時間的變化和發(fā)送數(shù)據(jù)與接收響應(yīng)之間的延遲。這兩個因素在AI網(wǎng)絡(luò)中至關(guān)重要,因為它們決定了跨站點分布的GPU之間能夠?qū)崿F(xiàn)的帶寬。
相比之下,英偉達在5月發(fā)布的網(wǎng)絡(luò)結(jié)構(gòu)技術(shù)NVLink Fusion,允許云服務(wù)提供商擴展數(shù)據(jù)中心規(guī)模,同時處理數(shù)百萬個GPU。NVLink Fusion和Spectrum-XGS共同構(gòu)成了AI基礎(chǔ)設(shè)施擴展的兩個層次:數(shù)據(jù)中心內(nèi)部擴展和跨多個數(shù)據(jù)中心擴展。
推理服務(wù)方法的研究突破
Dynamo是英偉達的推理服務(wù)框架,負(fù)責(zé)模型部署和知識處理。
英偉達一直在研究如何使用該平臺通過名為"分離式服務(wù)"的專門技術(shù)來部署模型。這種技術(shù)將"預(yù)填充"(上下文構(gòu)建)和"解碼"(Token生成)分配到不同的GPU或服務(wù)器上。
這點非常重要,因為推理服務(wù)曾經(jīng)被認(rèn)為是模型訓(xùn)練的次要任務(wù),但在智能體AI時代已成為嚴(yán)峻挑戰(zhàn),推理模型生成的Token數(shù)量遠超早期模型。Dynamo正是英偉達針對這一問題的解決方案,提供更快、更高效、更具成本效益的處理方式。
"以GPT OSS這樣的模型交互性為例——這是OpenAI剛發(fā)布的最新社區(qū)模型,我們能夠?qū)崿F(xiàn)每秒Token數(shù)量約4倍的提升,"薩爾瓦托說道。"在DeepSeek上,我們也取得了顯著改進,實現(xiàn)了2.5倍的性能提升。"
英偉達還在研究"推測解碼"技術(shù),使用第二個較小的模型來猜測主模型對給定提示的輸出,以此加速處理過程。"這種技術(shù)的工作原理是使用所謂的草稿模型,這是一個較小的模型,試圖生成潛在的下一個Token,"薩爾瓦托解釋道。
由于較小的模型速度更快但準(zhǔn)確性較低,它可以生成多個猜測供主模型驗證。
"這里的關(guān)鍵在于,草稿模型推測性地正確猜中下一個Token的次數(shù)越多,就能獲得越多的性能提升,"薩爾瓦托解釋說。"我們已經(jīng)看到使用這些技術(shù)能帶來約35%的性能提升。"
據(jù)薩爾瓦托介紹,主要的AI模型會根據(jù)其學(xué)習(xí)到的概率分布并行進行驗證。只有被接受的Token才會被提交,被拒絕的Token則被丟棄。這將延遲控制在200毫秒以內(nèi),他稱之為"快速且交互性強"。
Q&A
Q1:Spectrum-XGS技術(shù)是什么?它有什么作用?
A:Spectrum-XGS是英偉達為Spectrum-X以太網(wǎng)交換平臺推出的"千兆級"技術(shù),專門針對AI工作負(fù)載設(shè)計。它能提供數(shù)據(jù)中心間的編排和互連功能,讓不同數(shù)據(jù)中心相互通信,本質(zhì)上就像一個超大GPU,實現(xiàn)"跨域擴展"。
Q2:Dynamo推理服務(wù)框架如何提升AI模型性能?
A:Dynamo通過分離式服務(wù)技術(shù),將"預(yù)填充"和"解碼"分配到不同GPU或服務(wù)器上。在GPT OSS模型上能實現(xiàn)每秒Token數(shù)量約4倍提升,在DeepSeek上實現(xiàn)2.5倍性能提升,為智能體AI時代提供更高效的處理方式。
Q3:推測解碼技術(shù)的工作原理是什么?
A:推測解碼使用較小的草稿模型來猜測主模型的輸出,加速處理過程。草稿模型速度快但準(zhǔn)確性低,能生成多個猜測供主模型驗證。英偉達已通過這項技術(shù)實現(xiàn)約35%的性能提升,延遲控制在200毫秒以內(nèi)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.