成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,英偉達(dá)新模型上線!4B推理狂飆53倍,全新注意力架構(gòu)超越Mamba 2

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】Jet-Nemotron是英偉達(dá)最新推出的小模型系列(2B/4B),由全華人團(tuán)隊(duì)打造。其核心創(chuàng)新在于提出后神經(jīng)架構(gòu)搜索(PostNAS)與新型線性注意力模塊JetBlock,實(shí)現(xiàn)了從預(yù)訓(xùn)練Transformer出發(fā)的高效架構(gòu)優(yōu)化。相比Qwen3、Gemma3、Llama3.2等模型,Jet-Nemotron在數(shù)學(xué)、代碼、常識(shí)、檢索和長上下文等維度上準(zhǔn)確率更高,同時(shí)在H100 GPU上推理吞吐量最高提升至53倍。

英偉達(dá)最近真的癡迷上「小模型」了。

剛剛,英偉達(dá)發(fā)布了一個(gè)全新的混合架構(gòu)語言模型系列,Jet-Nemotron。


論文地址:https://arxiv.org/pdf/2508.15884

項(xiàng)目地址:https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。

英偉達(dá)表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當(dāng)前最先進(jìn)的開源全注意力語言模型


同時(shí)實(shí)現(xiàn)了顯著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍

在右上角的雷達(dá)圖中,可以看到Jet-Nemotron簡直就是六邊形戰(zhàn)士。

Jet-Nemotron-4B模型在六個(gè)維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。


在預(yù)填充和解碼階段,Jet-Nemotron-2B在上下文越增加的情況下,相對(duì)Qwen 3-1.7B優(yōu)勢越夸張。

一句話總結(jié)就是同等硬件與評(píng)測設(shè)置下,Jet-Nemotron在長上下文的場景里,把吞吐做到了數(shù)量級(jí)提升(解碼可達(dá)50倍提升)。

同時(shí)在常識(shí)/數(shù)學(xué)/代碼/檢索/長上下文等維度的準(zhǔn)確率不降反升。

相較傳統(tǒng)全注意力小模型又快又準(zhǔn)。

看來,英偉達(dá)盯上了小模型Small Model這個(gè)領(lǐng)域。

上一周,他們剛剛發(fā)布了只有9B大小NVIDIA Nemotron Nano 2模型。

在復(fù)雜推理基準(zhǔn)測試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。


今天就推出了更小的Jet系列,體量降到了2B和4B模型。

核心創(chuàng)新

Jet-Nemotron有兩項(xiàng)核心創(chuàng)新。

  • 后神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Post Neural Architecture Search,PostNAS),這是一個(gè)高效的訓(xùn)練后架構(gòu)探索與適應(yīng)流程,適用于任意預(yù)訓(xùn)練的Transformer模型;

  • JetBlock,一種新型線性注意力模塊,其性能顯著優(yōu)于先前的設(shè)計(jì),如Mamba2。


PostNAS:訓(xùn)練后架構(gòu)探索與適配

與之前從頭開始訓(xùn)練以探索新模型架構(gòu)的方法不同,PostNAS在預(yù)訓(xùn)練的Transformer模型基礎(chǔ)上進(jìn)行構(gòu)建。

同時(shí)支持對(duì)注意力塊設(shè)計(jì)的靈活探索,從而大大降低了開發(fā)新語言模型架構(gòu)的成本和風(fēng)險(xiǎn)。

PostNAS首先確定全注意力層的最佳放置位置,然后再搜索改進(jìn)的注意力塊設(shè)計(jì)。


PostNAS從一個(gè)已預(yù)訓(xùn)練的全注意力模型出發(fā),并將MLP凍結(jié)。


隨后對(duì)高效注意力塊的設(shè)計(jì)進(jìn)行由粗到細(xì)的搜索:

先確定全注意力層的最優(yōu)放置位置,再選擇最合適的線性注意力塊采用新的線性注意力塊,最后搜索最優(yōu)的架構(gòu)超參數(shù)

通過將PostNAS應(yīng)用于基線模型后,在所有基準(zhǔn)測試上都取得了顯著的準(zhǔn)確率提升。


在預(yù)訓(xùn)練的Transformer模型中,并非所有注意力層的貢獻(xiàn)都是相同的。

PostNAS揭示了預(yù)訓(xùn)練Transformer模型中重要的注意力層。


KV緩存大小是影響長上下文和長生成吞吐量的最關(guān)鍵因素。

PostNAS硬件感知搜索能夠發(fā)現(xiàn)一些架構(gòu),在保持相似生成吞吐量的同時(shí),擁有更多參數(shù)并實(shí)現(xiàn)更高的準(zhǔn)確性。


JetBlock: 一種具有SOTA準(zhǔn)確率的新型線性注意力模塊

通過PostNAS,引入了JetBlock:一種新穎的線性注意力模塊,它將動(dòng)態(tài)卷積與硬件感知架構(gòu)搜索相結(jié)合,以增強(qiáng)線性注意力,在保持與先前設(shè)計(jì)相似的訓(xùn)練和推理吞吐量的同時(shí),實(shí)現(xiàn)了顯著的準(zhǔn)確率提升。

下方使用完全相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練方案,對(duì)Mamba2 Block與JetBlock進(jìn)行了公平的對(duì)比。


性能

Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準(zhǔn)測試中達(dá)到或超過了主流高效語言模型(例如Qwen3)的準(zhǔn)確率。

同時(shí)運(yùn)行速度明顯更快——分別比Qwen3-1.7B-Base快21倍和47倍。


參考資料:

https://arxiv.org/pdf/2508.15884v1

https://x.com/hancai_hm/status/1960000017235902722


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
基輔降半旗,澤連斯基被打醒了?對(duì)華提出請(qǐng)求,中方只回了兩句話

基輔降半旗,澤連斯基被打醒了?對(duì)華提出請(qǐng)求,中方只回了兩句話

小楊侃事
2025-08-30 11:43:06
難以置信,陳雨菲親述受傷對(duì)比賽的影響,以及最新傷情

難以置信,陳雨菲親述受傷對(duì)比賽的影響,以及最新傷情

真理是我親戚
2025-08-30 23:52:43
郭錫文有新職,曾任福建寧德市委書記(附簡歷)

郭錫文有新職,曾任福建寧德市委書記(附簡歷)

魯中晨報(bào)
2025-08-30 22:56:16
阿里巴巴:追加寒武紀(jì)GPU至15萬片

阿里巴巴:追加寒武紀(jì)GPU至15萬片

新浪財(cái)經(jīng)
2025-08-30 21:10:39
劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

禾寒?dāng)?/span>
2025-08-30 20:15:42
他倆準(zhǔn)備離婚!女方已四結(jié)三離

他倆準(zhǔn)備離婚!女方已四結(jié)三離

FM93浙江交通之聲
2025-08-30 12:40:58
8月30日俄烏最新:澤連斯基拒絕歐盟提議

8月30日俄烏最新:澤連斯基拒絕歐盟提議

西樓飲月
2025-08-30 19:17:41
全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

李昕言溫度空間
2025-08-30 22:10:33
吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

白面書誏
2025-08-29 22:59:15
2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

歸史
2025-08-27 14:29:47
捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

奇思妙想草葉君
2025-08-30 03:31:18
73年10月,8341部隊(duì)派出警衛(wèi),在人民大會(huì)堂抓捕了兩位公安副部長

73年10月,8341部隊(duì)派出警衛(wèi),在人民大會(huì)堂抓捕了兩位公安副部長

一只番茄魚
2025-08-30 12:35:03
1.75億花了個(gè)寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

1.75億花了個(gè)寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

狍子歪解體壇
2025-08-31 01:07:59
慘遭20分逆轉(zhuǎn)!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

慘遭20分逆轉(zhuǎn)!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

羅說NBA
2025-08-31 07:09:31
切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

風(fēng)過鄉(xiāng)
2025-08-31 07:49:18
投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

極目新聞
2025-08-30 16:08:04
7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

風(fēng)過鄉(xiāng)
2025-08-31 07:31:14
CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

籃球快餐車
2025-08-31 03:20:09
伏明霞做夢(mèng)也沒想到,和丈夫生的大女兒,已經(jīng)開始為她爭光了

伏明霞做夢(mèng)也沒想到,和丈夫生的大女兒,已經(jīng)開始為她爭光了

以茶帶書
2025-08-31 00:56:51
拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

千言娛樂記
2025-08-30 21:39:01
2025-08-31 08:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
家居
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

英特爾 Arc Pro B50 首個(gè) Geekbench 跑分出爐,低于銳炫 B570

親子要聞

寶藍(lán)用平板一下子買了50盒玩具!!!

家居要聞

提升功能 靈活居住環(huán)境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版