成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta沒做的,英偉達(dá)做了!全新架構(gòu)吞吐量狂飆6倍,20萬億Token訓(xùn)練

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】英偉達(dá)發(fā)布全新架構(gòu)9B模型,以Mamba-Transformer混合架構(gòu)實(shí)現(xiàn)推理吞吐量最高提升6倍,對(duì)標(biāo)Qwen3-8B并在數(shù)學(xué)、代碼、推理與長(zhǎng)上下文任務(wù)中表現(xiàn)持平或更優(yōu)。

萬萬沒想到,現(xiàn)在還緊跟我們的開源模型竟然是英偉達(dá)。

剛剛,英偉達(dá)發(fā)布了一個(gè)只有9B大小NVIDIA Nemotron Nano 2模型。

對(duì)標(biāo)的是業(yè)界標(biāo)桿,千問的Qwen3-8B,但這個(gè)模型是一個(gè)完全不同的混合架構(gòu)。

用英偉達(dá)的說法,這是一款革命性的Mamba-Transformer混合架構(gòu)語言模型。

在復(fù)雜推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。


它的誕生只有一個(gè)目標(biāo):在復(fù)雜的推理任務(wù)中,實(shí)現(xiàn)無與倫比的吞吐量,同時(shí)保持同級(jí)別模型中頂尖的精度!

在官網(wǎng)簡(jiǎn)單測(cè)試一下,一些經(jīng)典問題,都能答對(duì)。


英偉達(dá)還做了3個(gè)小工具,可以實(shí)時(shí)查天氣、描述哈利波特里的角色和幫你想顏色。


不過9B模型還是小了點(diǎn),當(dāng)你問「SamAltman、馬斯克和黃仁勛誰更值得信任」時(shí),模型會(huì)犯蠢把馬斯克翻譯成麻克,哈哈哈。

而且,也不愧是親兒子,模型認(rèn)為黃仁勛最值得信任。



速度的奧秘

Mamba-2架構(gòu)加持!

Nemotron-Nano-9B-v2的強(qiáng)大,源于其創(chuàng)新的Nemotron-H架構(gòu)。

用閃電般快速的Mamba-2,替換了傳統(tǒng)Transformer架構(gòu)中絕大多數(shù)的自注意力層。


當(dāng)模型需要進(jìn)行長(zhǎng)篇大論的思考、生成復(fù)雜的長(zhǎng)思維鏈時(shí),它的推理速度得到了史詩級(jí)的提升!

簡(jiǎn)單介紹下Mamba架構(gòu)

我們都知道Transformer架構(gòu),但是這么年過去,有沒有新架構(gòu)出現(xiàn)?

有的。

比如Meta公開推進(jìn)JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))和大概念模型(LCMs)、狀態(tài)空間模型(就是Mamba)、記憶模型或擴(kuò)散語言模型等。


谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。

OpenAI雖然嘴上說著有信心訓(xùn)練到GPT-8,但很可能也在儲(chǔ)備新架構(gòu)。

而根據(jù)Reddit社區(qū)的討論,Ilya的SSI最可能就是用全新的架構(gòu),但是什么,還沒人知道。


Mamba是一種完全無注意力機(jī)制的序列建模架構(gòu),基于結(jié)構(gòu)化狀態(tài)空間模型(SSMs)。

通過「選擇性機(jī)制」根據(jù)當(dāng)前輸入動(dòng)態(tài)調(diào)整參數(shù),從而專注于保留相關(guān)信息并忽略無關(guān)信息。

在處理超長(zhǎng)序列時(shí),Mamba的推理速度據(jù)稱可比Transformer快3–5倍,且其復(fù)雜度為線性級(jí)別,支持極長(zhǎng)的上下文(甚至達(dá)到百萬級(jí)token)。

為什么要混合Mamba與Transformer?

Transformer雖然效果出眾,但在處理長(zhǎng)序列時(shí)存在顯著的計(jì)算和內(nèi)存瓶頸(自注意力機(jī)制導(dǎo)致的O(n^2)規(guī)模)。

而Mamba擅長(zhǎng)在長(zhǎng)上下文中高效建模,但在「記憶復(fù)制(copying)」或「上下文學(xué)習(xí)(in?contextlearning)」等任務(wù)上可能稍顯不足。

從120億到90億的極限淬煉

NemotronNanov2的訓(xùn)練按照下面幾個(gè)步驟:

· 「暴力」預(yù)訓(xùn)練

首先在一個(gè)擁有20萬億Token的海量數(shù)據(jù)集上,利用先進(jìn)的FP8訓(xùn)練方案,鍛造出一個(gè)120億參數(shù)基礎(chǔ)模型——Nemotron-Nano-12B-v2-Base。


這聽著就非常像DeepSeek-R1:DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進(jìn)行純強(qiáng)化學(xué)習(xí)訓(xùn)練的初始模型。

而DeepSeek?R1則在此基礎(chǔ)上加入了監(jiān)督微調(diào)作為冷啟動(dòng),再用強(qiáng)化學(xué)習(xí)精煉,從而獲得更好的可讀性與性能。

Nemotron-Nano-12B-v2-Base的預(yù)訓(xùn)練,涵蓋高質(zhì)量網(wǎng)頁、多語言、數(shù)學(xué)、代碼、學(xué)術(shù)等數(shù)據(jù),重點(diǎn)構(gòu)建了高保真的數(shù)學(xué)和代碼數(shù)據(jù)集。

· 極限壓縮與蒸餾

結(jié)合SFT、DPO、GRPO、RLHF等多階段對(duì)齊方法,提升了推理、對(duì)話、工具調(diào)用與安全性。


完成對(duì)齊后,祭出Minitron策略,對(duì)這個(gè)120B參數(shù)的模型進(jìn)行極限壓縮與蒸餾。

Minitron策略是一種由NVIDIA提出的模型壓縮方法,主要通過結(jié)構(gòu)化剪枝(pruning)與知識(shí)蒸餾(distillation)來實(shí)現(xiàn)對(duì)大型語言模型的高效壓縮與性能保持。

· 最終目標(biāo)

通過Minitron剪枝與蒸餾,將12B基礎(chǔ)模型壓縮為9B參數(shù),確保單張A10GGPU(22GiB)即可支持128k上下文。

性能碾壓,精度與速度全都要!

是騾子是馬,拉出來遛遛!

Qwen3-8B等同級(jí)別強(qiáng)手相比,Nemotron-Nano-9B-v2在各大推理基準(zhǔn)測(cè)試中,精度平起平坐,甚至更勝一籌!

在數(shù)學(xué)(GSM8K、MATH)、代碼(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、長(zhǎng)上下文(RULER128k)等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于或持平同類開源模型(如Qwen3-8B、Gemma3-12B).

并在8k輸入/16k輸出場(chǎng)景下實(shí)現(xiàn)6.3×吞吐量提升


全面開源

英偉達(dá)宣布在HuggingFace平臺(tái)上,全面開放以下資源:

正在HuggingFace上發(fā)布以下三個(gè)模型,它們均支持128K的上下文長(zhǎng)度:

  • NVIDIA-Nemotron-Nano-9B-v2:對(duì)齊并剪枝的推理模型

  • NVIDIA-Nemotron-Nano-9B-v2-Base:一個(gè)經(jīng)過剪枝的基礎(chǔ)模型

  • NVIDIA-Nemotron-Nano-12B-v2-Base:對(duì)齊或剪枝之前的基模型

除了模型,英偉達(dá)表示我們的數(shù)據(jù)集也很強(qiáng),并開源了用于預(yù)訓(xùn)練的大部分?jǐn)?shù)據(jù)。

Nemotron-Pre-Training-Dataset-v1數(shù)據(jù)集集合包含6.6萬億個(gè)高質(zhì)量網(wǎng)頁爬取、數(shù)學(xué)、代碼、SFT和多語言問答數(shù)據(jù)的token,該數(shù)據(jù)集被組織為四個(gè)類別:

  • Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后續(xù)版本,新增了八組CommonCrawl快照(2024–2025)。該數(shù)據(jù)經(jīng)過全局去重,并使用Qwen3-30B-A3B進(jìn)行了合成改寫。此外,它還包含以15種語言翻譯的合成多樣化問答對(duì),支持強(qiáng)大的多語言推理和通用知識(shí)預(yù)訓(xùn)練。

  • Nemotron-CC-Math-v1:一個(gè)專注于數(shù)學(xué)的1330億Tokens數(shù)據(jù)集,源自NVIDIA的Lynx+LLM流水線對(duì)CommonCrawl的處理結(jié)果,該方法在將數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)化為L(zhǎng)aTeX的同時(shí)保留了公式和代碼格式。這確保了關(guān)鍵的數(shù)學(xué)內(nèi)容和代碼片段保持完整,從而生成出在基準(zhǔn)測(cè)試中優(yōu)于以往數(shù)學(xué)數(shù)據(jù)集的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。

  • Nemotron-Pretraining-Code-v1:一個(gè)大規(guī)模的精選代碼數(shù)據(jù)集,來源為GitHub,經(jīng)過多階段去重、許可證執(zhí)行和啟發(fā)式質(zhì)量檢查篩選。該數(shù)據(jù)集還包含11種編程語言的LLM生成代碼問答對(duì)。

  • Nemotron-Pretraining-SFT-v1:一個(gè)合成生成的數(shù)據(jù)集,涵蓋STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、學(xué)術(shù)、推理及多語言領(lǐng)域。其中包括從高質(zhì)量的數(shù)學(xué)和科學(xué)原始數(shù)據(jù)中生成的復(fù)雜選擇題和分析型問題、研究生水平的學(xué)術(shù)文本,以及涵蓋數(shù)學(xué)、編程、通用問答和推理任務(wù)的指令調(diào)優(yōu)SFT數(shù)據(jù)。

  • Nemotron-Pretraining-Dataset-sample:數(shù)據(jù)集的一個(gè)小規(guī)模采樣版本提供了10個(gè)具有代表性的子集,展示了高質(zhì)量的問答數(shù)據(jù)、面向數(shù)學(xué)的抽取內(nèi)容、代碼元數(shù)據(jù)以及SFT風(fēng)格的指令數(shù)據(jù)。

最后是感慨下,Meta作為一開始的開源旗幟,現(xiàn)在也逐漸開始轉(zhuǎn)向閉源,或者起碼是在Llama上的策略已經(jīng)被調(diào)整。

目前真正在開源領(lǐng)域努力還是以國(guó)內(nèi)的模型為主,雖然OpenAI前不久也開源了兩個(gè),不過雷聲大雨點(diǎn)小。

英偉達(dá)雖然一直賣鏟子,但也靜悄悄的發(fā)布了不少開源。

感興趣可以在如下網(wǎng)址體驗(yàn),除了英偉達(dá)自家的,很多開源模型都能找到。

模型體驗(yàn)網(wǎng)址:

https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2


參考資料:

https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
德云系自媒體爆料,郭德綱賬號(hào)取關(guān)六百多人,和前大徒弟有關(guān)

德云系自媒體爆料,郭德綱賬號(hào)取關(guān)六百多人,和前大徒弟有關(guān)

我就是個(gè)碼字的
2025-08-30 08:30:03
趙繼偉宴請(qǐng)全隊(duì)25人!送別3隊(duì)友!50道大菜擺滿,有烤全羊大龍蝦

趙繼偉宴請(qǐng)全隊(duì)25人!送別3隊(duì)友!50道大菜擺滿,有烤全羊大龍蝦

老吳說體育
2025-08-31 01:03:29
1973年,入獄7年,58歲的她無罪釋放,她卻拒絕出獄

1973年,入獄7年,58歲的她無罪釋放,她卻拒絕出獄

玥來玥好講故事
2025-08-29 20:36:14
“吃飯八分飽”錯(cuò)了?醫(yī)生建議:過了60歲,吃飯要盡量做到這7點(diǎn)

“吃飯八分飽”錯(cuò)了?醫(yī)生建議:過了60歲,吃飯要盡量做到這7點(diǎn)

說歷史的老牢
2025-08-30 11:17:31
神經(jīng)內(nèi)科醫(yī)生勸告:這5種不舒服其實(shí)是腦梗,千萬別大意,速看!

神經(jīng)內(nèi)科醫(yī)生勸告:這5種不舒服其實(shí)是腦梗,千萬別大意,速看!

華庭講美食
2025-08-27 16:23:47
上海夫妻冷戰(zhàn)十年分房睡,妻子突然病逝,丈夫整理房間發(fā)現(xiàn)這個(gè)

上海夫妻冷戰(zhàn)十年分房睡,妻子突然病逝,丈夫整理房間發(fā)現(xiàn)這個(gè)

飛云如水
2025-08-17 22:33:09
前所未有!俄軍空襲剛開始,烏軍就開始反擊,直接與俄羅斯對(duì)轟!

前所未有!俄軍空襲剛開始,烏軍就開始反擊,直接與俄羅斯對(duì)轟!

阿龍聊軍事
2025-06-07 20:04:46
男子花20萬買二手房,洗澡時(shí)卻流出紅色液體,物業(yè)上門檢查水箱傻眼

男子花20萬買二手房,洗澡時(shí)卻流出紅色液體,物業(yè)上門檢查水箱傻眼

罪案洞察者
2025-08-30 09:49:35
惡鄰占公共走廊放鞋柜,看網(wǎng)友“神”操作后,直呼 “干得漂亮”

惡鄰占公共走廊放鞋柜,看網(wǎng)友“神”操作后,直呼 “干得漂亮”

裝修秀
2025-08-30 10:50:03
當(dāng)年為什么查辦褚時(shí)健?

當(dāng)年為什么查辦褚時(shí)?。?/a>

百曉生談歷史
2025-08-20 21:55:53
公安部發(fā)布!退休人員必看,事關(guān)錢袋子、養(yǎng)老金,不要掉以輕心

公安部發(fā)布!退休人員必看,事關(guān)錢袋子、養(yǎng)老金,不要掉以輕心

雙色球的方向舵
2025-08-29 15:41:13
已確認(rèn),即將抵達(dá)!暴雨+10級(jí)大風(fēng),再熬一天,浙江高溫退散!臺(tái)風(fēng)最新路徑公布

已確認(rèn),即將抵達(dá)!暴雨+10級(jí)大風(fēng),再熬一天,浙江高溫退散!臺(tái)風(fēng)最新路徑公布

浙江消防
2025-08-30 18:10:11
暴雨、大暴雨!臺(tái)風(fēng),又來了

暴雨、大暴雨!臺(tái)風(fēng),又來了

環(huán)球網(wǎng)資訊
2025-08-30 14:55:27
為什么社會(huì)上的單親媽媽,越來越多了?

為什么社會(huì)上的單親媽媽,越來越多了?

加油丁小文
2025-08-20 06:00:03
噩耗!藥企大佬尹正龍去世,僅60歲,當(dāng)天上午還在開會(huì),死因曝光

噩耗!藥企大佬尹正龍去世,僅60歲,當(dāng)天上午還在開會(huì),死因曝光

云景侃記
2025-08-28 14:16:26
記者:安東尼加盟貝蒂斯轉(zhuǎn)會(huì)費(fèi)2500萬鎊,曼聯(lián)有50%二轉(zhuǎn)分成

記者:安東尼加盟貝蒂斯轉(zhuǎn)會(huì)費(fèi)2500萬鎊,曼聯(lián)有50%二轉(zhuǎn)分成

懂球帝
2025-08-30 04:05:34
董璇給張維伊老家親戚買金子,男方瞬間變臉,雙方經(jīng)濟(jì)實(shí)力差太多

董璇給張維伊老家親戚買金子,男方瞬間變臉,雙方經(jīng)濟(jì)實(shí)力差太多

萌神木木
2025-08-30 14:00:10
圈內(nèi)大佬親述,陪睡陪玩只是冰山一角,岳云鵬、楊冪、許凱

圈內(nèi)大佬親述,陪睡陪玩只是冰山一角,岳云鵬、楊冪、許凱

農(nóng)村娛樂光哥
2025-08-29 11:15:35
叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說不會(huì)虧待他們

叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說不會(huì)虧待他們

興史興談
2025-07-14 15:41:56
提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

瓜農(nóng)娟姐
2025-08-30 16:06:15
2025-08-31 03:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
旅游
時(shí)尚
軍事航空

手機(jī)要聞

vivo X300系列超前瞻預(yù)熱開啟:兩億像素+長(zhǎng)焦微距,實(shí)力不容小覷

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

軍事要聞

美國(guó)務(wù)院批準(zhǔn)對(duì)烏新軍售

無障礙瀏覽 進(jìn)入關(guān)懷版