網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里開(kāi)源全新推理模型QwQ-32B，一臺(tái)Mac就能實(shí)現(xiàn)頂級(jí)推理能力

2025-03-06 17:53:35　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

3 月 6 日，阿里巴巴旗下的 Qwen 團(tuán)隊(duì)用一條題為《QwQ-32B：擁抱強(qiáng)化學(xué)習(xí)的力量》的博文公布了全新的開(kāi)源大型推理模型 QwQ-32B（Qwen-with-Questions），這款僅有 320 億參數(shù)的模型通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)，在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與擁有 6710 億參數(shù)（激活參數(shù) 37B）的 DeepSeek-R1 相媲美的性能。

圖丨相關(guān)博文（來(lái)源：Qwen）

QwQ-32B 在數(shù)學(xué)推理、編程能力等問(wèn)題解決方面表現(xiàn)出色。根據(jù)官方發(fā)布的基準(zhǔn)測(cè)試結(jié)果，在數(shù)學(xué)推理基準(zhǔn) AIME24 上，QwQ-32B 達(dá)到了 79.5 分，幾乎與 DeepSeek-R1 的 79.8 分持平，遠(yuǎn)超 OpenAI o1-mini 的 63.6 分，也超過(guò)了 DeepSeek-R1 蒸餾到 Llama-70B 和 Qwen-32B 的版本（分別為 70.0 和 72.6 分）。

在編程能力方面，QwQ-32B 在 LiveCodeBench 上獲得了 63.4 分，接近 DeepSeek-R1 的 65.9 分，明顯優(yōu)于 o1-mini 的 53.8 分和蒸餾模型。在 LiveBench 測(cè)試中，QwQ-32B 得分 73.1，與 DeepSeek-R1 的 71.6 分相當(dāng)，且大幅領(lǐng)先于 o1-mini 的 59.1 分。在 IFEval 和 BFCL 上，也略微超過(guò)了 R1。

圖丨基準(zhǔn)測(cè)試結(jié)果（來(lái)源：Qwen）

Hugging Face 的 Vaibhav Srivastav 在評(píng)測(cè)后發(fā)表評(píng)論：“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得驚人’，完全可與頂級(jí)模型媲美?！?/strong>“在 Apache 2.0 許可下，它成功擊敗了 DeepSeek-R1 和 OpenAI o1-mini。”

圖丨相關(guān)推文（來(lái)源：X）

不過(guò)，有部分用戶反應(yīng)，QwQ-32B 有時(shí)會(huì)出現(xiàn)過(guò)度思考的問(wèn)題，哪怕是很簡(jiǎn)單的問(wèn)題也會(huì)生成大量的思維鏈（比如在經(jīng)典的“Strawberry”問(wèn)題上，它會(huì)輸出近七萬(wàn)字的思維鏈），導(dǎo)致其輸出結(jié)果的速度較慢。

模型架構(gòu)方面，QwQ-32B 采用因果語(yǔ)言模型架構(gòu)，具有 64 層 Transformer 結(jié)構(gòu)，相比常見(jiàn)的模型層數(shù)更深。它完整集成了 RoPE（旋轉(zhuǎn)位置編碼）、SwiGLU 激活函數(shù)、RMSNorm 層歸一化和 Attention QKV 偏置，這些都是當(dāng)前先進(jìn)大模型的標(biāo)準(zhǔn)配置。

模型采用了廣義查詢注意力機(jī)制，具體配置為 40 個(gè)查詢頭、8 個(gè)鍵值對(duì)頭，這種配置優(yōu)化了注意力機(jī)制的效率和性能。QwQ-32B 的上下文窗口長(zhǎng)度高達(dá) 131,072 個(gè) token，遠(yuǎn)超普通模型，支持超長(zhǎng)文本處理。

QwQ-32B 的訓(xùn)練過(guò)程分為三個(gè)階段：預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)，其中強(qiáng)化學(xué)習(xí)又分為兩個(gè)關(guān)鍵階段：

第一階段聚焦于數(shù)學(xué)和編程能力的提升。Qwen 團(tuán)隊(duì)從冷啟動(dòng)檢查點(diǎn)開(kāi)始，采用基于結(jié)果的獎(jiǎng)勵(lì)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)擴(kuò)展方法。在數(shù)學(xué)問(wèn)題訓(xùn)練時(shí)，模型使用專門的準(zhǔn)確性驗(yàn)證器（Accuracy Verifier），而非傳統(tǒng)獎(jiǎng)勵(lì)模型；編程任務(wù)則通過(guò)代碼執(zhí)行服務(wù)器（Code Execution Server）評(píng)估代碼是否通過(guò)預(yù)定義測(cè)試用例。訓(xùn)練過(guò)程中，隨著訓(xùn)練輪次增加，兩個(gè)領(lǐng)域的性能持續(xù)提升。

第二階段則側(cè)重通用能力增強(qiáng)。模型引入通用獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器進(jìn)行訓(xùn)練。即使是少量的訓(xùn)練步驟，也顯著提升了指令跟隨、人類偏好對(duì)齊和智能體性能，并且實(shí)現(xiàn)通用能力提升的同時(shí)，不顯著降低第一階段獲得的數(shù)學(xué)和編程能力。

由此，QwQ 得以在 32B 的小參數(shù)上就實(shí)現(xiàn)了強(qiáng)大的推理能力。昨天還在感嘆花八九萬(wàn)買 512GB 內(nèi)存 M3 Ultra 的 Mac Studio 就能運(yùn)行完整版 DeepSeek-R1 了（甚至還需要量化），但現(xiàn)在，只需要幾千塊的 Mac Mini，你就能獲得接近的體驗(yàn)。

而且，QwQ-32B 的小參數(shù)量帶來(lái)了更低的延遲和更高的吞吐量。在相同硬件條件下，小參數(shù)模型在推理速度上具有天然優(yōu)勢(shì)，能夠提供更快的響應(yīng)時(shí)間和更高的并發(fā)處理能力。對(duì)于一些中小型研究團(tuán)隊(duì)、初創(chuàng)企業(yè)和個(gè)人開(kāi)發(fā)者來(lái)說(shuō)，這無(wú)疑大大降低了他們使用先進(jìn)推理模型的門檻。

而且，QwQ-32B 也整合了與智能體相關(guān)的能力，使模型能夠在思考的同時(shí)使用工具，并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。在此基礎(chǔ)上，QwQ-32B 就可以作為企業(yè)自動(dòng)化流程中的核心推理引擎，處理從數(shù)據(jù)分析、報(bào)告生成到編程輔助等各種復(fù)雜任務(wù)。

目前，QwQ-32B 已在 Hugging Face 和 ModelScope 上以 Apache 2.0 許可開(kāi)源，個(gè)人用戶也可通過(guò) Qwen Chat 直接體驗(yàn)該模型。

從 DeepSeek-R1 到 diffusion LLMs，再到 QwQ-32B，最近的一系列突破似乎讓實(shí)現(xiàn)頂級(jí)性能模型所需要的算力越來(lái)越低，盡管未來(lái)對(duì)于高性能芯片的總需求或許并不會(huì)減少，但這種變化對(duì)于那些以往依賴大量計(jì)算資源的巨頭們來(lái)說(shuō)，恐怕免不了造成一些沖擊。

參考資料：

https://qwenlm.github.io/zh/blog/qwq-32b/

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

圖像編輯太慢太粗糙？全新開(kāi)源自回歸模型實(shí)現(xiàn)精準(zhǔn)秒級(jí)修改

量子位 2025-09-03 14:29:46
0 跟貼 0

廣義估計(jì)方程的SPSS及Stata軟件實(shí)現(xiàn)

醫(yī)咖會(huì) 2025-07-02 19:48:15
0 跟貼 0

采樣越多越聰明？隱式擴(kuò)展顛覆認(rèn)知，采樣搜索如何挑出完美解

新智元 2025-04-21 12:45:35
0 跟貼 0

卷瘋了！字節(jié)、阿里等大廠發(fā)力AI智能體，全球96%企業(yè)正部署AI模型

鈦媒體APP 2025-09-03 16:15:22
33 跟貼 33

阿麗瑪打電話通知阿里要分家產(chǎn)，公公做出決定先和米拉德分家后續(xù)

預(yù)言與夢(mèng)u 2025-09-04 11:40:12
1 跟貼 1

包書皮忘記貼姓名貼補(bǔ)救方法，原來(lái)是要這樣子操作，網(wǎng)友：姓名貼忘了學(xué)號(hào)

青島焦點(diǎn)1 2025-09-04 09:00:05
64 跟貼 64

馬斯克控告華人工程師：個(gè)案風(fēng)波，群體受累？

慕容律師 2025-09-02 12:50:16
143 跟貼 143

哈希姆再次回家要求婆婆還錢，卡迪爾在入獄前要去山上報(bào)復(fù)阿里

灑脫一點(diǎn)p 2025-09-05 04:40:45
1 跟貼 1

姜萍現(xiàn)狀：官方實(shí)錘作弊，一家人不知去向，知情人曝更多內(nèi)幕

天行艦 2025-09-05 00:00:09
0 跟貼 0

曝英偉達(dá)又拿下一家AI創(chuàng)企，年內(nèi)4家已入囊中

智東西 2025-09-03 17:09:47
5 跟貼 5

048六年級(jí)拔尖題，這不是超綱題

我服子佩 2025-09-01 16:44:06
3 跟貼 3

佛門CEO釋永信，和他的商業(yè)帝國(guó)

華商韜略 2025-07-29 10:58:14
4 跟貼 4

初中數(shù)學(xué)估算題，放縮和裂項(xiàng)是關(guān)鍵詞

天天數(shù)理學(xué)習(xí)分享 2025-09-04 15:47:50
1 跟貼 1

067巧數(shù)三角形，10秒解決

我服子佩 2025-09-02 20:30:15
2 跟貼 2

097簡(jiǎn)便計(jì)算，很多大學(xué)生家長(zhǎng)也不會(huì)

我服子佩 2025-09-04 20:10:07
1 跟貼 1

095三年級(jí)數(shù)學(xué)培優(yōu)，學(xué)霸也不會(huì)

我服子佩 2025-09-04 20:09:35
1 跟貼 1

075 期末必考題，24和32的公因數(shù)有

我服子佩 2025-09-03 18:39:15
7 跟貼 7

關(guān)于解方程組的一道競(jìng)賽題目，如何正確求解？

三樂(lè)大掌柜 2025-09-01 10:44:33
1 跟貼 1

047簡(jiǎn)便計(jì)算，想到這點(diǎn)就很簡(jiǎn)單

我服子佩 2025-09-01 16:43:52
1 跟貼 1

092三年級(jí)數(shù)學(xué)培優(yōu)，難倒全班

我服子佩 2025-09-04 20:08:51
1 跟貼 1

081分?jǐn)?shù)易錯(cuò)題，?m和?的區(qū)別

我服子佩 2025-09-03 18:40:37
1 跟貼 1

四年級(jí)簡(jiǎn)便計(jì)算：除法的運(yùn)算技巧

大力小學(xué)數(shù)學(xué) 2025-09-04 14:28:00
1 跟貼 1

057“平均數(shù)”有關(guān)的易錯(cuò)題，孩子必須掌握

我服子佩 2025-09-02 20:27:26
1 跟貼 1

高中數(shù)學(xué)利用基本不等式求最值

天天數(shù)理學(xué)習(xí)分享 2025-09-03 19:06:18
3 跟貼 3

學(xué)渣：我竟學(xué)會(huì)了！

大力小學(xué)數(shù)學(xué) 2025-09-05 07:12:00
9 跟貼 9

“天才少女”姜萍后續(xù)？全家消失了，她沒(méi)返校，疑似在服裝廠打工

觀察者海風(fēng) 2025-09-05 01:57:28
13 跟貼 13

多個(gè)AI測(cè)試語(yǔ)文高考作文穩(wěn)拿高分，卻敗在了數(shù)學(xué)壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0

姜萍現(xiàn)狀如何？一家人銷聲匿跡，知情人曝放棄學(xué)業(yè)，疑去工廠打工

何嗀愛(ài)捕漁 2025-09-05 02:01:09
0 跟貼 0

為什么說(shuō)現(xiàn)在小學(xué)數(shù)學(xué)燒腦？聽(tīng)聽(tīng)這位媽媽說(shuō)出了全國(guó)家長(zhǎng)的心聲

我很乖 2025-09-04 01:56:01
0 跟貼 0

我可以很明確地告訴你們，讀書絕對(duì)絕對(duì)可以改變命運(yùn)

玉辭心 2025-09-05 06:44:02
12 跟貼 12

完了我cpu燒了！這么做好像沒(méi)什么問(wèn)題?。?/a>

艷姐的搞笑視頻 2025-09-04 00:00:00
0 跟貼 0

數(shù)學(xué)課本上的五大概念神！快來(lái)看看你都認(rèn)識(shí)幾個(gè)？

史襉的生活科普 2025-09-04 03:26:04
4 跟貼 4

歷史老師突然改教數(shù)學(xué)，同學(xué)們剛開(kāi)始還以為走錯(cuò)班了

科教聚焦 2025-09-03 18:13:37
0 跟貼 0

絕妙數(shù)學(xué)秘籍！高二數(shù)學(xué)立體幾何空間向量四點(diǎn)共面瘋狂挑戰(zhàn)！

六維坐標(biāo)系 2025-09-02 15:39:32
0 跟貼 0

一瓶酒賺150，兩瓶酒賺500，數(shù)學(xué)是體育老師教的！

胡胡趣聞閣 2025-09-04 16:58:40
3 跟貼 3

小孩哥特別喜歡數(shù)學(xué)，才一升二，已經(jīng)學(xué)到四年級(jí)下冊(cè)了！

遼寧老年報(bào)全搜索 2025-09-03 20:36:13
0 跟貼 0

數(shù)學(xué)講題小能手【32】

小小課堂 2025-09-03 12:33:58
5 跟貼 5

當(dāng)數(shù)學(xué)公式配上Bgm！ #冷知識(shí) #萬(wàn)萬(wàn)沒(méi)想到 #數(shù)學(xué)

喬喬的怪知識(shí) 2025-09-04 17:49:22
1 跟貼 1

市值一夜暴漲2600億，是時(shí)候重新認(rèn)識(shí)阿里了

華商韜略 2025-09-04 14:18:05
0 跟貼 0

余弦周期函數(shù)：函數(shù)的單調(diào)性，高考數(shù)學(xué)解題技巧，高三數(shù)學(xué)總復(fù)習(xí)

六維坐標(biāo)系 2025-09-02 16:08:07
0 跟貼 0

一旦朝韓發(fā)生戰(zhàn)爭(zhēng)，將會(huì)成為人類歷史上極為血腥的戰(zhàn)爭(zhēng)之一
董董歷史燴
2025-09-02 10:09:22

東風(fēng)導(dǎo)彈泄密案：間諜郭萬(wàn)鈞一家三口，全部被處以死刑
冰點(diǎn)歷史
2025-07-15 09:33:13

前妻逝后，梁思成再娶林洙，說(shuō)了一句寒心話：原來(lái)真正夫妻是這樣
談古論今歷史有道
2025-09-02 00:39:02

訂單造假，車輛貶值，上了賊船的車主后悔得腸子都青了
柏銘銳談
2025-09-03 16:52:10

穩(wěn)定輸出，梅西已經(jīng)連續(xù)20年在阿根廷國(guó)家隊(duì)有進(jìn)球入賬
懂球帝
2025-09-05 08:47:15

李梓萌：不再是女主播發(fā)型，扎著馬尾辮在天安門廣場(chǎng)做閱兵式報(bào)道
曉今娛
2025-09-04 01:05:03

九三閱兵后續(xù)：博主因發(fā)表不當(dāng)言論遭永久禁言，多位大V力挺吳京
古希臘掌管月桂的神
2025-09-04 13:01:22

浙江首個(gè)！這一新機(jī)構(gòu)，對(duì)外亮相
政知新媒體
2025-09-04 23:09:05

金某完了，別說(shuō)娶小三，牢底都要坐穿！網(wǎng)傳白麗穎跑去天津打胎
公子麥少
2025-08-27 16:05:06

創(chuàng)世界艦載機(jī)最短服役紀(jì)錄！殲15艦載機(jī)，列裝13年后幾乎淘汰
快看張同學(xué)
2025-09-05 09:12:29

普京專機(jī)離開(kāi)北京后，剛飛出中俄國(guó)境線，馬上降落在了海參崴
近史博覽
2025-09-05 09:07:33

《街頭霸王》電影官宣：杰森·莫瑪領(lǐng)銜主演，2026年10月16日上映
IT之家
2025-09-05 07:24:07

順藤摸瓜！上任僅8天，官媒出手，揭開(kāi)釋印樂(lè)真實(shí)人品，字字珠璣
觀察鑒娛
2025-08-06 10:24:50

硬核科普：為什么不能在太平洋中央停船？深海中究竟如何停船？
徐德文科學(xué)頻道
2025-08-07 14:01:23

他是國(guó)家一級(jí)演員，娶恩師女兒為妻，生下雙胞胎兒子如今比他還火
顧史
2025-09-02 15:17:13

普拉博沃接二連三送驚喜，把一個(gè)20年的大項(xiàng)目，親自送到中方手里
欽點(diǎn)歷史
2025-09-05 09:08:35

中國(guó)和俄羅斯簽署20多項(xiàng)合作協(xié)議
海外網(wǎng)
2025-09-04 11:32:06

曼聯(lián)夏窗曾接近簽下塞梅尼奧，熱刺競(jìng)爭(zhēng)與薪資差異致交易告吹
樂(lè)道足球
2025-09-05 09:43:52

國(guó)乒大爆冷！單打4連敗日本，一勝難求，國(guó)乒6號(hào)種子2:3不敵日本
國(guó)乒二三事
2025-09-05 07:24:16

第一中鋒出世，胡金秋周琦落榜，正主讓人意外
體育籃球弟
2025-09-04 13:47:36

2025-09-05 10:00:49