成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里開(kāi)源全新推理模型QwQ-32B,一臺(tái)Mac就能實(shí)現(xiàn)頂級(jí)推理能力

0
分享至

3 月 6 日,阿里巴巴旗下的 Qwen 團(tuán)隊(duì)用一條題為《QwQ-32B:擁抱強(qiáng)化學(xué)習(xí)的力量》的博文公布了全新的開(kāi)源大型推理模型 QwQ-32B(Qwen-with-Questions),這款僅有 320 億參數(shù)的模型通過(guò)強(qiáng)化學(xué)習(xí)技術(shù),在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與擁有 6710 億參數(shù)(激活參數(shù) 37B)的 DeepSeek-R1 相媲美的性能。


圖丨相關(guān)博文(來(lái)源:Qwen)

QwQ-32B 在數(shù)學(xué)推理、編程能力等問(wèn)題解決方面表現(xiàn)出色。根據(jù)官方發(fā)布的基準(zhǔn)測(cè)試結(jié)果,在數(shù)學(xué)推理基準(zhǔn) AIME24 上,QwQ-32B 達(dá)到了 79.5 分,幾乎與 DeepSeek-R1 的 79.8 分持平,遠(yuǎn)超 OpenAI o1-mini 的 63.6 分,也超過(guò)了 DeepSeek-R1 蒸餾到 Llama-70B 和 Qwen-32B 的版本(分別為 70.0 和 72.6 分)。

在編程能力方面,QwQ-32B 在 LiveCodeBench 上獲得了 63.4 分,接近 DeepSeek-R1 的 65.9 分,明顯優(yōu)于 o1-mini 的 53.8 分和蒸餾模型。在 LiveBench 測(cè)試中,QwQ-32B 得分 73.1,與 DeepSeek-R1 的 71.6 分相當(dāng),且大幅領(lǐng)先于 o1-mini 的 59.1 分。在 IFEval 和 BFCL 上,也略微超過(guò)了 R1。


圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)

Hugging Face 的 Vaibhav Srivastav 在評(píng)測(cè)后發(fā)表評(píng)論:“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得驚人’,完全可與頂級(jí)模型媲美?!?/strong>“在 Apache 2.0 許可下,它成功擊敗了 DeepSeek-R1 和 OpenAI o1-mini。”


圖丨相關(guān)推文(來(lái)源:X)

不過(guò),有部分用戶反應(yīng),QwQ-32B 有時(shí)會(huì)出現(xiàn)過(guò)度思考的問(wèn)題,哪怕是很簡(jiǎn)單的問(wèn)題也會(huì)生成大量的思維鏈(比如在經(jīng)典的“Strawberry”問(wèn)題上,它會(huì)輸出近七萬(wàn)字的思維鏈),導(dǎo)致其輸出結(jié)果的速度較慢。

模型架構(gòu)方面,QwQ-32B 采用因果語(yǔ)言模型架構(gòu),具有 64 層 Transformer 結(jié)構(gòu),相比常見(jiàn)的模型層數(shù)更深。它完整集成了 RoPE(旋轉(zhuǎn)位置編碼)、SwiGLU 激活函數(shù)、RMSNorm 層歸一化和 Attention QKV 偏置,這些都是當(dāng)前先進(jìn)大模型的標(biāo)準(zhǔn)配置。

模型采用了廣義查詢注意力機(jī)制,具體配置為 40 個(gè)查詢頭、8 個(gè)鍵值對(duì)頭,這種配置優(yōu)化了注意力機(jī)制的效率和性能。QwQ-32B 的上下文窗口長(zhǎng)度高達(dá) 131,072 個(gè) token,遠(yuǎn)超普通模型,支持超長(zhǎng)文本處理。

QwQ-32B 的訓(xùn)練過(guò)程分為三個(gè)階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),其中強(qiáng)化學(xué)習(xí)又分為兩個(gè)關(guān)鍵階段:

第一階段聚焦于數(shù)學(xué)和編程能力的提升。Qwen 團(tuán)隊(duì)從冷啟動(dòng)檢查點(diǎn)開(kāi)始,采用基于結(jié)果的獎(jiǎng)勵(lì)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)擴(kuò)展方法。在數(shù)學(xué)問(wèn)題訓(xùn)練時(shí),模型使用專門的準(zhǔn)確性驗(yàn)證器(Accuracy Verifier),而非傳統(tǒng)獎(jiǎng)勵(lì)模型;編程任務(wù)則通過(guò)代碼執(zhí)行服務(wù)器(Code Execution Server)評(píng)估代碼是否通過(guò)預(yù)定義測(cè)試用例。訓(xùn)練過(guò)程中,隨著訓(xùn)練輪次增加,兩個(gè)領(lǐng)域的性能持續(xù)提升。

第二階段則側(cè)重通用能力增強(qiáng)。模型引入通用獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器進(jìn)行訓(xùn)練。即使是少量的訓(xùn)練步驟,也顯著提升了指令跟隨、人類偏好對(duì)齊和智能體性能,并且實(shí)現(xiàn)通用能力提升的同時(shí),不顯著降低第一階段獲得的數(shù)學(xué)和編程能力。

由此,QwQ 得以在 32B 的小參數(shù)上就實(shí)現(xiàn)了強(qiáng)大的推理能力。昨天還在感嘆花八九萬(wàn)買 512GB 內(nèi)存 M3 Ultra 的 Mac Studio 就能運(yùn)行完整版 DeepSeek-R1 了(甚至還需要量化),但現(xiàn)在,只需要幾千塊的 Mac Mini,你就能獲得接近的體驗(yàn)。

而且,QwQ-32B 的小參數(shù)量帶來(lái)了更低的延遲和更高的吞吐量。在相同硬件條件下,小參數(shù)模型在推理速度上具有天然優(yōu)勢(shì),能夠提供更快的響應(yīng)時(shí)間和更高的并發(fā)處理能力。對(duì)于一些中小型研究團(tuán)隊(duì)、初創(chuàng)企業(yè)和個(gè)人開(kāi)發(fā)者來(lái)說(shuō),這無(wú)疑大大降低了他們使用先進(jìn)推理模型的門檻。

而且,QwQ-32B 也整合了與智能體相關(guān)的能力,使模型能夠在思考的同時(shí)使用工具,并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。在此基礎(chǔ)上,QwQ-32B 就可以作為企業(yè)自動(dòng)化流程中的核心推理引擎,處理從數(shù)據(jù)分析、報(bào)告生成到編程輔助等各種復(fù)雜任務(wù)。

目前,QwQ-32B 已在 Hugging Face 和 ModelScope 上以 Apache 2.0 許可開(kāi)源,個(gè)人用戶也可通過(guò) Qwen Chat 直接體驗(yàn)該模型。

從 DeepSeek-R1 到 diffusion LLMs,再到 QwQ-32B,最近的一系列突破似乎讓實(shí)現(xiàn)頂級(jí)性能模型所需要的算力越來(lái)越低,盡管未來(lái)對(duì)于高性能芯片的總需求或許并不會(huì)減少,但這種變化對(duì)于那些以往依賴大量計(jì)算資源的巨頭們來(lái)說(shuō),恐怕免不了造成一些沖擊。

參考資料:

https://qwenlm.github.io/zh/blog/qwq-32b/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一旦朝韓發(fā)生戰(zhàn)爭(zhēng),將會(huì)成為人類歷史上極為血腥的戰(zhàn)爭(zhēng)之一

一旦朝韓發(fā)生戰(zhàn)爭(zhēng),將會(huì)成為人類歷史上極為血腥的戰(zhàn)爭(zhēng)之一

董董歷史燴
2025-09-02 10:09:22
東風(fēng)導(dǎo)彈泄密案:間諜郭萬(wàn)鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案:間諜郭萬(wàn)鈞一家三口,全部被處以死刑

冰點(diǎn)歷史
2025-07-15 09:33:13
前妻逝后,梁思成再娶林洙,說(shuō)了一句寒心話:原來(lái)真正夫妻是這樣

前妻逝后,梁思成再娶林洙,說(shuō)了一句寒心話:原來(lái)真正夫妻是這樣

談古論今歷史有道
2025-09-02 00:39:02
訂單造假,車輛貶值,上了賊船的車主后悔得腸子都青了

訂單造假,車輛貶值,上了賊船的車主后悔得腸子都青了

柏銘銳談
2025-09-03 16:52:10
穩(wěn)定輸出,梅西已經(jīng)連續(xù)20年在阿根廷國(guó)家隊(duì)有進(jìn)球入賬

穩(wěn)定輸出,梅西已經(jīng)連續(xù)20年在阿根廷國(guó)家隊(duì)有進(jìn)球入賬

懂球帝
2025-09-05 08:47:15
李梓萌:不再是女主播發(fā)型,扎著馬尾辮在天安門廣場(chǎng)做閱兵式報(bào)道

李梓萌:不再是女主播發(fā)型,扎著馬尾辮在天安門廣場(chǎng)做閱兵式報(bào)道

曉今娛
2025-09-04 01:05:03
九三閱兵后續(xù):博主因發(fā)表不當(dāng)言論遭永久禁言,多位大V力挺吳京

九三閱兵后續(xù):博主因發(fā)表不當(dāng)言論遭永久禁言,多位大V力挺吳京

古希臘掌管月桂的神
2025-09-04 13:01:22
浙江首個(gè)!這一新機(jī)構(gòu),對(duì)外亮相

浙江首個(gè)!這一新機(jī)構(gòu),對(duì)外亮相

政知新媒體
2025-09-04 23:09:05
金某完了,別說(shuō)娶小三,牢底都要坐穿!網(wǎng)傳白麗穎跑去天津打胎

金某完了,別說(shuō)娶小三,牢底都要坐穿!網(wǎng)傳白麗穎跑去天津打胎

公子麥少
2025-08-27 16:05:06
創(chuàng)世界艦載機(jī)最短服役紀(jì)錄!殲15艦載機(jī),列裝13年后幾乎淘汰

創(chuàng)世界艦載機(jī)最短服役紀(jì)錄!殲15艦載機(jī),列裝13年后幾乎淘汰

快看張同學(xué)
2025-09-05 09:12:29
普京專機(jī)離開(kāi)北京后,剛飛出中俄國(guó)境線,馬上降落在了海參崴

普京專機(jī)離開(kāi)北京后,剛飛出中俄國(guó)境線,馬上降落在了海參崴

近史博覽
2025-09-05 09:07:33
《街頭霸王》電影官宣:杰森·莫瑪領(lǐng)銜主演,2026年10月16日上映

《街頭霸王》電影官宣:杰森·莫瑪領(lǐng)銜主演,2026年10月16日上映

IT之家
2025-09-05 07:24:07
順藤摸瓜!上任僅8天,官媒出手,揭開(kāi)釋印樂(lè)真實(shí)人品,字字珠璣

順藤摸瓜!上任僅8天,官媒出手,揭開(kāi)釋印樂(lè)真實(shí)人品,字字珠璣

觀察鑒娛
2025-08-06 10:24:50
硬核科普:為什么不能在太平洋中央停船?深海中究竟如何停船?

硬核科普:為什么不能在太平洋中央停船?深海中究竟如何停船?

徐德文科學(xué)頻道
2025-08-07 14:01:23
他是國(guó)家一級(jí)演員,娶恩師女兒為妻,生下雙胞胎兒子如今比他還火

他是國(guó)家一級(jí)演員,娶恩師女兒為妻,生下雙胞胎兒子如今比他還火

顧史
2025-09-02 15:17:13
普拉博沃接二連三送驚喜,把一個(gè)20年的大項(xiàng)目,親自送到中方手里

普拉博沃接二連三送驚喜,把一個(gè)20年的大項(xiàng)目,親自送到中方手里

欽點(diǎn)歷史
2025-09-05 09:08:35
中國(guó)和俄羅斯簽署20多項(xiàng)合作協(xié)議

中國(guó)和俄羅斯簽署20多項(xiàng)合作協(xié)議

海外網(wǎng)
2025-09-04 11:32:06
曼聯(lián)夏窗曾接近簽下塞梅尼奧,熱刺競(jìng)爭(zhēng)與薪資差異致交易告吹

曼聯(lián)夏窗曾接近簽下塞梅尼奧,熱刺競(jìng)爭(zhēng)與薪資差異致交易告吹

樂(lè)道足球
2025-09-05 09:43:52
國(guó)乒大爆冷!單打4連敗日本,一勝難求,國(guó)乒6號(hào)種子2:3不敵日本

國(guó)乒大爆冷!單打4連敗日本,一勝難求,國(guó)乒6號(hào)種子2:3不敵日本

國(guó)乒二三事
2025-09-05 07:24:16
第一中鋒出世,胡金秋周琦落榜,正主讓人意外

第一中鋒出世,胡金秋周琦落榜,正主讓人意外

體育籃球弟
2025-09-04 13:47:36
2025-09-05 10:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15597文章數(shù) 514045關(guān)注度
往期回顧 全部

科技要聞

華為新三折疊起售價(jià)降2000元 門店排起長(zhǎng)龍

頭條要聞

媒體:特朗普不顧半天時(shí)差興奮看中國(guó)閱兵 還酸不溜秋

頭條要聞

媒體:特朗普不顧半天時(shí)差興奮看中國(guó)閱兵 還酸不溜秋

體育要聞

這個(gè)中國(guó)人,和楊瀚森一起進(jìn)了《NBA2K26》

娛樂(lè)要聞

墻倒眾人推!胡歌張譯的仇終于有人報(bào)

財(cái)經(jīng)要聞

中介收50%分成?揭秘信用卡退費(fèi)產(chǎn)業(yè)鏈

汽車要聞

對(duì)話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

家居
時(shí)尚
手機(jī)
教育
數(shù)碼

家居要聞

高級(jí)黑白 體現(xiàn)簡(jiǎn)單生活

穿白西裝,又A又颯

手機(jī)要聞

華為發(fā)布全新三折疊手機(jī) 折疊屏手機(jī)有望成為行業(yè)增長(zhǎng)新引擎

教育要聞

開(kāi)學(xué)了,班主任要避免十種“假努力”

數(shù)碼要聞

全球最緊湊 160W 多口充電器等,安克 Anker 發(fā)布多款新品

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版