3 月 6 日,阿里巴巴旗下的 Qwen 團(tuán)隊(duì)用一條題為《QwQ-32B:擁抱強(qiáng)化學(xué)習(xí)的力量》的博文公布了全新的開(kāi)源大型推理模型 QwQ-32B(Qwen-with-Questions),這款僅有 320 億參數(shù)的模型通過(guò)強(qiáng)化學(xué)習(xí)技術(shù),在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與擁有 6710 億參數(shù)(激活參數(shù) 37B)的 DeepSeek-R1 相媲美的性能。
圖丨相關(guān)博文(來(lái)源:Qwen)
QwQ-32B 在數(shù)學(xué)推理、編程能力等問(wèn)題解決方面表現(xiàn)出色。根據(jù)官方發(fā)布的基準(zhǔn)測(cè)試結(jié)果,在數(shù)學(xué)推理基準(zhǔn) AIME24 上,QwQ-32B 達(dá)到了 79.5 分,幾乎與 DeepSeek-R1 的 79.8 分持平,遠(yuǎn)超 OpenAI o1-mini 的 63.6 分,也超過(guò)了 DeepSeek-R1 蒸餾到 Llama-70B 和 Qwen-32B 的版本(分別為 70.0 和 72.6 分)。
在編程能力方面,QwQ-32B 在 LiveCodeBench 上獲得了 63.4 分,接近 DeepSeek-R1 的 65.9 分,明顯優(yōu)于 o1-mini 的 53.8 分和蒸餾模型。在 LiveBench 測(cè)試中,QwQ-32B 得分 73.1,與 DeepSeek-R1 的 71.6 分相當(dāng),且大幅領(lǐng)先于 o1-mini 的 59.1 分。在 IFEval 和 BFCL 上,也略微超過(guò)了 R1。
圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:Qwen)
Hugging Face 的 Vaibhav Srivastav 在評(píng)測(cè)后發(fā)表評(píng)論:“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得驚人’,完全可與頂級(jí)模型媲美?!?/strong>“在 Apache 2.0 許可下,它成功擊敗了 DeepSeek-R1 和 OpenAI o1-mini。”
圖丨相關(guān)推文(來(lái)源:X)
不過(guò),有部分用戶反應(yīng),QwQ-32B 有時(shí)會(huì)出現(xiàn)過(guò)度思考的問(wèn)題,哪怕是很簡(jiǎn)單的問(wèn)題也會(huì)生成大量的思維鏈(比如在經(jīng)典的“Strawberry”問(wèn)題上,它會(huì)輸出近七萬(wàn)字的思維鏈),導(dǎo)致其輸出結(jié)果的速度較慢。
模型架構(gòu)方面,QwQ-32B 采用因果語(yǔ)言模型架構(gòu),具有 64 層 Transformer 結(jié)構(gòu),相比常見(jiàn)的模型層數(shù)更深。它完整集成了 RoPE(旋轉(zhuǎn)位置編碼)、SwiGLU 激活函數(shù)、RMSNorm 層歸一化和 Attention QKV 偏置,這些都是當(dāng)前先進(jìn)大模型的標(biāo)準(zhǔn)配置。
模型采用了廣義查詢注意力機(jī)制,具體配置為 40 個(gè)查詢頭、8 個(gè)鍵值對(duì)頭,這種配置優(yōu)化了注意力機(jī)制的效率和性能。QwQ-32B 的上下文窗口長(zhǎng)度高達(dá) 131,072 個(gè) token,遠(yuǎn)超普通模型,支持超長(zhǎng)文本處理。
QwQ-32B 的訓(xùn)練過(guò)程分為三個(gè)階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),其中強(qiáng)化學(xué)習(xí)又分為兩個(gè)關(guān)鍵階段:
第一階段聚焦于數(shù)學(xué)和編程能力的提升。Qwen 團(tuán)隊(duì)從冷啟動(dòng)檢查點(diǎn)開(kāi)始,采用基于結(jié)果的獎(jiǎng)勵(lì)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)擴(kuò)展方法。在數(shù)學(xué)問(wèn)題訓(xùn)練時(shí),模型使用專門的準(zhǔn)確性驗(yàn)證器(Accuracy Verifier),而非傳統(tǒng)獎(jiǎng)勵(lì)模型;編程任務(wù)則通過(guò)代碼執(zhí)行服務(wù)器(Code Execution Server)評(píng)估代碼是否通過(guò)預(yù)定義測(cè)試用例。訓(xùn)練過(guò)程中,隨著訓(xùn)練輪次增加,兩個(gè)領(lǐng)域的性能持續(xù)提升。
第二階段則側(cè)重通用能力增強(qiáng)。模型引入通用獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器進(jìn)行訓(xùn)練。即使是少量的訓(xùn)練步驟,也顯著提升了指令跟隨、人類偏好對(duì)齊和智能體性能,并且實(shí)現(xiàn)通用能力提升的同時(shí),不顯著降低第一階段獲得的數(shù)學(xué)和編程能力。
由此,QwQ 得以在 32B 的小參數(shù)上就實(shí)現(xiàn)了強(qiáng)大的推理能力。昨天還在感嘆花八九萬(wàn)買 512GB 內(nèi)存 M3 Ultra 的 Mac Studio 就能運(yùn)行完整版 DeepSeek-R1 了(甚至還需要量化),但現(xiàn)在,只需要幾千塊的 Mac Mini,你就能獲得接近的體驗(yàn)。
而且,QwQ-32B 的小參數(shù)量帶來(lái)了更低的延遲和更高的吞吐量。在相同硬件條件下,小參數(shù)模型在推理速度上具有天然優(yōu)勢(shì),能夠提供更快的響應(yīng)時(shí)間和更高的并發(fā)處理能力。對(duì)于一些中小型研究團(tuán)隊(duì)、初創(chuàng)企業(yè)和個(gè)人開(kāi)發(fā)者來(lái)說(shuō),這無(wú)疑大大降低了他們使用先進(jìn)推理模型的門檻。
而且,QwQ-32B 也整合了與智能體相關(guān)的能力,使模型能夠在思考的同時(shí)使用工具,并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。在此基礎(chǔ)上,QwQ-32B 就可以作為企業(yè)自動(dòng)化流程中的核心推理引擎,處理從數(shù)據(jù)分析、報(bào)告生成到編程輔助等各種復(fù)雜任務(wù)。
目前,QwQ-32B 已在 Hugging Face 和 ModelScope 上以 Apache 2.0 許可開(kāi)源,個(gè)人用戶也可通過(guò) Qwen Chat 直接體驗(yàn)該模型。
從 DeepSeek-R1 到 diffusion LLMs,再到 QwQ-32B,最近的一系列突破似乎讓實(shí)現(xiàn)頂級(jí)性能模型所需要的算力越來(lái)越低,盡管未來(lái)對(duì)于高性能芯片的總需求或許并不會(huì)減少,但這種變化對(duì)于那些以往依賴大量計(jì)算資源的巨頭們來(lái)說(shuō),恐怕免不了造成一些沖擊。
參考資料:
https://qwenlm.github.io/zh/blog/qwq-32b/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.