新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】DeepSeek-V3.1官宣了,作為首款「混合推理」模型,將開(kāi)啟智能體新時(shí)代。新模型共有671B參數(shù),編碼實(shí)力碾壓DeepSeek-R1、Claude 4 Opus,登頂編程開(kāi)源第一。
官宣了!
剛剛,DeepSeek正式上線DeepSeek-V3.1,這是邁向智能體時(shí)代第一步。
新版V3.1采用了「混合推理」,一個(gè)模型,兩種模型:思考與非思考(自主切換)。
相較于DeepSeek-R1-0528 ,DeepSeek-V3.1-Think推理速度更快。
最關(guān)鍵的是,V3.1具備了強(qiáng)大的智能體能力,不論是工具使用,還是多步驟任務(wù),全部拿捏。
在軟件工程基準(zhǔn)測(cè)試中,DeepSeek-V3.1全方位碾壓V3-0324和R1-0528。
在人類的最后考試HLE中,V3.1拿下了29.8高分,另外在數(shù)學(xué)、知識(shí)問(wèn)答、編程等任務(wù)中,全面超越推理模型R1。
CoT壓縮訓(xùn)練后,V3.1-Think在輸出token減少了20%-50%,與R1-0528打成平手
在Hugging Face上,一共開(kāi)源了兩款V3.1 Base和V3.1,前者在V3基礎(chǔ)上又進(jìn)行了8400億token的持續(xù)預(yù)訓(xùn)練,擴(kuò)展了上下文支持。
項(xiàng)目地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
https://huggingface.co/deepseek-ai/DeepSeek-V3.1
總的來(lái)說(shuō),DeepSeek-V3.1此次更新的最大亮點(diǎn):
參數(shù)共671B,激活參數(shù)37B,上下文128k
混合推理模式:一個(gè)模型,即可同時(shí)支持推理模式和非推理模式。
更智能的工具調(diào)用能力:工具使用、智能體任務(wù)有了顯著提升,多步推理能力強(qiáng)化,復(fù)雜搜索不在話下
更高的推理效率:回答質(zhì)量上與DeepSeek-R1-0528相媲美,思考效率飆升,反應(yīng)快如閃電
全面基準(zhǔn)測(cè)試:實(shí)力全面碾壓DeepSeek-R1-0528、DeepSeek-V3-0324
在API方面,deepseek-chat是非思考模式,deepseek-reasoner是思考模式,全部支持128k。
從9月5日開(kāi)始,采用新的API定價(jià)
繼OpenAI gpt-oss之后,DeepSeek終于做出了最強(qiáng)回應(yīng)。
V3.1編程擊敗Claude 4,訓(xùn)練擴(kuò)增10倍
HF模型卡中,給出了DeepSeek新模型技術(shù)的詳細(xì)解讀。
基于DeepSeek-V3.1-Base,DeepSeek-V3.1通過(guò)后訓(xùn)練優(yōu)化完成。而V3.1-Base又是基于V3模型訓(xùn)練而來(lái)。
具體來(lái)說(shuō),它通過(guò)「兩階段長(zhǎng)上下文擴(kuò)展策略」構(gòu)建,遵循了原始V3論文中的方法。
研究團(tuán)隊(duì)又?jǐn)U展了數(shù)據(jù)集,收集了更多長(zhǎng)文檔,并大幅延長(zhǎng)了兩個(gè)訓(xùn)練階段的規(guī)模。
32k擴(kuò)展階段增加了10倍,達(dá)6300億Token,而128k擴(kuò)展階段增加了3.3倍,達(dá)到2090億Token。
此外,DeepSeek-V3.1采用UE8M0 FP8縮放數(shù)據(jù)格式進(jìn)行訓(xùn)練,確保與微尺度數(shù)據(jù)格式的兼容性。
在通用能力的基準(zhǔn)測(cè)試中,開(kāi)啟思考模式V3.1,在MMLU、GPQA上拿下了亮眼的成績(jī)。
數(shù)學(xué)方面,V3.1同樣刷新SOTA,創(chuàng)下了最高分。
如上文所述,V3.1是邁向智能體時(shí)代第一步。它可以支持多種Code Agent框架,開(kāi)發(fā)者可以自己搭建智能體。
在編碼測(cè)試中,DeepSeek-V3.1-Thinking在Aider編碼測(cè)試中,拿下了76.3%高分,遠(yuǎn)超Claude 4 Opus、Gemini 2.5 Pro(0325)。
在編碼智能體測(cè)試中,DeepSeek-V3.1-Non Thinking性能碾壓R1、V3。
此外,DeepSeek-V3.1可以支持Search Agent,在推理模式下可以使用。
當(dāng)需要訪問(wèn)外部信息或最新信息的復(fù)雜問(wèn)題,V3.1可以通過(guò)多輪工具調(diào)用流程,利用用戶提供的搜索工具來(lái)完成。
基準(zhǔn)測(cè)試中,尤其是BrowseComp上,V3.1實(shí)力粉碎了R1。
第三方Artificial Analysis基準(zhǔn),同樣驗(yàn)證了DeepSeek-V3.1強(qiáng)大實(shí)力,僅次于gpt-oss。
在推理效率方面,V3.1也與OpenAI相當(dāng)。
如今來(lái)看,DeepSeek-V3.1穩(wěn)坐編程開(kāi)源第一王座。
參考資料:
https://x.com/karminski3/status/1958429843558945015
https://x.com/deepseek_ai/status/1958417062008918312
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.