網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek小爆發(fā)

2025-08-21 20:33:53　來(lái)源: 字母榜

北京舉報(bào)

分享至

DeepSeek官方剛剛突然宣布：我們發(fā)最新版本模型DeepSeek-V3.1啦！

消息一出，一個(gè)小時(shí)在X上的瀏覽熱度就達(dá)到了26萬(wàn)！

據(jù)DeepSeek介紹，DeepSeek-V3.1是一款混合型模型，支持“思考模式”與“非思考模式”混合運(yùn)行，用戶可以根據(jù)場(chǎng)景需求，靈活切換推理深度，效率和能力兩手抓。

得益于深度優(yōu)化的訓(xùn)練策略與大規(guī)模長(zhǎng)文檔擴(kuò)展，DeepSeek-V3.1在推理速度、工具調(diào)用智能、代碼和數(shù)學(xué)任務(wù)等方面均有顯著進(jìn)步。

咱們先捋一下這次新版模型的幾大亮點(diǎn)：

·混合思考模式：通過(guò)切換對(duì)話模板，單一模型即可兼容思考與非思考兩種模式。

·更智能的工具調(diào)用：通過(guò)后訓(xùn)練優(yōu)化，模型在調(diào)用工具和完成Agent（智能體）任務(wù)方面的表現(xiàn)顯著提升。

·更高的思考效率：DeepSeek-V3.1-Think在回答質(zhì)量上可與R1-0528媲美，同時(shí)響應(yīng)速度更快。

官方放出的測(cè)試結(jié)果顯示，V3.1-Think AIME 2025（美國(guó)數(shù)學(xué)邀請(qǐng)賽2025版）得分88.4%，GPQA Diamond（高難度研究生級(jí)知識(shí)問(wèn)答數(shù)據(jù)集的Diamond子集）得分80.1%，LiveCodeBench（實(shí)時(shí)編碼基準(zhǔn)）得分74.8%，均優(yōu)于老模型R1-0528的表現(xiàn)：87.5%、81.0%、73.3%。

而且，正如下圖所示（縱軸是輸出token數(shù)），V3.1-Think的輸出tokens反而大幅減少。

也就是說(shuō)：V3.1-Think相較于老模型R1-0528，使用更少的tokens，但達(dá)到了相似或略高的準(zhǔn)確率，在計(jì)算資源優(yōu)化上的優(yōu)勢(shì)很明顯。

在軟件工程和Agent任務(wù)基準(zhǔn)上的性能提升方面：

·SWE-Bench Verified，DeepSeek-V3.1得分66.0%，遠(yuǎn)高于V3-0324的45.4%和R1-0528的44.6%，表明其在處理復(fù)雜代碼任務(wù)時(shí)更可靠。

·SWE-Bench Multilingual（多語(yǔ)言版本），DeepSeek-V3.1得分54.5%，大幅領(lǐng)先V3-0324的29.3%和R1-0528的30.5%。說(shuō)明其在多語(yǔ)言支持上有很大進(jìn)步，可能通過(guò)增加多樣化訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)，使其更適合全球開(kāi)發(fā)場(chǎng)景。

·Terminal-Bench（使用Terminus 1框架的基準(zhǔn)，量化AI Gent在終端（命令行）環(huán)境中完成復(fù)雜任務(wù)的能力，如腳本執(zhí)行、文件操作或系統(tǒng)交互，模擬真實(shí)命令行工作流），DeepSeek-V3.1得分31.3%，優(yōu)于V3-0324的13.3%和R1-0528的5.7%，在Agent框架下的效率提升，適合自動(dòng)化運(yùn)維或DevOps應(yīng)用。

需要注意的是，DeepSeek V3.1的本次更新，核心在于顯著增強(qiáng)了模型的智能體能力，尤其是在復(fù)雜推理和工具鏈協(xié)作場(chǎng)景下的實(shí)際表現(xiàn)。

此外，DeepSeek-V3.1搜索Agent、長(zhǎng)上下文理解、事實(shí)問(wèn)答和工具使用等領(lǐng)域的性能也表現(xiàn)強(qiáng)勢(shì)。

DeepSeek-V3.1（基于MoE架構(gòu)，總參數(shù)671B，激活37B）在大多數(shù)基準(zhǔn)上顯著優(yōu)于R1-0528，在搜索Agent和長(zhǎng)上下文任務(wù)上的平均提升約20-300%，尤其在工具使用（如xbench-DeepSearch）和事實(shí)QA（如SimpleQA）中領(lǐng)先，這意味著它適合構(gòu)建AI Agent應(yīng)用，如自動(dòng)化搜索或代碼輔助。

相比R1-0528（專(zhuān)注于推理但效率較低），DeepSeek-V3.1更注重平衡速度與質(zhì)量，DeepSeek的“Agent時(shí)代” 正式拉開(kāi)帷幕。

在Huggingface上，DeepSeek釋放出了更詳細(xì)的評(píng)估結(jié)果。

基于官方給出的與前代的測(cè)評(píng)比較，DeepSeek-V3.1在常規(guī)推理和知識(shí)問(wèn)答任務(wù)（如 MMLU-Redux 和 MMLU-Pro）上，整體表現(xiàn)穩(wěn)定提升，非思考和思考模式下的分?jǐn)?shù)均高于V3舊版，基本接近行業(yè)頂尖大模型水平。

例如，在 HLE（Humanity’s Last Exam，搜索+Python 復(fù)合推理）任務(wù)上，DeepSeek-V3.1實(shí)現(xiàn)了 29.8% 的通過(guò)率，優(yōu)于自家 R1-0528 版（24.8%），并接近 GPT-5、Grok 4 等國(guó)際一線大模型。

雖然各大模型在評(píng)測(cè)細(xì)節(jié)上存在一定差異，但DeepSeek的表現(xiàn)仍具有說(shuō)服力。

新版模型在網(wǎng)頁(yè)檢索、復(fù)合搜索和工具協(xié)同場(chǎng)景（BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA）上有跨越式進(jìn)步，中文網(wǎng)頁(yè)搜索和多模態(tài)復(fù)合推理分?jǐn)?shù)顯著超越舊版本。在 SWE-Bench Verified代碼評(píng)測(cè)中，DeepSeek-V3.1以66.0%的成績(jī)大幅領(lǐng)先前代（44.6%），也與 Claude 4.1、Kimi K2等頂級(jí)模型保持同一水準(zhǔn)。

在Terminal Bench終端自動(dòng)化測(cè)試中，其得分也略高于GPT-5和o3等知名競(jìng)品。

與此同時(shí)，DeepSeek-V3.1在代碼生成和自動(dòng)化評(píng)測(cè)（LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench）方面，得分也較前代顯著提升，特別是在智能體模式下，代碼任務(wù)通過(guò)率和自動(dòng)化執(zhí)行能力大幅增強(qiáng)。在AIME和HMMT等高級(jí)數(shù)學(xué)推理和競(jìng)賽任務(wù)上，DeepSeek-V3.1的表現(xiàn)優(yōu)于前代產(chǎn)品，思考模式下解題成功率大幅提升。

不過(guò)作為通用對(duì)話模型，V3.1 并未在所有維度超越前代產(chǎn)品——在部分常規(guī)對(duì)話和知識(shí)問(wèn)答場(chǎng)景下，R1-0528 依然具有一定競(jìng)爭(zhēng)力。

在具體的性能表現(xiàn)之外，DeepSeek發(fā)布新模型，一定會(huì)被外界密切關(guān)注的當(dāng)然是價(jià)格。

這次，DeepSeek也沒(méi)有讓大家失望。

Input API Price（輸入定價(jià)），分為兩種情況：

·Cache Hit（緩存命中）：0.07美元/百萬(wàn)tokens。

·Cache Miss（緩存未命中）：0.56美元/百萬(wàn)tokens。

Output API Price（輸出定價(jià)）為1.68美元/百萬(wàn)tokens。

MenloVentures的風(fēng)險(xiǎn)投資人、前谷歌搜索團(tuán)隊(duì)成員Deedy也發(fā)推大呼“鯨魚(yú)回來(lái)了”。（這哥們?cè)赬上有20萬(wàn)粉絲，妥妥的科技界大V。）

除了價(jià)格良心之外，DeepSeek-V3.1還首次實(shí)現(xiàn)了對(duì)Anthropic API的原生兼容。

這意味著，用戶可以像調(diào)用Claude或Anthropic生態(tài)的模型一樣，將DeepSeek的集成進(jìn)現(xiàn)有系統(tǒng)。無(wú)論是通過(guò)Claude Code工具鏈還是直接使用Anthropic官方SDK，開(kāi)發(fā)者只需配置API地址和密鑰，即可在所有支持Anthropic API的環(huán)境下，使用DeepSeek-V3.1提供的推理和對(duì)話能力。

從目前的反饋來(lái)看，外界對(duì)這次發(fā)布的反饋還是很好的，盡管它并非“拳打Grok4、腳踩GPT-5”的霸王龍，但它有明確的、清晰的側(cè)重點(diǎn)與優(yōu)勢(shì)。

更有意思的是，從兩天前DeepSeek默默發(fā)了V3.1-Base開(kāi)始，網(wǎng)友已經(jīng)再次驚嘆于DeepSeek發(fā)模型的節(jié)奏之舒適、態(tài)度之低調(diào)。

在其他模型發(fā)布往往先炒作規(guī)格和性能數(shù)據(jù)的時(shí)候，DeepSeek反其道而行，直接放出模型文件讓開(kāi)發(fā)者立即下載測(cè)試，然后再補(bǔ)充細(xì)節(jié)。高效、開(kāi)發(fā)者友好。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.