網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)DeepSeek V3.1，不止拓展上下文長(zhǎng)度

2025-08-20 16:09:24　來(lái)源: 量子位

北京舉報(bào)

分享至

不圓發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeek V3.1和V3相比，到底有什么不同？

官方說(shuō)的模模糊糊，就提到了上下文長(zhǎng)度拓展至128K和支持多種張量格式，但別急，我們已經(jīng)上手實(shí)測(cè)，為你奉上更多新鮮信息。

我們比較了V3.1和V3，注意到它在編程表現(xiàn)、創(chuàng)意寫(xiě)作、翻譯水平、回答語(yǔ)氣等方面都出現(xiàn)了不同程度的變化。

不過(guò)要說(shuō)最明顯的更新，大概是DeepSeek網(wǎng)頁(yè)端界面的【深度思考(R1)】悄悄變成了【深度思考】。

手機(jī)端還在慢慢對(duì)齊（笑）

當(dāng)前DeepSeek V3.1 Base可在抱抱臉上下載，也可通過(guò)網(wǎng)頁(yè)、APP和小程序使用完整版本。

開(kāi)學(xué)考試現(xiàn)在開(kāi)始

鑒于現(xiàn)在網(wǎng)頁(yè)端已全部替換成了V3.1，我們通過(guò)阿里云調(diào)用了DeepSeek V3的API（最大上下文長(zhǎng)度還是65K）作為對(duì)比。

馬上就是開(kāi)學(xué)季，我們給二個(gè)版本的模型出了一套“試卷”，從以下五個(gè)“學(xué)科”進(jìn)行測(cè)試：

計(jì)算機(jī)：編程能力
語(yǔ)文：情境寫(xiě)作
數(shù)學(xué)：理解應(yīng)用
外語(yǔ)：翻譯水平
拓展：冷門(mén)知識(shí)

讓我們一起看看它們表現(xiàn)如何~

編程能力

在更新前，我曾向DeepSeek V3問(wèn)過(guò)這樣的問(wèn)題：

幫我用python寫(xiě)一段代碼，把輸入的gif圖壓縮到10M以下。

它的回答如下（圖片可上下滑動(dòng)）。

更新后，問(wèn)V3.1同樣的問(wèn)題，則得到了這樣的結(jié)果：

很直觀地就能感受到，相比起V3，V3.1要更加全面，考慮到了更多的可能性（比如使用更激進(jìn)的壓縮策略，以及檢查原文件是否是GIF格式）。

還“手把手”地給出了這段代碼的使用說(shuō)明，需要提前安裝必要的依賴庫(kù)，怎么使用命令行……甚至還有工作原理。

沒(méi)有優(yōu)化建議，大概是因?yàn)樗X(jué)得已經(jīng)足夠了吧（？）

拿之前在世界機(jī)器人大會(huì)上拍攝的眾擎機(jī)器人作為示例，原文件大小為18.3MB，用V3給出的代碼，壓縮后依然大于10MB，如果要滿足條件的話還需要再壓縮一次。

而V3.1給出的結(jié)果則直接“一步到位”（代碼針對(duì)Jupyter環(huán)境進(jìn)行了一點(diǎn)小調(diào)整，邏輯不變），并輸出了處理步驟：

最后的兩張GIF圖如下（上為V3，下為V3.1）：

可以看到上圖的速度比下圖要快一些。

情境寫(xiě)作

我們選擇了今年上海卷高考作文的題目：

有學(xué)者用“�！薄稗D(zhuǎn)”“傳”概括當(dāng)下三類文章：“�！敝笇I(yè)文章；“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文章；“傳”指獲得廣泛傳播的佳作，甚至是傳世文章。他提出，專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章，而面對(duì)大量“轉(zhuǎn)”文，讀者又不免期待可傳世的文章。由“�！钡健皞鳌保囟ㄒ�(jīng)過(guò)“轉(zhuǎn)”嗎？請(qǐng)聯(lián)系社會(huì)生活，寫(xiě)一篇文章，談?wù)勀愕恼J(rèn)識(shí)與思考。要求：（1）自擬題目；（2）不少于800字。

輸出結(jié)果如下，可左右滑動(dòng)對(duì)比，左邊為V3，右邊為V3.1：

兩個(gè)版本在文字風(fēng)格上具有很大的不同，從V3理性（人機(jī)味）的平鋪直敘，到V3.1文藝（情緒化）的詩(shī)意表達(dá)，看起來(lái)像理科生和文科生的區(qū)別。

如果你是主考官，會(huì)更喜歡哪一篇呢？

理解應(yīng)用

考驗(yàn)?zāi)Ｐ偷臄?shù)學(xué)能力，光問(wèn)“9.11和9.8哪個(gè)大”這種對(duì)于實(shí)際用戶沒(méi)什么幫助的題目還是有點(diǎn)不夠看。

高考數(shù)學(xué)題按理來(lái)講應(yīng)該是能做對(duì)的吧？

以下是今年數(shù)學(xué)全國(guó)一卷的第3題，考的是雙曲線。

若雙曲線C的虛軸長(zhǎng)為實(shí)軸長(zhǎng)的√7倍，則C的離心率為？

答案是2√2，兩個(gè)版本的模型都得到了正確結(jié)果，但在呈現(xiàn)上有所不同。

翻譯水平

我們向V3和V3.1輸入了同一篇生物學(xué)論文的摘要（含專有名詞），并要求它們將其翻譯成中文。

摘要選自Nature最新研究：《獨(dú)特毛顎動(dòng)物體型的基因組起源》。

兩個(gè)版本模型的輸出結(jié)果如下：

可以看出，相比起V3喜歡用括號(hào)來(lái)補(bǔ)充說(shuō)明，V3.1對(duì)長(zhǎng)難句的理解程度更高；但V3.1出現(xiàn)了沒(méi)有翻譯出several這種簡(jiǎn)單詞的情況。

冷門(mén)知識(shí)

結(jié)合同事的專業(yè)和最近在小紅書(shū)上刷到的內(nèi)容，我們問(wèn)了一個(gè)比較“偏門(mén)”的問(wèn)題：

構(gòu)樹(shù)的單個(gè)果實(shí)（不是由花序組成的聚花果）是核果還是瘦果？

這個(gè)問(wèn)題的答案在不同教材上存在分歧，V3和V3.1分別給出了以下回答，均認(rèn)為其屬于核果：

神奇的是V3.1依然存在使用conclusion替代“結(jié)論”這樣的表述，以及對(duì)于“為什么會(huì)想到瘦果”這個(gè)問(wèn)題的回答偏題到該果實(shí)屬于聚花果的方向了。

順便一提，小紅書(shū)的博主通過(guò)解剖實(shí)驗(yàn)，認(rèn)為其屬于瘦果。

對(duì)這個(gè)結(jié)論感興趣的朋友可以去小紅書(shū)上搜索一下。

非推理模型SOTA

網(wǎng)友們對(duì)這次更新頗為關(guān)心，即使還未發(fā)布模型卡，就在抱抱臉上成為了第四的熱門(mén)話題。

截至發(fā)稿已榮登第二。

網(wǎng)友們也在使用后得到了一些有趣的發(fā)現(xiàn)。

Reddit就有人測(cè)試，DeepSeek V3.1在aider上得分71.6%，拿下了非推理模型的SOTA。

這是什么概念——有網(wǎng)友解釋到，這意味著它比Claude Opus 4得分多1%，但價(jià)格便宜68倍。

也有人在SVGBench基準(zhǔn)上發(fā)現(xiàn)：V3.1的表現(xiàn)>V3.1（思考）>R1 0528。

這可能和V3.1的配置有關(guān)？

有網(wǎng)友察覺(jué)到它增加了四個(gè)特殊的token，并注意到現(xiàn)版本的V3.1在關(guān)閉搜索狀態(tài)下也會(huì)自動(dòng)搜索。

此外，它的物理理解能力似乎有所提升，下面兩個(gè)GIF圖分別是V3.1和V3對(duì)于”在旋轉(zhuǎn)六邊形內(nèi)彈跳的球“的呈現(xiàn)。

但也有人發(fā)現(xiàn)了一些問(wèn)題，多與線上API相關(guān)……嗯，已經(jīng)有人開(kāi)罵了。

不過(guò)，最讓人好奇的是，V3.1發(fā)布了，R2呢？

參考鏈接：
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.