不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
DeepSeek V3.1和V3相比,到底有什么不同?
官方說(shuō)的模模糊糊,就提到了上下文長(zhǎng)度拓展至128K和支持多種張量格式,但別急,我們已經(jīng)上手實(shí)測(cè),為你奉上更多新鮮信息。
我們比較了V3.1和V3,注意到它在編程表現(xiàn)、創(chuàng)意寫(xiě)作、翻譯水平、回答語(yǔ)氣等方面都出現(xiàn)了不同程度的變化。
不過(guò)要說(shuō)最明顯的更新,大概是DeepSeek網(wǎng)頁(yè)端界面的【深度思考(R1)】悄悄變成了【深度思考】。
手機(jī)端還在慢慢對(duì)齊(笑)
當(dāng)前DeepSeek V3.1 Base可在抱抱臉上下載,也可通過(guò)網(wǎng)頁(yè)、APP和小程序使用完整版本。
開(kāi)學(xué)考試現(xiàn)在開(kāi)始
鑒于現(xiàn)在網(wǎng)頁(yè)端已全部替換成了V3.1,我們通過(guò)阿里云調(diào)用了DeepSeek V3的API(最大上下文長(zhǎng)度還是65K)作為對(duì)比。
馬上就是開(kāi)學(xué)季,我們給二個(gè)版本的模型出了一套“試卷”,從以下五個(gè)“學(xué)科”進(jìn)行測(cè)試:
- 計(jì)算機(jī):編程能力
- 語(yǔ)文:情境寫(xiě)作
- 數(shù)學(xué):理解應(yīng)用
- 外語(yǔ):翻譯水平
- 拓展:冷門(mén)知識(shí)
讓我們一起看看它們表現(xiàn)如何~
編程能力
在更新前,我曾向DeepSeek V3問(wèn)過(guò)這樣的問(wèn)題:
- 幫我用python寫(xiě)一段代碼,把輸入的gif圖壓縮到10M以下。
它的回答如下(圖片可上下滑動(dòng))。
更新后,問(wèn)V3.1同樣的問(wèn)題,則得到了這樣的結(jié)果:
很直觀地就能感受到,相比起V3,V3.1要更加全面,考慮到了更多的可能性(比如使用更激進(jìn)的壓縮策略,以及檢查原文件是否是GIF格式)。
還“手把手”地給出了這段代碼的使用說(shuō)明,需要提前安裝必要的依賴庫(kù),怎么使用命令行……甚至還有工作原理。
沒(méi)有優(yōu)化建議,大概是因?yàn)樗X(jué)得已經(jīng)足夠了吧(?)
拿之前在世界機(jī)器人大會(huì)上拍攝的眾擎機(jī)器人作為示例,原文件大小為18.3MB,用V3給出的代碼,壓縮后依然大于10MB,如果要滿足條件的話還需要再壓縮一次。
而V3.1給出的結(jié)果則直接“一步到位”(代碼針對(duì)Jupyter環(huán)境進(jìn)行了一點(diǎn)小調(diào)整,邏輯不變),并輸出了處理步驟:
最后的兩張GIF圖如下(上為V3,下為V3.1):
可以看到上圖的速度比下圖要快一些。
情境寫(xiě)作
我們選擇了今年上海卷高考作文的題目:
- 有學(xué)者用“!薄稗D(zhuǎn)”“傳”概括當(dāng)下三類文章:“!敝笇I(yè)文章;“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文章;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對(duì)大量“轉(zhuǎn)”文,讀者又不免期待可傳世的文章。由“!钡健皞鳌保囟ㄒ(jīng)過(guò)“轉(zhuǎn)”嗎?請(qǐng)聯(lián)系社會(huì)生活,寫(xiě)一篇文章,談?wù)勀愕恼J(rèn)識(shí)與思考。要求:(1)自擬題目;(2)不少于800字。
輸出結(jié)果如下,可左右滑動(dòng)對(duì)比,左邊為V3,右邊為V3.1:
兩個(gè)版本在文字風(fēng)格上具有很大的不同,從V3理性(人機(jī)味)的平鋪直敘,到V3.1文藝(情緒化)的詩(shī)意表達(dá),看起來(lái)像理科生和文科生的區(qū)別。
如果你是主考官,會(huì)更喜歡哪一篇呢?
理解應(yīng)用
考驗(yàn)?zāi)P偷臄?shù)學(xué)能力,光問(wèn)“9.11和9.8哪個(gè)大”這種對(duì)于實(shí)際用戶沒(méi)什么幫助的題目還是有點(diǎn)不夠看。
高考數(shù)學(xué)題按理來(lái)講應(yīng)該是能做對(duì)的吧?
以下是今年數(shù)學(xué)全國(guó)一卷的第3題,考的是雙曲線。
- 若雙曲線C的虛軸長(zhǎng)為實(shí)軸長(zhǎng)的√7倍,則C的離心率為?
答案是2√2,兩個(gè)版本的模型都得到了正確結(jié)果,但在呈現(xiàn)上有所不同。
翻譯水平
我們向V3和V3.1輸入了同一篇生物學(xué)論文的摘要(含專有名詞),并要求它們將其翻譯成中文。
摘要選自Nature最新研究:《獨(dú)特毛顎動(dòng)物體型的基因組起源》。
兩個(gè)版本模型的輸出結(jié)果如下:
可以看出,相比起V3喜歡用括號(hào)來(lái)補(bǔ)充說(shuō)明,V3.1對(duì)長(zhǎng)難句的理解程度更高;但V3.1出現(xiàn)了沒(méi)有翻譯出several這種簡(jiǎn)單詞的情況。
冷門(mén)知識(shí)
結(jié)合同事的專業(yè)和最近在小紅書(shū)上刷到的內(nèi)容,我們問(wèn)了一個(gè)比較“偏門(mén)”的問(wèn)題:
- 構(gòu)樹(shù)的單個(gè)果實(shí)(不是由花序組成的聚花果)是核果還是瘦果?
這個(gè)問(wèn)題的答案在不同教材上存在分歧,V3和V3.1分別給出了以下回答,均認(rèn)為其屬于核果:
神奇的是V3.1依然存在使用conclusion替代“結(jié)論”這樣的表述,以及對(duì)于“為什么會(huì)想到瘦果”這個(gè)問(wèn)題的回答偏題到該果實(shí)屬于聚花果的方向了。
順便一提,小紅書(shū)的博主通過(guò)解剖實(shí)驗(yàn),認(rèn)為其屬于瘦果。
對(duì)這個(gè)結(jié)論感興趣的朋友可以去小紅書(shū)上搜索一下。
非推理模型SOTA
網(wǎng)友們對(duì)這次更新頗為關(guān)心,即使還未發(fā)布模型卡,就在抱抱臉上成為了第四的熱門(mén)話題。
截至發(fā)稿已榮登第二。
網(wǎng)友們也在使用后得到了一些有趣的發(fā)現(xiàn)。
Reddit就有人測(cè)試,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。
這是什么概念——有網(wǎng)友解釋到,這意味著它比Claude Opus 4得分多1%,但價(jià)格便宜68倍。
也有人在SVGBench基準(zhǔn)上發(fā)現(xiàn):V3.1的表現(xiàn)>V3.1(思考)>R1 0528。
這可能和V3.1的配置有關(guān)?
有網(wǎng)友察覺(jué)到它增加了四個(gè)特殊的token,并注意到現(xiàn)版本的V3.1在關(guān)閉搜索狀態(tài)下也會(huì)自動(dòng)搜索。
此外,它的物理理解能力似乎有所提升,下面兩個(gè)GIF圖分別是V3.1和V3對(duì)于”在旋轉(zhuǎn)六邊形內(nèi)彈跳的球“的呈現(xiàn)。
但也有人發(fā)現(xiàn)了一些問(wèn)題,多與線上API相關(guān)……嗯,已經(jīng)有人開(kāi)罵了。
不過(guò),最讓人好奇的是,V3.1發(fā)布了,R2呢?
參考鏈接:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.