成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè)DeepSeek V3.1,不止拓展上下文長(zhǎng)度

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeek V3.1和V3相比,到底有什么不同?

官方說(shuō)的模模糊糊,就提到了上下文長(zhǎng)度拓展至128K和支持多種張量格式,但別急,我們已經(jīng)上手實(shí)測(cè),為你奉上更多新鮮信息。



我們比較了V3.1和V3,注意到它在編程表現(xiàn)、創(chuàng)意寫(xiě)作、翻譯水平、回答語(yǔ)氣等方面都出現(xiàn)了不同程度的變化。

不過(guò)要說(shuō)最明顯的更新,大概是DeepSeek網(wǎng)頁(yè)端界面的【深度思考(R1)】悄悄變成了【深度思考】。

手機(jī)端還在慢慢對(duì)齊(笑)



當(dāng)前DeepSeek V3.1 Base可在抱抱臉上下載,也可通過(guò)網(wǎng)頁(yè)、APP和小程序使用完整版本。

開(kāi)學(xué)考試現(xiàn)在開(kāi)始

鑒于現(xiàn)在網(wǎng)頁(yè)端已全部替換成了V3.1,我們通過(guò)阿里云調(diào)用了DeepSeek V3的API(最大上下文長(zhǎng)度還是65K)作為對(duì)比。



馬上就是開(kāi)學(xué)季,我們給二個(gè)版本的模型出了一套“試卷”,從以下五個(gè)“學(xué)科”進(jìn)行測(cè)試:

  • 計(jì)算機(jī):編程能力
  • 語(yǔ)文:情境寫(xiě)作
  • 數(shù)學(xué):理解應(yīng)用
  • 外語(yǔ):翻譯水平
  • 拓展:冷門(mén)知識(shí)

讓我們一起看看它們表現(xiàn)如何~



編程能力

在更新前,我曾向DeepSeek V3問(wèn)過(guò)這樣的問(wèn)題:

  • 幫我用python寫(xiě)一段代碼,把輸入的gif圖壓縮到10M以下。

它的回答如下(圖片可上下滑動(dòng))。



更新后,問(wèn)V3.1同樣的問(wèn)題,則得到了這樣的結(jié)果:



很直觀地就能感受到,相比起V3,V3.1要更加全面,考慮到了更多的可能性(比如使用更激進(jìn)的壓縮策略,以及檢查原文件是否是GIF格式)。

還“手把手”地給出了這段代碼的使用說(shuō)明,需要提前安裝必要的依賴庫(kù),怎么使用命令行……甚至還有工作原理。

沒(méi)有優(yōu)化建議,大概是因?yàn)樗X(jué)得已經(jīng)足夠了吧(?)

拿之前在世界機(jī)器人大會(huì)上拍攝的眾擎機(jī)器人作為示例,原文件大小為18.3MB,用V3給出的代碼,壓縮后依然大于10MB,如果要滿足條件的話還需要再壓縮一次。





而V3.1給出的結(jié)果則直接“一步到位”(代碼針對(duì)Jupyter環(huán)境進(jìn)行了一點(diǎn)小調(diào)整,邏輯不變),并輸出了處理步驟:



最后的兩張GIF圖如下(上為V3,下為V3.1):





可以看到上圖的速度比下圖要快一些。

情境寫(xiě)作

我們選擇了今年上海卷高考作文的題目:

  • 有學(xué)者用“!薄稗D(zhuǎn)”“傳”概括當(dāng)下三類文章:“!敝笇I(yè)文章;“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文章;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對(duì)大量“轉(zhuǎn)”文,讀者又不免期待可傳世的文章。由“!钡健皞鳌保囟ㄒ(jīng)過(guò)“轉(zhuǎn)”嗎?請(qǐng)聯(lián)系社會(huì)生活,寫(xiě)一篇文章,談?wù)勀愕恼J(rèn)識(shí)與思考。要求:(1)自擬題目;(2)不少于800字。

輸出結(jié)果如下,可左右滑動(dòng)對(duì)比,左邊為V3,右邊為V3.1:





兩個(gè)版本在文字風(fēng)格上具有很大的不同,從V3理性(人機(jī)味)的平鋪直敘,到V3.1文藝(情緒化)的詩(shī)意表達(dá),看起來(lái)像理科生和文科生的區(qū)別。

如果你是主考官,會(huì)更喜歡哪一篇呢?

理解應(yīng)用

考驗(yàn)?zāi)P偷臄?shù)學(xué)能力,光問(wèn)“9.11和9.8哪個(gè)大”這種對(duì)于實(shí)際用戶沒(méi)什么幫助的題目還是有點(diǎn)不夠看。

高考數(shù)學(xué)題按理來(lái)講應(yīng)該是能做對(duì)的吧?

以下是今年數(shù)學(xué)全國(guó)一卷的第3題,考的是雙曲線。

  • 若雙曲線C的虛軸長(zhǎng)為實(shí)軸長(zhǎng)的√7倍,則C的離心率為?

答案是2√2,兩個(gè)版本的模型都得到了正確結(jié)果,但在呈現(xiàn)上有所不同。





翻譯水平

我們向V3和V3.1輸入了同一篇生物學(xué)論文的摘要(含專有名詞),并要求它們將其翻譯成中文。

摘要選自Nature最新研究:《獨(dú)特毛顎動(dòng)物體型的基因組起源》。

兩個(gè)版本模型的輸出結(jié)果如下:





可以看出,相比起V3喜歡用括號(hào)來(lái)補(bǔ)充說(shuō)明,V3.1對(duì)長(zhǎng)難句的理解程度更高;但V3.1出現(xiàn)了沒(méi)有翻譯出several這種簡(jiǎn)單詞的情況。

冷門(mén)知識(shí)

結(jié)合同事的專業(yè)和最近在小紅書(shū)上刷到的內(nèi)容,我們問(wèn)了一個(gè)比較“偏門(mén)”的問(wèn)題:

  • 構(gòu)樹(shù)的單個(gè)果實(shí)(不是由花序組成的聚花果)是核果還是瘦果?

這個(gè)問(wèn)題的答案在不同教材上存在分歧,V3和V3.1分別給出了以下回答,均認(rèn)為其屬于核果





神奇的是V3.1依然存在使用conclusion替代“結(jié)論”這樣的表述,以及對(duì)于“為什么會(huì)想到瘦果”這個(gè)問(wèn)題的回答偏題到該果實(shí)屬于聚花果的方向了。

順便一提,小紅書(shū)的博主通過(guò)解剖實(shí)驗(yàn),認(rèn)為其屬于瘦果。



對(duì)這個(gè)結(jié)論感興趣的朋友可以去小紅書(shū)上搜索一下。

非推理模型SOTA

網(wǎng)友們對(duì)這次更新頗為關(guān)心,即使還未發(fā)布模型卡,就在抱抱臉上成為了第四的熱門(mén)話題。



截至發(fā)稿已榮登第二。



網(wǎng)友們也在使用后得到了一些有趣的發(fā)現(xiàn)。

Reddit就有人測(cè)試,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。



這是什么概念——有網(wǎng)友解釋到,這意味著它比Claude Opus 4得分多1%,但價(jià)格便宜68倍。



也有人在SVGBench基準(zhǔn)上發(fā)現(xiàn):V3.1的表現(xiàn)>V3.1(思考)>R1 0528。



這可能和V3.1的配置有關(guān)?

有網(wǎng)友察覺(jué)到它增加了四個(gè)特殊的token,并注意到現(xiàn)版本的V3.1在關(guān)閉搜索狀態(tài)下也會(huì)自動(dòng)搜索。





此外,它的物理理解能力似乎有所提升,下面兩個(gè)GIF圖分別是V3.1和V3對(duì)于”在旋轉(zhuǎn)六邊形內(nèi)彈跳的球“的呈現(xiàn)。





但也有人發(fā)現(xiàn)了一些問(wèn)題,多與線上API相關(guān)……嗯,已經(jīng)有人開(kāi)罵了。





不過(guò),最讓人好奇的是,V3.1發(fā)布了,R2呢?

參考鏈接:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
詹。郝(lián)球員能力與三中衛(wèi)體系不兼容是防守端最大的問(wèn)題

詹俊:曼聯(lián)球員能力與三中衛(wèi)體系不兼容是防守端最大的問(wèn)題

懂球帝
2025-08-31 00:33:33
阿隆索戰(zhàn)術(shù)初現(xiàn)高級(jí)感 姆巴佩還是跑不贏越位

阿隆索戰(zhàn)術(shù)初現(xiàn)高級(jí)感 姆巴佩還是跑不贏越位

體壇周報(bào)
2025-08-31 10:50:09
重大突破!英國(guó)發(fā)明治禿神器,20天長(zhǎng)出90%毛發(fā)!

重大突破!英國(guó)發(fā)明治禿神器,20天長(zhǎng)出90%毛發(fā)!

徐德文科學(xué)頻道
2025-07-11 12:30:54
1-5大逆轉(zhuǎn)!美網(wǎng)神奇一戰(zhàn):斯瓦泰克大滿貫10連勝,鄭欽文傳喜訊

1-5大逆轉(zhuǎn)!美網(wǎng)神奇一戰(zhàn):斯瓦泰克大滿貫10連勝,鄭欽文傳喜訊

大秦壁虎白話體育
2025-08-31 10:35:10
9.3閱兵將至,特朗普再次表態(tài)要求訪華,中方態(tài)度堅(jiān)決

9.3閱兵將至,特朗普再次表態(tài)要求訪華,中方態(tài)度堅(jiān)決

一個(gè)有靈魂的作者
2025-08-28 09:54:47
上圍傲人身材火辣,性感變身撩人尤物,誰(shuí)說(shuō)她不能性感?

上圍傲人身材火辣,性感變身撩人尤物,誰(shuí)說(shuō)她不能性感?

吃瓜黨二號(hào)頭目
2025-08-31 09:30:22
女人“好色”,下面的五個(gè)表現(xiàn)騙不了人,男人要明白

女人“好色”,下面的五個(gè)表現(xiàn)騙不了人,男人要明白

云端小院
2025-08-31 07:47:12
座椅通風(fēng),豪車才配?它的價(jià)格是怎么被電車打下來(lái)的?丨圖文

座椅通風(fēng),豪車才配?它的價(jià)格是怎么被電車打下來(lái)的?丨圖文

柴知道
2025-08-28 18:52:46
劉強(qiáng)東:富貴歸故鄉(xiāng)

劉強(qiáng)東:富貴歸故鄉(xiāng)

澎湃新聞
2025-08-31 00:24:02
慶功宴上總經(jīng)理把十萬(wàn)獎(jiǎng)金扔門(mén)外叫我滾,我淡然掏出電話:別后悔

慶功宴上總經(jīng)理把十萬(wàn)獎(jiǎng)金扔門(mén)外叫我滾,我淡然掏出電話:別后悔

今天說(shuō)故事
2025-08-28 18:06:15
丹麥也終于發(fā)飆了:要么你除掉頭巾、要么你離開(kāi)我的國(guó)家!

丹麥也終于發(fā)飆了:要么你除掉頭巾、要么你離開(kāi)我的國(guó)家!

翻開(kāi)歷史和現(xiàn)實(shí)
2025-07-23 00:05:51
9月3日中國(guó)閱兵,歐美發(fā)達(dá)國(guó)家的領(lǐng)導(dǎo)人,為何選擇集體缺席?

9月3日中國(guó)閱兵,歐美發(fā)達(dá)國(guó)家的領(lǐng)導(dǎo)人,為何選擇集體缺席?

文史道
2025-08-30 06:45:03
高圓圓出席第二屆中國(guó)電影編劇周,一身黑紗長(zhǎng)裙,大氣又明艷

高圓圓出席第二屆中國(guó)電影編劇周,一身黑紗長(zhǎng)裙,大氣又明艷

阿廢冷眼觀察所
2025-08-31 04:06:36
劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

禾寒?dāng)?/span>
2025-08-30 20:15:42
畢業(yè)生公認(rèn)“待遇最好”央國(guó)企TOP5:電網(wǎng)榜上有名,第一實(shí)至名歸

畢業(yè)生公認(rèn)“待遇最好”央國(guó)企TOP5:電網(wǎng)榜上有名,第一實(shí)至名歸

妍妍教育日記
2025-08-17 09:10:03
湖北英山警方通報(bào)“一車輛失控駛?cè)肼愤呁\囄粎^(qū)域”:造成車內(nèi)3人受傷,其中1人經(jīng)搶救無(wú)效死亡

湖北英山警方通報(bào)“一車輛失控駛?cè)肼愤呁\囄粎^(qū)域”:造成車內(nèi)3人受傷,其中1人經(jīng)搶救無(wú)效死亡

環(huán)球網(wǎng)資訊
2025-08-30 17:18:50
沒(méi)有綜藝感還強(qiáng)行加戲?《王牌9》最大的“混子”,你不臉紅嗎?

沒(méi)有綜藝感還強(qiáng)行加戲?《王牌9》最大的“混子”,你不臉紅嗎?

崽下愚樂(lè)圈
2025-08-30 17:16:30
日本決定接收5萬(wàn)印度人赴日!5年內(nèi)實(shí)現(xiàn)50萬(wàn)人往來(lái)!日網(wǎng)友炸開(kāi)鍋:東京灣要變恒河了!

日本決定接收5萬(wàn)印度人赴日!5年內(nèi)實(shí)現(xiàn)50萬(wàn)人往來(lái)!日網(wǎng)友炸開(kāi)鍋:東京灣要變恒河了!

東京新青年
2025-08-30 18:08:01
人民幣在朝鮮的購(gòu)買(mǎi)力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

人民幣在朝鮮的購(gòu)買(mǎi)力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

熊貓君點(diǎn)評(píng)
2025-08-30 19:40:55
阿塞拜疆第一夫人抵達(dá)天津,新發(fā)型很有個(gè)性,身邊女保鏢超有氣質(zhì)

阿塞拜疆第一夫人抵達(dá)天津,新發(fā)型很有個(gè)性,身邊女保鏢超有氣質(zhì)

墨羽怪談
2025-08-31 10:53:42
2025-08-31 13:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

普京乘機(jī)抵達(dá)天津 帶了3位副總理和10多位部長(zhǎng)到中國(guó)

頭條要聞

普京乘機(jī)抵達(dá)天津 帶了3位副總理和10多位部長(zhǎng)到中國(guó)

體育要聞

遼籃官宣:4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

娛樂(lè)要聞

韓磊起訴后,女方公開(kāi)道歉

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
房產(chǎn)
游戲

教育要聞

2025年秋季起,這些教育政策即將實(shí)施!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

親子要聞

寶媽必學(xué),什么是誘騙+侵犯?

房產(chǎn)要聞

顛覆認(rèn)知!?谡嬲暮勒髌,終于出現(xiàn)了!

世嘉Steam特賣最低2.5折!P5R、如龍8等大作迎史低

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版