成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek小爆發(fā)

0
分享至



DeepSeek官方剛剛突然宣布:我們發(fā)最新版本模型DeepSeek-V3.1啦!

消息一出,一個(gè)小時(shí)在X上的瀏覽熱度就達(dá)到了26萬(wàn)!



據(jù)DeepSeek介紹,DeepSeek-V3.1是一款混合型模型,支持“思考模式”與“非思考模式”混合運(yùn)行,用戶可以根據(jù)場(chǎng)景需求,靈活切換推理深度,效率和能力兩手抓。

得益于深度優(yōu)化的訓(xùn)練策略與大規(guī)模長(zhǎng)文檔擴(kuò)展,DeepSeek-V3.1在推理速度、工具調(diào)用智能、代碼和數(shù)學(xué)任務(wù)等方面均有顯著進(jìn)步。

咱們先捋一下這次新版模型的幾大亮點(diǎn):

·混合思考模式:通過(guò)切換對(duì)話模板,單一模型即可兼容思考與非思考兩種模式。

·更智能的工具調(diào)用:通過(guò)后訓(xùn)練優(yōu)化,模型在調(diào)用工具和完成Agent(智能體)任務(wù)方面的表現(xiàn)顯著提升。

·更高的思考效率:DeepSeek-V3.1-Think在回答質(zhì)量上可與R1-0528媲美,同時(shí)響應(yīng)速度更快。

A

官方放出的測(cè)試結(jié)果顯示,V3.1-Think AIME 2025(美國(guó)數(shù)學(xué)邀請(qǐng)賽2025版)得分88.4%,GPQA Diamond(高難度研究生級(jí)知識(shí)問(wèn)答數(shù)據(jù)集的Diamond子集)得分80.1%,LiveCodeBench(實(shí)時(shí)編碼基準(zhǔn))得分74.8%,均優(yōu)于老模型R1-0528的表現(xiàn):87.5%、81.0%、73.3%。

而且,正如下圖所示(縱軸是輸出token數(shù)),V3.1-Think的輸出tokens反而大幅減少。

也就是說(shuō):V3.1-Think相較于老模型R1-0528,使用更少的tokens,但達(dá)到了相似或略高的準(zhǔn)確率,在計(jì)算資源優(yōu)化上的優(yōu)勢(shì)很明顯。



在軟件工程和Agent任務(wù)基準(zhǔn)上的性能提升方面:

·SWE-Bench Verified,DeepSeek-V3.1得分66.0%,遠(yuǎn)高于V3-0324的45.4%和R1-0528的44.6%,表明其在處理復(fù)雜代碼任務(wù)時(shí)更可靠。

·SWE-Bench Multilingual(多語(yǔ)言版本),DeepSeek-V3.1得分54.5%,大幅領(lǐng)先V3-0324的29.3%和R1-0528的30.5%。說(shuō)明其在多語(yǔ)言支持上有很大進(jìn)步,可能通過(guò)增加多樣化訓(xùn)練數(shù)據(jù)實(shí)現(xiàn),使其更適合全球開(kāi)發(fā)場(chǎng)景。

·Terminal-Bench(使用Terminus 1框架的基準(zhǔn),量化AI Gent在終端(命令行)環(huán)境中完成復(fù)雜任務(wù)的能力,如腳本執(zhí)行、文件操作或系統(tǒng)交互,模擬真實(shí)命令行工作流),DeepSeek-V3.1得分31.3%,優(yōu)于V3-0324的13.3%和R1-0528的5.7%,在Agent框架下的效率提升,適合自動(dòng)化運(yùn)維或DevOps應(yīng)用。



需要注意的是,DeepSeek V3.1的本次更新,核心在于顯著增強(qiáng)了模型的智能體能力,尤其是在復(fù)雜推理和工具鏈協(xié)作場(chǎng)景下的實(shí)際表現(xiàn)。

此外,DeepSeek-V3.1搜索Agent、長(zhǎng)上下文理解、事實(shí)問(wèn)答和工具使用等領(lǐng)域的性能也表現(xiàn)強(qiáng)勢(shì)。

DeepSeek-V3.1(基于MoE架構(gòu),總參數(shù)671B,激活37B)在大多數(shù)基準(zhǔn)上顯著優(yōu)于R1-0528,在搜索Agent和長(zhǎng)上下文任務(wù)上的平均提升約20-300%,尤其在工具使用(如xbench-DeepSearch)和事實(shí)QA(如SimpleQA)中領(lǐng)先,這意味著它適合構(gòu)建AI Agent應(yīng)用,如自動(dòng)化搜索或代碼輔助。



相比R1-0528(專(zhuān)注于推理但效率較低),DeepSeek-V3.1更注重平衡速度與質(zhì)量,DeepSeek的“Agent時(shí)代” 正式拉開(kāi)帷幕。

在Huggingface上,DeepSeek釋放出了更詳細(xì)的評(píng)估結(jié)果。

基于官方給出的與前代的測(cè)評(píng)比較,DeepSeek-V3.1在常規(guī)推理和知識(shí)問(wèn)答任務(wù)(如 MMLU-Redux 和 MMLU-Pro)上,整體表現(xiàn)穩(wěn)定提升,非思考和思考模式下的分?jǐn)?shù)均高于V3舊版,基本接近行業(yè)頂尖大模型水平。

例如,在 HLE(Humanity’s Last Exam,搜索+Python 復(fù)合推理)任務(wù)上,DeepSeek-V3.1實(shí)現(xiàn)了 29.8% 的通過(guò)率,優(yōu)于自家 R1-0528 版(24.8%),并接近 GPT-5、Grok 4 等國(guó)際一線大模型。



雖然各大模型在評(píng)測(cè)細(xì)節(jié)上存在一定差異,但DeepSeek的表現(xiàn)仍具有說(shuō)服力。

新版模型在網(wǎng)頁(yè)檢索、復(fù)合搜索和工具協(xié)同場(chǎng)景(BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA)上有跨越式進(jìn)步,中文網(wǎng)頁(yè)搜索和多模態(tài)復(fù)合推理分?jǐn)?shù)顯著超越舊版本。在 SWE-Bench Verified代碼評(píng)測(cè)中,DeepSeek-V3.1以66.0%的成績(jī)大幅領(lǐng)先前代(44.6%),也與 Claude 4.1、Kimi K2等頂級(jí)模型保持同一水準(zhǔn)。

在Terminal Bench終端自動(dòng)化測(cè)試中,其得分也略高于GPT-5和o3等知名競(jìng)品。



與此同時(shí),DeepSeek-V3.1在代碼生成和自動(dòng)化評(píng)測(cè)(LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench)方面,得分也較前代顯著提升,特別是在智能體模式下,代碼任務(wù)通過(guò)率和自動(dòng)化執(zhí)行能力大幅增強(qiáng)。在AIME和HMMT等高級(jí)數(shù)學(xué)推理和競(jìng)賽任務(wù)上,DeepSeek-V3.1的表現(xiàn)優(yōu)于前代產(chǎn)品,思考模式下解題成功率大幅提升。

不過(guò)作為通用對(duì)話模型,V3.1 并未在所有維度超越前代產(chǎn)品——在部分常規(guī)對(duì)話和知識(shí)問(wèn)答場(chǎng)景下,R1-0528 依然具有一定競(jìng)爭(zhēng)力。

B

在具體的性能表現(xiàn)之外,DeepSeek發(fā)布新模型,一定會(huì)被外界密切關(guān)注的當(dāng)然是價(jià)格。

這次,DeepSeek也沒(méi)有讓大家失望。



Input API Price(輸入定價(jià)),分為兩種情況:

·Cache Hit(緩存命中):0.07美元/百萬(wàn)tokens。

·Cache Miss(緩存未命中):0.56美元/百萬(wàn)tokens。

Output API Price(輸出定價(jià))為1.68美元/百萬(wàn)tokens。

MenloVentures的風(fēng)險(xiǎn)投資人、前谷歌搜索團(tuán)隊(duì)成員Deedy也發(fā)推大呼“鯨魚(yú)回來(lái)了”。(這哥們?cè)赬上有20萬(wàn)粉絲,妥妥的科技界大V。)



除了價(jià)格良心之外,DeepSeek-V3.1還首次實(shí)現(xiàn)了對(duì)Anthropic API的原生兼容。

這意味著,用戶可以像調(diào)用Claude或Anthropic生態(tài)的模型一樣,將DeepSeek的集成進(jìn)現(xiàn)有系統(tǒng)。無(wú)論是通過(guò)Claude Code工具鏈還是直接使用Anthropic官方SDK,開(kāi)發(fā)者只需配置API地址和密鑰,即可在所有支持Anthropic API的環(huán)境下,使用DeepSeek-V3.1提供的推理和對(duì)話能力。



從目前的反饋來(lái)看,外界對(duì)這次發(fā)布的反饋還是很好的,盡管它并非“拳打Grok4、腳踩GPT-5”的霸王龍,但它有明確的、清晰的側(cè)重點(diǎn)與優(yōu)勢(shì)。



更有意思的是,從兩天前DeepSeek默默發(fā)了V3.1-Base開(kāi)始,網(wǎng)友已經(jīng)再次驚嘆于DeepSeek發(fā)模型的節(jié)奏之舒適、態(tài)度之低調(diào)。





在其他模型發(fā)布往往先炒作規(guī)格和性能數(shù)據(jù)的時(shí)候,DeepSeek反其道而行,直接放出模型文件讓開(kāi)發(fā)者立即下載測(cè)試,然后再補(bǔ)充細(xì)節(jié)。高效、開(kāi)發(fā)者友好。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
8月5場(chǎng)僅拿1勝,申花官方致歉:間歇期會(huì)進(jìn)行深刻反思和總結(jié)

8月5場(chǎng)僅拿1勝,申花官方致歉:間歇期會(huì)進(jìn)行深刻反思和總結(jié)

懂球帝
2025-09-01 12:23:01
女子喊話未來(lái)女婿:我女兒習(xí)慣國(guó)際商務(wù)艙,從小吃壽司,被打臉!

女子喊話未來(lái)女婿:我女兒習(xí)慣國(guó)際商務(wù)艙,從小吃壽司,被打臉!

知曉科普
2025-09-01 10:31:56
普京攜半壁江山訪華,待遇趕不上莫迪?只因這事中俄早已心照不宣

普京攜半壁江山訪華,待遇趕不上莫迪?只因這事中俄早已心照不宣

梁訊
2025-09-01 15:33:10
早報(bào),傳來(lái)申花主教練斯盧茨基、朱辰杰最新消息,下輪前瞻堪憂

早報(bào),傳來(lái)申花主教練斯盧茨基、朱辰杰最新消息,下輪前瞻堪憂

巷子里的歷史
2025-09-01 10:40:43
安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點(diǎn)每天還直播7小時(shí),剛到校就被粉絲認(rèn)出

安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點(diǎn)每天還直播7小時(shí),剛到校就被粉絲認(rèn)出

極目新聞
2025-08-30 18:45:57
CBA要大結(jié)局,廣東隊(duì)傳重磅喜訊,直接碾壓北京上海,杜鋒崛起

CBA要大結(jié)局,廣東隊(duì)傳重磅喜訊,直接碾壓北京上海,杜鋒崛起

宗介說(shuō)體育
2025-09-01 13:54:29
缺席北京閱兵,特朗普提3個(gè)要求,中方一條都沒(méi)答應(yīng),還反將一軍

缺席北京閱兵,特朗普提3個(gè)要求,中方一條都沒(méi)答應(yīng),還反將一軍

南宮一二
2025-09-01 15:56:57
繼續(xù)拆彈,記者:安東尼離開(kāi)曼徹斯特,曼聯(lián)工資單再減一員

繼續(xù)拆彈,記者:安東尼離開(kāi)曼徹斯特,曼聯(lián)工資單再減一員

懂球帝
2025-09-01 15:45:01
139元!小米新品上架,真的有點(diǎn)心動(dòng)啊

139元!小米新品上架,真的有點(diǎn)心動(dòng)啊

科技堡壘
2025-08-31 13:40:10
中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

等風(fēng)來(lái)育兒聯(lián)盟
2025-08-01 12:21:35
現(xiàn)周薪10.5萬(wàn)!天空:曼聯(lián)不會(huì)付遣散費(fèi),安東尼接受降薪去貝蒂斯

現(xiàn)周薪10.5萬(wàn)!天空:曼聯(lián)不會(huì)付遣散費(fèi),安東尼接受降薪去貝蒂斯

直播吧
2025-09-01 16:24:13
繼秦昊夸老婆胸大后,伊能靜又稱與他不熟就是亂摸,二人太敢說(shuō)了

繼秦昊夸老婆胸大后,伊能靜又稱與他不熟就是亂摸,二人太敢說(shuō)了

老汆古裝影視解說(shuō)
2025-08-31 21:55:26
以色列再獲大勝成功團(tuán)滅胡塞高層

以色列再獲大勝成功團(tuán)滅胡塞高層

海子侃生活
2025-08-30 10:10:08
無(wú)緣新季CBA!韓德君任駿飛朱彥西均未注冊(cè) 或在全運(yùn)會(huì)后退役

無(wú)緣新季CBA!韓德君任駿飛朱彥西均未注冊(cè) 或在全運(yùn)會(huì)后退役

醉臥浮生
2025-09-01 07:13:02
中方釋放關(guān)鍵信號(hào)!預(yù)示九三后有大事發(fā)生,臺(tái)海將添一員“虎將”

中方釋放關(guān)鍵信號(hào)!預(yù)示九三后有大事發(fā)生,臺(tái)海將添一員“虎將”

古史青云啊
2025-08-28 21:25:59
貴州兩鄰居同日分娩,嬰兒腳掌胎記一模一樣,親子鑒定后雙雙崩潰

貴州兩鄰居同日分娩,嬰兒腳掌胎記一模一樣,親子鑒定后雙雙崩潰

如煙若夢(mèng)
2025-09-01 09:16:04
奧迪A6L燃油絕唱!2026款黑武士殺到,5系E級(jí)還坐得?。?>
    </a>
        <h3>
      <a href=奧迪A6L燃油絕唱!2026款黑武士殺到,5系E級(jí)還坐得住? 趣味萌寵的日常
2025-09-01 10:33:28
事實(shí)證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

事實(shí)證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

優(yōu)趣紀(jì)史記
2025-08-13 18:46:36
李斌手機(jī)屏幕碎了還在堅(jiān)持?老車(chē)主:給我們發(fā)了16000元紅包

李斌手機(jī)屏幕碎了還在堅(jiān)持?老車(chē)主:給我們發(fā)了16000元紅包

熱點(diǎn)科技
2025-09-01 13:37:11
郭樹(shù)清,金融沙皇的刀鋒

郭樹(shù)清,金融沙皇的刀鋒

城市局
2025-08-30 06:52:56
2025-09-01 17:27:00
字母榜 incentive-icons
字母榜
讓未來(lái)不止于大。
2010文章數(shù) 8011關(guān)注度
往期回顧 全部

科技要聞

百度19億美元收購(gòu)將成歷史:91助手全面停服

頭條要聞

談到中國(guó)留學(xué)生 特朗普:要跟核大國(guó)搞好關(guān)系

頭條要聞

談到中國(guó)留學(xué)生 特朗普:要跟核大國(guó)搞好關(guān)系

體育要聞

林書(shū)豪退役了,我們?cè)撊绾卧u(píng)價(jià)他

娛樂(lè)要聞

蘇有朋,禍從口出?

財(cái)經(jīng)要聞

個(gè)人消費(fèi)貸款貼息開(kāi)閘!多家銀行提前預(yù)熱

汽車(chē)要聞

依舊充滿驚喜 福特智趣烈馬好玩更全能

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
親子
手機(jī)
數(shù)碼

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌罚K于出現(xiàn)了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

親子要聞

滿月女?huà)胩淇薏煌?月嫂說(shuō)正?,F(xiàn)象,寶媽掀開(kāi)襁褓當(dāng)場(chǎng)掐住她的脖子

手機(jī)要聞

清除舊通知才能恢復(fù)提示音,谷歌確認(rèn)Android 16存在通知異常Bug

數(shù)碼要聞

華為旗艦小平板 MatePad Mini 定檔 9 月 4 日發(fā)布

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版