中國AI明星企業(yè)DeepSeek發(fā)布了其旗艦大語言模型的更新版本,該公司聲稱這一新版本已針對即將推出的新一代國產(chǎn)芯片進(jìn)行了優(yōu)化。
據(jù)DeepSeek介紹,該公司使用UE8M0數(shù)據(jù)類型訓(xùn)練了新的V3.1模型,這是對英偉達(dá)等公司已支持的FP8格式的擴(kuò)展。在微信評論中,該組織澄清這一改變是為了迎接新一代芯片。"UE8M0 FP8是為即將發(fā)布的下一代國產(chǎn)芯片而設(shè)計的",該公司寫道。
較低精度的數(shù)據(jù)類型提供了多項(xiàng)優(yōu)勢,包括減少內(nèi)存消耗,提高推理和訓(xùn)練的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具體是E4M3類型。因此,切換到UE8M0似乎更多是為了兼容性而非效率提升。
DeepSeek并未透露其新模型所適配芯片的來源,但據(jù)報道,這家AI初創(chuàng)公司一直在與華為密切合作,使用其昇騰系列神經(jīng)處理單元(NPU)進(jìn)行訓(xùn)練和推理。
華為的昇騰910C為其CloudMatrix機(jī)架系統(tǒng)提供動力,但原生不支持FP8,這表明這家IT巨頭可能正在開發(fā)更強(qiáng)大的加速器。
上周有報道稱,DeepSeek曾嘗試在華為昇騰加速器上訓(xùn)練其下一代R2模型,但遇到困難后改用英偉達(dá)H20加速器。據(jù)悉DeepSeek目前正在評估華為加速器的推理性能。
目前尚不清楚所謂的R2是否指本周發(fā)布的V3.1模型或即將推出的模型。
實(shí)際上并非全新模型
DeepSeek V3.1實(shí)際上并非全新模型,而是從早期V3檢查點(diǎn)訓(xùn)練而來。
盡管如此,這個大語言模型確實(shí)承諾了顯著改進(jìn)。在V3.1中,DeepSeek不再區(qū)分"思考型"和"非思考型"模型。V3.1在單一模型中支持兩種范式,并使用一對聊天模板在兩者間切換。因此,該公司的聊天機(jī)器人界面現(xiàn)在不再提及R1。
統(tǒng)一模型同時支持推理和非推理輸出的想法并非新穎。阿里巴巴今年早些時候嘗試過類似做法,但發(fā)現(xiàn)該功能降低了其Qwen 3模型的質(zhì)量后放棄了這一想法。
至少在基準(zhǔn)測試中,DeepSeek的V3.1似乎避免了這個問題。與V3相比,該版本的非思考模型在各項(xiàng)指標(biāo)上都取得了顯著提升。
啟用思考功能后,模型的提升較為溫和。然而這并未完全說明全貌,DeepSeek指出該模型現(xiàn)在需要更少的思考Token就能得出答案,這應(yīng)該有助于降低模型服務(wù)成本。
說到Token,DeepSeek已將其上下文窗口(可理解為短期記憶)的Token數(shù)量從65,536提升至131,072。雖然這是顯著改進(jìn),但仍落后于Qwen3等其他中國模型,后者可處理百萬級Token上下文。
DeepSeek還聲稱在工具和函數(shù)調(diào)用能力方面取得重大進(jìn)展,這對于需要實(shí)時檢索外部工具和數(shù)據(jù)的智能體AI工作負(fù)載至關(guān)重要。
例如,在針對自主瀏覽器使用任務(wù)的Browsecomp基準(zhǔn)測試中,DeepSeek v3.1取得了30分的成績,而R1的5月版本僅為8.9分。
除了通過聊天機(jī)器人服務(wù)和API端點(diǎn)提供訪問外,DeepSeek還在Hugging Face和ModeScope上提供了基礎(chǔ)模型和指令調(diào)優(yōu)模型的權(quán)重下載。
Q&A
Q1:DeepSeek V3.1有什么新特點(diǎn)?
A:DeepSeek V3.1最大特點(diǎn)是使用UE8M0數(shù)據(jù)類型進(jìn)行優(yōu)化,專門為即將發(fā)布的國產(chǎn)芯片設(shè)計。同時它統(tǒng)一了"思考型"和"非思考型"模型功能,可在單一模型中通過聊天模板切換兩種模式,并將上下文窗口從65,536個Token提升至131,072個。
Q2:為什么DeepSeek要切換到UE8M0數(shù)據(jù)類型?
A:DeepSeek切換到UE8M0主要是為了兼容即將推出的新一代國產(chǎn)芯片。雖然公司此前已使用FP8的E4M3類型,但UE8M0是專門為下一代國產(chǎn)芯片設(shè)計的,這表明可能有更強(qiáng)大的國產(chǎn)加速器即將問世。
Q3:DeepSeek V3.1性能如何?
A:在基準(zhǔn)測試中,V3.1的非思考模式相比V3在各項(xiàng)指標(biāo)上都有顯著提升。在工具調(diào)用方面進(jìn)步明顯,如在Browsecomp瀏覽器任務(wù)測試中得分30分,遠(yuǎn)超此前R1版本的8.9分。同時模型需要更少思考Token就能得出答案,有助降低服務(wù)成本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.