網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeekV3.1支持國(guó)產(chǎn)FP8，英偉達(dá)停H20轉(zhuǎn)B30A，國(guó)產(chǎn)算力迎來(lái)轉(zhuǎn)機(jī)

2025-08-26 21:11:54　來(lái)源: 小8說(shuō)科技

重慶舉報(bào)

分享至

兩件事幾乎前后腳發(fā)生：一邊是 DeepSeek 把 V3.1 推上臺(tái)，并在技術(shù)說(shuō)明里“順手”寫下——支持面向下一代國(guó)產(chǎn)芯片的 UE8M0-FP8；

另一邊，英偉達(dá)通知供應(yīng)鏈暫停中國(guó)特供 H20 的生產(chǎn)，并被曝可能轉(zhuǎn)向性能更高一檔的 B30A。兩條線合在一起，像一記暗號(hào)：國(guó)產(chǎn)算力，迎來(lái)真正的時(shí)間窗口。

先把“UE8M0-FP8”這串看不懂的字母翻成白話。

FP8并不是魔法，它是把模型訓(xùn)練常用的浮點(diǎn)表示，從16位、32位壓到8位的一套數(shù)值體系。位數(shù)少了，單卡能裝下更多參數(shù)，節(jié)點(diǎn)間傳得更快、功耗也更低。

但壓縮不是瞎壓，指數(shù)位、尾數(shù)位怎么分配，和硬件的乘累加單元、指令集、誤差校正算法都要對(duì)齊。

DeepSeek 提到的 UE8M0，可以理解為“國(guó)產(chǎn)算力特征友好”的 FP8 子格式：在保證精度可控的前提下，盡可能把吞吐、帶寬、能效三件事擰到一個(gè)最舒服的平衡點(diǎn)。

它不像新聞標(biāo)題那樣炸裂，卻是軟硬協(xié)同里最難的一塊砌磚。

為什么這句“支持”格外重要？

因?yàn)檫^(guò)去國(guó)產(chǎn)算力最大短板，不在單卡，而在“并起來(lái)之后”。大家都看過(guò)單卡指標(biāo)：Ascend X、某些新一代國(guó)產(chǎn)卡，峰值算力并不弱，甚至某些場(chǎng)景里超過(guò) H20。

但大模型不是 1 張卡的競(jìng)賽，而是 1 萬(wàn)張、2 萬(wàn)張的協(xié)同?？缈◣?、集群互聯(lián)、通信棧效率，一旦掉隊(duì)，就等于“越并越慢”。

這也是很多大廠即便認(rèn)可國(guó)產(chǎn)卡的單卡性能，最終還是買 H20 的原因：時(shí)間就是成本，集群效率就是生死線。

再把視角拉高一點(diǎn)：芯片是“鐵器”，生態(tài)是“水”。

英偉達(dá)用十幾年把 CUDA、庫(kù)、驅(qū)動(dòng)、編譯工具鏈、集群管理、參考模型做成了一條河，任何一個(gè)開發(fā)者下水就能順流而下；

國(guó)內(nèi)陣營(yíng)里，算力卡與上層框架、算子庫(kù)、圖編譯器的打磨還在路上，支持的模型數(shù)量、部署工具的成熟度、調(diào)優(yōu)經(jīng)驗(yàn)的可復(fù)用性，都還沒(méi)有形成“自來(lái)水”。

這也是美國(guó)對(duì)華策略微妙轉(zhuǎn)向的原因——封死不一定最有效，給你一顆“剛好高一檔”的芯片，可能更能把生態(tài)牢牢鎖住。你會(huì)發(fā)現(xiàn)，傾銷比封鎖更可怕。

在這樣的棋局里，DeepSeek 站出來(lái)說(shuō)“V3.1 原生支持國(guó)產(chǎn) FP8 子格式”，意義不止技術(shù)。

它像是給芯片廠、框架團(tuán)隊(duì)、模型企業(yè)發(fā)了一張“公共路標(biāo)”：以這個(gè)精度體系為錨點(diǎn)，大家在同一個(gè)坐標(biāo)系里迭代，工具鏈、算子、算子融合、量化策略都可以圍繞它持續(xù)沉淀。

最直觀的好處，是把過(guò)去的“各做各的兼容”變成“協(xié)同前進(jìn)”。當(dāng)你把思考模式（長(zhǎng)鏈推理）與非思考模式融合在一套統(tǒng)一的數(shù)值與調(diào)度底座上，算力的每一瓦都能更像樣地用出去。

別忘了，英偉達(dá)的那條新聞也不是無(wú)關(guān)緊要。

暫停 H20，傳出 B30A 的風(fēng)聲，背后是一次很露骨的生態(tài)保衛(wèi)戰(zhàn)：不給頂配，給你“中上一檔”。這樣國(guó)內(nèi)模型廠商會(huì)很難拒絕；

而國(guó)產(chǎn)卡剛要起量時(shí)，訂單又被虹吸走，生態(tài)就更難做厚。

對(duì)我們來(lái)說(shuō)，正確打開方式不是“抵觸誰(shuí)”，而是“把自己的路鋪到能走快”：把集群互聯(lián)帶寬做上去（不管是 HCCS、PCIe Gen5/6 還是自研高速鏈路），把拓?fù)浜屯ㄐ艞Ｗ霰∽龇€(wěn)（AllReduce/AllToAll 的分桶、壓縮、容錯(cuò)），把訓(xùn)練流程從算子到圖層層打磨；

同時(shí)，讓更多一線模型在國(guó)產(chǎn)卡上“第一時(shí)間可跑、第二時(shí)間跑得快”。這正是 UE8M0-FP8 作為共同語(yǔ)言的價(jià)值所在。

讀到這你可能會(huì)問(wèn)：那就萬(wàn)事俱備了？還沒(méi)有。短期最硬的釘子是產(chǎn)能和良率。

沒(méi)有先進(jìn)光刻，成熟工藝要把良率抬上來(lái)，需要極其苛刻的設(shè)計(jì)與生產(chǎn)紀(jì)律——電源完整性、時(shí)鐘樹、冷熱沖擊、封裝應(yīng)力，每一個(gè)環(huán)節(jié)都是“毫米之間見(jiàn)功夫”。

現(xiàn)在你我最常聽(tīng)到的數(shù)字是“萬(wàn)卡集群”，但國(guó)內(nèi)一些主力卡到今年中才到“幾萬(wàn)片累積”。生態(tài)要壯，前提是“有貨可買”，這件事需要耐心，也需要產(chǎn)業(yè)鏈彼此“等等我”。

回到用戶層面，我更關(guān)心的是這波變化能帶來(lái)什么“可感”的紅利。

第一是模型端的“穩(wěn)定快”：同等參數(shù)規(guī)模下，如果 FP8 訓(xùn)練在國(guó)產(chǎn)卡上能跑得住、收斂穩(wěn)、誤差可控，推理側(cè)的吞吐和延時(shí)會(huì)立刻下降一個(gè)臺(tái)階。

第二是部署端的“更省電”：算子 FP8 化配合存儲(chǔ)帶寬壓縮，意味著邊緣設(shè)備、私有云都能承接更復(fù)雜的模型，而不是把一切丟到公有云。

第三是成本端的“更可預(yù)期”：當(dāng)模型企業(yè)把算力側(cè)的選擇不再押寶于單一供應(yīng)商，議價(jià)空間和交付確定性都會(huì)好很多。

寫到這里，我想把開頭那句暗號(hào)再說(shuō)一遍：國(guó)產(chǎn)算力的窗口真來(lái)了，但它不靠一條新聞、一個(gè)版本號(hào)，它靠的是軟硬同步邁步、生態(tài)一起走路。

DeepSeek 給了一個(gè)漂亮的起手式，芯片廠、框架團(tuán)隊(duì)、云廠商、應(yīng)用方要把戲接下去。

至于英偉達(dá)的“暫?！俜帕俊保c其焦慮，不如把精力投到“讓國(guó)產(chǎn)卡成為第一選擇”這件事上：

你愿不愿意把下一個(gè)實(shí)驗(yàn)、下一個(gè)中型項(xiàng)目，優(yōu)先跑在國(guó)產(chǎn)平臺(tái)上？你愿不愿意把碰到的問(wèn)題整理出來(lái)，和工具鏈團(tuán)隊(duì)一起把坑填平？

答案如果是“愿意”，那我們離“吹盡黃沙始到金”，就真的不遠(yuǎn)了。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.