兩件事幾乎前后腳發(fā)生:一邊是 DeepSeek 把 V3.1 推上臺(tái),并在技術(shù)說(shuō)明里“順手”寫下——支持面向下一代國(guó)產(chǎn)芯片的 UE8M0-FP8;
另一邊,英偉達(dá)通知供應(yīng)鏈暫停中國(guó)特供 H20 的生產(chǎn),并被曝可能轉(zhuǎn)向性能更高一檔的 B30A。兩條線合在一起,像一記暗號(hào):國(guó)產(chǎn)算力,迎來(lái)真正的時(shí)間窗口。
先把“UE8M0-FP8”這串看不懂的字母翻成白話。
FP8并不是魔法,它是把模型訓(xùn)練常用的浮點(diǎn)表示,從16位、32位壓到8位的一套數(shù)值體系。位數(shù)少了,單卡能裝下更多參數(shù),節(jié)點(diǎn)間傳得更快、功耗也更低。
但壓縮不是瞎壓,指數(shù)位、尾數(shù)位怎么分配,和硬件的乘累加單元、指令集、誤差校正算法都要對(duì)齊。
DeepSeek 提到的 UE8M0,可以理解為“國(guó)產(chǎn)算力特征友好”的 FP8 子格式:在保證精度可控的前提下,盡可能把吞吐、帶寬、能效三件事擰到一個(gè)最舒服的平衡點(diǎn)。
它不像新聞標(biāo)題那樣炸裂,卻是軟硬協(xié)同里最難的一塊砌磚。
為什么這句“支持”格外重要?
因?yàn)檫^(guò)去國(guó)產(chǎn)算力最大短板,不在單卡,而在“并起來(lái)之后”。大家都看過(guò)單卡指標(biāo):Ascend X、某些新一代國(guó)產(chǎn)卡,峰值算力并不弱,甚至某些場(chǎng)景里超過(guò) H20。
但大模型不是 1 張卡的競(jìng)賽,而是 1 萬(wàn)張、2 萬(wàn)張的協(xié)同??缈◣?、集群互聯(lián)、通信棧效率,一旦掉隊(duì),就等于“越并越慢”。
這也是很多大廠即便認(rèn)可國(guó)產(chǎn)卡的單卡性能,最終還是買 H20 的原因:時(shí)間就是成本,集群效率就是生死線。
再把視角拉高一點(diǎn):芯片是“鐵器”,生態(tài)是“水”。
英偉達(dá)用十幾年把 CUDA、庫(kù)、驅(qū)動(dòng)、編譯工具鏈、集群管理、參考模型做成了一條河,任何一個(gè)開發(fā)者下水就能順流而下;
國(guó)內(nèi)陣營(yíng)里,算力卡與上層框架、算子庫(kù)、圖編譯器的打磨還在路上,支持的模型數(shù)量、部署工具的成熟度、調(diào)優(yōu)經(jīng)驗(yàn)的可復(fù)用性,都還沒(méi)有形成“自來(lái)水”。
這也是美國(guó)對(duì)華策略微妙轉(zhuǎn)向的原因——封死不一定最有效,給你一顆“剛好高一檔”的芯片,可能更能把生態(tài)牢牢鎖住。你會(huì)發(fā)現(xiàn),傾銷比封鎖更可怕。
在這樣的棋局里,DeepSeek 站出來(lái)說(shuō)“V3.1 原生支持國(guó)產(chǎn) FP8 子格式”,意義不止技術(shù)。
它像是給芯片廠、框架團(tuán)隊(duì)、模型企業(yè)發(fā)了一張“公共路標(biāo)”:以這個(gè)精度體系為錨點(diǎn),大家在同一個(gè)坐標(biāo)系里迭代,工具鏈、算子、算子融合、量化策略都可以圍繞它持續(xù)沉淀。
最直觀的好處,是把過(guò)去的“各做各的兼容”變成“協(xié)同前進(jìn)”。當(dāng)你把思考模式(長(zhǎng)鏈推理)與非思考模式融合在一套統(tǒng)一的數(shù)值與調(diào)度底座上,算力的每一瓦都能更像樣地用出去。
別忘了,英偉達(dá)的那條新聞也不是無(wú)關(guān)緊要。
暫停 H20,傳出 B30A 的風(fēng)聲,背后是一次很露骨的生態(tài)保衛(wèi)戰(zhàn):不給頂配,給你“中上一檔”。這樣國(guó)內(nèi)模型廠商會(huì)很難拒絕;
而國(guó)產(chǎn)卡剛要起量時(shí),訂單又被虹吸走,生態(tài)就更難做厚。
對(duì)我們來(lái)說(shuō),正確打開方式不是“抵觸誰(shuí)”,而是“把自己的路鋪到能走快”:把集群互聯(lián)帶寬做上去(不管是 HCCS、PCIe Gen5/6 還是自研高速鏈路),把拓?fù)浜屯ㄐ艞W霰∽龇€(wěn)(AllReduce/AllToAll 的分桶、壓縮、容錯(cuò)),把訓(xùn)練流程從算子到圖層層打磨;
同時(shí),讓更多一線模型在國(guó)產(chǎn)卡上“第一時(shí)間可跑、第二時(shí)間跑得快”。這正是 UE8M0-FP8 作為共同語(yǔ)言的價(jià)值所在。
讀到這你可能會(huì)問(wèn):那就萬(wàn)事俱備了?還沒(méi)有。短期最硬的釘子是產(chǎn)能和良率。
沒(méi)有先進(jìn)光刻,成熟工藝要把良率抬上來(lái),需要極其苛刻的設(shè)計(jì)與生產(chǎn)紀(jì)律——電源完整性、時(shí)鐘樹、冷熱沖擊、封裝應(yīng)力,每一個(gè)環(huán)節(jié)都是“毫米之間見(jiàn)功夫”。
現(xiàn)在你我最常聽(tīng)到的數(shù)字是“萬(wàn)卡集群”,但國(guó)內(nèi)一些主力卡到今年中才到“幾萬(wàn)片累積”。生態(tài)要壯,前提是“有貨可買”,這件事需要耐心,也需要產(chǎn)業(yè)鏈彼此“等等我”。
回到用戶層面,我更關(guān)心的是這波變化能帶來(lái)什么“可感”的紅利。
第一是模型端的“穩(wěn)定快”:同等參數(shù)規(guī)模下,如果 FP8 訓(xùn)練在國(guó)產(chǎn)卡上能跑得住、收斂穩(wěn)、誤差可控,推理側(cè)的吞吐和延時(shí)會(huì)立刻下降一個(gè)臺(tái)階。
第二是部署端的“更省電”:算子 FP8 化配合存儲(chǔ)帶寬壓縮,意味著邊緣設(shè)備、私有云都能承接更復(fù)雜的模型,而不是把一切丟到公有云。
第三是成本端的“更可預(yù)期”:當(dāng)模型企業(yè)把算力側(cè)的選擇不再押寶于單一供應(yīng)商,議價(jià)空間和交付確定性都會(huì)好很多。
寫到這里,我想把開頭那句暗號(hào)再說(shuō)一遍:國(guó)產(chǎn)算力的窗口真來(lái)了,但它不靠一條新聞、一個(gè)版本號(hào),它靠的是軟硬同步邁步、生態(tài)一起走路。
DeepSeek 給了一個(gè)漂亮的起手式,芯片廠、框架團(tuán)隊(duì)、云廠商、應(yīng)用方要把戲接下去。
至于英偉達(dá)的“暫?!俜帕俊保c其焦慮,不如把精力投到“讓國(guó)產(chǎn)卡成為第一選擇”這件事上:
你愿不愿意把下一個(gè)實(shí)驗(yàn)、下一個(gè)中型項(xiàng)目,優(yōu)先跑在國(guó)產(chǎn)平臺(tái)上?你愿不愿意把碰到的問(wèn)題整理出來(lái),和工具鏈團(tuán)隊(duì)一起把坑填平?
答案如果是“愿意”,那我們離“吹盡黃沙始到金”,就真的不遠(yuǎn)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.