機(jī)器之心報(bào)道
編輯:冷貓、杜偉
前些天,DeepSeek 在發(fā)布 DeepSeek V3.1 的文章評(píng)論區(qū)中,提及了 UE8M0 FP8 的量化設(shè)計(jì),聲稱是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì)。
這件事一下引發(fā)了巨大反響,不僅是關(guān)于新一代國(guó)產(chǎn)芯片設(shè)計(jì)、大模型在國(guó)產(chǎn)芯片訓(xùn)練的話題,也順勢(shì)引發(fā)了大家對(duì)大模型量化策略的關(guān)注。
FP8,其全稱為 8-bit floating point(8 位浮點(diǎn)數(shù)),是一種超低精度的數(shù)據(jù)表示格式,相較于 FP32(單精度)或 FP16(半精度)等傳統(tǒng)浮點(diǎn)格式,F(xiàn)P8 可以在盡量保持?jǐn)?shù)值穩(wěn)定性和模型精度的前提下,進(jìn)一步降低存儲(chǔ)和計(jì)算開銷。
在英偉達(dá)之外,Meta、英特爾、AMD 等也都在研究 FP8 訓(xùn)練與推理,有成為業(yè)界「新黃金標(biāo)準(zhǔn)」的趨勢(shì)。
@梁斌 penny 在微博上的文字引起了比較熱烈的討論:
雖然言論有些絕對(duì),但是 DeepSeek 采用了非主流的 FP8 量化策略,隱隱展現(xiàn)出國(guó)產(chǎn)大模型與國(guó)產(chǎn)芯片芯片軟硬結(jié)合的優(yōu)化策略與英偉達(dá)的高兼容策略的不同發(fā)展路徑。
UE8M0 FP8 具有鮮明的戰(zhàn)略意義。DeepSeek 選擇在模型端率先采用并公開聲明使用 UE8M0 格式,將其訓(xùn)練與 scale 策略與該精度綁定。這等于由大模型端主動(dòng)提出標(biāo)準(zhǔn),迫使硬件和工具鏈進(jìn)行適配,加速了國(guó)產(chǎn)軟硬件一體化的生態(tài)建設(shè)。
不知道是不是巧合,在 DeepSeek 為國(guó)產(chǎn)芯片準(zhǔn)備的 FP8 量化策略的提出不久,就在今天,英偉達(dá)也在低精度量化領(lǐng)域再次發(fā)力。只不過(guò)這次不是 FP8 量化的新進(jìn)展,而是向 FP4 量化躍進(jìn)。
英偉達(dá)將其最新的 NVFP4 策略拓展到預(yù)訓(xùn)練階段,聲稱能夠以 16 位精度進(jìn)行訓(xùn)練,并以 4 位的速度和效率運(yùn)行。
英偉達(dá)稱:「在預(yù)訓(xùn)練中使用 NVFP4,可顯著提升大規(guī)模 LLM 訓(xùn)練效率和基礎(chǔ)設(shè)施效能。這不僅是一次漸進(jìn)式優(yōu)化,而是一種重新定義大規(guī)模模型訓(xùn)練方式的根本性轉(zhuǎn)變。」
在「AI 工廠」時(shí)代,算力是進(jìn)步的引擎,數(shù)值精度已不再是后端細(xì)節(jié),而是一種戰(zhàn)略優(yōu)勢(shì)。NVFP4 4 比特預(yù)訓(xùn)練為效率與可擴(kuò)展性設(shè)定了新的標(biāo)準(zhǔn),推動(dòng)高性能 AI 模型開發(fā)進(jìn)入全新階段。
目前,NVFP4 訓(xùn)練仍處于研究階段,正在探索并驗(yàn)證 4 位精度在大規(guī)模模型預(yù)訓(xùn)練中的潛力。圍繞 NVFP4 的合作與實(shí)驗(yàn)正積極推進(jìn),參與方包括 AWS、Cohere、Google Cloud、Kimi AI、Microsoft AI、Mistral、OpenAI、Perplexity、Reflection、Runway 等領(lǐng)先組織。
對(duì)于英偉達(dá)在更低位的探索,評(píng)論區(qū)的網(wǎng)友意見(jiàn)不一,有人認(rèn)可 NVFP4 在提升訓(xùn)練速度以及降低成本和能耗方面的積極作用,認(rèn)為其有望推動(dòng)更多行業(yè)進(jìn)入高效、可持續(xù)的 AI 時(shí)代。
還有人提到 NVFP4 與 Jetson Thor 的結(jié)合有望對(duì)現(xiàn)實(shí)世界的應(yīng)用產(chǎn)生深遠(yuǎn)影響。Jetson Thor 是英偉達(dá)前幾日發(fā)布的新一代機(jī)器人專用芯片,通過(guò)大幅提升算力,可以適配具身智能新算法,支持人形機(jī)器人等各種形態(tài)。
二者可能的結(jié)合,一方面在訓(xùn)練端帶來(lái)更高的能效與速度優(yōu)化,另一方面在邊緣、推理場(chǎng)景充分利用高性能低功耗的計(jì)算能力,最終從訓(xùn)練到部署形成高效的完整閉環(huán)。
不過(guò)也有人不買賬,針對(duì)英偉達(dá)聲稱的更環(huán)保(greener),他認(rèn)為,雖然新的數(shù)據(jù)格式帶來(lái)了種種優(yōu)化,但并不代表 AI 的總體算力需求和能耗會(huì)因此減少,也無(wú)法從根本上改變 AI 持續(xù)擴(kuò)張?jiān)斐傻哪茉磁c資源壓力。
什么是 4 比特量化(4-bit quantization)?
4 比特量化指的是將模型中的權(quán)重和激活值的精度降低到僅僅 4 位。這相比常見(jiàn)的 16 位或 32 位浮點(diǎn)數(shù)格式,是一次大幅度的精度壓縮。
在預(yù)訓(xùn)練階段使用 4 比特量化非常具有挑戰(zhàn)性。因?yàn)樾枰诒3钟?xùn)練速度提升的同時(shí),謹(jǐn)慎地處理梯度和參數(shù)更新,以確保模型精度不會(huì)丟失。
為了達(dá)到這個(gè)目標(biāo),英偉達(dá)必須使用專門的技術(shù)和方法,把原本高精度的張量(tensor)映射到更小的量化值集合中,同時(shí)仍然維持模型的有效性。
更少的比特如何釋放 AI 工廠的更大潛能
近些年來(lái),AI 的工作負(fù)載呈現(xiàn)爆炸式增長(zhǎng) —— 不僅僅是在大語(yǔ)言模型(LLM, Large Language Model)的推理部署中,還包括基礎(chǔ)模型(foundation model)在預(yù)訓(xùn)練和后訓(xùn)練階段的規(guī)模擴(kuò)張。
隨著越來(lái)越多機(jī)構(gòu)擴(kuò)展計(jì)算基礎(chǔ)設(shè)施,用來(lái)訓(xùn)練和部署擁有數(shù)十億參數(shù)的模型,一個(gè)核心指標(biāo)逐漸凸顯:AI 工廠能維持多高的 token 吞吐量,從而解鎖下一階段的模型能力。
在推理(inference)環(huán)節(jié),精度格式已經(jīng)經(jīng)歷了多次革新:從最初的 FP32(32 位浮點(diǎn)數(shù))到 FP16,再到 FP8,最近甚至發(fā)展到 NVIDIA 發(fā)布的 NVFP4,用于 AI 推理。實(shí)踐表明,像后訓(xùn)練量化(PTQ)這樣的方法,已經(jīng)能夠借助 NVFP4 顯著提升推理吞吐量,同時(shí)保持準(zhǔn)確性。
然而,在更上游的預(yù)訓(xùn)練階段,挑戰(zhàn)依然存在 —— 目前大多數(shù)基礎(chǔ)模型仍依賴于 BF16 或 FP8 來(lái)維持穩(wěn)定性和收斂性。
預(yù)訓(xùn)練恰恰是 AI 工廠消耗最多計(jì)算力、能耗和時(shí)間的環(huán)節(jié)。算力預(yù)算有限,GPU 時(shí)鐘周期稀缺,開發(fā)者必須精打細(xì)算 —— 從每一個(gè)比特、每一個(gè) token,到每一個(gè)訓(xùn)練周期都要計(jì)算在內(nèi)。吞吐量在這里不只是一個(gè)抽象指標(biāo),它直接決定了:能夠訓(xùn)練多大規(guī)模的模型,可以運(yùn)行多少實(shí)驗(yàn),又能多快迎來(lái)新的突破。
這就是4 位精度真正具備顛覆性意義的地方。
通過(guò)減少內(nèi)存需求、提升算術(shù)運(yùn)算吞吐量、優(yōu)化通信效率,4 比特預(yù)訓(xùn)練能夠讓 AI 工廠在相同的硬件條件下處理更多的 token。只要配合合適的量化方法,它的精度表現(xiàn)可以與 FP8 或 BF16 相當(dāng),同時(shí)還能顯著提升吞吐量。
這意味著:
- 模型收斂速度更快;
- 單位算力能運(yùn)行更多實(shí)驗(yàn);
- 可以訓(xùn)練出前所未有規(guī)模的前沿模型。
換句話說(shuō),更少的比特不僅僅是節(jié)省成本,它還拓展了 AI 工廠的能力邊界。
NVFP4 預(yù)訓(xùn)練量化方案
為了實(shí)現(xiàn) 4 位精度的預(yù)訓(xùn)練,英偉達(dá)開發(fā)了一套專門的 NVFP4 預(yù)訓(xùn)練方案,解決了大規(guī)模訓(xùn)練中動(dòng)態(tài)范圍、梯度波動(dòng)以及數(shù)值穩(wěn)定性的核心挑戰(zhàn)。
Blackwell 是 NVIDIA 首個(gè)原生支持 FP4 格式的架構(gòu)。GB200 和 GB300 上巨大的 FP4 FLOPs 吞吐量,通過(guò)加速低精度矩陣運(yùn)算,同時(shí)保持大模型收斂所需的規(guī)模和并行性,從而實(shí)現(xiàn)高效的 4 比特訓(xùn)練 —— 使其成為下一代基于 FP4 的 AI 工廠進(jìn)行預(yù)訓(xùn)練的理想選擇。
下圖 1 顯示了 Blackwell Ultra 的 GEMM 性能測(cè)量結(jié)果,相比 Hopper 代實(shí)現(xiàn)了 7 倍加速?,F(xiàn)代大語(yǔ)言模型(LLM)在本質(zhì)上依賴矩陣乘法,尤其是在其全連接層或線性層中,矩陣乘法是核心計(jì)算元素。因此,這些運(yùn)算的效率至關(guān)重要。
FP4 精度能夠更快、更高效地執(zhí)行這些運(yùn)算,所觀察到的 GEMM 加速意味著整個(gè)預(yù)訓(xùn)練過(guò)程都顯著加快,從而縮短訓(xùn)練時(shí)間,并支持更大規(guī)模模型的快速開發(fā)。
圖 1:測(cè)得的 GEMM 性能顯示,GB300 相比 Hopper 實(shí)現(xiàn)了 7 倍加速,通過(guò)更快的 FP4 優(yōu)化矩陣乘法加速了核心 LLM 訓(xùn)練操作。
為了實(shí)現(xiàn)高效的低精度訓(xùn)練,NVIDIA 的 NVFP4 預(yù)訓(xùn)練方案采用了多項(xiàng)關(guān)鍵技術(shù),這些技術(shù)是基于性能和精度精心選擇的,包括:
1. 利用 NVFP4 的微塊縮放增強(qiáng)數(shù)值表示
Blackwell 引入了對(duì) NVFP4 的原生 Tensor Core 支持。NVFP4 是一種 4 位數(shù)值格式,可用于權(quán)重和激活值,采用微塊縮放技術(shù) —— 每 16 個(gè) 4 位元素共享一個(gè)公共縮放因子。相比 MXFP4 將塊大小設(shè)為 32 元素,NVFP4 將塊大小縮小至 16 元素,從而減少異常值的影響,實(shí)現(xiàn)更精確的縮放。更細(xì)粒度的縮放降低了量化誤差,提升了模型整體精度。
2. 使用 E4M3 縮放因子的 NVFP4 高精度塊編碼
縮放因子精度在量化質(zhì)量和精度中至關(guān)重要。不同于僅限于 2 的冪(E8M0)且易產(chǎn)生高舍入誤差的 MXFP4,NVFP4 使用帶額外尾數(shù)位的高精度 E4M3 縮放因子。這允許更細(xì)粒度的縮放,更有效利用有限的量化區(qū)間,并在塊內(nèi)更準(zhǔn)確地表示數(shù)值。
3. 重塑張量分布以適應(yīng)低精度格式
LLM 預(yù)訓(xùn)練期間的梯度和激活值通常存在大幅異常值,這會(huì)影響低精度量化。對(duì) GEMM 輸入應(yīng)用 Hadamard 變換,可將其分布重塑為更接近高斯分布,從而平滑異常值,使張量更容易被精確表示。這些變換對(duì)模型結(jié)構(gòu)是透明的,可在前向和反向傳播的線性層中應(yīng)用。
4. 使用量化技術(shù)保持?jǐn)?shù)據(jù)一致性
為了確保訓(xùn)練穩(wěn)定高效,英偉達(dá)采用保持前向和反向傳播一致性的量化方法。諸如選擇性二維塊量化等技術(shù),有助于在整個(gè)訓(xùn)練周期中保持張量表示的對(duì)齊。這種一致性對(duì)于最小化信號(hào)失真、改善收斂行為、增強(qiáng)整體魯棒性至關(guān)重要,尤其是在 NVFP4 等低精度格式下。
5. 通過(guò)隨機(jī)舍入減少偏差
與傳統(tǒng)(確定性)舍入總是向最接近的可表示值舍入不同,隨機(jī)舍入會(huì)根據(jù)數(shù)值在兩個(gè)可表示值之間的位置,按概率向上或向下舍入。這一步驟對(duì)于減少舍入偏差、保持訓(xùn)練期間梯度流動(dòng)以及最終提高模型精度至關(guān)重要。
圖 2:英偉達(dá)的 NVFP4 預(yù)訓(xùn)練技術(shù),用以實(shí)現(xiàn)高效低精度訓(xùn)練。
萬(wàn)億級(jí) Token 規(guī)模下的精度與穩(wěn)定性
要讓低精度格式在大規(guī)模預(yù)訓(xùn)練中實(shí)用,必須同時(shí)保證模型精度和收斂穩(wěn)定性。
為了評(píng)估 4 位精度在大規(guī)模模型訓(xùn)練中的可行性,英偉達(dá)在一個(gè) 120 億參數(shù)的混合 Mamba-Transformer 架構(gòu)模型(12B Hybrid Mamba-Transformer)上進(jìn)行了 FP8 和 NVFP4 的實(shí)驗(yàn)。
該模型類似于 NVIDIA Nemotron Nano 2,它在包含 10 萬(wàn)億個(gè) token 的超大數(shù)據(jù)集上進(jìn)行訓(xùn)練,采用分階段數(shù)據(jù)混合策略:在訓(xùn)練的 70% 階段切換到不同的數(shù)據(jù)集混合,在預(yù)訓(xùn)練的 90% 階段進(jìn)行第三階段數(shù)據(jù)切換。
該 12B Hybrid Mamba-Transformer 模型的一個(gè)版本最初使用 8 精度(FP8)進(jìn)行訓(xùn)練。之前的研究表明,F(xiàn)P8 的精度與 16 位精度非常接近,因此 FP8 被作為英偉達(dá)的基線進(jìn)行對(duì)比。
隨后,英偉達(dá)成功地從零開始使用 NVFP4 訓(xùn)練同樣的 12B 模型,證明這種新的低精度格式可以支持萬(wàn)億級(jí) Token 規(guī)模的完整預(yù)訓(xùn)練。并且,NVFP4 在訓(xùn)練過(guò)程中表現(xiàn)出穩(wěn)定的收斂性,沒(méi)有通常困擾超低精度訓(xùn)練的不穩(wěn)定性或發(fā)散問(wèn)題。
下圖 3 顯示,NVFP4 的驗(yàn)證損失曲線在整個(gè)訓(xùn)練過(guò)程中與高精度基線(即 FP8)的損失曲線高度一致。上述量化技術(shù)確保即使在大幅降低位寬的情況下,4 比特預(yù)訓(xùn)練的動(dòng)態(tài)表現(xiàn)仍與高精度訓(xùn)練非常接近。
圖 3:在對(duì) 120 億參數(shù)的 Hybrid Mamba-Transformer 模型進(jìn)行預(yù)訓(xùn)練時(shí),對(duì)比使用 FP8 與 NVFP4 精度在 10 萬(wàn)億 tokens 下的驗(yàn)證損失結(jié)果顯示,NVFP4 的損失曲線在整個(gè)訓(xùn)練過(guò)程中與 FP8(基線)的曲線高度吻合。
隨后,英偉達(dá)使用 NVFP4 預(yù)訓(xùn)練 120 億參數(shù)的 Hybrid Mamba-Transformer 模型,并與更高精度的 FP8 基線在多個(gè)下游任務(wù)與智能領(lǐng)域進(jìn)行了對(duì)比。
如下圖 4 所示,在所有領(lǐng)域中,NVFP4 的準(zhǔn)確率表現(xiàn)均與 FP8 相當(dāng),甚至在代碼領(lǐng)域?qū)崿F(xiàn)了反超,展現(xiàn)了其有效性。該結(jié)果進(jìn)一步強(qiáng)化了最初的假設(shè):即使在萬(wàn)億 token 規(guī)模下,NVFP4 依然是大語(yǔ)言模型預(yù)訓(xùn)練的穩(wěn)健選擇,驗(yàn)證了其在高效大規(guī)模前沿模型訓(xùn)練中的潛力。
圖 4:分別使用 FP8 精度(基線)和 NVFP4 精度,對(duì) 120 億參數(shù)的 Hybrid Mamba-Transformer 模型進(jìn)行預(yù)訓(xùn)練,此時(shí)的下游任務(wù)準(zhǔn)確率對(duì)比。
聰明訓(xùn)練,而不是一味加碼
根據(jù)英偉達(dá)的說(shuō)法,NVFP4 格式正在重新定義 AI 訓(xùn)練的格局,并可以為實(shí)現(xiàn)速度、效率和有目的創(chuàng)新設(shè)立新的標(biāo)桿。通過(guò)實(shí)現(xiàn) 4 比特預(yù)訓(xùn)練,NVFP4 讓 AI 工廠更快、更可持續(xù)地?cái)U(kuò)展,為全新的生成式 AI 時(shí)代打下基礎(chǔ)。
另外,作為一種動(dòng)態(tài)且不斷演進(jìn)的技術(shù),NVFP4 將持續(xù)為前沿模型團(tuán)隊(duì)創(chuàng)造新的機(jī)遇,推動(dòng)節(jié)能高效和高性能的 AI 發(fā)展。憑借計(jì)算效率的突破,4 比特預(yù)訓(xùn)練將賦能更先進(jìn)的架構(gòu)、更大規(guī)模的訓(xùn)練和 token 處理,從而為未來(lái)的智能系統(tǒng)注入新的動(dòng)力。
原文地址:https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.