成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

圖像分詞器造反了!華為 Selftok:自回歸內核完美統(tǒng)一擴散模型

0
分享至




自回歸(AR)范式憑借將語言轉化為離散 token 的核心技術,在大語言模型領域大獲成功 —— 從 GPT-3 到 GPT-4o,「next-token prediction」以簡單粗暴的因果建模橫掃語言領域。但當我們將目光轉向視覺生成,卻發(fā)現(xiàn)這條黃金定律似乎失效了……

現(xiàn)有方案硬生生將圖像網格化為空間 token,強行塞入自回歸架構。這像極了 NLP 早期用 CNN 建模語言的彎路 —— 當視覺表達被空間局部性束縛,因果鏈被切割得支離破碎,如何能真正擁抱 AR 的本質?

華為盤古多模態(tài)生成團隊破局思路:讓圖像學會「說 AR 的語言」。團隊指出:視覺要想復刻 LLM 的成功,必須徹底重構 token 化范式!基于昇騰 AI 基礎軟硬件的 Selftok 技術,通過反向擴散過程將自回歸先驗融入視覺 token,讓像素流轉化為嚴格遵循因果律的離散序列。



  • 項目主頁:https://Selftok-team.github.io/report/
  • ArXiv 鏈接:https://arxiv.org/abs/2505.07538
  • Github鏈接: https://github.com/selftok-team/SelftokTokenizer

Selftok 的突破在于:

  • 反向擴散鍛造因果 token—— 通過擴散過程的時序分解,讓視覺表達徹底 AR 化
  • 強化學習友好型 token—— 首個嚴格滿足貝爾曼方程 (Bellman Equation) 的視覺離散表征
  • 純 AR 大一統(tǒng)架構 —— 無需復雜模塊堆疊,優(yōu)雅地實現(xiàn) LLM 和 diffusion 的融合,單憑 next-token prediction 統(tǒng)一跨模態(tài)生成

實驗結果實現(xiàn):

  • 視覺重建新突破:Imagenet 上重建指標達到離散 token SoTA
  • 跨模態(tài)生成新高度:無需圖文對齊數(shù)據!僅憑視覺 token 策略梯度,GenEval 生成質量超越 GPT-4o
  • 親和昇騰計算架構:昇騰原生算子融合 + MindSpeed 框架,實現(xiàn)端到端原生開發(fā)

值得一提的是,該系列工作的開篇論文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入選了 CVPR 2025 最佳論文候選(Best Paper Candidate, 14/13008,0.1%)

介紹

當前行業(yè)共識認為大語言模型(LLMs)正面臨語言數(shù)據瓶頸,而圖像、視頻等非語言數(shù)據仍存在巨大開發(fā)潛力。技術圈普遍認為,構建統(tǒng)一的多模態(tài)架構將是釋放 AI 更強涌現(xiàn)能力的關鍵。要將視覺等非語言模態(tài)整合進類似 LLMs 的離散自回歸模型(discrete AR,dAR),核心挑戰(zhàn)在于將連續(xù)視覺信號轉化為離散 Token。華為盤古多模態(tài)生成團隊首創(chuàng)不依賴空間先驗的視覺 Token 方案,通過與語言模態(tài)聯(lián)合訓練構建視覺 - 語言模型(VLM),在圖像生成、圖像編輯等任務中展現(xiàn)出卓越能力。其強化學習優(yōu)化后的生成性能已超越 AR 范式現(xiàn)有模型,開創(chuàng)了多模態(tài)自回歸訓練的新范式。

為何選擇離散化視覺 token?當前主流方案采用語言 dAR 與圖像連續(xù)自回歸模型(continuous AR, cAR)的混合架構,認為連續(xù)表征能最小化圖像壓縮損失。但大量研究表明:離散表征同樣可保持高精度,而連續(xù)表征存在三重致命缺陷:其一,預測穩(wěn)定性差,cAR 采用均方誤差(MSE)訓練的向量回歸器較 dAR 的交叉熵(XE)分類器更易出錯,這迫使多數(shù) cAR 放棄因果預測范式,轉向雙向建模,從根本上違背 decoder-only 架構的自回歸設計哲學;其二,強化學習復雜度激增,連續(xù)狀態(tài) - 動作空間使馬爾可夫決策過程從有限轉為無限,策略優(yōu)化難度呈指數(shù)級上升;其三,解耦能力受限,連續(xù)表征在學習過程中會帶來模式坍縮 (視覺幻覺),離散可以實現(xiàn)因子更好的解耦。



圖 1

為什么選擇摒棄空間先驗?早期 CV 研究將空間特征 Token 化視為自回歸建模標配,但華為 AIGC Selftok 團隊指出:空間 Token 的因果依賴本質與 AR 范式存在根本沖突。如下圖所示,碰撞效應導致虛假依賴,編碼任一空間 Token 時引入與其他所有 Token 的貝葉斯偽相關,破壞 AR 所需的因果圖結構;從而導致強化學習失序,非 AR 依賴使 Token 預測影響歷史狀態(tài),無法滿足貝爾曼方程,導致策略優(yōu)化陷入局部最優(yōu)困境。實驗證明,非空間 Token 的 RL 效果上限顯著低于 AR Token。



基于此,Selftok 團隊提出 Self-consistency Tokenizer:通過擴散模型反向過程的 AR 特性編碼圖像生成軌跡,每個 Token 對應擴散步驟的時間戳(如圖 3)。



圖 3

該方案實現(xiàn)三大突破:

1)AR 原生架構(自回歸之本):徹底摒棄空間先驗,保持重建精度同時提升圖文模態(tài)兼容性,為 dAR-VLM 預訓練與 RL 微調奠定基礎;

2)擴散范式統(tǒng)一(擴散之法):直接貫通擴散模型與自回歸架構,無需額外模塊即可完成跨模態(tài)統(tǒng)一。自回歸等價于遞歸,可像歸并排序算法(下左圖)一樣分而治之。同理,將 x_0→x_1(下右圖)的路徑分解成兩部分,x_0→x_t 由擴散模型采樣得到,x_t→x_1 學習 token;



圖 3.1

3)推理性能躍升(推理之用):Selftok-Token 完美適配策略優(yōu)化,使 dAR-VLM 獲得類 LLM 的 RL 訓練能力。實驗證明,無監(jiān)督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜單分別以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,驗證了 Selftok token 與 AR 范式的組合威力。

方法簡述

Tokenizer:Selftok tokenizer 主要由三部分構成:encoder,quantizer 與 decoder。整體的結構如圖 4 所示:



圖 4

Selftok 編碼器采用雙流架構:圖像分支繼承 SD3 的 VAE 隱空間編碼,文本分支創(chuàng)新性替換為可學習連續(xù)向量組以捕捉擴散特征,通過動態(tài)掩碼機制提升計算效率。核心量化器通過 EMA 更新的 codebook 和獨創(chuàng)的 "code 偏移監(jiān)測 - 重激活" 機制,解決傳統(tǒng)訓練不均衡問題,實現(xiàn)擴散過程與自回歸建模的統(tǒng)一。解碼器基于 SD3 權重改進,文本分支采用 codebook embedding 替代傳統(tǒng)輸入,并通過時序感知 token 分配策略(隨 timestep 縮減 token 數(shù)量)強化自回歸特性。為了進一步提升推理效率,渲染器通過引入 "畫布"token 消除 timestep 依賴,在昇騰 910B2 上實現(xiàn)單卡推理速度從 8.2 秒壓縮至 0.31 秒,同時完全保留重建質量。生成路徑離散化技術將連續(xù)擴散轉化為 token 驅動確定性映射,奠定視覺自回歸建模新范式。



圖 6

Selftok 團隊通過可視化對比揭示了 token 表征的本質差異:

1)漸進重建(左→右):通過逐步掩碼輸入 token 序列測試重建能力。



VQGAN、FlowMo、VAR 因 token 與圖像塊強綁定,在短序列輸入時呈現(xiàn)塊狀偽影;而 Selftok 即使保留極少量 token 仍保持全局語義連貫。

2)Token 插值(左→右):通過逐步替換左右圖像 token 實現(xiàn)插值。



傳統(tǒng)方法因空間局部性產生斷裂形變,Selftok 則實現(xiàn)平滑語義過渡,驗證了自回歸建模的理論優(yōu)勢。

Pretrain and SFT:在預訓練階段,模型架構基于 LLaMA-3-8B 進行擴展,在原有語言詞表的基礎上新增了 32,768 個圖像 token 的詞表。正如前文所述,Selftok dAR-VLM 可以完全復用現(xiàn)有的 LLM 訓練范式與訓練框架。具體實現(xiàn)上,該模型基于昇騰 MindSpeed 框架和昇騰 910B NPU 進行訓練優(yōu)化,整個流程被設計為兩個關鍵階段:

1.多模態(tài)對齊:這個階段引入四種數(shù)據輸入格式(如圖 8 所示)來幫助模型實現(xiàn)模態(tài)的對齊,分別為 text-to-image, image-to-text, image-only 與 text-only,使得模型從 LLM 轉變?yōu)?VLM。



圖 8

2.多任務對齊:這個階段收集了高質量的圖像與文本數(shù)據對模型在三類任務(如圖 8 所示)上進行監(jiān)督微調(sft):text-to-image, image-editing 與 image-understanding,進一步提升模型的能力上限并擴展模型的能力邊界。此外針對 AR token 的特性,Selftok 團隊也設計了新的推理策略,會根據當前圖像 token 的熵來確定是否進行 logit adjustment。新的推理策略也幫助模型進一步提升了圖像生成的效果。



公式 1

RL:Selftok 團隊首先證明了 AR tokens 能夠推導出貝爾曼方程,進而證明采用策略優(yōu)化的 RL 算法具有最優(yōu)解。在此理論基礎上,選擇使用 GRPO 算法對模型進行優(yōu)化。不同于數(shù)學問題或代碼生成這類能夠獲得精確 reward 的任務,文生圖任務難以精確的評估生成效果與指令遵循能力。為了解決這個問題,Selftok 團隊設計了兩類獎勵函數(shù):基于程序與基于 VQA 任務。基于程序的獎勵函數(shù)能夠有效的評估生成圖像中的物體屬性、空間關系、數(shù)量等是否與 prompt 相符合,團隊使用目標檢測模型來檢測上述內容,并提高目標檢測的閾值,在提升圖文一致性的同時顯著的提升了圖像內容的合理性與美感;基于 VQA 任務的獎勵函數(shù)面向更加通用的場景,首先 prompt 會被分解為多個問題,隨后使用 Internvl 與 GPT-4o 來回答這些問題,并計算出最終的 reward。

實驗結果顯示基于程序的獎勵函數(shù)能夠更加有效的提升模型的表現(xiàn),在 GenEval Bench 上 Selftok-Zero 顯著的優(yōu)于包括 GPT-4o 在內的其他所有模型。

結果

Tokenizer 結果:Selftok tokenizer 在 ImageNet 上的多個重建指標都達到了 sota,相比于其他的 tokenizer,Selftok tokenizer 對細節(jié)的重建效果更好,也更加貼近原始圖片,量化結果如表 1 所示。



表 1

文生圖結果:華為盤古多模態(tài)生成團隊在 GenEval 與 DPG 兩個 benchmark 上評測文生圖的的表現(xiàn)。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅領先包括 GPT-4o 在內的所有模型,達到 92 的分數(shù)。相比與 sft 模型,經過 RL 后的模型在多個子任務上都達到 SOTA,且大幅領先其他模型。如表 2 所示:



表 2

在 DPG Benchmark 上,Selftok-zero 僅次于 HiDream-I1,并在多個子項上達到 sota。相比于 Selftok-sft,Selftok-zero 的表現(xiàn)全面提升,進一步證明了 Selftok token 在 RL 算法上的有效性。結果如表 3 所示:



表 3

可視化結果如圖 9 所示:



圖 9

圖像編輯結果:Selftok 團隊還在 PIE-Bench 上檢測了模型的圖像編輯能力,結果顯示 Selftok 模型的編輯效果在編輯模型中也處于領先地位,量化指標如表 4 所示,編輯過程可視化結果如圖 10。



表 4



圖 10

在多輪編輯任務中,Selftok 展示了精確的理解能力與非編輯區(qū)域的保持能力,編輯指令的遵循能力能夠與 GPT-4o,Gemini-2.0 等匹配,如圖 11 所示:



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
弗蘭克:不為輸球震驚,但過程我不滿意;西蒙斯是一大補強

弗蘭克:不為輸球震驚,但過程我不滿意;西蒙斯是一大補強

懂球帝
2025-08-31 01:05:31
長得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

長得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

煙潯渺渺
2025-08-26 19:10:09
廣州暫停汽車“置換更新”補貼政策

廣州暫停汽車“置換更新”補貼政策

IT之家
2025-08-30 09:46:15
恩里克:4-0領先后難免會出現(xiàn)松懈,確保登貝萊健康很重要

恩里克:4-0領先后難免會出現(xiàn)松懈,確保登貝萊健康很重要

雷速體育
2025-08-31 07:25:18
十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

大運河時空
2025-08-28 16:45:03
小米粥再次成為關注對象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

小米粥再次成為關注對象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

泠泠說史
2025-08-28 16:14:53
提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

瓜農娟姐
2025-08-30 16:06:15
總獎金24.37億歐!說歐冠才是世界第一體育賽事,誰敢稱第二?

總獎金24.37億歐!說歐冠才是世界第一體育賽事,誰敢稱第二?

田先生籃球
2025-08-30 05:43:50
中央匯金,大舉增持ETF!

中央匯金,大舉增持ETF!

每日經濟新聞
2025-08-30 16:27:01
徐敏的國民好男人形象毀了嗎?

徐敏的國民好男人形象毀了嗎?

阿廢冷眼觀察所
2025-08-30 16:05:48
郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

鄭丁嘉話
2025-08-13 09:43:22
4名初中生霸凌女孩4小時:我沒16歲歡迎報警,父親:我有精神病

4名初中生霸凌女孩4小時:我沒16歲歡迎報警,父親:我有精神病

罪案洞察者
2025-08-28 10:32:58
假如當年蔣介石退守緬甸,而不是臺灣省,如今中國會是咋樣?

假如當年蔣介石退守緬甸,而不是臺灣省,如今中國會是咋樣?

冰雅憶史
2025-08-29 03:30:03
中國鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動機

中國鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動機

健身狂人
2025-08-27 12:50:40
人民網發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

人民網發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

熱點菌本君
2025-08-27 15:45:34
聯(lián)合國安理會審議烏克蘭問題 中方:支持一切有利于和平解決危機的努力

聯(lián)合國安理會審議烏克蘭問題 中方:支持一切有利于和平解決危機的努力

環(huán)球網資訊
2025-08-30 10:10:51
世界排名更新!肖國棟直逼丁俊暉,墨菲跌出前16特魯姆普斷層第一

世界排名更新!肖國棟直逼丁俊暉,墨菲跌出前16特魯姆普斷層第一

世界體壇觀察家
2025-08-31 00:02:26
降息525基點!

降息525基點!

格隆匯
2025-08-30 20:19:31
女子送69單外賣后過勞死,尸檢結果:女子體內竟檢測出多名男性DNA

女子送69單外賣后過勞死,尸檢結果:女子體內竟檢測出多名男性DNA

懸案解密檔案
2025-08-18 10:36:14
菲律賓攤牌了!公開對華“劃紅線”,拉上外援全力守護坐灘破艦

菲律賓攤牌了!公開對華“劃紅線”,拉上外援全力守護坐灘破艦

健身狂人
2025-08-31 06:57:54
2025-08-31 08:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關注度
往期回顧 全部

科技要聞

李斌內部講話:蔚來四季度必須盈利

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

教育
親子
時尚
本地
軍事航空

教育要聞

離譜!老師上課要求學生交東西,學生不從竟還舉凳砸老師

親子要聞

寶藍用平板一下子買了50盒玩具??!!

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

軍事要聞

以軍繼續(xù)襲擊加沙城

無障礙瀏覽 進入關懷版