成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Lumina-mGPT 2.0:自回歸模型華麗復(fù)興,媲美頂尖擴散模型

0
分享至



上海人工智能實驗室等團(tuán)隊提出Lumina-mGPT 2.0 —— 一款獨立的、僅使用解碼器的自回歸模型,統(tǒng)一了包括文生圖、圖像對生成、主體驅(qū)動生成、多輪圖像編輯、可控生成和密集預(yù)測在內(nèi)的廣泛任務(wù)。

本文第一作者辛毅為南京大學(xué) & 上海創(chuàng)智學(xué)院博士生,現(xiàn)于上海人工智能實驗室實習(xí),研究方向為圖像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實驗室青年科學(xué)家 — 高鵬。本文其他作者來自上海人工智能實驗室、香港中文大學(xué)、上海交通大學(xué)、上海創(chuàng)智學(xué)院、浙江工業(yè)大學(xué)等。



  • 論文標(biāo)題:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
  • 論文鏈接:arxiv.org/pdf/2507.17801
  • GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0
  • 關(guān)鍵詞:圖像生成、自回歸模型、基座模型。

核心技術(shù)與突破

完全獨立的訓(xùn)練架構(gòu)

不同于依賴預(yù)訓(xùn)練權(quán)重的傳統(tǒng)方案,Lumina-mGPT 2.0 采用純解碼器 Transformer 架構(gòu),從參數(shù)初始化開始完全獨立訓(xùn)練。這帶來三大優(yōu)勢:架構(gòu)設(shè)計不受限制(提供了 20 億和 70 億參數(shù)兩個版本)、規(guī)避授權(quán)限制(如Chameleon的版權(quán)問題)、減少預(yù)訓(xùn)練模型帶來的固有偏差。



圖像分詞器方面,通過對比 VQGAN、ViT-VQGAN 等多種方案,最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN,為高質(zhì)量生成奠定基礎(chǔ)。



統(tǒng)一多任務(wù)處理框架

創(chuàng)新地采用統(tǒng)一的圖像分詞方案,將圖生圖任務(wù)通過上下拼接視為一張圖像,并通過提示描述進(jìn)行控制,實現(xiàn)多任務(wù)訓(xùn)練與文生圖訓(xùn)練的一致性。使得單一模型能夠無縫支持以下任務(wù):

  • 文生圖
  • 主體驅(qū)動生成
  • 圖像編輯
  • 可控生成(如基于輪廓 / 深度的生成)
  • 密集預(yù)測

這種設(shè)計避免了傳統(tǒng)模型需切換不同框架的繁瑣,通過系統(tǒng)提示詞即可靈活控制任務(wù)類型。



高效的推理策略

為了解決自回歸模型生成速度慢的痛點,團(tuán)隊引入兩種優(yōu)化:

  • 模型量化:將模型權(quán)重量化為 4 位整數(shù),同時保持激活張量為 bfloat16,通過 PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實現(xiàn)無需改變模型架構(gòu)的優(yōu)化。

  • 推測式 Jacobi 采樣:通過靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案,使 SJD 兼容于靜態(tài)編譯框架,從而實現(xiàn)加速采樣,同時避免動態(tài)調(diào)整緩存。結(jié)合 4 位量化技術(shù),減少 60% GPU 顯存消耗,同時通過并行解碼加速生成。

實驗顯示,優(yōu)化后模型在保持質(zhì)量的前提下,生成效率顯著提升。



實驗結(jié)果

文生圖實驗結(jié)果

在文本到圖像生成領(lǐng)域,Lumina-mGPT 2.0 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,與 SANA 和Janus Pro等擴散模型和自回歸模型相當(dāng)甚至超越,特別是在 “兩個物體” 和 “顏色屬性” 測試中表現(xiàn)卓越,以 0.80 的GenEval 分?jǐn)?shù)躋身頂級生成模型之列。



此外,在實際生成效果上,Lumina-mGPT 2.0 在真實感、細(xì)節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro,更具視覺吸引力和自然美感。



多任務(wù)實驗結(jié)果

在 Graph200K 多任務(wù)基準(zhǔn)中(可控生成、物體驅(qū)動生成),Lumina-mGPT 2.0 表現(xiàn)優(yōu)異,證明了純自回歸模型在單一框架下完成多模態(tài)生成任務(wù)的可能性。



此外,團(tuán)隊與其他的多任務(wù)生成模型進(jìn)行了實際比較,Lumina-mGPT 2.0 在可控生成和主題驅(qū)動生成任務(wù)中表現(xiàn)突出,與 Lumina-mGPT、OneDiffusion和 OmniGen 等模型相比,展示了卓越的生成能力和靈活性。



未來方向

Lumina-mGPT 2.0 在優(yōu)化推理后,仍面臨采樣時間長的問題,與其他基于自回歸的生成模型相似,這影響了用戶體驗,后續(xù)將進(jìn)一步優(yōu)化。當(dāng)前 Lumina-mGPT 2.0 的重點在多模態(tài)生成, 但計劃更新擴展至多模態(tài)理解,以提高其整體功能和性能,這將使 Lumina-mGPT 2.0 在滿足用戶需求方面更加全面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上港本輪剛輸蓉城!就有可能直接點燃三把火,四位球員發(fā)揮遭質(zhì)疑

上港本輪剛輸蓉城!就有可能直接點燃三把火,四位球員發(fā)揮遭質(zhì)疑

譚顳愛搞笑
2025-08-31 10:43:40
資本大佬為啥這么待見霉霉

資本大佬為啥這么待見霉霉

小光侃娛樂
2025-08-31 12:15:03
年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

下水道男孩
2025-08-30 23:51:00
官方批復(fù):原則同意!涉及云南這個項目

官方批復(fù):原則同意!涉及云南這個項目

開屏新聞客戶端
2025-08-31 11:31:36
河北孟村事件,如今最慌的不是那個懷孕的第三者,而是那個醫(yī)生

河北孟村事件,如今最慌的不是那個懷孕的第三者,而是那個醫(yī)生

皮蛋兒電影
2025-08-27 10:19:34
意外收獲,俄軍清理戰(zhàn)場意外發(fā)現(xiàn)一坑道:全是羅馬尼亞和波蘭大兵

意外收獲,俄軍清理戰(zhàn)場意外發(fā)現(xiàn)一坑道:全是羅馬尼亞和波蘭大兵

墨羽怪談
2025-08-28 16:26:59
馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
丈夫出軌后,妻子給孩子看丈夫和小三做愛照片:你爸不要你了

丈夫出軌后,妻子給孩子看丈夫和小三做愛照片:你爸不要你了

社會醬
2025-08-27 17:06:13
左小青48歲依舊驚艷,風(fēng)韻猶存,年輕人看了都要自愧不如!

左小青48歲依舊驚艷,風(fēng)韻猶存,年輕人看了都要自愧不如!

鄉(xiāng)野小珥
2025-08-30 21:20:58
本特:格拉利什太不可思議了,我不明白圖赫爾為什么不征召他

本特:格拉利什太不可思議了,我不明白圖赫爾為什么不征召他

懂球帝
2025-08-31 10:00:39
畢福劍沒想到,如今碩士畢業(yè)的女兒,竟和前妻過上高攀不起的生活

畢福劍沒想到,如今碩士畢業(yè)的女兒,竟和前妻過上高攀不起的生活

秋姐居
2025-08-30 14:21:44
庫明加或成棄子,庫里喜迎戈登加盟,攻防鐵閘曾讓詹皇“上火”

庫明加或成棄子,庫里喜迎戈登加盟,攻防鐵閘曾讓詹皇“上火”

與眠行
2025-08-31 15:24:40
她56歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻(xiàn)身!

她56歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻(xiàn)身!

科學(xué)發(fā)掘
2025-08-31 05:54:09
巴西媒體:9月3日對中國乃至全世界都意義重大

巴西媒體:9月3日對中國乃至全世界都意義重大

參考消息
2025-08-31 15:29:14
新地標(biāo)!重慶300米超高層即將完成“穿衣”

新地標(biāo)!重慶300米超高層即將完成“穿衣”

GA環(huán)球建筑
2025-08-31 00:02:47
8000萬新援官宣在即!紐卡社媒發(fā)布球員頭像剪影:?

8000萬新援官宣在即!紐卡社媒發(fā)布球員頭像剪影:?

直播吧
2025-08-30 18:00:15
太慘了!廣州一股民95元抄底恩捷股份,死扛2年,最終虧損66萬。

太慘了!廣州一股民95元抄底恩捷股份,死扛2年,最終虧損66萬。

阿傖說事
2025-07-05 17:56:52
福耀科大食堂飯價曝光,一份盒飯40元,學(xué)生:還是被民辦做局了

福耀科大食堂飯價曝光,一份盒飯40元,學(xué)生:還是被民辦做局了

妍妍教育日記
2025-08-27 17:00:04
面善心惡,日子過得很難的四個星座

面善心惡,日子過得很難的四個星座

星座葉大仙
2025-08-31 09:12:12
更強壯+更能防!恭喜火箭隊,21歲射手?jǐn)偱?,休賽期苦練見效?>
    </a>
        <h3>
      <a href=熊哥愛籃球
2025-08-30 23:51:54
2025-08-31 16:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

女子酒后與妹妹因清理狗屎起爭執(zhí) 將2只狗從21樓扔下

頭條要聞

女子酒后與妹妹因清理狗屎起爭執(zhí) 將2只狗從21樓扔下

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

韓磊起訴后,女方公開道歉

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

數(shù)碼
旅游
房產(chǎn)
游戲
公開課

數(shù)碼要聞

華為小藝智慧助手升級,Mate 70 等機型新增“小藝看世界”功能

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌罚K于出現(xiàn)了!

英雄聯(lián)盟手游女子SOLO賽:EW.YULI加冕SOLO女王

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版