成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國團(tuán)隊(duì)讓AI擁有「視覺想象力」,像人類一樣腦補(bǔ)畫面來思考

0
分享至




在人類的認(rèn)知過程中,視覺思維(Visual Thinking)扮演著不可替代的核心角色,這一現(xiàn)象貫穿于各個專業(yè)領(lǐng)域和日常生活的方方面面。



圖 1:需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺預(yù)見性和想象力,僅憑基于文本的思考無法完全實(shí)現(xiàn)。

生物化學(xué)家在探索新的治療途徑時,會在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu),通過視覺化的分子間相互作用來理解復(fù)雜的生化過程;法醫(yī)分析師在破解疑難案件時,需要在心中重建犯罪現(xiàn)場的空間布局,通過視覺推理來驗(yàn)證證據(jù)之間的邏輯連接;建筑師在設(shè)計(jì)創(chuàng)新建筑時,會在腦海中不斷勾勒和修正建筑草圖,通過視覺想象來優(yōu)化空間配置和光照效果;籃球運(yùn)動員在制定戰(zhàn)術(shù)策略時,需要在腦海中構(gòu)想隊(duì)友的跑位路線、防守陣型的變化以及關(guān)鍵時刻的戰(zhàn)術(shù)配合,通過視覺化的場景想象來設(shè)計(jì)最佳的進(jìn)攻方案;在日常決策中,一般人也會通過「腦補(bǔ)」各種可能的場景圖像來輔助判斷和選擇,用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺思維能力的獨(dú)特之處在于,它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接,幫助我們發(fā)現(xiàn)僅通過純文本推理無法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中,這種「深思熟慮」往往需要多模態(tài)的思維過程來支撐。

如今,AI 也邁出了這一步:上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團(tuán)隊(duì)提出Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺中間步驟,像人類一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。



  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:

從「看圖像」到「腦補(bǔ)圖像」— 視覺思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過視覺進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過空間搜索任務(wù)(如迷宮導(dǎo)航)進(jìn)行早期探索,但這些任務(wù)的局限性在于它們往往可以直接通過文本思考或「對著」圖像思考(Thinking with Images)來解決,而不需要真正的「腦補(bǔ)」圖像思考(Thinking with Generated Images)。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異:

  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶提供的固定圖像,主要適用于基礎(chǔ)的視覺識別任務(wù),如物體檢測、圖像分類等。這種模式下,模型只是被動地「觀察」圖像內(nèi)容。在這個過程中,整個 AI 的思維過程完全發(fā)生在文本模態(tài)中,圖像僅僅作為一個固定的先驗(yàn)條件,無法參與到動態(tài)的推理過程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型(Large Multimodal Models, LMMs)或視覺語言模型(Vision-Language Models, VLMs)的預(yù)設(shè)模式。
  • 「對著」圖像思考(Thinking with Images):模型能夠多次訪問或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換(如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具),適用于需要多步視覺推理的任務(wù),如視覺問答、圖表解讀、空間推理等。「對著」圖像思考雖然在一定程度上改善了模型的視覺推理能力,但仍然受到一個核心約束:它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡單變換,被動處理用戶提供的圖像,無法真正做到從零開始構(gòu)建新的視覺概念。
  • 「腦補(bǔ)」圖像思考(Thinking with Generated Images):模型能夠主動生成中間視覺步驟作為推理過程的一部分,適用于需要視覺想象、創(chuàng)造性設(shè)計(jì)、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺預(yù)見性(visual foresight)和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢,因?yàn)榧兾谋就评頍o法充分表達(dá)這些任務(wù)所需的空間和視覺信息。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),「腦補(bǔ)」圖像思考在需要空間想象、動態(tài)規(guī)劃和創(chuàng)造性視覺構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢,這正是人類視覺思維的核心價值所在。



圖 2:區(qū)分「看」圖像、「對著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案:

自發(fā)原生多模態(tài)長思維鏈

研究團(tuán)隊(duì)創(chuàng)新性地提出了「原生多模態(tài)長思維過程」(the native long-multimodal thought process)這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長思維過程由交錯的多模態(tài) token 組成:包括文本的詞匯或子詞(words/subwords)、視覺的圖像塊(patches)等。

未來有更通用的基座模型后也能推廣到音頻的幀(frames),以及其他模態(tài)領(lǐng)域特定的表示形式(domain-specific representations)。原生多模態(tài)長思維過程不僅能夠讓模型在思維過程中自然地自發(fā)生成圖像,還能夠原生地執(zhí)行測試時擴(kuò)展(test-time scaling)以獲得更好的模型能力。透過原生多模態(tài)長思維過程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢:

  • 跨模態(tài)原生思維能力:通過單次推理過程即可「原生」地生成多模態(tài)的 tokens,使模型能夠自然無縫地跨模態(tài)進(jìn)行「思考」。
  • 統(tǒng)一生成式任務(wù)執(zhí)行:通過生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
  • 自然測試時擴(kuò)展機(jī)制:通過生成的「長」思維過程提供自然跨模態(tài)的測試時擴(kuò)展,使模型能夠通過生成更長、更詳細(xì)的多模態(tài)長思維過程,在推理時投入更多計(jì)算來提升性能質(zhì)量。
  • 未來技術(shù)集成兼容性和可擴(kuò)展性:單一模型集成的架構(gòu)便于未來與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成,簡化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長思維鏈模式

研究團(tuán)隊(duì)深入分析人類多模態(tài)長思維的認(rèn)知模式,據(jù)此設(shè)計(jì)并提出了兩種原生多模態(tài)長思維鏈模式,應(yīng)用于視覺生成任務(wù)上,最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢:

  • 視覺子目標(biāo)分解(Vision Generation with Intermediate Visual Subgoals):視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。





圖 3:原生多模態(tài)長思維鏈在GenEval上的例子。

  • 提出視覺假設(shè)并自我反思迭代(Vision Generation with Self-Critique):提出視覺假設(shè)并自我反思迭代體現(xiàn)了人類創(chuàng)作過程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個初始的視覺假設(shè)圖像,這個假設(shè)通常包含了對任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對自己生成的圖像進(jìn)行深入的多角度分析,包括內(nèi)容完整性檢查(如「圖像缺乏雨傘」)、視覺質(zhì)量評估(如「更清晰的海景化」)、語義一致性驗(yàn)證(如「更清楚的展示冰淇淋的融化」)、構(gòu)圖合理性判斷(如「增強(qiáng)圖像對比度」)等等。模型通過建立視覺假設(shè)、批判性分析、策略性改進(jìn)的迭代過程來逐步優(yōu)化生成結(jié)果,實(shí)現(xiàn)了視覺和文本模態(tài)之間的深度協(xié)同,形成了一個有效的自我改進(jìn)反饋循環(huán),顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。





圖 4:原生多模態(tài)長思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊(duì)選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開發(fā)原生多模態(tài)長思維鏈,這一決策基于幾個層次的技術(shù)考慮:

  • 自回歸架構(gòu)與人類思維過程的天然契合性。人類的思維過程本質(zhì)上是序列化的——我們在思考復(fù)雜問題時,會逐步構(gòu)建想法,從一個概念過渡到另一個概念,在文本思考和視覺想象之間自然切換。自回歸模型通過逐 token 生成的方式,能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開過程。
  • 統(tǒng)一架構(gòu)的簡潔性和可擴(kuò)展性優(yōu)勢。相比于需要協(xié)調(diào)多個獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu),自回歸統(tǒng)一模型提供了一個優(yōu)雅的解決方案。在這種架構(gòu)下,文本推理、視覺生成、自我批判等所有能力都統(tǒng)一在同一個模型中,避免了多組件系統(tǒng)中常見的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問題。
  • 與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊(duì)能夠直接繼承和利用這些成熟的技術(shù)成果,而不需要從零開始構(gòu)建全新的技術(shù)棧。
  • 未來發(fā)展的技術(shù)路徑一致性。隨著計(jì)算能力的不斷提升和算法的持續(xù)優(yōu)化,自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿?。選擇這一技術(shù)路徑確保了研究成果能夠與未來的技術(shù)發(fā)展趨勢保持一致,具備長期的技術(shù)價值。

在確定了自回歸架構(gòu)的技術(shù)路線后,團(tuán)隊(duì)選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯多模態(tài)生成能力,而這正是實(shí)現(xiàn)「原生多模態(tài)長思維過程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個關(guān)鍵優(yōu)勢:

  • 原生交錯生成能力:Anole 直接在交錯的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,具備了交錯生成多模態(tài) token 的固有能力,這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
  • 高效的視覺表示機(jī)制:Anole 采用相對高效的圖像表示方案,使得基于原生多模態(tài)長思維過程的測試時擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長思維過程解決了視覺推理的五大局限

研究團(tuán)隊(duì)提出的「原生多模態(tài)長思維過程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對比,該提出方案解決了五大局限:

  • 擺脫用戶輸入依賴:過去的方法(如 OpenAI 的 o3 thinking with images)需用戶提供圖像作為推理起點(diǎn),而原生多模態(tài)長思維過程能從零構(gòu)建視覺上下文,讓模型在無圖場景下也能自發(fā)地做多模態(tài)思考。
  • 超越靜態(tài)圖像處理:目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像;原生多模態(tài)長思維過程在推理鏈中動態(tài)生成全新的視覺假設(shè),為創(chuàng)造性規(guī)劃與空間推演打開更大搜索空間。
  • 端到端統(tǒng)一架構(gòu):無需多模型協(xié)作或外部工具鏈,單一模型即可完成「生成-推理-反思-迭代」的全流程,部署與調(diào)用更加輕量。
  • 可擴(kuò)展的測試時擴(kuò)展和未來后訓(xùn)練擴(kuò)展:原生多模態(tài)長思維過程天然支持測試時擴(kuò)展(test-time scaling),通過生成更長、更詳細(xì)的多模態(tài)長思維序列來提升性能。此外,該架構(gòu)為未來與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
  • 實(shí)際落地的應(yīng)用場景:過去的相關(guān)研究往往專注于相對局限任務(wù)場景,如數(shù)學(xué)(幾何)題求解、迷宮導(dǎo)航、簡單的空間推理等。這些任務(wù)雖然在技術(shù)驗(yàn)證上有一定價值,但存在一個根本性問題:它們大多可以通過純文本描述和邏輯推理來充分表達(dá)和解決。例如,迷宮問題可以用坐標(biāo)和路徑描述完全編碼,幾何題可以通過形式化語言和邏輯步驟來求解,這些任務(wù)并未真正發(fā)揮視覺思維的獨(dú)特優(yōu)勢。研究團(tuán)隊(duì)專注于解決那些無法通過純文本充分表達(dá)的復(fù)雜視覺推理任務(wù),實(shí)現(xiàn)了從「專注于能用文本充分解決的視覺任務(wù)」到「專注于必須依賴視覺想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來的能力屬于全新維度,可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力,而檢索增強(qiáng)、外部工具調(diào)用等技術(shù),仍然在引入外部知識、擴(kuò)展功能等方面具備優(yōu)勢。

未來,當(dāng)這些能力并行疊加時,既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」,也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù),形成 1+1>2 的整體效果。



圖 5:多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對比

實(shí)驗(yàn)設(shè)計(jì)

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長思維鏈,研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊(duì)精心設(shè)計(jì)了一套合成數(shù)據(jù)構(gòu)建流程,專門用于訓(xùn)練模型生成兩種類型的多模態(tài)長思維鏈。由于目前沒有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測試時擴(kuò)展 (test-time scaling),傳統(tǒng)蒸餾技術(shù)并不適用,團(tuán)隊(duì)創(chuàng)新性地開發(fā)了完整的數(shù)據(jù)構(gòu)建管線(如圖 6 所示)。

數(shù)據(jù)收集三大黃金法則:

  • 高質(zhì)量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞,通過規(guī)則過濾確保質(zhì)量,并借助 Qwen3-32B 將復(fù)雜視覺任務(wù)拆解成小的目標(biāo)。
  • 高質(zhì)量反思推理鏈:借助 QVQ-72B-Preview 的強(qiáng)大長鏈推理能力,對每個提示-圖像對進(jìn)行準(zhǔn)確性評估、差異識別和改進(jìn)建議,并實(shí)現(xiàn)模型通過迭代分解獲得最終圖像的過程。
  • 高質(zhì)量中間視覺思維:
  • 初始生成:
  • 使用 Anole-7b(自我批判)或 Flux1-dev(子目標(biāo)分解)。
  • 精修階段:
  • Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
  • 最終生成:
  • 基于前幾輪圖像及思考過程來生成最終結(jié)果。

最后通過 QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制,過濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析:

  • 突破性數(shù)據(jù)架構(gòu):專門為「視覺思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
  • 多模型協(xié)同:充分發(fā)揮各領(lǐng)域頂尖模型的專長,構(gòu)建訓(xùn)練樣本。
  • 嚴(yán)格質(zhì)量把控:從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長思維鏈,為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究,也將為未來多模態(tài)推理系統(tǒng)的開發(fā)提供重要參考。



圖 6:數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺生成任務(wù)的訓(xùn)練時,大多僅依賴交叉熵訓(xùn)練沒有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個問題,研究團(tuán)隊(duì)引入了視覺特征級別的重建損失,將生成圖像的隱狀態(tài)投影回視覺特征空間,并計(jì)算與 ground-truth 圖像對應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計(jì)鼓勵模型產(chǎn)生具有更強(qiáng)視覺連貫性和結(jié)構(gòu)完整性的輸出?;趦?yōu)化后損失函數(shù),研究團(tuán)隊(duì)設(shè)計(jì)了系統(tǒng)性的兩階段訓(xùn)練流程:

  • 基礎(chǔ)能力強(qiáng)化:使用 JourneyDB 圖文對數(shù)據(jù)集對 Anole-7b 進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基礎(chǔ)視覺生成能力。這一階段為后續(xù)的專門化訓(xùn)練奠定了堅(jiān)實(shí)的多模態(tài)基礎(chǔ)。
  • 專門化微調(diào):基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練,精細(xì)化調(diào)整兩個專門化模型:
  • TwGI-Anole-7b-Obj.:使用視覺子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào),使其具備生成視覺中間子目標(biāo)的能力。
  • TwGI-Anole-7b-Crit.:使用視覺自我批判數(shù)據(jù)集進(jìn)行微調(diào),使其具備自我批判視覺假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力,又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺語言模型或大語言模型不同,統(tǒng)一多模態(tài)模型在進(jìn)行視覺生成任務(wù)時面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力,無分類器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上,研究團(tuán)隊(duì)增加了:

  • 「原始提示條件」(Original Prompt Conditions):確保生成過程始終與用戶的原始意圖保持一致。
  • 「負(fù)面條件」(Negative Conditions):避免生成不當(dāng)或無關(guān)的視覺內(nèi)容。

這種多條件設(shè)計(jì)的核心目標(biāo)是促使中間視覺步驟更加忠實(shí)于原始意圖,同時避免被生成的長文本思維過度干擾。通過在這些條件之間進(jìn)行精細(xì)化平衡,模型能夠:

  • 充分利用長文本思維的指導(dǎo)作用:從詳細(xì)的文本推理中獲得有價值的語義信息和邏輯指導(dǎo)。
  • 有效過濾思維過程中的潛在噪聲:避免被長思維序列中可能存在的無關(guān)信息或錯誤推理分散注意力。
  • 保持視覺生成的一致性和質(zhì)量:確保最終輸出既符合原始提示要求,又體現(xiàn)了深度推理的成果。

在視覺生成任務(wù)上的結(jié)果分析

研究團(tuán)隊(duì)在 GenEval 和 DPGBench 兩個圖像生成基準(zhǔn)上對 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評估。

  • 視覺子目標(biāo)分解模式的評估:視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。
  • 視覺自我批判模式的評估:測試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺假設(shè)(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的圖像生成結(jié)果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final))。



圖7: 在GenEval上的表現(xiàn)



圖8: 在DPG-Bench上的表現(xiàn)

中間視覺思維生成對視覺生成任務(wù)的顯著效益

實(shí)驗(yàn)結(jié)果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「雙對象」類別中取得了顯著提升(0.57 vs. 0.38,相對提升 50%),表明其在處理涉及多個實(shí)體的復(fù)雜提示時具備了更強(qiáng)的能力。在位置和顏色屬性對齊方面也顯示出顯著改進(jìn),體現(xiàn)了在精確空間和視覺構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類別中都取得了實(shí)質(zhì)性進(jìn)步,總體分?jǐn)?shù)從 58.32 提升至 68.44(相對提升 17.3%),反映出其在細(xì)粒度視覺語義理解方面的增強(qiáng)能力。這些改進(jìn)驗(yàn)證了我們的假設(shè):將視覺任務(wù)分解為中間子目標(biāo)使得大語言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長思維過程使模型能夠糾正和完善自身的視覺假設(shè)

視覺思維自我批判的實(shí)驗(yàn)結(jié)果證明了讓模型反思和修正自身視覺輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48,DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過基于視覺反饋的文本推理鏈,能夠識別不匹配、幻覺或遺漏的元素,并隨后進(jìn)行糾正。這種視覺反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng),其中視覺和文本模態(tài)相互迭代指導(dǎo),形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗(yàn)證:在推理鏈中主動「畫草圖」或「打草稿」,不僅讓模型生成質(zhì)量更高、更可控,也帶來了深度理解與糾錯能力。

未來展望

Thinking with Generated Images 的能力未來有望推動 AI 在需要空間想象和動態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破:

  • 創(chuàng)造性設(shè)計(jì):模型可逐步生成并迭代建筑草圖,同時用文本記錄調(diào)整理由(如「將窗戶東移以優(yōu)化采光」)。
  • 科學(xué)發(fā)現(xiàn):通過生成分子結(jié)構(gòu)的中間假設(shè)圖像,輔助生物學(xué)家驗(yàn)證藥物結(jié)合路徑。
  • 戰(zhàn)術(shù)規(guī)劃:讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場上演示圖像,可視化球員跑位路線和防守破解策略。

《孫子兵法》說:「多算勝,少算不勝,而況于無算乎?」在文本時代,深思靠文字組成的思維鏈;在多模態(tài)時代,深思就需要通過多模態(tài)內(nèi)容的耦合,不僅要會觀察、調(diào)用工具,還要學(xué)會想象、反思、腦補(bǔ)。Thinking with Generated Images正在把這種能力「寫進(jìn)」模型本身,讓 AI 獲得人類的視覺想象力。

  • 它不只是性能指標(biāo)的上漲,而是推理范式的突破;
  • 它不只是會畫畫,而是把「畫畫」變成了思考的肌肉記憶;
  • 它不只是一次概念驗(yàn)證,更是給未來「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機(jī)器從「看圖說話」升級到「無圖腦補(bǔ)」,真正的多模態(tài)推理時代,已敲響開場鑼鼓,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海建緯(武漢)律師事務(wù)所律師陳才因病離世,年僅39歲

上海建緯(武漢)律師事務(wù)所律師陳才因病離世,年僅39歲

澎湃新聞
2025-08-31 20:38:27
很不公平,她們奪得羽毛球世錦賽冠軍,沒有掀起一點(diǎn)風(fēng)浪

很不公平,她們奪得羽毛球世錦賽冠軍,沒有掀起一點(diǎn)風(fēng)浪

真理是我親戚
2025-08-31 23:07:32
怪不得東哥這么從容,又是喝酒又是看球的,一項(xiàng)數(shù)據(jù)說明了一切

怪不得東哥這么從容,又是喝酒又是看球的,一項(xiàng)數(shù)據(jù)說明了一切

皮蛋兒電影
2025-08-31 17:23:31
0-6后國安眾將與球迷起沖突,隊(duì)長+張玉寧怒懟:我們怎么不想踢好

0-6后國安眾將與球迷起沖突,隊(duì)長+張玉寧怒懟:我們怎么不想踢好

我愛英超
2025-08-31 22:59:07
世錦賽大冷門,中國女排1-3出局,趙勇被重點(diǎn)批評,送法國創(chuàng)歷史

世錦賽大冷門,中國女排1-3出局,趙勇被重點(diǎn)批評,送法國創(chuàng)歷史

侃球熊弟
2025-08-31 18:26:49
宋軼回應(yīng)整容:沒有整容,只是換了新的化妝老師

宋軼回應(yīng)整容:沒有整容,只是換了新的化妝老師

韓小娛
2025-08-31 17:40:46
虧損8.5億,《蛟龍行動》成年度最大票房慘案,于冬虧到懷疑人生

虧損8.5億,《蛟龍行動》成年度最大票房慘案,于冬虧到懷疑人生

電影票房預(yù)告片
2025-08-31 18:44:28
兩部門連發(fā)涉菲律賓預(yù)警

兩部門連發(fā)涉菲律賓預(yù)警

澎湃新聞
2025-08-31 11:18:34
梁曉聲:草根子弟沉迷娛樂4小時,高干子弟22歲已能主持百人會議

梁曉聲:草根子弟沉迷娛樂4小時,高干子弟22歲已能主持百人會議

清風(fēng)拂心
2025-08-31 14:15:03
“哺乳期上環(huán)擦邊女”:情色play的狂歡,太惡心了!

“哺乳期上環(huán)擦邊女”:情色play的狂歡,太惡心了!

聽風(fēng)聽你
2025-08-31 21:54:32
300萬人口,1.9萬風(fēng)俗從業(yè)者!“鐵騎”蒙古國淪為韓國男人天堂?

300萬人口,1.9萬風(fēng)俗從業(yè)者!“鐵騎”蒙古國淪為韓國男人天堂?

燕梳樓頻道
2025-08-31 15:56:42
圣壇奪冠!劉圣書/譚寧2-1力克馬來西亞組合,首奪世錦賽女雙冠軍

圣壇奪冠!劉圣書/譚寧2-1力克馬來西亞組合,首奪世錦賽女雙冠軍

直播吧
2025-08-31 22:50:50
哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

極目新聞
2025-08-31 07:26:46
“我只欺負(fù)中國人”,回原產(chǎn)地了!

“我只欺負(fù)中國人”,回原產(chǎn)地了!

難得君
2025-08-31 12:51:18
陳根:越來越多年輕人猝死,是疫情后的非正常現(xiàn)象

陳根:越來越多年輕人猝死,是疫情后的非正?,F(xiàn)象

陳根談科技
2025-08-31 13:02:40
特朗普一反常態(tài),對中方發(fā)出邀請,美國挖下陷阱,我們絕不能上當(dāng)

特朗普一反常態(tài),對中方發(fā)出邀請,美國挖下陷阱,我們絕不能上當(dāng)

空天力量
2025-08-31 19:06:22
豪門悲喜夜:阿森納0-1,國米1-2,巴薩1-1,尤文1-0,曼城1-2

豪門悲喜夜:阿森納0-1,國米1-2,巴薩1-1,尤文1-0,曼城1-2

側(cè)身凌空斬
2025-09-01 05:41:19
清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

小蘿卜絲
2025-08-31 09:55:45
英超地震級交易即將達(dá)成!曝利物浦將1.3億鎊簽下伊薩克 明日官宣

英超地震級交易即將達(dá)成!曝利物浦將1.3億鎊簽下伊薩克 明日官宣

風(fēng)過鄉(xiāng)
2025-09-01 06:28:32
烏克蘭前議長街頭中槍身亡!一名身穿外賣制服男子開了約8槍,俄方:另有內(nèi)情

烏克蘭前議長街頭中槍身亡!一名身穿外賣制服男子開了約8槍,俄方:另有內(nèi)情

魯中晨報
2025-08-31 16:24:39
2025-09-01 07:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對比

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔(dān)責(zé)

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

家居
時尚
親子
房產(chǎn)
本地

家居要聞

提升功能 靈活居住環(huán)境

看來看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

親子要聞

孩子不是讀書機(jī)器不是我們家長盲目炫耀學(xué)習(xí)的“利器”分?jǐn)?shù)不值錢

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

無障礙瀏覽 進(jìn)入關(guān)懷版