共同第一作者包括:陳家棋,斯坦福大學(xué)訪問學(xué)者,復(fù)旦大學(xué)碩士,研究方向?yàn)?LLM Agent和大一統(tǒng)模型;朱小燁,華南理工大學(xué)本科,研究方向?yàn)?LLM Agent、LLM 和強(qiáng)化學(xué)習(xí);王越,康奈爾大學(xué)本科,研究方向?yàn)?LLM Agent、多模態(tài)語言模型。指導(dǎo)老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。
在人工智能內(nèi)容創(chuàng)作蓬勃發(fā)展的今天,跨模態(tài)生成技術(shù)正在重塑藝術(shù)創(chuàng)作和視覺表達(dá)的邊界。人們對(duì)需求也日趨復(fù)雜和多樣,譬如將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)視頻并疊加環(huán)境音效,打造沉浸式的多感官體驗(yàn)。然而,現(xiàn)有生成系統(tǒng)大多受限于訓(xùn)練數(shù)據(jù)的覆蓋范圍,或是因復(fù)雜的多模型協(xié)調(diào)而效率低下,難以滿足這些日益增長的創(chuàng)意需求。
問題背景
圖 1用于 Any-to-Any 生成任務(wù)的一種符號(hào)化描述方法。
「將叢林的狂野生長與古老廢墟的神秘感融合成一個(gè)全新的場(chǎng)景,一定會(huì)令人驚嘆,」你的藝術(shù)家朋友沉思道。「如果還能把這張照片轉(zhuǎn)換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢(mèng)幻般的感官體驗(yàn)?!惯@些日益復(fù)雜、跨模態(tài)的創(chuàng)作需求指向了一個(gè)根本性挑戰(zhàn):如何設(shè)計(jì)一個(gè)統(tǒng)一模型,能夠根據(jù)自然語言指令,無縫處理任意輸入與輸出模態(tài)組合的生成任務(wù)?這樣的任務(wù)就是該研究關(guān)注的「Any-to-Any」生成任務(wù),如圖 2 所示。
圖 2 Any-to-Any 生成任務(wù)
當(dāng)前 Any-to-Any 生成任務(wù)的方法主要分為隱式神經(jīng)建模和智能體方法。隱式神經(jīng)建模需要大量數(shù)據(jù)訓(xùn)練,雖然能處理常見任務(wù),但對(duì)新場(chǎng)景適應(yīng)能力差且生成過程不可控;智能體方法雖然功能靈活但結(jié)構(gòu)復(fù)雜,運(yùn)行不穩(wěn)定且效率較低。此外,如果人類設(shè)計(jì)師用 PS 合成圖像時(shí),需要先背誦所有濾鏡組合公式才能操作,還有創(chuàng)意可言嗎?當(dāng)前許多方法陷入了這種「知識(shí)依賴陷阱」——而真正的 Any-to-Any 生成,應(yīng)該像兒童搭積木:不需要理解木塊分子結(jié)構(gòu),只需知道它們?nèi)绾纹唇印?/strong>
于是,研究團(tuán)隊(duì)設(shè)想構(gòu)建一個(gè)框架:聚焦于統(tǒng)一的任務(wù)表示和語言模型友好的接口,從而實(shí)現(xiàn)直接的任務(wù)指定。使系統(tǒng)能夠真正理解并執(zhí)行用戶以自然語言描述的任意生成需求,同時(shí)保持執(zhí)行過程的可控性和可干預(yù)性。這一設(shè)想從根本上改變了傳統(tǒng)生成模型的實(shí)現(xiàn)范式,為構(gòu)建真正意義上的 Any-to-Any 生成系統(tǒng)提供了新的技術(shù)路線。
基于符號(hào)化表征的生成任務(wù)描述框架
框架設(shè)計(jì)的核心思路在于對(duì)生成任務(wù)本質(zhì)的解構(gòu):任何復(fù)雜的多模態(tài)生成過程,本質(zhì)上都可以拆解為「做什么」(函數(shù))、「怎么做」(參數(shù))和「執(zhí)行順序」(拓?fù)?/strong>)三個(gè)要素?;谶@樣的見解,研究提出了 -Language,這是一種正式表示方法,系統(tǒng)地捕捉生成任務(wù)的這三個(gè)基本組成部分。此外,研究還介紹了一種無需訓(xùn)練的推理引擎,它利用預(yù)訓(xùn)練的語言模型作為基礎(chǔ),從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。
圖 3 語法風(fēng)格比較。
- 基于預(yù)訓(xùn)練語言模型的符號(hào)化流程推斷為使方法靈活而穩(wěn)健地適應(yīng)生成任務(wù)的多樣性和復(fù)雜性,該研究將高層次的任務(wù)描述轉(zhuǎn)化為可執(zhí)行的符號(hào)化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。
圖 4 利用語言模型 (LM) 生成符號(hào)化表示。
通過三階段處理實(shí)現(xiàn)這一目標(biāo):組件推斷階段由語言模型解析任務(wù)描述,識(shí)別所需的函數(shù) (F) 和參數(shù) (Φ);拓?fù)錁?gòu)建階段基于輸入輸出關(guān)系,建立函數(shù)間的數(shù)據(jù)流連接 (T);迭代優(yōu)化階段通過錯(cuò)誤反饋循環(huán) (R) 持續(xù)修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執(zhí)行工作流程的轉(zhuǎn)換過程,從而實(shí)現(xiàn)了跨模態(tài)和跨任務(wù)類型的任意轉(zhuǎn)換。
圖 5 推理和執(zhí)行的演示。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,該研究構(gòu)建了一個(gè)包含 120 個(gè)真實(shí)世界生成案例的數(shù)據(jù)集,涵蓋 12 個(gè)任務(wù)類別,并通過用戶研究和可執(zhí)行性評(píng)估驗(yàn)證了方法的有效性。
- 跨模態(tài)生成質(zhì)量評(píng)估(用戶研究)
針對(duì)不同模態(tài)轉(zhuǎn)換任務(wù)進(jìn)行了系統(tǒng)的用戶評(píng)估,以驗(yàn)證該方法在真實(shí)場(chǎng)景下的生成質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,在文本到圖像任務(wù)中,該方法對(duì) Show-o 的勝率達(dá) 94%;在圖像轉(zhuǎn)視頻任務(wù)中,對(duì)商業(yè)系統(tǒng) Gen-3 的勝率達(dá) 67%;文本到音頻任務(wù)中,對(duì)齊度和質(zhì)量勝率分別達(dá) 100% 和 98%。
- 復(fù)雜工作流執(zhí)行測(cè)試(ComfyBench 基準(zhǔn))
為評(píng)估方法處理復(fù)雜任務(wù)的能力,采用包含多步驟工作流的 ComfyBench 進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,總體成功率 43%,顯著優(yōu)于次優(yōu)方法(32.5%),在復(fù)雜任務(wù)(如包含 11 個(gè)組件的「模型合并」)上表現(xiàn)突出。
- 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)證實(shí),兩階段推理架構(gòu)(組件推斷 + 拓?fù)錁?gòu)建)是系統(tǒng)性能的核心,移除該設(shè)計(jì)將導(dǎo)致任務(wù)完成率下降 35%。
- 對(duì)比實(shí)驗(yàn):符號(hào)化 v.s. 代理化方法
選取了當(dāng)前最先進(jìn)的代理框架 GenAgent 作為基線,在相同任務(wù)集上進(jìn)行對(duì)比測(cè)試。實(shí)驗(yàn)數(shù)據(jù)顯示,在編譯階段,該方法達(dá)到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執(zhí)行成功率方面,該方法 87% 的表現(xiàn)遠(yuǎn)超代理方法的 63%。
- 表示方法本質(zhì)研究
針對(duì)「神經(jīng)表示 v.s. 符號(hào)表示」這一核心問題,研究設(shè)計(jì)了控制變量實(shí)驗(yàn):在相同計(jì)算資源下,符號(hào)表示的內(nèi)存占用僅為神經(jīng)表示的 1/5。任務(wù)修改效率測(cè)試顯示,修改符號(hào)化流程平均耗時(shí) 23 秒,而神經(jīng)方法需要重新訓(xùn)練(平均 4.2 小時(shí));但在端到端推理速度上,神經(jīng)方法快 1.8 倍,這揭示了符號(hào)方法在實(shí)時(shí)性上的 trade-off。
- 顯式流程編輯與錯(cuò)誤分析
通過對(duì) 120 個(gè)失敗案例的歸因分析發(fā)現(xiàn),28% 的錯(cuò)誤源于參數(shù)范圍越界,主要體現(xiàn)在跨模態(tài)任務(wù)中的單位轉(zhuǎn)換問題;22% 屬于模態(tài)不匹配錯(cuò)誤,多發(fā)生在未明確指定輸入輸出類型的場(chǎng)景中;15% 由于函數(shù)缺失導(dǎo)致,這反映了現(xiàn)有函數(shù)庫仍需擴(kuò)展。
總結(jié)
該研究提出的符號(hào)化生成任務(wù)描述語言及配套推理引擎,為多模態(tài)任務(wù)提供了一種無需專門訓(xùn)練的全新高效解決方案。通過利用預(yù)訓(xùn)練大語言模型將自然語言指令直接轉(zhuǎn)化為符號(hào)化工作流,該方法成功實(shí)現(xiàn)了 12 類跨模態(tài)生成任務(wù)的靈活合成。實(shí)驗(yàn)證明,該框架不僅在生成內(nèi)容質(zhì)量上媲美現(xiàn)有的先進(jìn)統(tǒng)一模型,更在效率、可編輯性和可中斷性等方面展現(xiàn)出顯著優(yōu)勢(shì)。符號(hào)化任務(wù)表示方法或許能為提升生成式 AI 能力提供一條經(jīng)濟(jì)高效且可擴(kuò)展的技術(shù)路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.