成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 2025 多模態(tài)大一統(tǒng):斯坦福 x 復(fù)旦符號(hào)主義建模生成式任務(wù)

0
分享至



共同第一作者包括:陳家棋,斯坦福大學(xué)訪問學(xué)者,復(fù)旦大學(xué)碩士,研究方向?yàn)?LLM Agent和大一統(tǒng)模型;朱小燁,華南理工大學(xué)本科,研究方向?yàn)?LLM Agent、LLM 和強(qiáng)化學(xué)習(xí);王越,康奈爾大學(xué)本科,研究方向?yàn)?LLM Agent、多模態(tài)語言模型。指導(dǎo)老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內(nèi)容創(chuàng)作蓬勃發(fā)展的今天,跨模態(tài)生成技術(shù)正在重塑藝術(shù)創(chuàng)作和視覺表達(dá)的邊界。人們對(duì)需求也日趨復(fù)雜和多樣,譬如將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)視頻并疊加環(huán)境音效,打造沉浸式的多感官體驗(yàn)。然而,現(xiàn)有生成系統(tǒng)大多受限于訓(xùn)練數(shù)據(jù)的覆蓋范圍,或是因復(fù)雜的多模型協(xié)調(diào)而效率低下,難以滿足這些日益增長的創(chuàng)意需求。



問題背景



圖 1用于 Any-to-Any 生成任務(wù)的一種符號(hào)化描述方法。

「將叢林的狂野生長與古老廢墟的神秘感融合成一個(gè)全新的場(chǎng)景,一定會(huì)令人驚嘆,」你的藝術(shù)家朋友沉思道。「如果還能把這張照片轉(zhuǎn)換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢(mèng)幻般的感官體驗(yàn)?!惯@些日益復(fù)雜、跨模態(tài)的創(chuàng)作需求指向了一個(gè)根本性挑戰(zhàn):如何設(shè)計(jì)一個(gè)統(tǒng)一模型,能夠根據(jù)自然語言指令,無縫處理任意輸入與輸出模態(tài)組合的生成任務(wù)?這樣的任務(wù)就是該研究關(guān)注的「Any-to-Any」生成任務(wù),如圖 2 所示。



圖 2 Any-to-Any 生成任務(wù)

當(dāng)前 Any-to-Any 生成任務(wù)的方法主要分為隱式神經(jīng)建模和智能體方法。隱式神經(jīng)建模需要大量數(shù)據(jù)訓(xùn)練,雖然能處理常見任務(wù),但對(duì)新場(chǎng)景適應(yīng)能力差且生成過程不可控;智能體方法雖然功能靈活但結(jié)構(gòu)復(fù)雜,運(yùn)行不穩(wěn)定且效率較低。此外,如果人類設(shè)計(jì)師用 PS 合成圖像時(shí),需要先背誦所有濾鏡組合公式才能操作,還有創(chuàng)意可言嗎?當(dāng)前許多方法陷入了這種「知識(shí)依賴陷阱」——而真正的 Any-to-Any 生成,應(yīng)該像兒童搭積木:不需要理解木塊分子結(jié)構(gòu),只需知道它們?nèi)绾纹唇印?/strong>

于是,研究團(tuán)隊(duì)設(shè)想構(gòu)建一個(gè)框架:聚焦于統(tǒng)一的任務(wù)表示和語言模型友好的接口,從而實(shí)現(xiàn)直接的任務(wù)指定。使系統(tǒng)能夠真正理解并執(zhí)行用戶以自然語言描述的任意生成需求,同時(shí)保持執(zhí)行過程的可控性和可干預(yù)性。這一設(shè)想從根本上改變了傳統(tǒng)生成模型的實(shí)現(xiàn)范式,為構(gòu)建真正意義上的 Any-to-Any 生成系統(tǒng)提供了新的技術(shù)路線。

基于符號(hào)化表征的生成任務(wù)描述框架

框架設(shè)計(jì)的核心思路在于對(duì)生成任務(wù)本質(zhì)的解構(gòu):任何復(fù)雜的多模態(tài)生成過程,本質(zhì)上都可以拆解為「做什么」(函數(shù))、「怎么做」(參數(shù))和「執(zhí)行順序」(拓?fù)?/strong>)三個(gè)要素?;谶@樣的見解,研究提出了 -Language,這是一種正式表示方法,系統(tǒng)地捕捉生成任務(wù)的這三個(gè)基本組成部分。此外,研究還介紹了一種無需訓(xùn)練的推理引擎,它利用預(yù)訓(xùn)練的語言模型作為基礎(chǔ),從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。







圖 3 語法風(fēng)格比較。

  • 基于預(yù)訓(xùn)練語言模型的符號(hào)化流程推斷為使方法靈活而穩(wěn)健地適應(yīng)生成任務(wù)的多樣性和復(fù)雜性,該研究將高層次的任務(wù)描述轉(zhuǎn)化為可執(zhí)行的符號(hào)化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關(guān)鍵函數(shù)中得出符號(hào)表示。



圖 4 利用語言模型 (LM) 生成符號(hào)化表示。

通過三階段處理實(shí)現(xiàn)這一目標(biāo):組件推斷階段由語言模型解析任務(wù)描述,識(shí)別所需的函數(shù) (F) 和參數(shù) (Φ);拓?fù)錁?gòu)建階段基于輸入輸出關(guān)系,建立函數(shù)間的數(shù)據(jù)流連接 (T);迭代優(yōu)化階段通過錯(cuò)誤反饋循環(huán) (R) 持續(xù)修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執(zhí)行工作流程的轉(zhuǎn)換過程,從而實(shí)現(xiàn)了跨模態(tài)和跨任務(wù)類型的任意轉(zhuǎn)換。



圖 5 推理和執(zhí)行的演示。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,該研究構(gòu)建了一個(gè)包含 120 個(gè)真實(shí)世界生成案例的數(shù)據(jù)集,涵蓋 12 個(gè)任務(wù)類別,并通過用戶研究和可執(zhí)行性評(píng)估驗(yàn)證了方法的有效性。

  • 跨模態(tài)生成質(zhì)量評(píng)估(用戶研究)

針對(duì)不同模態(tài)轉(zhuǎn)換任務(wù)進(jìn)行了系統(tǒng)的用戶評(píng)估,以驗(yàn)證該方法在真實(shí)場(chǎng)景下的生成質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,在文本到圖像任務(wù)中,該方法對(duì) Show-o 的勝率達(dá) 94%;在圖像轉(zhuǎn)視頻任務(wù)中,對(duì)商業(yè)系統(tǒng) Gen-3 的勝率達(dá) 67%;文本到音頻任務(wù)中,對(duì)齊度和質(zhì)量勝率分別達(dá) 100% 和 98%。



  • 復(fù)雜工作流執(zhí)行測(cè)試(ComfyBench 基準(zhǔn))

為評(píng)估方法處理復(fù)雜任務(wù)的能力,采用包含多步驟工作流的 ComfyBench 進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,總體成功率 43%,顯著優(yōu)于次優(yōu)方法(32.5%),在復(fù)雜任務(wù)(如包含 11 個(gè)組件的「模型合并」)上表現(xiàn)突出。



  • 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)證實(shí),兩階段推理架構(gòu)(組件推斷 + 拓?fù)錁?gòu)建)是系統(tǒng)性能的核心,移除該設(shè)計(jì)將導(dǎo)致任務(wù)完成率下降 35%。



  • 對(duì)比實(shí)驗(yàn):符號(hào)化 v.s. 代理化方法

選取了當(dāng)前最先進(jìn)的代理框架 GenAgent 作為基線,在相同任務(wù)集上進(jìn)行對(duì)比測(cè)試。實(shí)驗(yàn)數(shù)據(jù)顯示,在編譯階段,該方法達(dá)到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執(zhí)行成功率方面,該方法 87% 的表現(xiàn)遠(yuǎn)超代理方法的 63%。



  • 表示方法本質(zhì)研究

針對(duì)「神經(jīng)表示 v.s. 符號(hào)表示」這一核心問題,研究設(shè)計(jì)了控制變量實(shí)驗(yàn):在相同計(jì)算資源下,符號(hào)表示的內(nèi)存占用僅為神經(jīng)表示的 1/5。任務(wù)修改效率測(cè)試顯示,修改符號(hào)化流程平均耗時(shí) 23 秒,而神經(jīng)方法需要重新訓(xùn)練(平均 4.2 小時(shí));但在端到端推理速度上,神經(jīng)方法快 1.8 倍,這揭示了符號(hào)方法在實(shí)時(shí)性上的 trade-off。



  • 顯式流程編輯與錯(cuò)誤分析

通過對(duì) 120 個(gè)失敗案例的歸因分析發(fā)現(xiàn),28% 的錯(cuò)誤源于參數(shù)范圍越界,主要體現(xiàn)在跨模態(tài)任務(wù)中的單位轉(zhuǎn)換問題;22% 屬于模態(tài)不匹配錯(cuò)誤,多發(fā)生在未明確指定輸入輸出類型的場(chǎng)景中;15% 由于函數(shù)缺失導(dǎo)致,這反映了現(xiàn)有函數(shù)庫仍需擴(kuò)展。





總結(jié)

該研究提出的符號(hào)化生成任務(wù)描述語言及配套推理引擎,為多模態(tài)任務(wù)提供了一種無需專門訓(xùn)練的全新高效解決方案。通過利用預(yù)訓(xùn)練大語言模型將自然語言指令直接轉(zhuǎn)化為符號(hào)化工作流,該方法成功實(shí)現(xiàn)了 12 類跨模態(tài)生成任務(wù)的靈活合成。實(shí)驗(yàn)證明,該框架不僅在生成內(nèi)容質(zhì)量上媲美現(xiàn)有的先進(jìn)統(tǒng)一模型,更在效率、可編輯性和可中斷性等方面展現(xiàn)出顯著優(yōu)勢(shì)。符號(hào)化任務(wù)表示方法或許能為提升生成式 AI 能力提供一條經(jīng)濟(jì)高效且可擴(kuò)展的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
申城連續(xù)高溫日破紀(jì)錄!14號(hào)臺(tái)風(fēng)“藍(lán)湖”生成,對(duì)上海無直接影響

申城連續(xù)高溫日破紀(jì)錄!14號(hào)臺(tái)風(fēng)“藍(lán)湖”生成,對(duì)上海無直接影響

縱相新聞
2025-08-30 18:57:07
世界第3,中國第1!肖國棟創(chuàng)紀(jì)錄后連退2站大賽,丁俊暉無緣前20

世界第3,中國第1!肖國棟創(chuàng)紀(jì)錄后連退2站大賽,丁俊暉無緣前20

劉姚堯的文字城堡
2025-08-31 08:44:02
2024 年全球相機(jī)市場(chǎng)的份額排名,佳能第一,索尼第二,尼康第三

2024 年全球相機(jī)市場(chǎng)的份額排名,佳能第一,索尼第二,尼康第三

攝影初級(jí)班
2025-08-30 22:54:46
九三大閱兵名單公布,又一位重量級(jí)嘉賓將現(xiàn)身北京

九三大閱兵名單公布,又一位重量級(jí)嘉賓將現(xiàn)身北京

一個(gè)有靈魂的作者
2025-08-29 21:56:26
達(dá)美航空客機(jī)在學(xué)校上空傾倒45噸燃油致56人傷,支付5.6億元和解

達(dá)美航空客機(jī)在學(xué)校上空傾倒45噸燃油致56人傷,支付5.6億元和解

奇聞不要看
2025-08-31 11:04:47
海港1比4蓉城造今年最大比分失敗,遇強(qiáng)隊(duì)勝少負(fù)多表明穆帥重回削足適履老路

海港1比4蓉城造今年最大比分失敗,遇強(qiáng)隊(duì)勝少負(fù)多表明穆帥重回削足適履老路

上觀新聞
2025-08-31 00:12:41
美網(wǎng)爆冷夜,亂了!3大TOP10同時(shí)出局,恭喜鄭欽文,坐收漁翁之利

美網(wǎng)爆冷夜,亂了!3大TOP10同時(shí)出局,恭喜鄭欽文,坐收漁翁之利

侃球熊弟
2025-08-30 23:51:22
重大突破!英國發(fā)明治禿神器,20天長出90%毛發(fā)!

重大突破!英國發(fā)明治禿神器,20天長出90%毛發(fā)!

徐德文科學(xué)頻道
2025-07-11 12:30:54
戲子誤國!國家出手后,人民日?qǐng)?bào)點(diǎn)名的這3位明星永無出頭之日

戲子誤國!國家出手后,人民日?qǐng)?bào)點(diǎn)名的這3位明星永無出頭之日

不八卦掌門人
2025-07-25 21:56:46
領(lǐng)導(dǎo)說我混日子要我離職,問我客戶有幾個(gè)?我:不多,也就200個(gè)

領(lǐng)導(dǎo)說我混日子要我離職,問我客戶有幾個(gè)?我:不多,也就200個(gè)

二十一號(hào)故事鋪
2025-08-06 23:20:02
瞧不上國足?意大利華裔新星拒絕歸化,無視中超,只想在歐洲踢球

瞧不上國足?意大利華裔新星拒絕歸化,無視中超,只想在歐洲踢球

國足風(fēng)云
2025-08-31 08:54:46
國民黨主席選舉,馬英九陣營重磅表態(tài),堅(jiān)持兩岸一中,力挺鄭麗文

國民黨主席選舉,馬英九陣營重磅表態(tài),堅(jiān)持兩岸一中,力挺鄭麗文

時(shí)時(shí)有聊
2025-08-30 21:12:26
2+1姐疑似帶著媽媽去旅游,七夕,瑤瑤爸爸抱著外孫,胡子全白了

2+1姐疑似帶著媽媽去旅游,七夕,瑤瑤爸爸抱著外孫,胡子全白了

魔都姐姐雜談
2025-08-30 10:17:47
1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺?,局長槍殺女婿后自盡

1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺?,局長槍殺女婿后自盡

八哥講故事
2024-01-16 00:11:39
仰望U9極速472km/h的背后,布加迪CEO為何質(zhì)疑,輪胎是關(guān)鍵

仰望U9極速472km/h的背后,布加迪CEO為何質(zhì)疑,輪胎是關(guān)鍵

選車偵探
2025-08-30 18:27:54
金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

愛競(jìng)彩的小周
2025-08-30 09:50:21
金將軍承諾:將烈士子女送入革命學(xué)院培養(yǎng),并承擔(dān)全部撫養(yǎng)責(zé)任

金將軍承諾:將烈士子女送入革命學(xué)院培養(yǎng),并承擔(dān)全部撫養(yǎng)責(zé)任

雪中風(fēng)車
2025-08-30 12:51:06
死后塌房何止宗慶后?看看王晶抖落吳孟達(dá)私下不堪,才知人無下限

死后塌房何止宗慶后?看看王晶抖落吳孟達(dá)私下不堪,才知人無下限

說歷史的老牢
2025-07-25 11:14:37
轟20果真將至?93大閱兵喜訊連連,美專家:中美局勢(shì)要變

轟20果真將至?93大閱兵喜訊連連,美專家:中美局勢(shì)要變

書中自有顏如玉
2025-08-31 08:57:40
全球無先例,我國成功實(shí)現(xiàn)→

全球無先例,我國成功實(shí)現(xiàn)→

環(huán)球時(shí)報(bào)新聞
2025-08-31 09:01:00
2025-08-31 13:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對(duì)比

頭條要聞

普京乘機(jī)抵達(dá)天津 帶了3位副總理和10多位部長到中國

頭條要聞

普京乘機(jī)抵達(dá)天津 帶了3位副總理和10多位部長到中國

體育要聞

遼籃官宣:4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

娛樂要聞

韓磊起訴后,女方公開道歉

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

親子
本地
藝術(shù)
家居
公開課

親子要聞

寶媽必學(xué),什么是誘騙+侵犯?

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

提升功能 靈活居住環(huán)境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版