成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI作畫自己糾錯(cuò)!隨機(jī)丟模塊就能提升生成質(zhì)量,告別塑料感廢片

0
分享至

夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

AI作畫、生視頻,可以「自己救自己」了?!

當(dāng)大家還在為CFG(無分類器引導(dǎo))的參數(shù)搞到頭禿,卻依然得到一堆“塑料感”廢片而發(fā)愁時(shí),來自清華大學(xué)、阿里巴巴AMAP(高德地圖)、中國科學(xué)院自動化研究所的研究團(tuán)隊(duì),推出全新方法S2-Guidance (Stochastic Self-Guidance)。



核心亮點(diǎn)在于通過隨機(jī)丟棄網(wǎng)絡(luò)模塊(Stochastic Block-Dropping)來動態(tài)構(gòu)建“弱”的子網(wǎng)絡(luò),從而實(shí)現(xiàn)對生成過程的自我修正。這不僅讓AI學(xué)會了“主動避坑”,更重要的是,它避免了其他類似方法中繁瑣、針對特定模型的參數(shù)調(diào)整過程,真正做到了即插即用、效果顯著。

S2-Guidance方法在文生圖和文生視頻任務(wù)中,顯著提升了生成結(jié)果的質(zhì)量與連貫性。

具體表現(xiàn)在:

  • 卓越的時(shí)間動態(tài): 無論是熊的運(yùn)動姿態(tài),還是賽車的動態(tài)鏡頭,都更具動感。
  • 精細(xì)的細(xì)節(jié)渲染: 能夠刻畫出宇航員頭盔的透明質(zhì)感等復(fù)雜細(xì)節(jié)。
  • 更少的視覺偽影: 有效減少了跑步者、打傘的女人等圖像中的瑕疵。
  • 豐富的藝術(shù)表達(dá): 在抽象肖像、城堡、彩色粉末爆炸等場景中,藝術(shù)細(xì)節(jié)更加飽滿。
  • 更好的物體協(xié)調(diào)性: 貓與火箭、書與羊等組合中的物體關(guān)系更加和諧一致。

一、CFG的瓶頸:效果失真 + 缺乏通用性

在擴(kuò)散模型的世界里,CFG (Classifier-Free Guidance)是提升生成質(zhì)量和文本對齊度的標(biāo)準(zhǔn)操作。但它的“線性外推”本質(zhì),導(dǎo)致高引導(dǎo)強(qiáng)度下容易產(chǎn)生過飽和、失真等問題。

為了解決這個(gè)問題,學(xué)術(shù)界此前的思路是引入一個(gè)“監(jiān)督員”——弱模型(weak model)。比如Autoguidance就提出用訓(xùn)練不充分的模型來修正。但這個(gè)思路在實(shí)踐中遇到了核心難題:如何找到一個(gè)“恰到好處”的弱模型?

  • 弱模型如果太弱,它的預(yù)測就接近于無用噪聲,無法提供有效引導(dǎo)。
  • 弱模型如果太強(qiáng),它和主模型的行為又過于相似,起不到修正作用。
  • 最關(guān)鍵的是,對于像SD3這樣已經(jīng)發(fā)布的大模型,我們幾乎不可能再獲得一個(gè)與之配套的、訓(xùn)練到“一半火候”的官方弱模型。這使得Autoguidance的思路雖然理論上可行,但在現(xiàn)實(shí)中往往難以復(fù)現(xiàn)和應(yīng)用。

為了繞開這個(gè)難題,后續(xù)的一些工作嘗試“憑空制造”弱模型。它們通過在推理時(shí)手動修改網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn),比如模糊化特定的注意力圖(Attention Map),或者在視頻生成中跳過某些時(shí)空注意力層。但這些方法又帶來了新的問題:它們通常是高度定制化的,需要針對不同任務(wù)進(jìn)行精細(xì)的參數(shù)調(diào)整和大量的實(shí)驗(yàn),缺乏通用性,使用起來非常繁瑣。

S2-Guidance則另辟蹊徑,它問了一個(gè)直擊靈魂的問題:我們能不能不找外援,也不搞復(fù)雜的調(diào)參,讓模型自己監(jiān)督自己,并且這個(gè)過程是通用且自動的?

二、S2-Guidance的精妙構(gòu)思:“隨機(jī)丟模塊”就夠了

S2-Guidance 在生成質(zhì)量流形上的工作機(jī)制如下圖所示。

生成過程從當(dāng)前狀態(tài)(M?,橙色線框)向下一個(gè)狀態(tài)(M???)演進(jìn)。標(biāo)準(zhǔn)CFG提供了一個(gè)強(qiáng)力但不夠精準(zhǔn)的引導(dǎo)方向(灰色箭頭),它無法精確地命中代表最高質(zhì)量的“山峰”(黃色峰值)。S2-Guidance的改進(jìn)之處在于:它通過隨機(jī)丟棄網(wǎng)絡(luò)模塊的策略,計(jì)算出一個(gè)“自我修正”的預(yù)測(藍(lán)色箭頭,“隨機(jī)丟棄后的預(yù)測”)。最終,合成的S2-Guidance引導(dǎo)向量(紫色箭頭)能更精準(zhǔn)地將生成過程引向流形上的最優(yōu)區(qū)域,最終得到保真度更高的結(jié)果。



第一步:通過隨機(jī)模塊丟棄,動態(tài)構(gòu)建內(nèi)生子網(wǎng)絡(luò)

高性能擴(kuò)散模型(如SD3)的核心架構(gòu)多為Transformer,由一系列功能相似的Block堆疊而成。研究表明,這類大型網(wǎng)絡(luò)存在顯著的模型冗余(model redundancy)。

S2-Guidance巧妙地利用了這一點(diǎn)。如圖2所示,在每個(gè)推理步驟中,它通過隨機(jī)模塊丟棄(Stochastic Block-Dropping)這一策略,在前向傳播時(shí)臨時(shí)“跳過”或“屏蔽”掉一小部分網(wǎng)絡(luò)模塊。這個(gè)過程等效于在推理時(shí)動態(tài)地、無成本地構(gòu)建出一個(gè)輕量化的內(nèi)生子網(wǎng)絡(luò)(intrinsic sub-network)。

這個(gè)子網(wǎng)絡(luò)并非外部訓(xùn)練的“弱模型”,而是完整模型的一個(gè)原生變體。由于部分功能模塊被臨時(shí)禁用,其預(yù)測能力相對受限,而它的預(yù)測結(jié)果恰恰暴露了完整模型在高認(rèn)知不確定性(epistemic uncertainty)區(qū)域的“潛在錯(cuò)誤傾向”。這種方法的優(yōu)越性在于,它是一種通用且自動的策略,無需研究者手動判斷應(yīng)修改哪個(gè)特定模塊,也無需為不同任務(wù)設(shè)計(jì)不同的“手術(shù)方案”。

第二步:利用子網(wǎng)絡(luò)預(yù)測進(jìn)行負(fù)向引導(dǎo)
當(dāng)子網(wǎng)絡(luò)給出了其預(yù)測方向后,S2-Guidance執(zhí)行了其最關(guān)鍵的一步:負(fù)向引導(dǎo)修正。它并非嘗試去靠近或模仿子網(wǎng)絡(luò)的預(yù)測,而是主動地排斥(repel)它。

這在S2-Guidance的引導(dǎo)公式中體現(xiàn)得淋漓盡致,其核心邏輯可以直觀地理解為:

最終引導(dǎo)方向 = 標(biāo)準(zhǔn)CFG引導(dǎo)方向 - 子網(wǎng)絡(luò)預(yù)測的“高不確定性”方向

通過這個(gè)簡單的“糾錯(cuò)式減法”,模型在保持CFG強(qiáng)引導(dǎo)力的同時(shí),被一個(gè)源自內(nèi)部的修正信號“拉回”,從而精準(zhǔn)地規(guī)避了那些可能導(dǎo)致生成低質(zhì)量、不真實(shí)結(jié)果的“陷阱區(qū)域”。最終,該方法在無需外部模型和繁瑣參數(shù)微調(diào)的前提下,實(shí)現(xiàn)了便捷、通用且高效的自我優(yōu)化。

理論先行:在“玩具實(shí)驗(yàn)”中驗(yàn)證可行性

在提出這個(gè)大膽的假設(shè)后,研究團(tuán)隊(duì)首先在一維和二維的高斯混合分布(Gaussian Mixture)這種有精確解的“玩具實(shí)驗(yàn)”上進(jìn)行了驗(yàn)證。結(jié)果(如下圖-圖3所示)非常清晰:

S2-Guidance 實(shí)現(xiàn)了引導(dǎo)強(qiáng)度與分布保真度的平衡。 在玩具實(shí)驗(yàn)中,CFG(紅框)會扭曲分布,而S2-Guidance能精準(zhǔn)地捕獲真實(shí)數(shù)據(jù)分布(半透明區(qū)域)的位置和形狀,緩解了模式分離和分布失真的問題。



  • CFG(b) 雖然比無引導(dǎo)好,但生成的分布中心明顯偏離了真實(shí)位置(紅色框)。
  • Autoguidance(c) 有所改善,但仍不完美,難以找到合適的弱模型導(dǎo)致其效果受限。
  • 而S2-Guidance(e) 生成的分布,在位置和形狀上都與真實(shí)的半透明分布更加貼合,證明了這種“自我糾錯(cuò)”機(jī)制緩解了CFG的分布失真問題。

有了理論上的堅(jiān)實(shí)基礎(chǔ),團(tuán)隊(duì)才將其推廣到更復(fù)雜的圖像和視頻生成任務(wù)中。

三、實(shí)驗(yàn)效果:全方位、可量化的質(zhì)量提升

理論說得天花亂墜,不如看療效。S2-Guidance在各大SOTA模型上,展現(xiàn)出了令人信服的、全方位的實(shí)力提升。

1 全面的視覺質(zhì)量提升
開篇的這張對比圖(圖1)就是最好的證明。簡單來說,S2-Guidance讓生成結(jié)果在多個(gè)維度上實(shí)現(xiàn)了飛躍:

  • 動態(tài)感更強(qiáng): 無論是熊爬樹時(shí)更有力的動作,還是賽車鏡頭里傳達(dá)出的速度感,時(shí)間動態(tài)(temporal dynamics)都遠(yuǎn)超CFG。
  • 細(xì)節(jié)更精致: 宇航員頭盔的透明質(zhì)感、抽象畫作的筆觸、彩色粉末爆炸的瞬間,細(xì)節(jié)(finer details)都得到了驚人的保留和渲染。
  • 偽影更少: 跑步的人、打傘的女人等場景中,CFG常見的肢體扭曲和物體粘連等偽影(fewer artifacts)被有效消除。
  • 物體一致性更好: “貓和火箭”、“書和羊”這類組合中,物體間的關(guān)系和比例(improved object coherence)更協(xié)調(diào)。



S2-Guidance 在美學(xué)質(zhì)量和指令遵循度上,總能生成更出色的圖像。 可以看到,像CFG、APG、CFG++和CFG-Zero這些現(xiàn)有的引導(dǎo)方法,常常會生成各種瑕疵,比如不自然的偽影、變形的物體,或者干脆無法理解復(fù)雜的指令(見紅框)。而S2-Guidance方法則能產(chǎn)出干凈、協(xié)調(diào)、觀感舒適的圖像,完美地規(guī)避了這些問題。

2 同臺競技,更勝一籌

當(dāng)和其他先進(jìn)的引導(dǎo)方法(如APG、CFG++、CFG-Zero)同臺競技時(shí),S2-Guidance的優(yōu)勢就體現(xiàn)在穩(wěn)定性上。在圖4中可以看到,對于復(fù)雜的prompt,其他方法(紅色框內(nèi))往往會產(chǎn)生扭曲的物體或不自然的偽影,或者干脆無法遵循完整的指令。而S2-Guidance則能穩(wěn)定地生成干凈、連貫且高度符合prompt描述的圖像,在美學(xué)質(zhì)量(aesthetic quality)和指令遵循度(prompt coherence)上都表現(xiàn)出色。



圖5. S2-Guidance 能夠生成時(shí)間和物理上都更合理的視頻,解決了CFG的兩大核心問題。 頂行對比: CFG無法生成合理的運(yùn)動,它讓卡車詭異地“橫向漂移”而不是向前開(見紅框)。相比之下,S2-Guidance渲染出了一個(gè)穩(wěn)定又真實(shí)的行車場景。 底行對比: CFG沒有完全理解指令,生成的光線并未“環(huán)繞”人臉(紅色框),并且也漏掉了“發(fā)光粒子”這一細(xì)節(jié)(藍(lán)色框)。而S2-Guidance則忠實(shí)地還原了整個(gè)prompt,生成了一個(gè)動態(tài)感十足、視覺元素豐富的場景。

3 視頻生成:告別“指令遺忘癥”,擁抱物理真實(shí)感

在視頻生成中,S2-Guidance更是解決了CFG的兩個(gè)核心痛點(diǎn):

  • 物理真實(shí)性: 遵循物理規(guī)律是生成可信視頻的基礎(chǔ)。如圖5頂行所示,對于“一個(gè)停車計(jì)時(shí)器和一輛卡車”的場景,CFG在處理物體運(yùn)動時(shí)出現(xiàn)了嚴(yán)重失真。視頻中的卡車并沒有正常行駛,而是呈現(xiàn)出一種不符合物理常識的“橫向漂移”,這種不自然的滑動破壞了整個(gè)場景的真實(shí)感。相比之下,S2-Guidance(第二行)則成功渲染出一個(gè)穩(wěn)定且邏輯自洽的場景,物體的運(yùn)動狀態(tài)真實(shí)可信
  • 復(fù)雜指令遵循: 對于“金線編織并環(huán)繞她的臉,周圍還有發(fā)光粒子”這樣的復(fù)雜描述,CFG不僅忽略了關(guān)鍵的“環(huán)繞”動作(光線沒有在臉周圍運(yùn)動),還漏掉了“發(fā)光粒子”。S2-Guidance則忠實(shí)地還原了整個(gè)動態(tài)、豐富的視覺場景,一個(gè)細(xì)節(jié)都不少。

4 硬核數(shù)據(jù):領(lǐng)先的性能表現(xiàn)

這些視覺提升的背后,是HPSv2.1、T2I-CompBench、VBench等權(quán)威榜單上實(shí)打?qū)嵉念I(lǐng)先成績。例如,在SD3模型和T2I-CompBench基準(zhǔn)上,S2-Guidance在顏色、形狀、紋理等維度的得分上均超越了包括CFG-Zero在內(nèi)的所有對比方法。在VBench視頻評測中,S2-Guidance同樣在總分、語義一致性等多個(gè)關(guān)鍵指標(biāo)上取得了最優(yōu)性能。


HPSv2.1、T2I-CompBench榜單上的對比



圖7:VBench榜單上的對比 圖7:VBench榜單上的對比


視覺效果對比

S2-Guidance:









Baseline:









四、不只是有效,而且高效

搞這么一套“自我糾錯(cuò)”系統(tǒng),會不會很慢?答案是幾乎不慢。

研究者在論文中通過嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)證明,哪怕在每個(gè)去噪步驟中只分裂出一個(gè)“小號”(即N=1),效果也和分裂出幾十個(gè)小號取平均(Naive S2-Guidance)幾乎一樣好。

這得益于擴(kuò)散過程單一步的微小隨機(jī)抖動,在幾十上百步的迭代中會被自然地“平均”掉,最終共同將生成結(jié)果穩(wěn)穩(wěn)地導(dǎo)向高質(zhì)量的終點(diǎn)。

一句話總結(jié):S2-Guidance用較小的計(jì)算代價(jià),實(shí)現(xiàn)了顯著的質(zhì)量提升。

論文: https://arxiv.org/abs/2508.12880
項(xiàng)目主頁: https://s2guidance.github.io/
項(xiàng)目代碼: https://github.com/AMAP-ML/S2-Guidance

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
基輔降半旗,澤連斯基被打醒了?對華提出請求,中方只回了兩句話

基輔降半旗,澤連斯基被打醒了?對華提出請求,中方只回了兩句話

小楊侃事
2025-08-30 11:43:06
難以置信,陳雨菲親述受傷對比賽的影響,以及最新傷情

難以置信,陳雨菲親述受傷對比賽的影響,以及最新傷情

真理是我親戚
2025-08-30 23:52:43
郭錫文有新職,曾任福建寧德市委書記(附簡歷)

郭錫文有新職,曾任福建寧德市委書記(附簡歷)

魯中晨報(bào)
2025-08-30 22:56:16
阿里巴巴:追加寒武紀(jì)GPU至15萬片

阿里巴巴:追加寒武紀(jì)GPU至15萬片

新浪財(cái)經(jīng)
2025-08-30 21:10:39
劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

禾寒?dāng)?/span>
2025-08-30 20:15:42
他倆準(zhǔn)備離婚!女方已四結(jié)三離

他倆準(zhǔn)備離婚!女方已四結(jié)三離

FM93浙江交通之聲
2025-08-30 12:40:58
8月30日俄烏最新:澤連斯基拒絕歐盟提議

8月30日俄烏最新:澤連斯基拒絕歐盟提議

西樓飲月
2025-08-30 19:17:41
全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

李昕言溫度空間
2025-08-30 22:10:33
吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

白面書誏
2025-08-29 22:59:15
2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

歸史
2025-08-27 14:29:47
捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

奇思妙想草葉君
2025-08-30 03:31:18
73年10月,8341部隊(duì)派出警衛(wèi),在人民大會堂抓捕了兩位公安副部長

73年10月,8341部隊(duì)派出警衛(wèi),在人民大會堂抓捕了兩位公安副部長

一只番茄魚
2025-08-30 12:35:03
1.75億花了個(gè)寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

1.75億花了個(gè)寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

狍子歪解體壇
2025-08-31 01:07:59
慘遭20分逆轉(zhuǎn)!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

慘遭20分逆轉(zhuǎn)!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

羅說NBA
2025-08-31 07:09:31
切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

風(fēng)過鄉(xiāng)
2025-08-31 07:49:18
投訴“魯迅夾煙墻畫”當(dāng)事人,被封號

投訴“魯迅夾煙墻畫”當(dāng)事人,被封號

極目新聞
2025-08-30 16:08:04
7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

風(fēng)過鄉(xiāng)
2025-08-31 07:31:14
CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

籃球快餐車
2025-08-31 03:20:09
伏明霞做夢也沒想到,和丈夫生的大女兒,已經(jīng)開始為她爭光了

伏明霞做夢也沒想到,和丈夫生的大女兒,已經(jīng)開始為她爭光了

以茶帶書
2025-08-31 00:56:51
拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

千言娛樂記
2025-08-30 21:39:01
2025-08-31 08:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

家居
房產(chǎn)
親子
健康
數(shù)碼

家居要聞

提升功能 靈活居住環(huán)境

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

親子要聞

寶藍(lán)用平板一下子買了50盒玩具??!!

精神科專家解答學(xué)習(xí)困難七大問題

數(shù)碼要聞

英特爾 Arc Pro B50 首個(gè) Geekbench 跑分出爐,低于銳炫 B570

無障礙瀏覽 進(jìn)入關(guān)懷版