成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大校友將光引入AI模型,圖像合成無需消耗算力

0
分享至

此前,他曾將光引入國產(chǎn)手機;而現(xiàn)在,他將光引入了 AIGC。當陳世锜在浙江大學讀博時,曾和所在團隊研發(fā)多個計算光學成果并被用于國產(chǎn)手機;如今,他在美國加州大學洛杉磯分校從事博士后研究。在美期間,他結合自己的光學積累,提出一種受擴散模型啟發(fā)的光學生成模型,相關論文于當?shù)貢r間 8 月 27 日發(fā)表于Nature,論文題目只有三個英文單詞——Optical generative models。


圖 | 陳世锜(來源:https://tangeego.github.io/)

這款光學生成模型的亮點在于,除了照明功率消耗以及通過淺層編碼器生成隨機種子的過程外,模型在圖像合成過程中不消耗計算資源。此外,無需改變架構或物理硬件,只需將衍射解碼器重構至新的優(yōu)化狀態(tài),即可實現(xiàn)針對不同數(shù)據(jù)分布的光學生成。光學生成模型的這種多功能性,或能讓邊緣計算、增強現(xiàn)實、虛擬現(xiàn)實,以及各類娛樂應用獲得收益。

該模型可通過光學方式合成符合目標數(shù)據(jù)分布的單色或彩色圖像,即針對特定數(shù)據(jù)分布,以光學手段生成此前從未出現(xiàn)過的圖像。模型的設計靈感源自擴散模型,其核心思路是利用淺層數(shù)字編碼器,將隨機的二維高斯噪聲圖案快速轉化為代表光學生成種子的二維相位結構。

具體來說,在這款模型中,一個淺層快速數(shù)字編碼器首先將隨機噪聲映射為相位圖案,這些相位圖案可作為目標數(shù)據(jù)分布的光學生成種子。隨后,一個經(jīng)過聯(lián)合訓練的、基于自由空間的可重構解碼器通過全光學方式處理這些生成種子,從而生成符合目標數(shù)據(jù)分布的全新圖像。

通過此,陳世锜等人實現(xiàn)了多種內(nèi)容的光學生成:依據(jù) MNIST 數(shù)據(jù)集、Fashion-MNIST 數(shù)據(jù)、Butterflies-100 數(shù)據(jù)集、Celeb-A 數(shù)據(jù)集以及梵高畫作與素描的數(shù)據(jù)分布,他們分別生成了手寫數(shù)字、時尚產(chǎn)品、蝴蝶、人臉及藝術品的單色與彩色圖像,整體性能可與基于數(shù)字神經(jīng)網(wǎng)絡的生成模型相媲美。為了通過實驗驗證光學生成模型,他們利用可見光生成了手寫數(shù)字與時尚產(chǎn)品的圖像。此外,其還通過單色與多波長照明生成了梵高風格的藝術品。


(來源:Nature)

據(jù)介紹,這款模型具有高度靈活性:針對不同數(shù)據(jù)分布的各類生成模型,可共享同一光學架構,僅需為每項任務配備一個優(yōu)化后的固定衍射解碼器。通過對隨機噪聲進行相位編碼得到光學生成種子,即可利用這些種子合成數(shù)量龐大的圖像。因此,若要將目標數(shù)據(jù)分布從一項生成任務切換至另一項,只需更換光學生成種子及對應的可重構解碼器表面,無需對光學裝置本身進行調(diào)整。

這讓本次光學生成模型有望為開展節(jié)能且可擴展的推理任務奠定基礎,并能進一步地挖掘光學與光子學在 AIGC 領域的應用潛力。當前,隨著生成式 AI 技術的應用,模型對于算力和內(nèi)存的需求正在急劇增加,推理時間也隨之延長。與此同時,生成式 AI 模型的可擴展性及碳足跡問題日益引發(fā)關注。盡管已有多種新興方法致力于減小模型規(guī)模、降低功耗并提升推理速度,但本次模型是一個兼具高能效與高可擴展性的生成式 AI 模型,故能在一定程度上緩解這一問題。


圖 | 相關論文(來源:Nature)



光學生成模型與數(shù)字擴散模型生成的圖像高度相似

為利用實驗來驗證本次光學生成模型,研究團隊搭建了一套工作于可見光譜的自由空間硬件系統(tǒng)。實驗結果證實,經(jīng)過訓練的光學生成模型能夠成功捕捉到每個目標數(shù)據(jù)分布背后隱含的特征及關聯(lián)。

詳細來說,在初始實驗中,研究團隊針對手寫數(shù)字和時尚產(chǎn)品圖像的生成分別訓練了兩個不同模型,這兩個模型分別遵循 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集的數(shù)據(jù)分布。下圖 c 展示了這兩個模型的實驗結果:在 MNIST 數(shù)據(jù)集上,模型取得的弗雷歇初始距離(FID,F(xiàn)réchet inception Distance)得分為 131.08;在 Fashion-MNIST 數(shù)據(jù)集上,模型取得的 FID 得分為 180.57。模型能夠成功生成符合這兩種目標數(shù)據(jù)分布的圖像,這凸顯了所設計系統(tǒng)的多功能性,進一步驗證了光學生成模型的可行性。需要說明的是,整體推理時間受到空間光調(diào)制器加載時間的限制,這時使用速度更快的相位光調(diào)制器或幀率超過 1 千赫茲(kHz)的空間光調(diào)制器,可以將這一加載時間降至最低。


圖 | 光學生成模型的示意圖(來源:Nature)

為了進一步探究快照式光學生成模型的潛在空間,研究團隊還開展了實驗,探究了隨機噪聲輸入與生成圖像之間的關系。

與此同時,他們還利用受限光學裝置,在有限相位編碼空間和有限解碼器位深條件下,對快照式光學圖像生成進行了實驗評估。具體來說,其利用上圖所示的同一裝置,生成了更高分辨率的梵高風格藝術品圖像。通過將數(shù)字編碼器與聯(lián)合訓練的衍射解碼器配對,驗證了梵高風格藝術品快照式單色圖像的生成。對比結果顯示,在采用相同數(shù)字編碼器架構的情況下,衍射解碼器的性能優(yōu)于基于自由空間的圖像解碼。

值得注意的是,在某些情況下,基于自由空間的解碼會完全失效,其“對比語言-圖像預訓練(CLIP,Contrastive Language–Image Pre-training Score)”得分低于 10–15;而衍射解碼器則能實現(xiàn)穩(wěn)定的圖像生成,且輸出圖像質量顯著更優(yōu)。和預期一樣的是,當研究團隊增大空間光調(diào)制器到解碼器的距離以匹配實驗條件時,觀察到圖像分辨率因數(shù)值孔徑相關因素出現(xiàn)輕微下降。但是,與基于自由空間的解碼相比,基于衍射解碼器的方法仍能保持穩(wěn)定的圖像生成。而盡管采用相同的數(shù)字編碼器架構,基于自由空間的解碼在多種情況下仍無法實現(xiàn)圖像生成。

通過進一步增加數(shù)字編碼器的參數(shù)數(shù)量,研究團隊提升了快照式生成的梵高風格光學生成圖像的分辨率與質量。下圖展示了研究團隊使用含 5.8 億參數(shù)的數(shù)字編碼器生成更高分辨率單色及彩色圖像的實驗結果。


(來源:Nature)

據(jù)介紹,梵高風格藝術品的單色圖像是在 520 納米波長光照下生成的,而彩色圖像則針對藍、綠、紅三個通道,分別采用了 450 納米、520 納米、638 納米的連續(xù)波長光照。在下圖中,左側三列結果顯示:光學生成模型單次生成的快照圖像,與數(shù)字擴散模型(即含 10.7 億可訓練參數(shù)、單幅圖像需 1000 步推理的教師模型)生成的圖像高度相似,這表明本次模型的圖像生成過程與教師擴散模型具有一致性。相反的是,上圖橙色方框內(nèi)突出顯示的右側三列結果,則展現(xiàn)了光學模型生成多樣化圖像的能力,這些圖像與教師數(shù)字擴散模型生成的圖像存在差異,體現(xiàn)了其輸出端的創(chuàng)造性多樣性。

在生成彩色梵高風格藝術品時,研究人員先是生成各波長通道的相位編碼生成種子圖案,再將這些圖案依次加載到空間光調(diào)制器上。在對應波長的光照下,多色圖像通過固定衍射解碼器生成,并以數(shù)字方式進行融合。換言之,所有圖像生成過程中,所有照明波長共用同一解碼器狀態(tài)。下圖展示了彩色梵高風格藝術品的生成結果,其中既包含與教師數(shù)字擴散模型(含 10.7 億個可訓練參數(shù),生成單幅圖像需 1000 步推理)輸出匹配的藝術作品實例,也包含與之存在差異的實例。盡管觀察到輕微的色差,但生成的高分辨率彩色圖像仍保持了較高質量。


(來源:Nature)

基于本次研究提出的方法,還可以設計空間和光譜多路復用光學生成模型,從而在不同空間與光譜通道中并行生成多幅獨立圖像。與此同時,基于光學生成模型在能效、可擴展性及靈活性方面的優(yōu)勢,將能為各類 AI 相關應用例如 AI 生成內(nèi)容、圖像與視頻處理及合成等提供極具潛力的解決方案。



光學和 AI 的奇妙結合

如前所述,陳世锜目前是美國加州大學洛杉磯分校的博士后研究員。2022 年,當他還在浙江大學讀博時,其和當時所在團隊首次在大規(guī)模制造的系統(tǒng)中全部實現(xiàn)了接近衍射極限的像質提升,成果在國內(nèi)頂級公司的旗艦產(chǎn)品中落地應用,并在多款手機上得到廣泛應用,相關論文發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence等期刊。

浙江大學官網(wǎng)顯示,陳世锜讀博時所在的馮華君教授、徐之海教授課題組自 2014 年起長期與國內(nèi)手機公司合作開展了多項智能手機圖像處理技術研究。如今,陳世锜在博士后期間又發(fā)表了這樣一篇應用性極強的Nature論文。未來,他將選擇進入學界還是業(yè)界,或許不久即將揭曉答案。

參考資料:

https://tangeego.github.io/

http://opt.zju.edu.cn/2022/0912/c72718a2735738/page.htm

Chen, S., Li, Y., Wang, Y. et al. Optical generative models.Nature644, 903–911 (2025). https://doi.org/10.1038/s41586-025-09446-5

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

蕭竹輕語
2025-08-29 17:35:51
勁爆!木子美連曝多位圈中大佬丑聞:老薛,孫某與其多次xxx

勁爆!木子美連曝多位圈中大佬丑聞:老薛,孫某與其多次xxx

1號時務局
2025-08-29 16:37:50
功率拉滿,約基奇26中15砍39分10板4助3斷,三分4中1罰球8中8

功率拉滿,約基奇26中15砍39分10板4助3斷,三分4中1罰球8中8

懂球帝
2025-08-31 01:15:19
只差光刻技術了!日媒:中國將成日荷后,第三個造光刻機的國家

只差光刻技術了!日媒:中國將成日荷后,第三個造光刻機的國家

游古史
2025-08-29 15:52:30
生二胎獎28.71萬,生三胎獎35.59萬,生娃發(fā)錢,最猛一槍打響!

生二胎獎28.71萬,生三胎獎35.59萬,生娃發(fā)錢,最猛一槍打響!

大愛三湘
2025-08-27 22:37:05
A股:股民做好充分準備,不出意外,下周將這樣走

A股:股民做好充分準備,不出意外,下周將這樣走

虎哥閑聊
2025-08-30 17:25:32
福州夫妻用1234萬購得清代府邸,翻修繡樓時發(fā)現(xiàn)暗室,查看后傻眼

福州夫妻用1234萬購得清代府邸,翻修繡樓時發(fā)現(xiàn)暗室,查看后傻眼

今天說故事
2025-08-28 18:30:53
成都文藝滅亡

成都文藝滅亡

城市的地得
2025-08-30 00:38:47
七夕,鹿晗終于發(fā)文“表達感情”,關曉彤稱:做耀眼的自己!

七夕,鹿晗終于發(fā)文“表達感情”,關曉彤稱:做耀眼的自己!

默默有話說
2025-08-30 12:28:56
裁員7萬,月薪從兩萬降到五千,“斷崖式降薪”讓銀行人苦不堪言

裁員7萬,月薪從兩萬降到五千,“斷崖式降薪”讓銀行人苦不堪言

侃故事的阿慶
2025-08-30 12:54:04
世錦賽戰(zhàn)報:再見了,山羊組合謝幕戰(zhàn)1-2!決賽3席了大馬再創(chuàng)歷史

世錦賽戰(zhàn)報:再見了,山羊組合謝幕戰(zhàn)1-2!決賽3席了大馬再創(chuàng)歷史

求球不落諦
2025-08-30 19:32:21
莫言:這個世界之所以一團糟,是因為錢被拿來愛了,人被拿來用了

莫言:這個世界之所以一團糟,是因為錢被拿來愛了,人被拿來用了

清風拂心
2025-08-30 11:15:03
中國閱兵順便清理朋友圈,九國領導人確定不來,但咱有俄羅斯支持

中國閱兵順便清理朋友圈,九國領導人確定不來,但咱有俄羅斯支持

Ck的蜜糖
2025-08-31 03:37:24
深度解讀:為什么國家近期一直在拉股市?背后是中美博弈一盤大棋

深度解讀:為什么國家近期一直在拉股市?背后是中美博弈一盤大棋

小白鴿財經(jīng)
2025-08-22 10:14:45
監(jiān)控恢復!離真相更進一步,出殯當天村民自發(fā)相送,家人泣不成聲

監(jiān)控恢復!離真相更進一步,出殯當天村民自發(fā)相送,家人泣不成聲

麥小柒
2025-08-30 16:07:56
臺灣省多地慶祝抗戰(zhàn)勝利80周年

臺灣省多地慶祝抗戰(zhàn)勝利80周年

微微熱評
2025-08-29 19:10:47
一夜之間,歐盟大樓變成廢墟,18條人命,炸出美國真面目

一夜之間,歐盟大樓變成廢墟,18條人命,炸出美國真面目

墨蘭史書
2025-08-31 04:05:03
黃渤陪女兒美國逛街!知情人曝他倆女兒都是美籍,在波士頓念書

黃渤陪女兒美國逛街!知情人曝他倆女兒都是美籍,在波士頓念書

花心電影
2025-08-30 11:20:28
坎塞洛被換下后在替補席爆發(fā)不滿,舉動引發(fā)隊友與解說驚訝

坎塞洛被換下后在替補席爆發(fā)不滿,舉動引發(fā)隊友與解說驚訝

懂球帝
2025-08-30 08:06:25
全球航線大洗牌:中國缺席全球繁忙航線,背后說明了什么?

全球航線大洗牌:中國缺席全球繁忙航線,背后說明了什么?

掘金日本房產(chǎn)
2025-08-30 16:50:58
2025-08-31 05:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15583文章數(shù) 514036關注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

旅游
游戲
藝術
本地
教育

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

UP主挑戰(zhàn)念“游戲科學”100萬次:最后竟然成功了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

教育要聞

突發(fā),南京一培訓機構宣布合并校區(qū)!

無障礙瀏覽 進入關懷版