此前,他曾將光引入國產(chǎn)手機;而現(xiàn)在,他將光引入了 AIGC。當陳世锜在浙江大學讀博時,曾和所在團隊研發(fā)多個計算光學成果并被用于國產(chǎn)手機;如今,他在美國加州大學洛杉磯分校從事博士后研究。在美期間,他結合自己的光學積累,提出一種受擴散模型啟發(fā)的光學生成模型,相關論文于當?shù)貢r間 8 月 27 日發(fā)表于Nature,論文題目只有三個英文單詞——Optical generative models。
圖 | 陳世锜(來源:https://tangeego.github.io/)
這款光學生成模型的亮點在于,除了照明功率消耗以及通過淺層編碼器生成隨機種子的過程外,模型在圖像合成過程中不消耗計算資源。此外,無需改變架構或物理硬件,只需將衍射解碼器重構至新的優(yōu)化狀態(tài),即可實現(xiàn)針對不同數(shù)據(jù)分布的光學生成。光學生成模型的這種多功能性,或能讓邊緣計算、增強現(xiàn)實、虛擬現(xiàn)實,以及各類娛樂應用獲得收益。
該模型可通過光學方式合成符合目標數(shù)據(jù)分布的單色或彩色圖像,即針對特定數(shù)據(jù)分布,以光學手段生成此前從未出現(xiàn)過的圖像。模型的設計靈感源自擴散模型,其核心思路是利用淺層數(shù)字編碼器,將隨機的二維高斯噪聲圖案快速轉化為代表光學生成種子的二維相位結構。
具體來說,在這款模型中,一個淺層快速數(shù)字編碼器首先將隨機噪聲映射為相位圖案,這些相位圖案可作為目標數(shù)據(jù)分布的光學生成種子。隨后,一個經(jīng)過聯(lián)合訓練的、基于自由空間的可重構解碼器通過全光學方式處理這些生成種子,從而生成符合目標數(shù)據(jù)分布的全新圖像。
通過此,陳世锜等人實現(xiàn)了多種內(nèi)容的光學生成:依據(jù) MNIST 數(shù)據(jù)集、Fashion-MNIST 數(shù)據(jù)、Butterflies-100 數(shù)據(jù)集、Celeb-A 數(shù)據(jù)集以及梵高畫作與素描的數(shù)據(jù)分布,他們分別生成了手寫數(shù)字、時尚產(chǎn)品、蝴蝶、人臉及藝術品的單色與彩色圖像,整體性能可與基于數(shù)字神經(jīng)網(wǎng)絡的生成模型相媲美。為了通過實驗驗證光學生成模型,他們利用可見光生成了手寫數(shù)字與時尚產(chǎn)品的圖像。此外,其還通過單色與多波長照明生成了梵高風格的藝術品。
(來源:Nature)
據(jù)介紹,這款模型具有高度靈活性:針對不同數(shù)據(jù)分布的各類生成模型,可共享同一光學架構,僅需為每項任務配備一個優(yōu)化后的固定衍射解碼器。通過對隨機噪聲進行相位編碼得到光學生成種子,即可利用這些種子合成數(shù)量龐大的圖像。因此,若要將目標數(shù)據(jù)分布從一項生成任務切換至另一項,只需更換光學生成種子及對應的可重構解碼器表面,無需對光學裝置本身進行調(diào)整。
這讓本次光學生成模型有望為開展節(jié)能且可擴展的推理任務奠定基礎,并能進一步地挖掘光學與光子學在 AIGC 領域的應用潛力。當前,隨著生成式 AI 技術的應用,模型對于算力和內(nèi)存的需求正在急劇增加,推理時間也隨之延長。與此同時,生成式 AI 模型的可擴展性及碳足跡問題日益引發(fā)關注。盡管已有多種新興方法致力于減小模型規(guī)模、降低功耗并提升推理速度,但本次模型是一個兼具高能效與高可擴展性的生成式 AI 模型,故能在一定程度上緩解這一問題。
圖 | 相關論文(來源:Nature)
光學生成模型與數(shù)字擴散模型生成的圖像高度相似
為利用實驗來驗證本次光學生成模型,研究團隊搭建了一套工作于可見光譜的自由空間硬件系統(tǒng)。實驗結果證實,經(jīng)過訓練的光學生成模型能夠成功捕捉到每個目標數(shù)據(jù)分布背后隱含的特征及關聯(lián)。
詳細來說,在初始實驗中,研究團隊針對手寫數(shù)字和時尚產(chǎn)品圖像的生成分別訓練了兩個不同模型,這兩個模型分別遵循 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集的數(shù)據(jù)分布。下圖 c 展示了這兩個模型的實驗結果:在 MNIST 數(shù)據(jù)集上,模型取得的弗雷歇初始距離(FID,F(xiàn)réchet inception Distance)得分為 131.08;在 Fashion-MNIST 數(shù)據(jù)集上,模型取得的 FID 得分為 180.57。模型能夠成功生成符合這兩種目標數(shù)據(jù)分布的圖像,這凸顯了所設計系統(tǒng)的多功能性,進一步驗證了光學生成模型的可行性。需要說明的是,整體推理時間受到空間光調(diào)制器加載時間的限制,這時使用速度更快的相位光調(diào)制器或幀率超過 1 千赫茲(kHz)的空間光調(diào)制器,可以將這一加載時間降至最低。
圖 | 光學生成模型的示意圖(來源:Nature)
為了進一步探究快照式光學生成模型的潛在空間,研究團隊還開展了實驗,探究了隨機噪聲輸入與生成圖像之間的關系。
與此同時,他們還利用受限光學裝置,在有限相位編碼空間和有限解碼器位深條件下,對快照式光學圖像生成進行了實驗評估。具體來說,其利用上圖所示的同一裝置,生成了更高分辨率的梵高風格藝術品圖像。通過將數(shù)字編碼器與聯(lián)合訓練的衍射解碼器配對,驗證了梵高風格藝術品快照式單色圖像的生成。對比結果顯示,在采用相同數(shù)字編碼器架構的情況下,衍射解碼器的性能優(yōu)于基于自由空間的圖像解碼。
值得注意的是,在某些情況下,基于自由空間的解碼會完全失效,其“對比語言-圖像預訓練(CLIP,Contrastive Language–Image Pre-training Score)”得分低于 10–15;而衍射解碼器則能實現(xiàn)穩(wěn)定的圖像生成,且輸出圖像質量顯著更優(yōu)。和預期一樣的是,當研究團隊增大空間光調(diào)制器到解碼器的距離以匹配實驗條件時,觀察到圖像分辨率因數(shù)值孔徑相關因素出現(xiàn)輕微下降。但是,與基于自由空間的解碼相比,基于衍射解碼器的方法仍能保持穩(wěn)定的圖像生成。而盡管采用相同的數(shù)字編碼器架構,基于自由空間的解碼在多種情況下仍無法實現(xiàn)圖像生成。
通過進一步增加數(shù)字編碼器的參數(shù)數(shù)量,研究團隊提升了快照式生成的梵高風格光學生成圖像的分辨率與質量。下圖展示了研究團隊使用含 5.8 億參數(shù)的數(shù)字編碼器生成更高分辨率單色及彩色圖像的實驗結果。
(來源:Nature)
據(jù)介紹,梵高風格藝術品的單色圖像是在 520 納米波長光照下生成的,而彩色圖像則針對藍、綠、紅三個通道,分別采用了 450 納米、520 納米、638 納米的連續(xù)波長光照。在下圖中,左側三列結果顯示:光學生成模型單次生成的快照圖像,與數(shù)字擴散模型(即含 10.7 億可訓練參數(shù)、單幅圖像需 1000 步推理的教師模型)生成的圖像高度相似,這表明本次模型的圖像生成過程與教師擴散模型具有一致性。相反的是,上圖橙色方框內(nèi)突出顯示的右側三列結果,則展現(xiàn)了光學模型生成多樣化圖像的能力,這些圖像與教師數(shù)字擴散模型生成的圖像存在差異,體現(xiàn)了其輸出端的創(chuàng)造性多樣性。
在生成彩色梵高風格藝術品時,研究人員先是生成各波長通道的相位編碼生成種子圖案,再將這些圖案依次加載到空間光調(diào)制器上。在對應波長的光照下,多色圖像通過固定衍射解碼器生成,并以數(shù)字方式進行融合。換言之,所有圖像生成過程中,所有照明波長共用同一解碼器狀態(tài)。下圖展示了彩色梵高風格藝術品的生成結果,其中既包含與教師數(shù)字擴散模型(含 10.7 億個可訓練參數(shù),生成單幅圖像需 1000 步推理)輸出匹配的藝術作品實例,也包含與之存在差異的實例。盡管觀察到輕微的色差,但生成的高分辨率彩色圖像仍保持了較高質量。
(來源:Nature)
基于本次研究提出的方法,還可以設計空間和光譜多路復用光學生成模型,從而在不同空間與光譜通道中并行生成多幅獨立圖像。與此同時,基于光學生成模型在能效、可擴展性及靈活性方面的優(yōu)勢,將能為各類 AI 相關應用例如 AI 生成內(nèi)容、圖像與視頻處理及合成等提供極具潛力的解決方案。
光學和 AI 的奇妙結合
如前所述,陳世锜目前是美國加州大學洛杉磯分校的博士后研究員。2022 年,當他還在浙江大學讀博時,其和當時所在團隊首次在大規(guī)模制造的系統(tǒng)中全部實現(xiàn)了接近衍射極限的像質提升,成果在國內(nèi)頂級公司的旗艦產(chǎn)品中落地應用,并在多款手機上得到廣泛應用,相關論文發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence等期刊。
浙江大學官網(wǎng)顯示,陳世锜讀博時所在的馮華君教授、徐之海教授課題組自 2014 年起長期與國內(nèi)手機公司合作開展了多項智能手機圖像處理技術研究。如今,陳世锜在博士后期間又發(fā)表了這樣一篇應用性極強的Nature論文。未來,他將選擇進入學界還是業(yè)界,或許不久即將揭曉答案。
參考資料:
https://tangeego.github.io/
http://opt.zju.edu.cn/2022/0912/c72718a2735738/page.htm
Chen, S., Li, Y., Wang, Y. et al. Optical generative models.Nature644, 903–911 (2025). https://doi.org/10.1038/s41586-025-09446-5
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.