你面前有兩張圖片:
一張是桌面上的蘋(píng)果;另一張是人聲鼎沸的農(nóng)貿(mào)市場(chǎng)。視覺(jué)上,我們一眼就能感知后一張畫(huà)面信息更多、更復(fù)雜。
有一個(gè)數(shù)字能直接量化這兩張圖的信息多少,它就是信息熵(Information Entropy)。你應(yīng)該已經(jīng)猜到,農(nóng)貿(mào)市場(chǎng)圖的信息熵遠(yuǎn)遠(yuǎn)高于蘋(píng)果圖。
在圖像世界中,信息熵能衡量畫(huà)面的豐富程度與分布狀態(tài),直接影響我們的感官體驗(yàn),也貫穿于AI生成圖像的過(guò)程,決定著AI的創(chuàng)作風(fēng)格。
圖像世界中的信息熵
要弄清這個(gè)數(shù)字的來(lái)歷,得回到 1948 年。信息論之父克勞德·香農(nóng)提出了這個(gè)改變通信世界的概念:信息熵(也稱香農(nóng)熵),它衡量一個(gè)信息源的不確定性。
從數(shù)學(xué)表達(dá)來(lái)看,這個(gè)不確定性等于所有可能結(jié)果的發(fā)生概率與該結(jié)果信息量的加權(quán)平均:
其中,單個(gè)結(jié)果的信息量為:
將兩式結(jié)合,就得到信息熵的標(biāo)準(zhǔn)公式:
由此可見(jiàn),信息熵由結(jié)果的數(shù)量和概率共同決定,可能性越多、分布越均勻,熵值就越大。
舉個(gè)例子:拋一枚均勻硬幣時(shí)有兩個(gè)等可能結(jié)果,根據(jù)香農(nóng)熵公式,熵就是H=1 bit;擲一枚骰子有6個(gè)等可能結(jié)果,熵便上升為H= log26 ≈2.585 bit;在一本 5萬(wàn)詞的大詞典中隨機(jī)選擇一個(gè)詞,結(jié)果的不確定性大大增加,熵也飆升到H = log250000 ≈15.6 bit。
放到圖像的世界里,道理也完全一樣。
一張圖像可以看作由無(wú)數(shù)個(gè)像素組成,每個(gè)像素值(亮度、顏色)就是一個(gè)結(jié)果,統(tǒng)計(jì)所有結(jié)果的概率分布就能計(jì)算出整張圖的信息熵。像素分布不確定性越高,畫(huà)面越復(fù)雜,信息熵就越高。
比如一大片藍(lán)天,幾乎沒(méi)有顏色變化和細(xì)節(jié),像素值高度一致,畫(huà)面單調(diào)且可預(yù)測(cè),熵就很低。
但在一張色彩斑斕、細(xì)節(jié)繁復(fù)的珊瑚礁照片中,像素值覆蓋了大量可能性,包含不同色彩層次、形狀、紋理、光影等,像素的不確定性大大飆升,熵也就更高。
圖像壓縮 ≈ 信息熵的逼近
在圖像壓縮中,信息熵的作用尤其直觀。
壓縮的本質(zhì)就是去除冗余信息,信息熵則告訴你壓縮的極限。
圖像存儲(chǔ)的常用單位是bpp(bits per pixel),表示一張圖中每個(gè)像素需要多少比特來(lái)存儲(chǔ)。對(duì)無(wú)損壓縮來(lái)說(shuō),理論上它的最低值會(huì)接近圖像的信息熵。
香農(nóng)源編碼定理告訴我們:最省空間的編碼長(zhǎng)度下限就是信息熵,最多也只會(huì)多 1 bit。比如一張熵為5bpp的灰度圖,那就算用最好的無(wú)損壓縮也只能壓到接近5bpp。
這也是為什么低熵圖像更容易被壓縮。比如藍(lán)色天空,大部分像素完全相同,算法只需記錄同一顏色的重復(fù)次數(shù),文件就能壓到極小;而在細(xì)節(jié)繁瑣的珊瑚礁圖中,像素差異極大,冗余度低,壓縮空間自然有限。
美學(xué)中的黃金區(qū)間
審美的底層規(guī)律,也能用信息熵來(lái)解釋。
Berlyne的審美復(fù)雜度假說(shuō)指出:我們對(duì)畫(huà)面的喜好程度與畫(huà)面復(fù)雜度呈倒 U 型關(guān)系:圖像信息處在中等復(fù)雜度最受歡迎。
過(guò)于簡(jiǎn)單會(huì)顯得單調(diào)乏味,過(guò)于復(fù)雜又會(huì)讓大腦負(fù)荷過(guò)重。
信息熵恰好量化了這種復(fù)雜度:它衡量了畫(huà)面中像素分布的不確定性。能吸引注意力的作品,往往是熵被調(diào)控得很好的結(jié)果,在單調(diào)與混亂之間找到了一個(gè)合適點(diǎn)。
評(píng)估AI圖像質(zhì)量時(shí)也會(huì)用到信息熵。比如Inception Score用相對(duì)熵來(lái)衡量圖的清晰度和多樣性、基于CLIP的美學(xué)模型里,研究者也會(huì)加上熵相關(guān)的指標(biāo)來(lái)輔助打分。
這種「黃金熵」偏好并不僅限于視覺(jué),還出現(xiàn)在音樂(lè)、建筑、文學(xué)等領(lǐng)域。從建筑的裝飾密度風(fēng)格,到流行歌曲的旋律變化,人類(lèi)感官似乎一直在追尋一種信息量剛剛好的美感。
在人類(lèi)的眼里,信息熵決定了畫(huà)面的復(fù)雜度和觀感;在AI的世界里,它同樣決定著創(chuàng)作的節(jié)奏和風(fēng)格。現(xiàn)在很流行的AI繪圖,創(chuàng)作過(guò)程其實(shí)就是一場(chǎng)熵空間的探索。
AI生圖中的熵軌跡
直覺(jué)上,你可能覺(jué)得AI畫(huà)畫(huà)是從一張白紙開(kāi)始,但事實(shí)恰好相反。
想象把一滴染料滴進(jìn)水中,顏色會(huì)迅速?gòu)募袪顟B(tài)向四周擴(kuò)散,直到均勻分布,這就是一個(gè)典型的熵增過(guò)程。AI生圖的正向擴(kuò)散過(guò)程與之十分類(lèi)似。
當(dāng)今主流的AI生圖方法是一類(lèi)稱為擴(kuò)散模型 (Diffusion Model)的概率生成模型,它的工作思路可以總結(jié)為:先破壞再重建。
擴(kuò)散模型的圖像生成任務(wù)分為兩個(gè)過(guò)程:正向擴(kuò)散和反向擴(kuò)散。
在訓(xùn)練階段,模型進(jìn)行正向擴(kuò)散:把一張清晰的訓(xùn)練圖像逐步加入隨機(jī)噪聲,直到圖像完全變成隨機(jī)噪聲。這一步就是在模擬熵增,就像染料擴(kuò)散的過(guò)程,從有序走向無(wú)序。模型能通過(guò)這個(gè)破壞的過(guò)程學(xué)明白圖像在加噪的每一步會(huì)丟失哪些結(jié)構(gòu)信息。
當(dāng)模型搞懂了這個(gè),也就擁有了從完全混亂的高熵狀態(tài)里生成全新圖像的本事。于是在生成階段,模型就能夠從隨機(jī)噪聲開(kāi)始,進(jìn)行反向擴(kuò)散,一步步去掉噪聲、恢復(fù)結(jié)構(gòu),直到得到清晰的成品圖像。
▲ 圖 / Denoising Diffusion Probabilistic Models(Ho et al., 2020)
那么,為啥要先把一張圖弄成雪花噪聲,再讓模型慢慢復(fù)原?
其實(shí),擴(kuò)散模型「先升熵,再降熵」的策略有三個(gè)很實(shí)在的原因:
1. 讓模型學(xué)會(huì)考慮全局
先升熵相當(dāng)于打亂局部關(guān)系,迫使模型從全局結(jié)構(gòu)入手。如果直接從空白開(kāi)始畫(huà),模型很容易陷入先畫(huà)局部再拼接的思路,最后拼起來(lái)各種比例失調(diào)。就好比建筑師畫(huà)設(shè)計(jì)圖,也是從整體藍(lán)圖入手去刻畫(huà)細(xì)節(jié)。
2. 任務(wù)拆分,更容易學(xué)
讓 AI一口氣畫(huà)出一幅高清大圖就像讓廚師一次做個(gè)滿漢全席,容易翻車(chē)。把生圖任務(wù)分成多次輕微修復(fù),通過(guò)一步步降噪完成,成功率更高。
3. 隨機(jī)起點(diǎn),更多驚喜
如果每次都從同一個(gè)空白開(kāi)始,結(jié)果會(huì)很容易千篇一律。但若從隨機(jī)噪聲開(kāi)始,就像雕塑家每次都在不同形狀的石頭上雕刻,同一個(gè)主題能做出不同版本,更能帶來(lái)意外的靈感。
在 AI繪圖中,信息熵還可以理解為畫(huà)面生成過(guò)程里的自由度,影響著畫(huà)面是規(guī)整可控,還是天馬行空。熵高時(shí),模型在每一步都有更大發(fā)揮空間,結(jié)果更有想象力,但也更不可控;熵低時(shí),生成會(huì)更穩(wěn)定、更可預(yù)測(cè)。
常見(jiàn)的兩個(gè)「控熵」旋鈕是:
噪聲隨機(jī)性(溫度、chaos 等):隨機(jī)性調(diào)高,自由發(fā)揮的空間更高。
提示詞約束力度(CFG 等):約束強(qiáng)時(shí),模型會(huì)更緊地貼合提示詞,結(jié)果更接近你的想法;約束弱,模型會(huì)更放飛自我。
以MidJourney為例,chaos參數(shù)就是在調(diào)模型發(fā)揮的自由度。中低chaos時(shí),效果完全在預(yù)期內(nèi),高chaos時(shí)模型就開(kāi)始玩抽象了。
這是我用同一指令,賦不同chaos值時(shí)的結(jié)果:
指令:
a bouquet of flowers in a vase(花瓶中的一束花)
低 chaos(30):結(jié)果規(guī)整、符合想象,花朵顏色和排列都中規(guī)中矩。
高 chaos(100):結(jié)果混亂程度高,充滿意外,比如花束被融入華麗金屬器皿,還搭配了裝飾性的小鳥(niǎo)和珠寶,完全跳出了普通花瓶的框架。
這也是為什么,同樣一句提示,有時(shí)AI畫(huà)得嚴(yán)絲合縫,有時(shí)卻能給你完全沒(méi)想到的驚喜,這正是熵的大小在起作用。
指令是如何引導(dǎo)圖像熵的?
指令就像模型在熵空間游走的導(dǎo)航,能大大壓縮不確定性。
比如:當(dāng)你輸入“一場(chǎng)漫步”,到“一只穿著宇航服的貓?jiān)谠虑蛏下健保?提示信息的限定大大縮小了模型的搜索空間,讓生成結(jié)果從無(wú)數(shù)可能性收斂到一個(gè)更明確范圍。
信息論上,這種從無(wú)條件到有條件的收斂就對(duì)應(yīng)熵的減少:條件熵 H(X|Y)小于無(wú)條件熵 H(X),因?yàn)樘崾驹~ Y 提供了額外信息,大大減少了不必要的隨機(jī)性。
不過(guò)提示詞也不是越詳細(xì)越好。過(guò)于嚴(yán)格的提示會(huì)限制發(fā)揮,可能導(dǎo)致畫(huà)面缺乏新意,過(guò)于寬泛的提示又會(huì)讓熵過(guò)高,缺乏可控性。一個(gè)好的指令既給足指導(dǎo)方向,又保留一定自由度。
從熵到美,機(jī)器的創(chuàng)作本質(zhì)上是一種在混亂中重建秩序的過(guò)程。信息熵就像是機(jī)器創(chuàng)作中尋找平衡的指南針,既能引導(dǎo)生成過(guò)程收斂到清晰的主題,又能保留必要的隨機(jī)性,讓作品擁有出人意料的生命力。
或許,正是這種在無(wú)序中尋秩序的能力,讓機(jī)器的創(chuàng)作與人類(lèi)的直覺(jué)在某一瞬間產(chǎn)生了共鳴。
end
參考資料:
[1] Shannon Source Coding Theorem. MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
[2] MidJourney Documentation – Chaos Parameter. (2023). https://docs.midjourney.com
[3] Berlyne, D. E. (1970). Novelty, complexity, and hedonic value. Perception & Psychophysics, 8, 279–286. https://doi.org/10.3758/BF03212593
[4] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS 2020). https://arxiv.org/abs/2006.11239
[5] Inception Score. Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved Techniques for Training GANs. Advances in Neural Information Processing Systems, 29. https://arxiv.org/abs/1606.03498
[6] Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). Proceedings of the 38th International Conference on Machine Learning (ICML 2021). https://arxiv.org/abs/2103.00020
來(lái)源:DataCafe
編輯:小咕咕
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場(chǎng)
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.