文 | 追問(wèn)nextquestion
當(dāng)百億千億參數(shù)的大模型霸占著科技頭條,“若無(wú)必要,勿增實(shí)體”這把古老“剃刀”是否依舊閃耀?
在這個(gè)追求極致性能的時(shí)代,“更大即更好”似乎已成為不言自明的公理。然而,從拉瓦錫到愛(ài)因斯坦,從牛頓第一定律到量子力學(xué),科學(xué)史上最優(yōu)雅的理論往往以其簡(jiǎn)約之美征服世人。這場(chǎng)復(fù)雜與簡(jiǎn)約的“較量”,仍以意想不到的方式豐富著我們的認(rèn)知世界。
復(fù)雜性與簡(jiǎn)潔性真的是對(duì)立的嗎?本文將回溯歷史長(zhǎng)河,探尋一個(gè)古老哲學(xué)原則與現(xiàn)代科技之間的微妙關(guān)聯(lián)。在這個(gè)過(guò)程中,我們或許能夠發(fā)現(xiàn),復(fù)雜與簡(jiǎn)潔之間隱藏著怎樣的辯證關(guān)系。
01 奧卡姆剃刀的歷史源頭
人類(lèi)對(duì)簡(jiǎn)潔的追求是跨文明的。東方的《道德經(jīng)》以“為學(xué)日益,為道日損”揭示認(rèn)知的辯證法則,亞里士多德在《物理學(xué)》中通過(guò)“自然界選擇最短路徑”(最小作用量原理)勾勒自然規(guī)律。牛頓在其《自然哲學(xué)原理》第三卷中曾寫(xiě)到,“解釋自然界的一切,應(yīng)該追求使用最少的原理。如果很少的理由就能解釋自然,那么再列舉更多的理由就是多余的了?!?/p>
而對(duì)“簡(jiǎn)潔原則”的最簡(jiǎn)潔表述,莫過(guò)于13世紀(jì)出生于奧卡姆的方濟(jì)會(huì)修士威廉(又名“奧卡姆”)提出的:
“若無(wú)必要,勿增實(shí)體”(Entities should not be multiplied unnecessarily)。
要理解這句話,首先要了解這句話的背景,這就需要重返中世紀(jì)經(jīng)院哲學(xué)的論戰(zhàn)現(xiàn)場(chǎng)。
圣經(jīng)故事中,亞當(dāng)作為第一個(gè)男人,憑借上帝賜予他的“完美語(yǔ)言”,得以給伊甸園中的每種生物命名。這種完美的語(yǔ)言體系將“最恰當(dāng)”或“最完美”的詞語(yǔ)與其本質(zhì)聯(lián)系起來(lái),以此揭示萬(wàn)物終極真理。可隨著亞當(dāng)被趕出伊甸園,完美語(yǔ)言也消失了。為此,哲學(xué)家/神學(xué)家寄希望于深入探究以復(fù)原完美的亞當(dāng)語(yǔ)(Adamic language)[1]。
但后來(lái),哲學(xué)家們對(duì)“共相”、“本質(zhì)”等抽象概念的爭(zhēng)論愈演愈烈,奧卡姆率先意識(shí)到這場(chǎng)思辨已陷入虛無(wú),他拒絕談?wù)撃切┛床坏矫恢摹皷|西”,只承認(rèn)確實(shí)能夠用感官觀察到的存在,那些所謂的普遍性要領(lǐng)都是無(wú)用的累贅,應(yīng)當(dāng)被無(wú)情地“剃除”。
奧卡姆提出,概念基于感知行為。就像中世紀(jì)酒館的主人在門(mén)前放置桶箍來(lái)傳遞“新酒到貨”的信息,雖然桶箍本身不是酒,但傳遞了預(yù)期的意義。同理,環(huán)境中的物體將預(yù)期的意義傳遞出來(lái),而人類(lèi)自帶感知能力,能夠在腦中形成概念。我們的感知與環(huán)境中的物體之間存在因果關(guān)系,概念則作為這一關(guān)系的副產(chǎn)品出現(xiàn)。
而“剃刀”這個(gè)比喻,直到1649年才被創(chuàng)造出來(lái)?!疤甑丁钡囊庀?,來(lái)源于中世紀(jì)作家的刮刀。在抄錄羊皮紙手稿時(shí),為了不破壞周?chē)谋镜那闆r下擦除單個(gè)字母和單詞,就需要使用刮刀。“奧卡姆剃刀”取其喻義,旨在改進(jìn)思想的表達(dá),保證措辭的優(yōu)雅的同時(shí)節(jié)省變量的考慮。雖然剃刀最初被描繪成一種用來(lái)打擊奧卡姆本人的武器,但剃刀的引入,為簡(jiǎn)潔原則提供了令人信服的代言形象。
?圖 2. 中世紀(jì)的抄寫(xiě)室中,刮刀是抄寫(xiě)經(jīng)書(shū)的人員必不可少的工具。
用當(dāng)下計(jì)算機(jī)的自然語(yǔ)言處理算法(NLP)來(lái)解釋。當(dāng)語(yǔ)言學(xué)家還在討論“不同語(yǔ)言之間的語(yǔ)法規(guī)則有哪些共性”、“不同人類(lèi)語(yǔ)言的本質(zhì)特征是什么”時(shí),奧卡姆剃刀指出,將單詞轉(zhuǎn)換成向量,以此計(jì)算向量間的關(guān)系,只要讓機(jī)器獲得足夠的感官體驗(yàn)(訓(xùn)練數(shù)據(jù)),算法會(huì)自動(dòng)會(huì)總結(jié)出“男人+國(guó)王=女人+女王”。
奧卡姆剃刀代表的唯名論(Nominalism)認(rèn)為,科學(xué)發(fā)展不必受限于既有框架,而是取決于能觀察到什么;如果觀測(cè)和現(xiàn)有理論不符合,那就更換理論框架。唯名論取代了之前占據(jù)主導(dǎo)的唯實(shí)論(Realism),自此這種對(duì)簡(jiǎn)單解釋的偏好,更是指導(dǎo)著之后數(shù)百年間的科學(xué)發(fā)展。
02 奧卡姆剃刀的應(yīng)用及濫用
17-18世紀(jì),化學(xué)家試圖解釋燃燒現(xiàn)象,曾提出“燃素”(phlogiston)這一假想實(shí)體。“燃素說(shuō)”認(rèn)為,可燃物質(zhì)含有“燃素”,燃燒是燃素釋放的過(guò)程,金屬煅燒后變成金屬灰(氧化物),被視為“失去燃素”。又因?yàn)榻饘凫褵笾亓吭黾拥膶?shí)驗(yàn)發(fā)現(xiàn),燃素被額外假設(shè)“具有負(fù)重量”。
與之相對(duì)的是,拉瓦錫(Lavoisier)提出的“氧化理論”,即用氧氣與物質(zhì)的結(jié)合解釋燃燒。這一理論不需要引入新的神秘物質(zhì),僅用已知元素的相互作用就能自洽地解釋現(xiàn)象。值得一提的是,當(dāng)時(shí)普利斯特利(Priestley)通過(guò)加熱紅色氧化汞獲得了一種"特殊的空氣",這種氣體能使蠟燭燃燒更旺、老鼠呼吸更順暢,這就是后來(lái)被拉瓦錫命名的“氧氣”。
在技術(shù)條件有限的當(dāng)時(shí),既無(wú)法直接觀測(cè)到燃素,也難以提純出純氧,但因?yàn)槔咤a的氧化理論更簡(jiǎn)潔,符合奧卡姆剃刀原則,逐步收獲了科學(xué)社區(qū)的廣泛認(rèn)可。而正確的理論,又推動(dòng)了后續(xù)科學(xué)的進(jìn)步。
類(lèi)似的例子在科學(xué)史上屢見(jiàn)不鮮。愛(ài)因斯坦提出狹義相對(duì)論時(shí),大膽拋棄了“以太”這一當(dāng)時(shí)普遍接受的假設(shè)介質(zhì),用更為簡(jiǎn)潔的數(shù)學(xué)框架統(tǒng)一了力學(xué)和電磁學(xué)。達(dá)爾文的進(jìn)化論用“自然選擇”這一優(yōu)雅機(jī)制,解釋了物種多樣性的起源,無(wú)需訴諸超自然的創(chuàng)造力量。這些理論的成功,強(qiáng)化了科學(xué)界對(duì)“奧卡姆剃刀”原則的信心。
?圖 3. 光如何在以太中傳播。注釋中提到“光能從節(jié)點(diǎn)激發(fā),沿著路徑傳播”,“垂直標(biāo)量壓縮(Perpendicular Scalar Compression)作為光的起源”,以及“光子不沿波的路徑傳播”。圖源:robertedwardgrant.com
但奧卡姆剃刀追求的“簡(jiǎn)潔”,不應(yīng)被簡(jiǎn)單化理解為降低理解門(mén)檻。實(shí)際上,我們并沒(méi)有確鑿證據(jù)表明自然界總是遵循最簡(jiǎn)單的規(guī)律。隨著科學(xué)研究的深入,許多理論反而變得更加復(fù)雜,因?yàn)樾掳l(fā)現(xiàn)的現(xiàn)象往往需要更精細(xì)的解釋框架。
奧卡姆強(qiáng)調(diào)的是“必要”——何為“必要”,取決于要解釋的現(xiàn)象。
以廣義相對(duì)論為例,雖然它的數(shù)學(xué)框架遠(yuǎn)比牛頓力學(xué)復(fù)雜,但這種復(fù)雜性是必要的,因?yàn)樗晒忉屃怂墙拯c(diǎn)進(jìn)動(dòng)、引力紅移等經(jīng)典力學(xué)無(wú)法闡明的現(xiàn)象。因此,評(píng)判一個(gè)理論時(shí),不能僅以其復(fù)雜程度為標(biāo)準(zhǔn),而應(yīng)該考察其解釋力與復(fù)雜性是否相稱(chēng)。
?圖 4. 《奧卡姆剃刀》,來(lái)自《虛構(gòu)科學(xué)之友》系列插畫(huà). 作者:Ele Willoughby, PhD
相對(duì)地,機(jī)械降神*雖然提供了看似簡(jiǎn)單的解決方案,但這種表面的簡(jiǎn)單性恰恰違背了奧卡姆剃刀的本質(zhì)。
以睡眠癱瘓為例,用“外星人綁架”來(lái)解釋雖然直觀易懂,但這種解釋需要我們額外假設(shè)外星人的存在、其跨越星際的能力、以及選擇性造訪地球等一系列未經(jīng)證實(shí)的前提。相比之下,異態(tài)睡眠(Parasomnia)的神經(jīng)生理學(xué)解釋雖然較為復(fù)雜,但它建立在已知的科學(xué)發(fā)現(xiàn)之上,無(wú)需引入額外的未經(jīng)驗(yàn)證的假設(shè)。
*“機(jī)械降神”(Deus ex Machina)是一種戲劇敘事手法,指在劇情陷入困境時(shí),通過(guò)意外的外部力量或超自然介入強(qiáng)行解決問(wèn)題,最早出現(xiàn)在古希臘悲劇中,在現(xiàn)代文學(xué)和影視中多被視為削弱故事邏輯的生硬轉(zhuǎn)折。
?圖 5. 《哈利·波特與火焰杯》中,哈利與伏地魔在墓地的魔杖對(duì)決。由于兩根魔杖的杖芯來(lái)自同一只鳳凰的羽毛,它們產(chǎn)生了“閃回咒”現(xiàn)象,魔杖之間的連接迫使伏地魔魔杖中的靈魂碎片和受害者影像顯現(xiàn)出來(lái),最終哈利借此機(jī)會(huì)成功逃脫。這個(gè)場(chǎng)景被一些劇評(píng)人評(píng)為哈利波特系列電影中十大機(jī)械降神場(chǎng)景之一。來(lái)源:CBR.com
合理應(yīng)用奧卡姆剃刀,應(yīng)注意避免不必要地引入多重獨(dú)立的解釋機(jī)制,其核心在于排除不可能的假設(shè)。
神經(jīng)病學(xué)領(lǐng)域曾發(fā)生過(guò)一次“烏龍”——“哈瓦那綜合征”。2016年,美國(guó)駐古巴大使館的工作人員報(bào)告出現(xiàn)頭痛、眩暈、注意力和記憶問(wèn)題等癥狀,媒體迅速將其歸因于“聲波攻擊”。隨后,世界各地的外交人員也陸續(xù)報(bào)告類(lèi)似癥狀。然而,這些癥狀在普通人群中也普遍存在,并未呈現(xiàn)出針對(duì)性攻擊所應(yīng)有的系統(tǒng)性特征。
從奧卡姆剃刀的視角來(lái)看,“聲波攻擊”的解釋需要我們接受一系列未經(jīng)證實(shí)的假設(shè):存在能夠定向發(fā)射的聲波武器、攻擊者能夠精確選擇目標(biāo)以及這種武器能在全球范圍內(nèi)部署等。相比之下,將這些癥狀解釋為功能性神經(jīng)障礙或環(huán)境因素(事實(shí)上最終證實(shí)是由蟋蟀的鳴叫聲引起)則簡(jiǎn)單得多。
這個(gè)案例提醒我們,在評(píng)估數(shù)個(gè)競(jìng)爭(zhēng)性假說(shuō)時(shí),奧卡姆剃刀的應(yīng)用前提是這些假說(shuō)具有相近的解釋力和預(yù)測(cè)能力,而不是簡(jiǎn)單地選擇表面上看起來(lái)最簡(jiǎn)單的解釋。這一點(diǎn)在當(dāng)代科學(xué)實(shí)踐中顯得尤為重要,現(xiàn)實(shí)世界中的許多問(wèn)題往往具有概率性,并受到觀測(cè)噪聲的影響,這都使得我們需要以更嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)框架來(lái)重新審視“奧卡姆剃刀”原則。
03 當(dāng)奧卡姆剃刀遇到概率——貝葉斯剃刀
當(dāng)代許多問(wèn)題具有概率性,并且受到觀測(cè)噪聲的影響,這使得單純偏好簡(jiǎn)潔的解釋不再適用。統(tǒng)計(jì)學(xué)家哈羅德·杰弗里斯(Harold Jeffreys)在其經(jīng)典著作《概率論》(Theory of Probability)中提出的“定量形式奧卡姆剃刀”,本質(zhì)上是將傳統(tǒng)的奧卡姆剃刀原則數(shù)學(xué)化,并融入貝葉斯概率框架,從而為模型選擇和科學(xué)推理提供了一種基于概率的嚴(yán)格方法。
其中
A表示假設(shè);
B表示觀察到的證據(jù);
P(A)是先驗(yàn)概率,表示在沒(méi)有觀察到具體結(jié)果之前對(duì)每個(gè)假設(shè)的初始信念;
P(B|A) 是似然性(likelihood),表示在給定假設(shè)下觀察到當(dāng)前結(jié)果的概率;
P(B)是證據(jù)的總概率,用于對(duì)結(jié)果進(jìn)行歸一化處理。
用書(shū)中“擲骰子”的例子來(lái)說(shuō)明。假設(shè)有兩個(gè)骰子(一個(gè)六面骰和一個(gè)六十面骰),暗中擲了其中一個(gè),然后告知結(jié)果,讓人猜擲的是哪個(gè)骰子。
嘗試擲出數(shù)字39:
若不考慮投擲結(jié)果,僅憑奧卡姆剃刀原則,會(huì)傾向于選擇更簡(jiǎn)單的六面骰。
而根據(jù)貝葉斯方程,A表示“擲六面骰”或“擲六十面骰”的假設(shè),B表示擲出數(shù)字39的事件,假設(shè)先驗(yàn)概率P(A)均為0.5,P(B)可以視為1,P(B|A)就是在使用某種骰子的條件下擲出39的概率)。那么,
貝葉斯推斷:
? 對(duì)于“擲六面骰”假設(shè),六面骰不可能擲出39,即P(B|A)等于0,最終擲出六面骰的概率P(A|B)也為0。
? 對(duì)于“擲六十面骰”假設(shè),六十面骰子擲出39的P(B|A)等于1/60;將這個(gè)值與先驗(yàn)概率0.5相乘,得到后驗(yàn)概率為1/120。
比較這兩個(gè)假設(shè),結(jié)果一目了然,六十面骰比六面骰更有可能。
嘗試擲出數(shù)字5:
現(xiàn)在假設(shè)擲出的數(shù)字是5,這個(gè)結(jié)果既可能是六面骰也可能是六十面骰,其先驗(yàn)概率相同(假設(shè)無(wú)偏),那么兩個(gè)骰子的可能性是否相等?
實(shí)際上在這種情況下,奧卡姆剃刀和貝葉斯推斷還是會(huì)認(rèn)為,更簡(jiǎn)單的假設(shè)(即六面骰)應(yīng)該被優(yōu)先考慮。
貝葉斯推斷:
先驗(yàn)概率0.5保持不變,六十面骰擲出數(shù)字5的概率仍是1/60,六面骰擲出數(shù)字5的概率變?yōu)?/6。
那么,計(jì)算下來(lái):
六十面骰擲出5的后驗(yàn)概率,是1/120,
六面骰擲出5的后驗(yàn)概率,是1/12。
比較兩種假設(shè),六面骰的概率比六十面骰高十倍,所以更可能是六面骰。
在這個(gè)案例中,為了比較不同模型的證據(jù)強(qiáng)度,杰弗里斯提出了貝葉斯因子(Bayes Factor),用數(shù)學(xué)計(jì)算直接量化了奧卡姆剃刀。
貝葉斯因子,定義為兩模型邊際似然的比值。
若貝葉斯因子顯著大于1,則支持模型A,反之則支持模型B。
物理學(xué)家約翰·馮·諾伊曼曾說(shuō)過(guò):“用四個(gè)參數(shù)我可以擬合一頭大象,用五個(gè)參數(shù)我可以讓他搖動(dòng)鼻子?!绷炕蟮膴W卡姆剃刀,能夠在不同復(fù)雜度的模型間進(jìn)行概率比較,而不再依賴于確定性的判斷。
當(dāng)然,六十面骰也會(huì)擲出5 點(diǎn),就像復(fù)雜解釋有時(shí)也是正確的。但如果簡(jiǎn)單和復(fù)雜模型、理論或假設(shè)都能同樣很好地解釋數(shù)據(jù),那么根據(jù)“奧卡姆剃刀+貝葉斯推斷”,簡(jiǎn)單的模型更可能是產(chǎn)生這些數(shù)據(jù)的來(lái)源。
計(jì)算微生物代謝通量分布
假設(shè)在一條微生物代謝通路中,1摩爾代謝物A 可以通過(guò)三種中間體(B、C或D)轉(zhuǎn)化為1摩爾的代謝物E。研究者需要確定實(shí)際的代謝通量分布。
?圖6. 微生物的3條代謝通路
最簡(jiǎn)單的假設(shè)是代謝僅通過(guò)單一通路(中間體B、C或D),其歸一化值(normalized value)為1。這種假設(shè)符合奧卡姆剃刀原則,單一通路顯然比三條通路更簡(jiǎn)單。
然而,實(shí)驗(yàn)數(shù)據(jù)本身大多存在噪聲,單一通路的假設(shè)并不能完全解釋所有數(shù)據(jù)。因此,通過(guò)最大似然法或貝葉斯方法將實(shí)驗(yàn)數(shù)據(jù)和噪聲擬合到模型中,也是常見(jiàn)的數(shù)據(jù)處理方法。
? 貝葉斯方法,采用奧卡姆剃刀原則,仍會(huì)傾向于最簡(jiǎn)單的模型,因此這類(lèi)方法的典型結(jié)果是預(yù)測(cè)所有代謝都通過(guò)其中一條通路(如通路B)。
? 最大似然方法,則傾向于使數(shù)據(jù)與模型擬合,因此可能會(huì)引入一個(gè)更復(fù)雜的模型,例如90%的代謝通過(guò)通路B,大約5%的通過(guò)通路C和D。
如此看來(lái),偏好簡(jiǎn)單解決方案的貝葉斯方法,可能會(huì)將科學(xué)家推向“真理”的反方向。
但這不意味著當(dāng)下奧卡姆剃刀不再適用。事實(shí)上,基于真實(shí)情況的復(fù)雜方法,也可能會(huì)導(dǎo)致錯(cuò)誤,例如將實(shí)驗(yàn)噪聲錯(cuò)誤地?cái)M合到非活躍的代謝路徑中。而使用簡(jiǎn)單模型,能讓噪聲能夠保持其噪聲特性,而不是被過(guò)度擬合到模型參數(shù)中,這是簡(jiǎn)單模型在生物學(xué)研究中的另一個(gè)重要優(yōu)勢(shì)。
實(shí)驗(yàn)和理論研究已經(jīng)證明了噪聲在生物系統(tǒng)中扮演著重要角色,例如保證代謝系統(tǒng)的可控制性。如果將噪聲擬合到確定性模型中,可能會(huì)忽略噪聲的功能性作用,從而得出錯(cuò)誤結(jié)論。
04 機(jī)器學(xué)習(xí)如何從簡(jiǎn)潔原則吸收養(yǎng)料
在機(jī)器學(xué)習(xí)實(shí)踐中,如何權(quán)衡模型的簡(jiǎn)潔性與復(fù)雜性一直是個(gè)重要議題。假設(shè)要訓(xùn)練一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的視覺(jué)識(shí)別模型,下圖中的兩個(gè)不同復(fù)雜程度的模型在訓(xùn)練數(shù)據(jù)上分類(lèi)性能相當(dāng),應(yīng)該選擇哪個(gè)模型進(jìn)行進(jìn)一步的訓(xùn)練呢?
?圖7. 兩個(gè)不同復(fù)雜度的視覺(jué)識(shí)別模型示例。圖源:Medium
比較多個(gè)模型并不簡(jiǎn)單。
如果只根據(jù)奧卡姆剃刀,無(wú)疑是選擇圖7a中的簡(jiǎn)單模型。但更復(fù)雜的模型(有更多的隱藏層和濾波器),總能更好地?cái)M合數(shù)據(jù)。模型圖7b相對(duì)7a更復(fù)雜,能解釋的數(shù)據(jù)更多(模型容量更大),在更廣泛的可能數(shù)據(jù)集上的表現(xiàn)可能就更好。
可是,如果只追求這種“完美擬合”,模型可能因?yàn)檫^(guò)度參數(shù)化而難以泛化,即出現(xiàn)過(guò)擬合(overfitting)。我們真正需要的是一個(gè)能良好泛化的模型,即在未見(jiàn)過(guò)的數(shù)據(jù)示例上表現(xiàn)良好。
?圖8. 復(fù)雜模型受到懲罰的基本原理.
在圖中,水平軸代表了所有可能的數(shù)據(jù)集空間D,而貝葉斯規(guī)則根據(jù)模型對(duì)實(shí)際數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確度來(lái)給予相應(yīng)的獎(jiǎng)勵(lì),這種預(yù)測(cè)能力通過(guò)D空間上的歸一化概率分布來(lái)度量,給定模型Hi條件下的數(shù)據(jù)概率P(D|Hi)被稱(chēng)為模型Hi的證據(jù)。
一個(gè)簡(jiǎn)單模型H1只能做出有限范圍的預(yù)測(cè),如P(D|H1)所示;而一個(gè)參數(shù)更多的模型H2能夠預(yù)測(cè)更多種類(lèi)的數(shù)據(jù)集。然而,這種復(fù)雜性也相應(yīng)地付出了預(yù)測(cè)強(qiáng)度上的代價(jià),對(duì)于特定數(shù)據(jù)集C1,H2對(duì)數(shù)據(jù)集的預(yù)測(cè)強(qiáng)度反而不如H1。假設(shè)兩個(gè)模型具有相同的先驗(yàn)概率,那么如果數(shù)據(jù)集落在區(qū)域C1中,簡(jiǎn)單模型H1將是更可能的模型。
圖源:Hoffmann R, Minkin VI, Carpenter BK. Ockham's Razor and Chemistry. HYLE--International Journal for Philosophy of Chemistry . 1997;3:3-28.
因此,模型的選擇需要在擬合能力和泛化能力之間找到平衡。為了解決這一問(wèn)題提出的一系列理論方法,都能看到奧卡姆剃刀的“如無(wú)必要,勿增實(shí)體”原則的影響。
例如,通過(guò)限制模型的復(fù)雜度來(lái)提高模型的泛化能力的正則化技術(shù)(regularization)。正則化通過(guò)在模型的損失函數(shù)中添加一個(gè)正則化項(xiàng)(regularization term),對(duì)模型的復(fù)雜度進(jìn)行懲罰,從而約束模型的參數(shù),使其不會(huì)過(guò)度依賴訓(xùn)練數(shù)據(jù)中的噪聲,以此提高模型的穩(wěn)健性。常見(jiàn)的正則化方法包括L1正則化、L2正則化,以及針對(duì)神經(jīng)網(wǎng)絡(luò)的Dropout等。值得注意的是,引入正則化不意味著簡(jiǎn)單的模型一定要好于復(fù)雜的模型。
?圖9. 一階、三階、二十階和一千階多項(xiàng)式回歸擬合(品紅色;從左到右)的數(shù)據(jù)來(lái)自三階多項(xiàng)式函數(shù)(綠色)生成的數(shù)據(jù)。三階和一千階模型都實(shí)現(xiàn)了低預(yù)測(cè)誤差。圖源:[3]
納夫塔利·蒂什比(Naftali Tishby)等人提出的信息瓶頸理論(Information Bottleneck, IB),最初旨在解釋機(jī)器學(xué)習(xí)模型如何在訓(xùn)練過(guò)程中壓縮輸入數(shù)據(jù)并提取有用信息。其核心思想是:在輸入X和輸出Y之間找到一個(gè)中間表征T,使得T盡可能壓縮X的信息,同時(shí)T盡可能保留與Y相關(guān)的信息。信息瓶頸實(shí)現(xiàn)了對(duì)輸入信息的壓縮,通過(guò)保留關(guān)鍵信息:確保壓縮后的表示(representation)仍能有效預(yù)測(cè)輸出,避免過(guò)度簡(jiǎn)化導(dǎo)致信息丟失。類(lèi)似于奧卡姆剃刀的“如無(wú)必要,勿增實(shí)體”原則。
?圖 10. 信息瓶頸示意圖.(a)信息瓶頸,(b)作為信息瓶頸的自編碼器,以及(c)作為信息瓶頸的常規(guī)的多層神經(jīng)網(wǎng)絡(luò). 圖源:Ghojogh, Benyamin & Ghodsi, Ali. (2024). PAC Learnability and Information Bottleneck in Deep Learning: Tutorial and Survey. 10.31219/osf.io/vqxh8.
而信息瓶頸理論的具體工具,例如自編碼器(autoencoder),可通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)的低維表示。自編碼器通常由以下三個(gè)部分組成:編碼器(將輸入X映射到低維表示T即“瓶頸層”)、潛在表示與解碼器(將T重構(gòu)為輸出X,盡可能接近原始輸入X)。自編碼器的瓶頸層強(qiáng)制數(shù)據(jù)通過(guò)低維表示,類(lèi)似于信息瓶頸中的壓縮過(guò)程。自編碼器這種通過(guò)低維表示和重構(gòu)誤差優(yōu)化實(shí)現(xiàn)信息壓縮的方式,符合奧卡姆剃刀對(duì)復(fù)雜性的約束。而后來(lái)出現(xiàn)的變分自編碼器,進(jìn)一步將信息瓶頸與概率建模結(jié)合,通過(guò)最大化證據(jù)下界實(shí)現(xiàn)信息壓縮,對(duì)應(yīng)貝葉斯推斷下的奧卡姆剃刀。
?圖 11. 智能系統(tǒng)結(jié)構(gòu)與工作原理. 來(lái)源:Wolff G. Information compression as a unifying principle in human learning, perception, and cognition, and as a foundation for the SP Theory of Intelligence. Research OUTREACH . 2019;(109).
至于多位學(xué)者(如Hinton、Schmidhuber等)提出的“壓縮=智能”(Compression as Intelligence),其核心邏輯是智能系統(tǒng)能夠從大量數(shù)據(jù)中提取關(guān)鍵規(guī)律,忽略冗余信息。例如,人類(lèi)可以從少量示例中學(xué)習(xí)通用規(guī)則(如語(yǔ)言語(yǔ)法)。壓縮不僅僅是減少數(shù)據(jù)量,更重要的是發(fā)現(xiàn)數(shù)據(jù)背后的潛在規(guī)律(如物理定律、統(tǒng)計(jì)模式)。通過(guò)壓縮得到的簡(jiǎn)潔規(guī)律能夠推廣到新場(chǎng)景,解決未見(jiàn)過(guò)的問(wèn)題。不止機(jī)器,大腦也通過(guò)壓縮信息(如抽象概念)實(shí)現(xiàn)高效記憶和推理。和奧卡姆一樣,“壓縮=智能”都強(qiáng)調(diào)了簡(jiǎn)約性在智能行為中的核心作用。
在可解釋機(jī)器學(xué)習(xí)領(lǐng)域中,同樣存在偏好簡(jiǎn)單的模型(線性模型或決策樹(shù)),例如局部可解釋模型(LIME)、SHAP值。
?圖12. LIME示意圖. 圖源:Tyagi, Swati. (2022). Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions. 10.48550/arXiv.2209.09362.
局部可解釋模型:當(dāng)無(wú)法全局使用簡(jiǎn)單模型時(shí),在局部區(qū)域內(nèi)用簡(jiǎn)單模型(如線性模型)近似復(fù)雜模型的決策,從而提供對(duì)預(yù)測(cè)結(jié)果的直觀解釋。
?圖13. SHAP 模型示例。
a)使用SHAP的事件分類(lèi)器的局部解釋的示意圖。
b)使用瀑布圖本地解釋。
圖源:Pezoa, Raquel & Salinas, Luis & Torres, Claudio. (2023). Explainability of High Energy Physics events classification using SHAP. Journal of Physics: Conference Series. 2438. 012082. 10.1088/1742-6596/2438/1/012082.
SHAP值:通過(guò)博弈論方法,分配每個(gè)特征對(duì)模型預(yù)測(cè)的貢獻(xiàn),將模型的預(yù)測(cè)結(jié)果分解為各個(gè)特征的貢獻(xiàn)值之和,既適用于單個(gè)預(yù)測(cè),也可以用于整個(gè)數(shù)據(jù)集的全局解釋。
這些對(duì)局部/單個(gè)輸入重要性進(jìn)行量化的方法,說(shuō)明奧卡姆剃刀在可解釋機(jī)器學(xué)習(xí)中的應(yīng)用體現(xiàn)為一種簡(jiǎn)約性與解釋力的平衡。
05 約束簡(jiǎn)約性與組件簡(jiǎn)約性
然而,“簡(jiǎn)約性”是一個(gè)多維度的概念,當(dāng)人們談?wù)撃P偷暮?jiǎn)約性時(shí),對(duì)其有不同的甚至相互矛盾的看法。
有時(shí),人們會(huì)將“簡(jiǎn)約性”(Parsimony)和“稀疏性”(Sparsity)混淆,但兩者在模型設(shè)計(jì)中具有本質(zhì)區(qū)別。
具體來(lái)看,稀疏模型雖然有許多參數(shù),但大部分參數(shù)為零或接近零,只有少數(shù)參數(shù)對(duì)給定模型的輸入敏感。因此,一個(gè)稀疏模型并不比一個(gè)參數(shù)較少但對(duì)多種輸入都有響應(yīng)的密集模型更簡(jiǎn)約。
最近發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)上的一篇論文[3],區(qū)分了兩種不同的簡(jiǎn)約性——約束簡(jiǎn)約性與組件簡(jiǎn)約性。
?圖14. 約束簡(jiǎn)約性與組件簡(jiǎn)約性。
左圖對(duì)應(yīng)“約束簡(jiǎn)約性”。簡(jiǎn)約性更強(qiáng)的模型(黃色)對(duì)事件的概率分配集中在較小的范圍內(nèi),而更復(fù)雜的模型(紫色)則廣泛地分散其預(yù)測(cè)。下:簡(jiǎn)約性更強(qiáng)的模型(黃色)捕捉到更少的現(xiàn)象子空間,而更復(fù)雜的模型(紫色)可以容納這些現(xiàn)象。
右圖對(duì)應(yīng)“組件簡(jiǎn)約性”。上:簡(jiǎn)約性更強(qiáng)的模型(黃色)使用比更復(fù)雜模型(紫色)更少的輸入變量。下:簡(jiǎn)約性更強(qiáng)的模型(黃色)假設(shè)比更復(fù)雜模型(紫色)更少的潛在變量/原因。圖源:Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
所謂“約束簡(jiǎn)約性”,通常體現(xiàn)為具有較少參數(shù)或有效參數(shù)的模型,具有較少表達(dá)性的函數(shù)形式、更精確的先驗(yàn)分布、更短的描述長(zhǎng)度,以及更低的秩或其他標(biāo)準(zhǔn)。建模者常會(huì)意識(shí)到目標(biāo)現(xiàn)象與模型之間的差距,當(dāng)這種差距存在時(shí)(無(wú)論是故意還是無(wú)意),模型就會(huì)過(guò)擬合,繼而引發(fā)“不適用”問(wèn)題。在其他條件相同的情況下,受約束較少的模型可以從數(shù)據(jù)中提取更多的模式,因此通常面臨不適用的風(fēng)險(xiǎn)較低。
而“組件簡(jiǎn)約性”,將模型的復(fù)雜性定義為具有有意義的組件的數(shù)量。其中組件可以包括變量的類(lèi)型或?qū)嵗?、?dú)立原因或模型中表示的不同過(guò)程。
以建模人類(lèi)語(yǔ)言為例,一個(gè)組件精簡(jiǎn)的模型會(huì)試圖用一套最小的語(yǔ)法規(guī)則來(lái)解釋人類(lèi)語(yǔ)言的豐富性。例如,喬姆斯基的普遍語(yǔ)法學(xué)說(shuō)提出,少量的基本規(guī)則可以解釋世界各地使用的各種語(yǔ)言的廣泛多樣性。反之,一個(gè)不那么精簡(jiǎn)的模型,所使用的語(yǔ)法規(guī)則更大,雖然可能更精確地解釋不同語(yǔ)言的結(jié)構(gòu),但其組件更為復(fù)雜,假設(shè)了更多的規(guī)則。
區(qū)別了兩種簡(jiǎn)約性,能更清晰地理解何為簡(jiǎn)潔模型。心理學(xué)和神經(jīng)科學(xué)研究中,認(rèn)知實(shí)驗(yàn)常通過(guò)控制和觀察特定的實(shí)驗(yàn)條件,研究人類(lèi)或動(dòng)物的認(rèn)知功能,如感知、記憶、注意力、決策等。類(lèi)似地,在深度學(xué)習(xí)領(lǐng)域,這又被稱(chēng)為“消融研究”(ablation study),即將模型視為參與者,系統(tǒng)地移除模型的一部分以評(píng)估其對(duì)性能的影響,從而獲得對(duì)復(fù)雜模型的洞察,由此判斷究竟是簡(jiǎn)單模型還是復(fù)雜模型。
例如,在評(píng)估一種未經(jīng)測(cè)試的藥物的效果時(shí),如果忽略因果圖上的關(guān)鍵中介變量,可能會(huì)得出完全不同的結(jié)論。例如,某種藥物可能通過(guò)中介變量(比如藥物在體內(nèi)的代謝過(guò)程)間接影響治療效果,但如果忽略了這一點(diǎn),我們可能會(huì)錯(cuò)誤地認(rèn)為藥物無(wú)效或效果顯著。因此,為了更準(zhǔn)確地代表和解釋世界,往往需要使用因果發(fā)現(xiàn),增加模型的復(fù)雜性。
再舉一個(gè)例子,樂(lè)高的價(jià)格和包裝盒上標(biāo)注的“最小年齡”是否相關(guān)?如果只簡(jiǎn)單看這兩個(gè)變量,可能會(huì)得出“年齡越大,價(jià)格越高”的結(jié)論。但實(shí)際上,這種相關(guān)性可能取決于重要的中介變量,比如樂(lè)高零件的數(shù)量和重量。更復(fù)雜的樂(lè)高套裝通常零件更多、重量更大,因此價(jià)格更高,但也可能更適合年齡較大的孩子。要解釋價(jià)格與“最小年齡”兩者間的關(guān)系,就需要引入更多中介變量,構(gòu)建更復(fù)雜的模型,但這是必要的。
06 復(fù)雜性視角下, 奧卡姆剃刀依舊寶刀未老嗎?
近來(lái),復(fù)雜的數(shù)據(jù)驅(qū)動(dòng)型人工智能(AI)模型的興起,向簡(jiǎn)潔假設(shè)發(fā)起了挑戰(zhàn)。以AlphaFold為例,這一突破性技術(shù)通過(guò)高精度預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),徹底改變了生物學(xué)領(lǐng)域。這些依賴大量數(shù)據(jù)和復(fù)雜架構(gòu)的 AI 系統(tǒng),已經(jīng)在許多領(lǐng)域超越了更簡(jiǎn)單、更傳統(tǒng)的模型。
在語(yǔ)言學(xué)研究方面,喬姆斯基試圖通過(guò)一套“節(jié)儉”的普遍語(yǔ)法規(guī)則,來(lái)解釋人類(lèi)語(yǔ)言的豐富性和表達(dá)性。而大語(yǔ)言模型(LLMs)則采用了截然不同的路徑:沒(méi)有強(qiáng)烈的先驗(yàn)假設(shè),而是從大量數(shù)據(jù)中學(xué)習(xí),生成人類(lèi)樣式的連貫文本。盡管這些模型非常復(fù)雜,但提供了傳統(tǒng)理論無(wú)法提供的科學(xué)見(jiàn)解。
那么,奧卡姆剃刀依舊有討論的價(jià)值嗎?
Marina Dubova等人認(rèn)為,過(guò)于嚴(yán)格地遵循奧卡姆剃刀原則,可能會(huì)錯(cuò)過(guò)有價(jià)值的見(jiàn)解,甚至導(dǎo)致模型出現(xiàn)錯(cuò)誤。例如,在神經(jīng)科學(xué)中,用簡(jiǎn)單模型解釋實(shí)時(shí)腦掃描,結(jié)果往往是檢測(cè)到大腦呈周期性活動(dòng)模式,而實(shí)際上,腦活動(dòng)是隨著時(shí)間逐漸變化的。這些簡(jiǎn)單模型依賴于對(duì)腦功能的簡(jiǎn)化假設(shè),未能考慮到神經(jīng)過(guò)程的復(fù)雜性。同樣,在藥理學(xué)中,如果忽略了患者年齡、遺傳背景或既往健康狀況等重要特征,可能會(huì)導(dǎo)致藥物模型對(duì)特定個(gè)體的反應(yīng)預(yù)測(cè)不準(zhǔn)確。
此外,復(fù)雜模型靈活性更高,能夠考慮到簡(jiǎn)單模型可能忽略的廣泛因素和相互作用。這種靈活性在氣候研究等復(fù)雜系統(tǒng)中尤為明顯,這些領(lǐng)域中的模型通常會(huì)包含從大氣動(dòng)力學(xué)到洋流等各種各樣的變量。有趣的是,最近的研究發(fā)現(xiàn),基于集合的方法,即整合多個(gè)不同模型,其氣候預(yù)測(cè)的準(zhǔn)確性相較依賴單一模型要好得多。盡管這些模型在某些方面可能會(huì)相互矛盾,但通過(guò)匯集它們的見(jiàn)解,能夠?yàn)檠芯空咛峁└鼮樨S富和可靠的氣候模式理解。
但是,簡(jiǎn)約性也確實(shí)引領(lǐng)了科學(xué)的發(fā)展。以愛(ài)因斯坦為例,他對(duì)簡(jiǎn)約性很是推崇。他有一句格言:“萬(wàn)事萬(wàn)物都應(yīng)盡可能地簡(jiǎn)潔,但不能于簡(jiǎn)單?!本唧w到他要解決的問(wèn)題,愛(ài)因斯坦指出:從簡(jiǎn)單的理論出發(fā)生成復(fù)雜的輸出很容易,但通常逆向由復(fù)雜輸出推出簡(jiǎn)單模型就很難。因?yàn)榧词瑰e(cuò)誤的理論也能做出正確的預(yù)測(cè),而且總會(huì)存在無(wú)限數(shù)量的理論(其中大多數(shù)尚未被構(gòu)想出來(lái))能夠正確解釋任何有限數(shù)量的觀測(cè)數(shù)據(jù)。因此,逆問(wèn)題沒(méi)有唯一解。
在1905年發(fā)表他的狹義相對(duì)論方程后,愛(ài)因斯坦努力尋找能夠包含重力和加速度的相對(duì)論定律。他最初的方法是追求完整性——試圖讓理論包含盡可能多的數(shù)據(jù)——而不是簡(jiǎn)單性。他構(gòu)建了盡可能包含更多觀測(cè)數(shù)據(jù)的方程,然后試圖從這些方程出發(fā),反向構(gòu)建一個(gè)簡(jiǎn)單的統(tǒng)一理論。然而,在花費(fèi)了大約十年的時(shí)間,不成功地研究了一個(gè)又一個(gè)復(fù)雜的方程之后,愛(ài)因斯坦最終改變了策略,只研究最簡(jiǎn)單和最優(yōu)雅的方程的方法,并在之后才將它們與物理事實(shí)進(jìn)行測(cè)試。這最終讓他成功發(fā)現(xiàn)了廣義相對(duì)論。而這段經(jīng)歷也促使他重新評(píng)估了簡(jiǎn)單性在科學(xué)中的作用,并為理論構(gòu)建中奧卡姆剃刀的有用性提供了寶貴的見(jiàn)解。他寫(xiě)道:
“一個(gè)理論可以通過(guò)經(jīng)驗(yàn)來(lái)檢驗(yàn),但無(wú)法從經(jīng)驗(yàn)出發(fā)構(gòu)建一個(gè)理論,[并且]如此復(fù)雜的方程只能通過(guò)發(fā)現(xiàn)一個(gè)邏輯上簡(jiǎn)單的數(shù)學(xué)條件來(lái)確定,該條件完全或幾乎完全決定了這些方程?!?/strong>
只不過(guò),之后愛(ài)因斯坦一直醉心于大一統(tǒng)理論,試圖用一個(gè)方程來(lái)解釋所有物理學(xué)。但愛(ài)因斯坦之后的物理學(xué)研究卻一無(wú)所獲,這未嘗不說(shuō)明過(guò)度依賴簡(jiǎn)約性假設(shè),同樣是引入了不必要的實(shí)體(簡(jiǎn)單的最美),偏離了奧卡姆剃刀的原意。值得注意的是最近因斯坦稱(chēng)之為他“最大失誤”的宇宙學(xué)常數(shù)(不夠簡(jiǎn)潔),最近又以暗能量重新出現(xiàn)。
類(lèi)似的簡(jiǎn)約性原則在近來(lái)的生命科學(xué)領(lǐng)域同樣得到了印證。以神經(jīng)科學(xué)為例,工作記憶計(jì)算模型包括成千上萬(wàn)個(gè)神經(jīng)元,這些神經(jīng)元的學(xué)習(xí)動(dòng)力學(xué)由它們所在區(qū)域決定。從單個(gè)神經(jīng)元及其相互作用的層面上解釋困難重重,但當(dāng)我們抽象到腦區(qū)層面,該模型就能夠清晰地解釋工作記憶現(xiàn)象。
生命系統(tǒng),則提供了另一個(gè)典型案例。雖然生命現(xiàn)象本身極其復(fù)雜,但對(duì)其的解釋卻可以相對(duì)簡(jiǎn)單。以元胞自動(dòng)機(jī)為例,元胞自動(dòng)機(jī)由大量簡(jiǎn)單的單元(元胞)組成,每個(gè)元胞根據(jù)局部規(guī)則和鄰居狀態(tài)更新自身狀態(tài)。盡管規(guī)則極其簡(jiǎn)單(如康威的“生命游戲”僅用幾條規(guī)則),卻能涌現(xiàn)出復(fù)雜的全局行為(如自組織、模式形成)。
這些研究表明,復(fù)雜系統(tǒng)的行為并不一定需要復(fù)雜的全局控制或額外假設(shè),而是可以通過(guò)簡(jiǎn)單的局部規(guī)則和最小化的實(shí)體來(lái)實(shí)現(xiàn)。這正是奧卡姆剃刀的精髓:用盡可能少的假設(shè)和規(guī)則解釋現(xiàn)象。人工生命研究的進(jìn)展也進(jìn)一步表明,即使是基于規(guī)則構(gòu)建的虛擬生物,也能展現(xiàn)出智能和適應(yīng)性行為,生動(dòng)地展示了簡(jiǎn)約性與復(fù)雜性的辯證統(tǒng)一。
總而言之,對(duì)人工智能時(shí)代奧卡姆剃刀原理的討論,啟發(fā)我們用新的思考方式來(lái)解決科學(xué)問(wèn)題。多種多樣的模型可以貢獻(xiàn)出更全面的理解,研究人員不應(yīng)受限于單一簡(jiǎn)單的解釋。簡(jiǎn)約性和復(fù)雜性,并非對(duì)立的概念,而是互補(bǔ)的工具。科學(xué)家在探索問(wèn)題時(shí),需要根據(jù)具體的研究背景、證據(jù)以及問(wèn)題的需求,審慎地決定何時(shí)采用簡(jiǎn)約性,何時(shí)引入復(fù)雜性。
建模過(guò)程不僅要關(guān)乎建模者的目標(biāo)和背景,還取決于科學(xué)本身的演進(jìn)。人工智能時(shí)代,統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)及其他領(lǐng)域的的不斷進(jìn)展,正在重塑我們對(duì)簡(jiǎn)約性與復(fù)雜性的認(rèn)知:簡(jiǎn)約性并非萬(wàn)能,復(fù)雜性也非累贅,關(guān)鍵在于如何根據(jù)問(wèn)題的本質(zhì)與需求,在兩者之間找到動(dòng)態(tài)平衡。而科學(xué)的未來(lái),就在于如何在簡(jiǎn)約與復(fù)雜之間,找到那條通向更深刻理解的道路。
參考文獻(xiàn):
1. https://www.thecollector.com/ockham-mental-language-speaking-minds/
2. https://academic.oup.com/brain/article/145/6/1870/6575832?login=false
3. Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.