網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

教AI「擇偶生娃」，復(fù)刻自然演化！上交校友提名最佳論文

2025-08-26 17:22:31　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇好困

【新智元導(dǎo)讀】Sakana AI以自然演化為靈感，提出了一種全新的模型融合進(jìn)化方法M2N2。通過(guò)引入自然界的「擇偶機(jī)制」，AI可以像生物一樣「競(jìng)爭(zhēng)、擇偶、繁衍」。在當(dāng)前全球算力短缺、模型訓(xùn)練實(shí)際規(guī)模受制的情況下，Sakana AI借助自然界的啟示，為模型融合探索出了一條新路。

如果讓AI模型像生物一樣演化，它們會(huì)不會(huì)彼此競(jìng)爭(zhēng)、協(xié)作、結(jié)合，并繁衍出越來(lái)越強(qiáng)的后代？

「物競(jìng)天擇，適者生存」的進(jìn)化論思想，是否也適用于AI模型？

就在最近，Sakana AI從自然演化的過(guò)程中汲取靈感，提出了一種利用「競(jìng)爭(zhēng)與吸引力」的自然選擇機(jī)制，來(lái)提升AI模型融合效果的方法。

Sakana AI認(rèn)為，AI模型的發(fā)展，也和自然演化的過(guò)程類(lèi)似：

集體智慧從群體中涌現(xiàn)。

比如：自然并沒(méi)有創(chuàng)造單一的、巨大的單體生物，而是孕育了一個(gè)多樣化的生態(tài)系統(tǒng)。在自然界的生態(tài)系統(tǒng)中，每一個(gè)個(gè)體通過(guò)競(jìng)爭(zhēng)、合作與組合來(lái)適應(yīng)環(huán)境、繁衍后代。

這正是Sakana眼中的AI世界該有的樣子：

當(dāng)人類(lèi)不再試圖構(gòu)建一個(gè)龐大的單體AI，而是演化出整個(gè)AI生態(tài)系統(tǒng)，各個(gè)專業(yè)AI模型在其中競(jìng)爭(zhēng)、合作、融合……這會(huì)帶來(lái)什么？

他們沒(méi)有簡(jiǎn)單停留在想象階段，而是一直在探索模型融合，試圖利用演化，來(lái)破解現(xiàn)有模型融合的「最佳配方」。

現(xiàn)在，他們把這個(gè)「最佳配方」公開(kāi)了！

目前，相關(guān)研究已在GECCO 2025會(huì)議上發(fā)表，并榮獲最佳論文提名獎(jiǎng)！

論文地址：https://arxiv.org/abs/2508.16204

GitHub：https://github.com/SakanaAI/natural_niches

以往的模型融合，需要人工介入，手動(dòng)定義模型的分割方式（例如，按固定的層或塊）。

能不能讓這個(gè)過(guò)程，也像自然界的演化那樣，自動(dòng)運(yùn)行？

Sakana AI提出了M2N2（Model Merging of Natural Niches，自然生態(tài)位的模型融合），攻克了上述難題。

該方法來(lái)自于自然演化的三個(gè)關(guān)鍵思想：

演化融合邊界：M2N2讓模型的組合更為自由，打破了預(yù)定義的靜態(tài)邊界，大大拓寬了模型組合的探索空間和可能性。如同自然界交換可變長(zhǎng)度的DNA片段，而非整個(gè)染色體。
多樣性競(jìng)爭(zhēng)：M2N2模仿了自然界的「叢林法則」，讓模型們?yōu)榱擞邢薜馁Y源（即訓(xùn)練集中的數(shù)據(jù)點(diǎn)）展開(kāi)競(jìng)爭(zhēng)，迫使模型走向?qū)I(yè)化，尋找自己的「生態(tài)位」，從而創(chuàng)造出一個(gè)由多樣化、高性能專家組成的種群，為優(yōu)質(zhì)模型的「繁衍」提供更多優(yōu)秀的種子模型。
擇偶機(jī)制：M2N2引入了一種「吸引力」啟發(fā)式方法，它會(huì)根據(jù)模型的互補(bǔ)優(yōu)勢(shì)，智能地進(jìn)行配對(duì)融合——即選擇在對(duì)方弱項(xiàng)上表現(xiàn)出色的伙伴，這使得演化搜索的效率大幅提升，也大大降低了模型融合的計(jì)算成本。

這一嘗試的結(jié)果，也令人振奮：M2N2模型融合技術(shù)，開(kāi)始在模型演化中被成功應(yīng)用，表現(xiàn)也優(yōu)于其他演化算法。比如：

從隨機(jī)網(wǎng)絡(luò)演化出的MNIST分類(lèi)器，性能媲美CMA-ES算法，但計(jì)算效率更高。
能夠擴(kuò)展到大型預(yù)訓(xùn)練模型，尤其是在數(shù)學(xué)和網(wǎng)絡(luò)購(gòu)物任務(wù)上，生成的融合模型表現(xiàn)顯著優(yōu)于其他方法。
在模型融合過(guò)程中，還避免了模型微調(diào)中「災(zāi)難性遺忘」的問(wèn)題。

這讓網(wǎng)友Aragon Dev感嘆：

「2025年，智能體真比自己先找到對(duì)象」

M2N2：全新的模型進(jìn)化方法

M2N2通過(guò)引入一種結(jié)合競(jìng)爭(zhēng)、吸引力與帶切分點(diǎn)的模型融合的全新進(jìn)化方法，顯著提升了模型融合的效果。

它首次將模型融合用于從零開(kāi)始訓(xùn)練，并在性能與計(jì)算效率上優(yōu)于所有當(dāng)前的進(jìn)化算法。

研究人員在將M2N2擴(kuò)展至LLM與基于擴(kuò)散的圖像生成模型后，表現(xiàn)出了諸多優(yōu)勢(shì)。比如，它可以

穩(wěn)定融合且避免災(zāi)難性遺忘
兼容不同目標(biāo)訓(xùn)練的模型
通過(guò)避免梯度計(jì)算降低內(nèi)存占用
在無(wú)需原始訓(xùn)練數(shù)據(jù)的情況下保留模型能力

在模型融合中，目標(biāo)是在個(gè)初始模型中找到融合模型的最優(yōu)參數(shù)?，使得通常以任務(wù)分?jǐn)?shù)的和/平均表示的優(yōu)化目標(biāo)最大化。

在M2N2中，研究人員對(duì)融合函數(shù)?做出修改，使融合邊界可進(jìn)化。同時(shí)對(duì)優(yōu)化目標(biāo)，做出調(diào)整以促進(jìn)多樣解。

M2N2消除了固定的模型融合邊界。

為擺脫固定融合邊界的約束，研究人員通過(guò)探索更廣泛的邊界與系數(shù)，逐步擴(kuò)展搜索空間，這一漸進(jìn)引入復(fù)雜度的做法，既拓寬可能性，又保持計(jì)算可控。

對(duì)有限資源的競(jìng)爭(zhēng)，天然會(huì)促進(jìn)多樣性。

研究人員通過(guò)修改優(yōu)化目標(biāo)來(lái)鼓勵(lì)多樣性。通過(guò)限制資源供給，M2N2激發(fā)競(jìng)爭(zhēng)，自然偏好占據(jù)新生態(tài)位的個(gè)體。

他們的具體做法是：

將群體能從某個(gè)樣本中提取的總適應(yīng)度限制為容量。

候選解從獲得的適應(yīng)度，正比于其分?jǐn)?shù)相對(duì)于群體總分的占比。

修改后的目標(biāo)為：

在生物學(xué)中，這種結(jié)合（繁殖）代價(jià)高昂，因此動(dòng)物會(huì)在擇偶過(guò)程中投入大量資源。

M2N2額外考慮父本之間的互補(bǔ)性，通過(guò)逐步引入復(fù)雜度，在保持計(jì)算可控的同時(shí)擴(kuò)大了可探索范圍。

實(shí)驗(yàn)1：進(jìn)化MNIST分類(lèi)器

這項(xiàng)實(shí)驗(yàn)所優(yōu)化的，是一個(gè)總計(jì)19,210個(gè)參數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)。

從零開(kāi)始時(shí)，研究人員隨機(jī)初始化模型。

對(duì)于預(yù)訓(xùn)練模型，研究人員構(gòu)建了兩個(gè)專門(mén)化模型：一個(gè)在數(shù)字0–4上訓(xùn)練，另一個(gè)在數(shù)字5–9上訓(xùn)練。

結(jié)果表明，在從零開(kāi)始時(shí)，與其它模型融合方法相比，M2N2在測(cè)試準(zhǔn)確率上有顯著優(yōu)勢(shì)（圖2左）。

對(duì)從零開(kāi)始訓(xùn)練的模型，切分點(diǎn)與吸引力得分影響很小。但如圖2右所示，當(dāng)從預(yù)訓(xùn)練模型起步時(shí)，切分點(diǎn)變得至關(guān)重要，而吸引力在整個(gè)訓(xùn)練過(guò)程中都能顯著提升性能。

在多樣性方面，圖3左展示了至少被庫(kù)中一個(gè)模型正確標(biāo)注的訓(xùn)練樣本占比——訓(xùn)練覆蓋率。

圖3右側(cè)，展示了群體性能多樣性隨訓(xùn)練的演化：

若所有模型對(duì)同一樣本均對(duì)/均錯(cuò)，則熵為0（無(wú)多樣性）；若模型在預(yù)測(cè)上均勻分裂，熵達(dá)最大1。

從圖3中，可以看出M2N2的模型庫(kù)，很快覆蓋了絕大多數(shù)訓(xùn)練樣本，并在整個(gè)訓(xùn)練過(guò)程中保持高覆蓋。

圖3還展示了所有樣本的平均熵：M2N2在初期熵快速上升，隨后隨著低性能模型的滅絕而逐漸下降。

對(duì)比之下，MAP-Elites通過(guò)保留低性能模型持續(xù)提高多樣性，但未能實(shí)現(xiàn)高覆蓋。

總體來(lái)看：M2N2維持了一個(gè)優(yōu)勢(shì)互補(bǔ)的模型庫(kù)，既促進(jìn)有效融合，又會(huì)在訓(xùn)練推進(jìn)時(shí)系統(tǒng)性地淘汰弱模型。

如圖4顯示，較小的庫(kù)在起步更好，但更快收斂到較差解。

這表明應(yīng)按計(jì)劃的前向次數(shù)來(lái)擴(kuò)展庫(kù)大小。

值得注意的是，上圖中庫(kù)增大并不增加計(jì)算成本（前向次數(shù)不變），但會(huì)增加內(nèi)存占用。對(duì)超大模型，可以將模型庫(kù)存盤(pán)，而非常駐內(nèi)存。

實(shí)驗(yàn)2：LLM數(shù)學(xué)專家與智能體融合

實(shí)驗(yàn)中，研究人員將數(shù)學(xué)專家WizardMath-7B-V1.0，與智能體環(huán)境專家AgentEvol-7B融合，目標(biāo)是在數(shù)學(xué)基準(zhǔn)GSM8k與網(wǎng)頁(yè)購(gòu)物基準(zhǔn)WebShop上表現(xiàn)良好。

實(shí)驗(yàn)結(jié)果表明，表1顯示M2N2得分最高。吸引力與切分點(diǎn)兩項(xiàng)技術(shù)都至關(guān)重要，其中切分點(diǎn)技術(shù)更重要一些。

當(dāng)融合數(shù)學(xué)與智能體技能時(shí)，CMA-ES得分較低，可能由于參數(shù)劃分不佳，這強(qiáng)調(diào)了在優(yōu)化過(guò)程中納入融合邊界的必要性。

如圖5所示，MNIST的發(fā)現(xiàn)，還可推廣到LLM融合。

如左圖，自然生態(tài)位方法保持了高訓(xùn)練覆蓋率；在模型探索不同生態(tài)位的早期，熵上升（右圖）；隨著低性能模型被移除、優(yōu)勢(shì)被聚合，熵逐步下降。

相比之下，MAP-Elites側(cè)重最大化熵，但因?yàn)樗Ａ袅说托阅苣Ｐ?，將犧牲?xùn)練效率與覆蓋；GA 則迅速降低覆蓋與熵，并「貪心」地收斂到其最優(yōu)解，最終使整個(gè)庫(kù)「塌縮」為單一解，熵接近零。

實(shí)驗(yàn)3：融合基于擴(kuò)散的圖像生成模型

在該實(shí)驗(yàn)中，研究人員評(píng)估了M2N2在融合多樣文本到圖像模型中的表現(xiàn)。

初始模型包括針對(duì)日文提示訓(xùn)練的JSDXL，以及主要由英文提示訓(xùn)練的三個(gè)模型：SDXL1.0、SDXL-DPO與Juggernaut-XL-v9。

這些模型共享的基礎(chǔ)模型是SDXL 1.0的架構(gòu)。

模型融合的主要目標(biāo)，是在保留JSDXL理解日文提示能力的同時(shí)，整合各初始模型在圖像生成方面的最佳能力。

表2展示了各模型在測(cè)試集上的表現(xiàn)，可以看出M2N2在測(cè)試集上的NCS分?jǐn)?shù)優(yōu)于所有其他模型。

圖6展示了M2N2的融合模型，如何成功結(jié)合各初始模型的優(yōu)勢(shì)并緩解其弱點(diǎn)，展示了其在追求性能多樣性與質(zhì)量聚合方面的成功。

若不考慮融合模型，可以觀察到每個(gè)初始模型在不同測(cè)試用例上，均可能產(chǎn)出最高與最低質(zhì)量的結(jié)果。

此外，很難找到一個(gè)清晰模式，來(lái)描述每個(gè)模型的專長(zhǎng)，或指導(dǎo)如何構(gòu)造有效的自定義多樣性度量。

M2N2的多樣性保持機(jī)制，通過(guò)自動(dòng)保留那些在其他模型表現(xiàn)不佳的樣本上獨(dú)特出眾的模型，解決了這一難題。

M2N2融合模型，相對(duì)于初始模型有兩點(diǎn)關(guān)鍵改進(jìn)：

生成更逼真的照片，與我們使用真實(shí)照片的訓(xùn)練集更一致；
對(duì)輸入標(biāo)題的語(yǔ)義理解更強(qiáng)。

如圖6中最右列展示，雖然若干初始模型生成了好看的自行車(chē)，但M2N2的融合模型不僅準(zhǔn)確聚焦于標(biāo)題中指明的「車(chē)牌號(hào)顯示區(qū)域」，還生成了更像真實(shí)照片而非合成渲染的圖像。

M2N2在語(yǔ)言理解能力上，也同樣出色。

圖7顯示，M2N2融合模型對(duì)日語(yǔ)與英語(yǔ)都有良好理解。

這種涌現(xiàn)的雙語(yǔ)能力體現(xiàn)了M2N2的一項(xiàng)關(guān)鍵優(yōu)勢(shì)：

它能夠聚合互補(bǔ)能力，同時(shí)避免基于梯度訓(xùn)練常見(jiàn)的災(zāi)難性遺忘。

表3顯示了M2N2融合模型顯著優(yōu)于其他模型，這在統(tǒng)計(jì)上印證了研究人員在定性結(jié)果中的觀察。

模型融合的可行性高度依賴模型間的相似程度，但也存在一定限制：當(dāng)微調(diào)模型與其基座模型顯著偏離（通常由于大量、分歧的訓(xùn)練）時(shí)，融合會(huì)變得不可行。

表3中列出了基于100對(duì)樣本，日文提示與其英文翻譯生成圖像的CLIP特征余弦相似度均值（±標(biāo)準(zhǔn)誤），數(shù)值越高表明跨語(yǔ)言一致性越好。研究人員假設(shè)狀態(tài)表示分歧較大的模型不適合融合。然而，尚無(wú)標(biāo)準(zhǔn)的模型兼容性度量。

若能定義此類(lèi)度量，便可在預(yù)處理（如微調(diào)）中作為正則化使用，從而更好地控制兼容性并提升融合成功率。

研究人員認(rèn)為，共同演化的模型會(huì)受到「保持可融合兼容性」的強(qiáng)烈進(jìn)化壓力。若某個(gè)模型偏離并與其他模型不兼容，將無(wú)法產(chǎn)生「可存活的后代」，致其改進(jìn)停滯并最終滅絕。

驗(yàn)證這一假設(shè)，將有助于理解模型共演化的動(dòng)力學(xué)。此外，將兼容性度量納入吸引力啟發(fā)式，可能促進(jìn)不同「物種」模型的共演化（定義為彼此可融合、但與其他組不可融合的模型群體）。

作者簡(jiǎn)介

Yujin Tang

Yujin Tang是Sakana AI的主任研究科學(xué)家，研究方向包括強(qiáng)化學(xué)習(xí)、機(jī)器人學(xué)、進(jìn)化算法和生成模型等。

他在東京大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位，在早稻田大學(xué)獲得碩士學(xué)位，并在上海交通大學(xué)獲得學(xué)士學(xué)位。

在加入Sakana AI之前，他曾是Google DeepMind和Google Brain的高級(jí)研究科學(xué)家。

參考資料：

https://x.com/SakanaAILabs/status/1959799343088857233%20%20

https://arxiv.org/abs/2508.16204

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.