新智元報(bào)道
編輯:元宇 好困
【新智元導(dǎo)讀】Sakana AI以自然演化為靈感,提出了一種全新的模型融合進(jìn)化方法M2N2。通過(guò)引入自然界的「擇偶機(jī)制」,AI可以像生物一樣「競(jìng)爭(zhēng)、擇偶、繁衍」。在當(dāng)前全球算力短缺、模型訓(xùn)練實(shí)際規(guī)模受制的情況下,Sakana AI借助自然界的啟示,為模型融合探索出了一條新路。
如果讓AI模型像生物一樣演化,它們會(huì)不會(huì)彼此競(jìng)爭(zhēng)、協(xié)作、結(jié)合,并繁衍出越來(lái)越強(qiáng)的后代?
「物競(jìng)天擇,適者生存」的進(jìn)化論思想,是否也適用于AI模型?
就在最近,Sakana AI從自然演化的過(guò)程中汲取靈感,提出了一種利用「競(jìng)爭(zhēng)與吸引力」的自然選擇機(jī)制,來(lái)提升AI模型融合效果的方法。
Sakana AI認(rèn)為,AI模型的發(fā)展,也和自然演化的過(guò)程類(lèi)似:
集體智慧從群體中涌現(xiàn)。
比如:自然并沒(méi)有創(chuàng)造單一的、巨大的單體生物,而是孕育了一個(gè)多樣化的生態(tài)系統(tǒng)。在自然界的生態(tài)系統(tǒng)中,每一個(gè)個(gè)體通過(guò)競(jìng)爭(zhēng)、合作與組合來(lái)適應(yīng)環(huán)境、繁衍后代。
這正是Sakana眼中的AI世界該有的樣子:
當(dāng)人類(lèi)不再試圖構(gòu)建一個(gè)龐大的單體AI,而是演化出整個(gè)AI生態(tài)系統(tǒng),各個(gè)專業(yè)AI模型在其中競(jìng)爭(zhēng)、合作、融合……這會(huì)帶來(lái)什么?
他們沒(méi)有簡(jiǎn)單停留在想象階段,而是一直在探索模型融合,試圖利用演化,來(lái)破解現(xiàn)有模型融合的「最佳配方」。
現(xiàn)在,他們把這個(gè)「最佳配方」公開(kāi)了!
目前,相關(guān)研究已在GECCO 2025會(huì)議上發(fā)表,并榮獲最佳論文提名獎(jiǎng)!
論文地址:https://arxiv.org/abs/2508.16204
GitHub:https://github.com/SakanaAI/natural_niches
以往的模型融合,需要人工介入,手動(dòng)定義模型的分割方式(例如,按固定的層或塊)。
能不能讓這個(gè)過(guò)程,也像自然界的演化那樣,自動(dòng)運(yùn)行?
Sakana AI提出了M2N2(Model Merging of Natural Niches,自然生態(tài)位的模型融合),攻克了上述難題。
該方法來(lái)自于自然演化的三個(gè)關(guān)鍵思想:
演化融合邊界:M2N2讓模型的組合更為自由,打破了預(yù)定義的靜態(tài)邊界,大大拓寬了模型組合的探索空間和可能性。如同自然界交換可變長(zhǎng)度的DNA片段,而非整個(gè)染色體。
多樣性競(jìng)爭(zhēng):M2N2模仿了自然界的「叢林法則」,讓模型們?yōu)榱擞邢薜馁Y源(即訓(xùn)練集中的數(shù)據(jù)點(diǎn))展開(kāi)競(jìng)爭(zhēng),迫使模型走向?qū)I(yè)化,尋找自己的「生態(tài)位」,從而創(chuàng)造出一個(gè)由多樣化、高性能專家組成的種群,為優(yōu)質(zhì)模型的「繁衍」提供更多優(yōu)秀的種子模型。
擇偶機(jī)制:M2N2引入了一種「吸引力」啟發(fā)式方法,它會(huì)根據(jù)模型的互補(bǔ)優(yōu)勢(shì),智能地進(jìn)行配對(duì)融合——即選擇在對(duì)方弱項(xiàng)上表現(xiàn)出色的伙伴,這使得演化搜索的效率大幅提升,也大大降低了模型融合的計(jì)算成本。
這一嘗試的結(jié)果,也令人振奮:M2N2模型融合技術(shù),開(kāi)始在模型演化中被成功應(yīng)用,表現(xiàn)也優(yōu)于其他演化算法。比如:
從隨機(jī)網(wǎng)絡(luò)演化出的MNIST分類(lèi)器,性能媲美CMA-ES算法,但計(jì)算效率更高。
能夠擴(kuò)展到大型預(yù)訓(xùn)練模型,尤其是在數(shù)學(xué)和網(wǎng)絡(luò)購(gòu)物任務(wù)上,生成的融合模型表現(xiàn)顯著優(yōu)于其他方法。
在模型融合過(guò)程中,還避免了模型微調(diào)中「災(zāi)難性遺忘」的問(wèn)題。
這讓網(wǎng)友Aragon Dev感嘆:
「2025年,智能體真比自己先找到對(duì)象」
M2N2:全新的模型進(jìn)化方法
M2N2通過(guò)引入一種結(jié)合競(jìng)爭(zhēng)、吸引力與帶切分點(diǎn)的模型融合的全新進(jìn)化方法,顯著提升了模型融合的效果。
它首次將模型融合用于從零開(kāi)始訓(xùn)練,并在性能與計(jì)算效率上優(yōu)于所有當(dāng)前的進(jìn)化算法。
研究人員在將M2N2擴(kuò)展至LLM與基于擴(kuò)散的圖像生成模型后,表現(xiàn)出了諸多優(yōu)勢(shì)。比如,它可以
穩(wěn)定融合且避免災(zāi)難性遺忘
兼容不同目標(biāo)訓(xùn)練的模型
通過(guò)避免梯度計(jì)算降低內(nèi)存占用
在無(wú)需原始訓(xùn)練數(shù)據(jù)的情況下保留模型能力
在模型融合中,目標(biāo)是在個(gè)初始模型中找到融合模型的最優(yōu)參數(shù)?,使得通常以任務(wù)分?jǐn)?shù)的和/平均表示的優(yōu)化目標(biāo)最大化。
在M2N2中,研究人員對(duì)融合函數(shù)?做出修改,使融合邊界可進(jìn)化。同時(shí)對(duì)優(yōu)化目標(biāo),做出調(diào)整以促進(jìn)多樣解。
M2N2消除了固定的模型融合邊界。
為擺脫固定融合邊界的約束,研究人員通過(guò)探索更廣泛的邊界與系數(shù),逐步擴(kuò)展搜索空間,這一漸進(jìn)引入復(fù)雜度的做法,既拓寬可能性,又保持計(jì)算可控。
對(duì)有限資源的競(jìng)爭(zhēng),天然會(huì)促進(jìn)多樣性。
研究人員通過(guò)修改優(yōu)化目標(biāo)來(lái)鼓勵(lì)多樣性。通過(guò)限制資源供給,M2N2激發(fā)競(jìng)爭(zhēng),自然偏好占據(jù)新生態(tài)位的個(gè)體。
他們的具體做法是:
將群體能從某個(gè)樣本中提取的總適應(yīng)度限制為容量。
候選解從獲得的適應(yīng)度,正比于其分?jǐn)?shù)相對(duì)于群體總分的占比。
修改后的目標(biāo)為:
在生物學(xué)中,這種結(jié)合(繁殖)代價(jià)高昂,因此動(dòng)物會(huì)在擇偶過(guò)程中投入大量資源。
M2N2額外考慮父本之間的互補(bǔ)性,通過(guò)逐步引入復(fù)雜度,在保持計(jì)算可控的同時(shí)擴(kuò)大了可探索范圍。
實(shí)驗(yàn)1:進(jìn)化MNIST分類(lèi)器
這項(xiàng)實(shí)驗(yàn)所優(yōu)化的,是一個(gè)總計(jì)19,210個(gè)參數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)。
從零開(kāi)始時(shí),研究人員隨機(jī)初始化模型。
對(duì)于預(yù)訓(xùn)練模型,研究人員構(gòu)建了兩個(gè)專門(mén)化模型:一個(gè)在數(shù)字0–4上訓(xùn)練,另一個(gè)在數(shù)字5–9上訓(xùn)練。
結(jié)果表明,在從零開(kāi)始時(shí),與其它模型融合方法相比,M2N2在測(cè)試準(zhǔn)確率上有顯著優(yōu)勢(shì)(圖2左)。
對(duì)從零開(kāi)始訓(xùn)練的模型,切分點(diǎn)與吸引力得分影響很小。但如圖2右所示,當(dāng)從預(yù)訓(xùn)練模型起步時(shí),切分點(diǎn)變得至關(guān)重要,而吸引力在整個(gè)訓(xùn)練過(guò)程中都能顯著提升性能。
在多樣性方面,圖3左展示了至少被庫(kù)中一個(gè)模型正確標(biāo)注的訓(xùn)練樣本占比——訓(xùn)練覆蓋率。
圖3右側(cè),展示了群體性能多樣性隨訓(xùn)練的演化:
若所有模型對(duì)同一樣本均對(duì)/均錯(cuò),則熵為0(無(wú)多樣性); 若模型在預(yù)測(cè)上均勻分裂,熵達(dá)最大1。
從圖3中,可以看出M2N2的模型庫(kù),很快覆蓋了絕大多數(shù)訓(xùn)練樣本,并在整個(gè)訓(xùn)練過(guò)程中保持高覆蓋。
圖3還展示了所有樣本的平均熵:M2N2在初期熵快速上升,隨后隨著低性能模型的滅絕而逐漸下降。
對(duì)比之下,MAP-Elites通過(guò)保留低性能模型持續(xù)提高多樣性,但未能實(shí)現(xiàn)高覆蓋。
總體來(lái)看:M2N2維持了一個(gè)優(yōu)勢(shì)互補(bǔ)的模型庫(kù),既促進(jìn)有效融合,又會(huì)在訓(xùn)練推進(jìn)時(shí)系統(tǒng)性地淘汰弱模型。
如圖4顯示,較小的庫(kù)在起步更好,但更快收斂到較差解。
這表明應(yīng)按計(jì)劃的前向次數(shù)來(lái)擴(kuò)展庫(kù)大小。
值得注意的是,上圖中庫(kù)增大并不增加計(jì)算成本(前向次數(shù)不變),但會(huì)增加內(nèi)存占用。對(duì)超大模型,可以將模型庫(kù)存盤(pán),而非常駐內(nèi)存。
實(shí)驗(yàn)2:LLM數(shù)學(xué)專家與智能體融合
實(shí)驗(yàn)中,研究人員將數(shù)學(xué)專家WizardMath-7B-V1.0,與智能體環(huán)境專家AgentEvol-7B融合,目標(biāo)是在數(shù)學(xué)基準(zhǔn)GSM8k與網(wǎng)頁(yè)購(gòu)物基準(zhǔn)WebShop上表現(xiàn)良好。
實(shí)驗(yàn)結(jié)果表明,表1顯示M2N2得分最高。吸引力與切分點(diǎn)兩項(xiàng)技術(shù)都至關(guān)重要,其中切分點(diǎn)技術(shù)更重要一些。
當(dāng)融合數(shù)學(xué)與智能體技能時(shí),CMA-ES得分較低,可能由于參數(shù)劃分不佳,這強(qiáng)調(diào)了在優(yōu)化過(guò)程中納入融合邊界的必要性。
如圖5所示,MNIST的發(fā)現(xiàn),還可推廣到LLM融合。
如左圖,自然生態(tài)位方法保持了高訓(xùn)練覆蓋率;在模型探索不同生態(tài)位的早期,熵上升(右圖);隨著低性能模型被移除、優(yōu)勢(shì)被聚合,熵逐步下降。
相比之下,MAP-Elites側(cè)重最大化熵,但因?yàn)樗A袅说托阅苣P?,將犧牲?xùn)練效率與覆蓋;GA 則迅速降低覆蓋與熵,并「貪心」地收斂到其最優(yōu)解,最終使整個(gè)庫(kù)「塌縮」為單一解,熵接近零。
實(shí)驗(yàn)3:融合基于擴(kuò)散的圖像生成模型
在該實(shí)驗(yàn)中,研究人員評(píng)估了M2N2在融合多樣文本到圖像模型中的表現(xiàn)。
初始模型包括針對(duì)日文提示訓(xùn)練的JSDXL,以及主要由英文提示訓(xùn)練的三個(gè)模型:SDXL1.0、SDXL-DPO與Juggernaut-XL-v9。
這些模型共享的基礎(chǔ)模型是SDXL 1.0的架構(gòu)。
模型融合的主要目標(biāo),是在保留JSDXL理解日文提示能力的同時(shí),整合各初始模型在圖像生成方面的最佳能力。
表2展示了各模型在測(cè)試集上的表現(xiàn),可以看出M2N2在測(cè)試集上的NCS分?jǐn)?shù)優(yōu)于所有其他模型。
圖6展示了M2N2的融合模型,如何成功結(jié)合各初始模型的優(yōu)勢(shì)并緩解其弱點(diǎn),展示了其在追求性能多樣性與質(zhì)量聚合方面的成功。
若不考慮融合模型,可以觀察到每個(gè)初始模型在不同測(cè)試用例上,均可能產(chǎn)出最高與最低質(zhì)量的結(jié)果。
此外,很難找到一個(gè)清晰模式,來(lái)描述每個(gè)模型的專長(zhǎng),或指導(dǎo)如何構(gòu)造有效的自定義多樣性度量。
M2N2的多樣性保持機(jī)制,通過(guò)自動(dòng)保留那些在其他模型表現(xiàn)不佳的樣本上獨(dú)特出眾的模型,解決了這一難題。
M2N2融合模型,相對(duì)于初始模型有兩點(diǎn)關(guān)鍵改進(jìn):
生成更逼真的照片,與我們使用真實(shí)照片的訓(xùn)練集更一致;
對(duì)輸入標(biāo)題的語(yǔ)義理解更強(qiáng)。
如圖6中最右列展示,雖然若干初始模型生成了好看的自行車(chē),但M2N2的融合模型不僅準(zhǔn)確聚焦于標(biāo)題中指明的「車(chē)牌號(hào)顯示區(qū)域」,還生成了更像真實(shí)照片而非合成渲染的圖像。
M2N2在語(yǔ)言理解能力上,也同樣出色。
圖7顯示,M2N2融合模型對(duì)日語(yǔ)與英語(yǔ)都有良好理解。
這種涌現(xiàn)的雙語(yǔ)能力體現(xiàn)了M2N2的一項(xiàng)關(guān)鍵優(yōu)勢(shì):
它能夠聚合互補(bǔ)能力,同時(shí)避免基于梯度訓(xùn)練常見(jiàn)的災(zāi)難性遺忘。
表3顯示了M2N2融合模型顯著優(yōu)于其他模型,這在統(tǒng)計(jì)上印證了研究人員在定性結(jié)果中的觀察。
模型融合的可行性高度依賴模型間的相似程度,但也存在一定限制:當(dāng)微調(diào)模型與其基座模型顯著偏離(通常由于大量、分歧的訓(xùn)練)時(shí),融合會(huì)變得不可行。
表3中列出了基于100對(duì)樣本,日文提示與其英文翻譯生成圖像的CLIP特征余弦相似度均值(±標(biāo)準(zhǔn)誤),數(shù)值越高表明跨語(yǔ)言一致性越好。 研究人員假設(shè)狀態(tài)表示分歧較大的模型不適合融合。然而,尚無(wú)標(biāo)準(zhǔn)的模型兼容性度量。
若能定義此類(lèi)度量,便可在預(yù)處理(如微調(diào))中作為正則化使用,從而更好地控制兼容性并提升融合成功率。
研究人員認(rèn)為,共同演化的模型會(huì)受到「保持可融合兼容性」的強(qiáng)烈進(jìn)化壓力。若某個(gè)模型偏離并與其他模型不兼容,將無(wú)法產(chǎn)生「可存活的后代」,致其改進(jìn)停滯并最終滅絕。
驗(yàn)證這一假設(shè),將有助于理解模型共演化的動(dòng)力學(xué)。此外,將兼容性度量納入吸引力啟發(fā)式,可能促進(jìn)不同「物種」模型的共演化(定義為彼此可融合、但與其他組不可融合的模型群體)。
作者簡(jiǎn)介
Yujin Tang
Yujin Tang是Sakana AI的主任研究科學(xué)家,研究方向包括強(qiáng)化學(xué)習(xí)、機(jī)器人學(xué)、進(jìn)化算法和生成模型等。
他在東京大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,在早稻田大學(xué)獲得碩士學(xué)位,并在上海交通大學(xué)獲得學(xué)士學(xué)位。
在加入Sakana AI之前,他曾是Google DeepMind和Google Brain的高級(jí)研究科學(xué)家。
參考資料:
https://x.com/SakanaAILabs/status/1959799343088857233%20%20
https://arxiv.org/abs/2508.16204
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.