網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Sakana AI華人學(xué)者打造“AI進(jìn)化算法”，讓模型從零開(kāi)始進(jìn)化

2025-08-30 23:39:20　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

如果無(wú)需訓(xùn)練單一巨型模型，而是通過(guò)“培育”模型來(lái)打造強(qiáng)大的新型 AI，這有可能嗎？研究界常說(shuō)“師法自然”，那么打造 AI 時(shí)是否也能從大自然汲取靈感？自然界的智能并非單一整體，而是一個(gè)由多樣且專門(mén)化的有機(jī)體組成的活躍生態(tài)系統(tǒng)，生物們通過(guò)競(jìng)爭(zhēng)、協(xié)作與基因組合實(shí)現(xiàn)適應(yīng)進(jìn)化。那么，能否用同樣的方式構(gòu)建 AI？這便是上海交通大學(xué)本科校友唐玉金和同事剛剛完成的一項(xiàng)創(chuàng)舉，這也是華人研究者在日本 AI 圈嶄露頭角的故事。

圖 | 唐玉金（來(lái)源：https://www.linkedin.com/in/yujin-tang-9）

據(jù)了解，唐玉金本科畢業(yè)于上海交通大學(xué)，碩士和博士分別畢業(yè)于日本早稻田大學(xué)和日本東京大學(xué)。博士畢業(yè)以后，他先是在日本知名電信運(yùn)營(yíng)商 KDDI 工作，后在 Google 和 Google DeepMind 工作。2024 年，他加入日本知名 AI 初創(chuàng)公司 Sakana AI，該公司由“Transformer 八子”的其中一位創(chuàng)辦。

在上述工作中，唐玉金和同事針對(duì)大模型打造出一款新型進(jìn)化算法，讓人們能在無(wú)需昂貴訓(xùn)練和微調(diào)過(guò)程的情況下增強(qiáng) AI 能力。這款名為“自然生態(tài)位模型融合”（M2N2，Model Merging of Natural Niches）的算法克服了其他模型融合方法的局限性，甚至能夠完全從零開(kāi)始進(jìn)化出新模型。日前，相關(guān)論文發(fā)表于國(guó)際頂會(huì)遺傳與進(jìn)化計(jì)算會(huì)議（GECCO，Genetic and Evolutionary Computation Conference），并獲得“最佳論文提名。與此同時(shí)，M2N2 的代碼已經(jīng)在 GitHub 開(kāi)源。

（來(lái)源：https://arxiv.org/pdf/2508.16204）

如下圖所示，唐玉金等人通過(guò) M2N2 打造的的融合模型成功整合了各個(gè)種子模型的優(yōu)勢(shì)，同時(shí)還能規(guī)避它們的劣勢(shì)。與種子模型相比，融合模型展現(xiàn)出兩項(xiàng)關(guān)鍵改進(jìn)：首先，生成的圖像更具照片真實(shí)感，這也與此次研究使用的訓(xùn)練集中的真實(shí)照片數(shù)據(jù)互相契合；其次，融合模型對(duì)于輸入提示詞的語(yǔ)義理解能力更強(qiáng)。例如，在下圖最右側(cè)一列中，多個(gè)種子模型雖然能夠生成視覺(jué)效果尚可的自行車圖像，但是融合模型不僅能夠“專門(mén)捕捉提示詞中指定的‘自行車車牌號(hào)顯示區(qū)域’”，還生成了“更像是真實(shí)照片而非合成渲染”的圖像。

（來(lái)源：https://arxiv.org/pdf/2508.16204）

下圖則顯示：盡管融合模型完全是基于日語(yǔ)提示詞進(jìn)化而來(lái)的，但是它對(duì)日語(yǔ)和英語(yǔ)均具備良好的理解能力。這種“涌現(xiàn)出的雙語(yǔ)能力”體現(xiàn)了模型融合的核心優(yōu)勢(shì)，即能夠整合互補(bǔ)能力，同時(shí)避免“基于梯度的訓(xùn)練方法通常會(huì)存在的災(zāi)難性遺忘”問(wèn)題。

（來(lái)源：https://arxiv.org/pdf/2508.16204）

如下表所示，本次融合模型在測(cè)試集上獲得了超越所有對(duì)比模型的最高歸一化壓縮分?jǐn)?shù)（NCS，Normalized Compression Score）。此外，在弗雷歇初始距離（FID，F(xiàn)réchet Inception Distance）這一指標(biāo)上，本次融合模型也超越了基于協(xié)方差矩陣自適應(yīng)進(jìn)化策略（CMA-ES，Covariance Matrix Adaptation Evolution Strategy）的模型融合基線（盡管該基線是明確以最小化訓(xùn)練集 FID 值為目標(biāo)進(jìn)行訓(xùn)練的）。

（來(lái)源：https://arxiv.org/pdf/2508.16204）

此外，M2N2 還能擴(kuò)展至融合專業(yè)的語(yǔ)言模型和圖像生成模型，并能達(dá)到最先進(jìn)的性能水平。值得注意的是，M2N2 還能保留那些超出適應(yīng)度函數(shù)顯式優(yōu)化目標(biāo)的關(guān)鍵模型能力，故其具備較好的魯棒性與通用性。

什么是模型融合？它有何必要性？

據(jù)介紹，模型融合是一種將多個(gè)專業(yè)化 AI 模型的知識(shí)整合到單一更強(qiáng)模型中的技術(shù)。與使用新數(shù)據(jù)精調(diào)單個(gè)預(yù)訓(xùn)練模型的微調(diào)技術(shù)不同的是，融合技術(shù)可以同時(shí)整合多個(gè)模型的參數(shù)。這一過(guò)程可以將大量知識(shí)匯聚到一個(gè)模型中，同時(shí)無(wú)需進(jìn)行昂貴的基于梯度的訓(xùn)練，也無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù)。

對(duì)于企業(yè)團(tuán)隊(duì)而言，相比傳統(tǒng)微調(diào)技術(shù)，該方法具有多重優(yōu)勢(shì)。由于模型融合是一個(gè)無(wú)梯度的過(guò)程，因此只需前向傳播，其計(jì)算成本遠(yuǎn)低于涉及昂貴梯度更新的微調(diào)技術(shù)。這讓該技術(shù)既能規(guī)避必須精心平衡訓(xùn)練數(shù)據(jù)的需求，也避免了模型在學(xué)習(xí)新任務(wù)后出現(xiàn)“災(zāi)難性遺忘”的風(fēng)險(xiǎn)。當(dāng)專業(yè)模型的訓(xùn)練數(shù)據(jù)不可獲取時(shí)，該技術(shù)顯得尤為必要和強(qiáng)大，因?yàn)閷?duì)于融合來(lái)說(shuō)它只需要模型權(quán)重本身即可實(shí)現(xiàn)。

早期的模型融合方法需要大量的人工干預(yù)。比如，為了尋找最優(yōu)組合，人們需要反復(fù)地試驗(yàn)和調(diào)整系數(shù)。不久之前，業(yè)內(nèi)引入了進(jìn)化算法，從而能夠通過(guò)自動(dòng)搜索最優(yōu)參數(shù)組合來(lái)實(shí)現(xiàn)流程的自動(dòng)化。但是，其中仍然存在一些人工環(huán)節(jié)，比如開(kāi)發(fā)者必須為可融合參數(shù)設(shè)定固定集合。這種限制縮小了搜索空間，也可能會(huì)更強(qiáng)大的組合方案的發(fā)現(xiàn)。

破題之鑰：從自然進(jìn)化原則中汲取靈感的 M2N2

M2N2 從自然界中的進(jìn)化原則汲取靈感，解決了上述局限性。M2N2 能夠探索更廣泛的可能性，并能發(fā)現(xiàn)更加有效的模型組合方式，而這主要得益于該算法所具備的以下三個(gè)關(guān)鍵特性。

（來(lái)源：https://arxiv.org/pdf/2508.16204）

首先，M2N2 消除了固定的合并邊界，例如塊或?qū)印Ｋ皇前凑疹A(yù)定義的層級(jí)針對(duì)參數(shù)進(jìn)行分組，而是使用靈活的“分割點(diǎn)”和“混合比例”來(lái)劃分和組合模型。舉個(gè)例子，算法可能會(huì)將模型 A 某一層中 30% 的參數(shù)與模型 B 同一層中 70% 的參數(shù)進(jìn)行合并。整個(gè)過(guò)程從一個(gè)“種子模型檔案庫(kù)”開(kāi)始，在每一步中 M2N2 從檔案庫(kù)中選取兩個(gè)模型，確定一個(gè)混合比例和一個(gè)分割點(diǎn)，然后將它們合并。如果合并后的模型表現(xiàn)良好，它就會(huì)被重新加入檔案庫(kù)，并會(huì)替換掉其中較弱的一個(gè)模型。這使得 M2N2 能夠隨著時(shí)間的推移探索越來(lái)越復(fù)雜的組合。這種逐步引入復(fù)雜性的方式，在保持計(jì)算可行性的同時(shí)，能夠確保更廣泛的探索可能性。

其次，M2N2 通過(guò)競(jìng)爭(zhēng)機(jī)制來(lái)管理模型種群的多樣性。打個(gè)比方，假設(shè)你是一名批改卷子的老師，你合并了兩名考生的兩份考試答卷，如果兩份答卷上的答案完全相同，那么合并它們不會(huì)帶來(lái)任何改進(jìn)。但是，如果每份答卷針對(duì)不同的問(wèn)題給出了正確答案，那么合并后的結(jié)果就會(huì)強(qiáng)得多。模型融合的道理也是一樣的。然而，此前的挑戰(zhàn)在于如何定義哪種多樣性是有價(jià)值的。M2N2 并沒(méi)有依賴人工設(shè)計(jì)的指標(biāo)，而是模擬了對(duì)有限資源的競(jìng)爭(zhēng)。這種受自然啟發(fā)的方法會(huì)很自然地獎(jiǎng)勵(lì)那些擁有獨(dú)特技能的模型，因?yàn)樗鼈兛梢浴矮@取未被爭(zhēng)奪的資源”，并能解決其他模型無(wú)法解決的問(wèn)題。

再次，M2N2 使用一種稱為“吸引力”的啟發(fā)式方法來(lái)配對(duì)待合并的模型。不同于其他合并算法簡(jiǎn)單地將表現(xiàn)最好的模型組合在一起的做法，M2N2 基于模型的互補(bǔ)優(yōu)勢(shì)來(lái)進(jìn)行配對(duì)。一個(gè)“吸引力得分”會(huì)識(shí)別出這樣一對(duì)模型：其中一個(gè)模型在另一個(gè)模型難以處理的數(shù)據(jù)點(diǎn)上表現(xiàn)出色。這不僅提高了搜索效率，也提升了最終合并模型的質(zhì)量。

事實(shí)上，M2N2 的提出正是源于 Sakana AI 長(zhǎng)期以來(lái)對(duì)自然界關(guān)鍵規(guī)律的借鑒。

一方面，在本次研究之中唐玉金等人不再以人工方式定義“多樣性”的含義，而是構(gòu)建了一個(gè)數(shù)字生態(tài)系統(tǒng)，從而讓模型為爭(zhēng)奪有限資源（即正確解決數(shù)據(jù)樣本）去展開(kāi)競(jìng)爭(zhēng)。這種競(jìng)爭(zhēng)壓力會(huì)推動(dòng)模型向不同“生態(tài)位”專精以便謀求生存，從而形成一組高度適合融合的多樣化專精模型種群。

另一方面，他們突破了僵化的融合框架。以往的方法需基于固定邊界（如完整的模型層）融合模型，而 M2N2 允許通過(guò)進(jìn)化發(fā)現(xiàn)靈活的“分割點(diǎn)”，來(lái)對(duì)模型的局部組件進(jìn)行融合，進(jìn)而實(shí)現(xiàn)更復(fù)雜、更強(qiáng)大的參數(shù)組合。為了優(yōu)化這一過(guò)程，如前所述唐玉金等人還引入了“吸引力”啟發(fā)式規(guī)則，這是一種類似“配偶選擇”的機(jī)制，會(huì)優(yōu)先將具備互補(bǔ)優(yōu)勢(shì)的模型配對(duì)融合，大幅提升進(jìn)化搜索的效率。

在應(yīng)用上，M2N2 可被用于各類機(jī)器學(xué)習(xí)模型，包括大語(yǔ)言模型和文生圖模型。對(duì)于希望構(gòu)建定制化 AI 解決方案的企業(yè)而言，M2N2 可以通過(guò)整合現(xiàn)有開(kāi)源模型優(yōu)勢(shì)，提供一種高效創(chuàng)建專業(yè)化模型的途徑。對(duì)于那些已經(jīng)開(kāi)發(fā)出專用模型的企業(yè)而言，模型融合的商業(yè)價(jià)值極具吸引力。通過(guò)融合他們可以獲得其他方式難以實(shí)現(xiàn)的新型混合能力。例如，將一個(gè)“為有說(shuō)服力的銷售話術(shù)優(yōu)化的大模型”與一個(gè)“用于解讀客戶反應(yīng)的視覺(jué)模型”融合，可以創(chuàng)建一個(gè)“能根據(jù)實(shí)時(shí)視頻反饋動(dòng)態(tài)調(diào)整銷售話術(shù)”的單一智能體。這種方式既能釋放多個(gè)模型的綜合智能，又只需承擔(dān)運(yùn)行單個(gè)模型的成本與延遲。

事實(shí)上，一直以來(lái) Sakana AI 都沒(méi)有將單一巨型模型的規(guī)模擴(kuò)張作為追求目標(biāo)，而是在努力構(gòu)建一個(gè)由多樣、專精模型構(gòu)成的生態(tài)系統(tǒng)，這些模型通過(guò)共同進(jìn)化、協(xié)作與融合，最終形成更具適應(yīng)性、穩(wěn)健性與創(chuàng)造力的 AI。

展望未來(lái)，研究人員認(rèn)為 M2N2 這類技術(shù)是“模型融合”大趨勢(shì)的重要組成部分。在他們?cè)O(shè)想的未來(lái)場(chǎng)景里：AI 是一個(gè)不斷進(jìn)化的生態(tài)系統(tǒng)，模型的能力會(huì)根據(jù)需求進(jìn)行組合，而非從零開(kāi)始構(gòu)建一個(gè)龐大的“單一的巨石型模型”。模型能夠通過(guò)持續(xù)進(jìn)化與融合不斷適應(yīng)新的挑戰(zhàn)，從而讓企業(yè)能夠維護(hù)完整的 AI 模型生態(tài)系統(tǒng)。

參考資料：

相關(guān)論文：https://arxiv.org/pdf/2508.16204

GitHub 鏈接：https://github.com/SakanaAI/natural_niches

https://sakana.ai/

https://www.linkedin.com/company/sakana-ai/

https://www.linkedin.com/in/yujin-tang-98b3ab5a/?originalSubdomain=jp

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.