如果無(wú)需訓(xùn)練單一巨型模型,而是通過(guò)“培育”模型來(lái)打造強(qiáng)大的新型 AI,這有可能嗎?研究界常說(shuō)“師法自然”,那么打造 AI 時(shí)是否也能從大自然汲取靈感?自然界的智能并非單一整體,而是一個(gè)由多樣且專門(mén)化的有機(jī)體組成的活躍生態(tài)系統(tǒng),生物們通過(guò)競(jìng)爭(zhēng)、協(xié)作與基因組合實(shí)現(xiàn)適應(yīng)進(jìn)化。那么,能否用同樣的方式構(gòu)建 AI?這便是上海交通大學(xué)本科校友唐玉金和同事剛剛完成的一項(xiàng)創(chuàng)舉,這也是華人研究者在日本 AI 圈嶄露頭角的故事。
圖 | 唐玉金(來(lái)源:https://www.linkedin.com/in/yujin-tang-9)
據(jù)了解,唐玉金本科畢業(yè)于上海交通大學(xué),碩士和博士分別畢業(yè)于日本早稻田大學(xué)和日本東京大學(xué)。博士畢業(yè)以后,他先是在日本知名電信運(yùn)營(yíng)商 KDDI 工作,后在 Google 和 Google DeepMind 工作。2024 年,他加入日本知名 AI 初創(chuàng)公司 Sakana AI,該公司由“Transformer 八子”的其中一位創(chuàng)辦。
在上述工作中,唐玉金和同事針對(duì)大模型打造出一款新型進(jìn)化算法,讓人們能在無(wú)需昂貴訓(xùn)練和微調(diào)過(guò)程的情況下增強(qiáng) AI 能力。這款名為“自然生態(tài)位模型融合”(M2N2,Model Merging of Natural Niches)的算法克服了其他模型融合方法的局限性,甚至能夠完全從零開(kāi)始進(jìn)化出新模型。日前,相關(guān)論文發(fā)表于國(guó)際頂會(huì)遺傳與進(jìn)化計(jì)算會(huì)議(GECCO,Genetic and Evolutionary Computation Conference),并獲得“最佳論文提名。與此同時(shí),M2N2 的代碼已經(jīng)在 GitHub 開(kāi)源。
(來(lái)源:https://arxiv.org/pdf/2508.16204)
如下圖所示,唐玉金等人通過(guò) M2N2 打造的的融合模型成功整合了各個(gè)種子模型的優(yōu)勢(shì),同時(shí)還能規(guī)避它們的劣勢(shì)。與種子模型相比,融合模型展現(xiàn)出兩項(xiàng)關(guān)鍵改進(jìn):首先,生成的圖像更具照片真實(shí)感,這也與此次研究使用的訓(xùn)練集中的真實(shí)照片數(shù)據(jù)互相契合;其次,融合模型對(duì)于輸入提示詞的語(yǔ)義理解能力更強(qiáng)。例如,在下圖最右側(cè)一列中,多個(gè)種子模型雖然能夠生成視覺(jué)效果尚可的自行車圖像,但是融合模型不僅能夠“專門(mén)捕捉提示詞中指定的‘自行車車牌號(hào)顯示區(qū)域’”,還生成了“更像是真實(shí)照片而非合成渲染”的圖像。
(來(lái)源:https://arxiv.org/pdf/2508.16204)
下圖則顯示:盡管融合模型完全是基于日語(yǔ)提示詞進(jìn)化而來(lái)的,但是它對(duì)日語(yǔ)和英語(yǔ)均具備良好的理解能力。這種“涌現(xiàn)出的雙語(yǔ)能力”體現(xiàn)了模型融合的核心優(yōu)勢(shì),即能夠整合互補(bǔ)能力,同時(shí)避免“基于梯度的訓(xùn)練方法通常會(huì)存在的災(zāi)難性遺忘”問(wèn)題。
(來(lái)源:https://arxiv.org/pdf/2508.16204)
如下表所示,本次融合模型在測(cè)試集上獲得了超越所有對(duì)比模型的最高歸一化壓縮分?jǐn)?shù)(NCS,Normalized Compression Score)。此外,在弗雷歇初始距離(FID,F(xiàn)réchet Inception Distance)這一指標(biāo)上,本次融合模型也超越了基于協(xié)方差矩陣自適應(yīng)進(jìn)化策略(CMA-ES,Covariance Matrix Adaptation Evolution Strategy)的模型融合基線(盡管該基線是明確以最小化訓(xùn)練集 FID 值為目標(biāo)進(jìn)行訓(xùn)練的)。
(來(lái)源:https://arxiv.org/pdf/2508.16204)
此外,M2N2 還能擴(kuò)展至融合專業(yè)的語(yǔ)言模型和圖像生成模型,并能達(dá)到最先進(jìn)的性能水平。值得注意的是,M2N2 還能保留那些超出適應(yīng)度函數(shù)顯式優(yōu)化目標(biāo)的關(guān)鍵模型能力,故其具備較好的魯棒性與通用性。
什么是模型融合?它有何必要性?
據(jù)介紹,模型融合是一種將多個(gè)專業(yè)化 AI 模型的知識(shí)整合到單一更強(qiáng)模型中的技術(shù)。與使用新數(shù)據(jù)精調(diào)單個(gè)預(yù)訓(xùn)練模型的微調(diào)技術(shù)不同的是,融合技術(shù)可以同時(shí)整合多個(gè)模型的參數(shù)。這一過(guò)程可以將大量知識(shí)匯聚到一個(gè)模型中,同時(shí)無(wú)需進(jìn)行昂貴的基于梯度的訓(xùn)練,也無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù)。
對(duì)于企業(yè)團(tuán)隊(duì)而言,相比傳統(tǒng)微調(diào)技術(shù),該方法具有多重優(yōu)勢(shì)。由于模型融合是一個(gè)無(wú)梯度的過(guò)程,因此只需前向傳播,其計(jì)算成本遠(yuǎn)低于涉及昂貴梯度更新的微調(diào)技術(shù)。這讓該技術(shù)既能規(guī)避必須精心平衡訓(xùn)練數(shù)據(jù)的需求,也避免了模型在學(xué)習(xí)新任務(wù)后出現(xiàn)“災(zāi)難性遺忘”的風(fēng)險(xiǎn)。當(dāng)專業(yè)模型的訓(xùn)練數(shù)據(jù)不可獲取時(shí),該技術(shù)顯得尤為必要和強(qiáng)大,因?yàn)閷?duì)于融合來(lái)說(shuō)它只需要模型權(quán)重本身即可實(shí)現(xiàn)。
早期的模型融合方法需要大量的人工干預(yù)。比如,為了尋找最優(yōu)組合,人們需要反復(fù)地試驗(yàn)和調(diào)整系數(shù)。不久之前,業(yè)內(nèi)引入了進(jìn)化算法,從而能夠通過(guò)自動(dòng)搜索最優(yōu)參數(shù)組合來(lái)實(shí)現(xiàn)流程的自動(dòng)化。但是,其中仍然存在一些人工環(huán)節(jié),比如開(kāi)發(fā)者必須為可融合參數(shù)設(shè)定固定集合。這種限制縮小了搜索空間,也可能會(huì)更強(qiáng)大的組合方案的發(fā)現(xiàn)。
破題之鑰:從自然進(jìn)化原則中汲取靈感的 M2N2
M2N2 從自然界中的進(jìn)化原則汲取靈感,解決了上述局限性。M2N2 能夠探索更廣泛的可能性,并能發(fā)現(xiàn)更加有效的模型組合方式,而這主要得益于該算法所具備的以下三個(gè)關(guān)鍵特性。
(來(lái)源:https://arxiv.org/pdf/2508.16204)
首先,M2N2 消除了固定的合并邊界,例如塊或?qū)印K皇前凑疹A(yù)定義的層級(jí)針對(duì)參數(shù)進(jìn)行分組,而是使用靈活的“分割點(diǎn)”和“混合比例”來(lái)劃分和組合模型。舉個(gè)例子,算法可能會(huì)將模型 A 某一層中 30% 的參數(shù)與模型 B 同一層中 70% 的參數(shù)進(jìn)行合并。整個(gè)過(guò)程從一個(gè)“種子模型檔案庫(kù)”開(kāi)始,在每一步中 M2N2 從檔案庫(kù)中選取兩個(gè)模型,確定一個(gè)混合比例和一個(gè)分割點(diǎn),然后將它們合并。如果合并后的模型表現(xiàn)良好,它就會(huì)被重新加入檔案庫(kù),并會(huì)替換掉其中較弱的一個(gè)模型。這使得 M2N2 能夠隨著時(shí)間的推移探索越來(lái)越復(fù)雜的組合。這種逐步引入復(fù)雜性的方式,在保持計(jì)算可行性的同時(shí),能夠確保更廣泛的探索可能性。
其次,M2N2 通過(guò)競(jìng)爭(zhēng)機(jī)制來(lái)管理模型種群的多樣性。打個(gè)比方,假設(shè)你是一名批改卷子的老師,你合并了兩名考生的兩份考試答卷,如果兩份答卷上的答案完全相同,那么合并它們不會(huì)帶來(lái)任何改進(jìn)。但是,如果每份答卷針對(duì)不同的問(wèn)題給出了正確答案,那么合并后的結(jié)果就會(huì)強(qiáng)得多。模型融合的道理也是一樣的。然而,此前的挑戰(zhàn)在于如何定義哪種多樣性是有價(jià)值的。M2N2 并沒(méi)有依賴人工設(shè)計(jì)的指標(biāo),而是模擬了對(duì)有限資源的競(jìng)爭(zhēng)。這種受自然啟發(fā)的方法會(huì)很自然地獎(jiǎng)勵(lì)那些擁有獨(dú)特技能的模型,因?yàn)樗鼈兛梢浴矮@取未被爭(zhēng)奪的資源”,并能解決其他模型無(wú)法解決的問(wèn)題。
再次,M2N2 使用一種稱為“吸引力”的啟發(fā)式方法來(lái)配對(duì)待合并的模型。不同于其他合并算法簡(jiǎn)單地將表現(xiàn)最好的模型組合在一起的做法,M2N2 基于模型的互補(bǔ)優(yōu)勢(shì)來(lái)進(jìn)行配對(duì)。一個(gè)“吸引力得分”會(huì)識(shí)別出這樣一對(duì)模型:其中一個(gè)模型在另一個(gè)模型難以處理的數(shù)據(jù)點(diǎn)上表現(xiàn)出色。這不僅提高了搜索效率,也提升了最終合并模型的質(zhì)量。
事實(shí)上,M2N2 的提出正是源于 Sakana AI 長(zhǎng)期以來(lái)對(duì)自然界關(guān)鍵規(guī)律的借鑒。
一方面,在本次研究之中唐玉金等人不再以人工方式定義“多樣性”的含義,而是構(gòu)建了一個(gè)數(shù)字生態(tài)系統(tǒng),從而讓模型為爭(zhēng)奪有限資源(即正確解決數(shù)據(jù)樣本)去展開(kāi)競(jìng)爭(zhēng)。這種競(jìng)爭(zhēng)壓力會(huì)推動(dòng)模型向不同“生態(tài)位”專精以便謀求生存,從而形成一組高度適合融合的多樣化專精模型種群。
另一方面,他們突破了僵化的融合框架。以往的方法需基于固定邊界(如完整的模型層)融合模型,而 M2N2 允許通過(guò)進(jìn)化發(fā)現(xiàn)靈活的“分割點(diǎn)”,來(lái)對(duì)模型的局部組件進(jìn)行融合,進(jìn)而實(shí)現(xiàn)更復(fù)雜、更強(qiáng)大的參數(shù)組合。為了優(yōu)化這一過(guò)程,如前所述唐玉金等人還引入了“吸引力”啟發(fā)式規(guī)則,這是一種類似“配偶選擇”的機(jī)制,會(huì)優(yōu)先將具備互補(bǔ)優(yōu)勢(shì)的模型配對(duì)融合,大幅提升進(jìn)化搜索的效率。
在應(yīng)用上,M2N2 可被用于各類機(jī)器學(xué)習(xí)模型,包括大語(yǔ)言模型和文生圖模型。對(duì)于希望構(gòu)建定制化 AI 解決方案的企業(yè)而言,M2N2 可以通過(guò)整合現(xiàn)有開(kāi)源模型優(yōu)勢(shì),提供一種高效創(chuàng)建專業(yè)化模型的途徑。對(duì)于那些已經(jīng)開(kāi)發(fā)出專用模型的企業(yè)而言,模型融合的商業(yè)價(jià)值極具吸引力。通過(guò)融合他們可以獲得其他方式難以實(shí)現(xiàn)的新型混合能力。例如,將一個(gè)“為有說(shuō)服力的銷售話術(shù)優(yōu)化的大模型”與一個(gè)“用于解讀客戶反應(yīng)的視覺(jué)模型”融合,可以創(chuàng)建一個(gè)“能根據(jù)實(shí)時(shí)視頻反饋動(dòng)態(tài)調(diào)整銷售話術(shù)”的單一智能體。這種方式既能釋放多個(gè)模型的綜合智能,又只需承擔(dān)運(yùn)行單個(gè)模型的成本與延遲。
事實(shí)上,一直以來(lái) Sakana AI 都沒(méi)有將單一巨型模型的規(guī)模擴(kuò)張作為追求目標(biāo),而是在努力構(gòu)建一個(gè)由多樣、專精模型構(gòu)成的生態(tài)系統(tǒng),這些模型通過(guò)共同進(jìn)化、協(xié)作與融合,最終形成更具適應(yīng)性、穩(wěn)健性與創(chuàng)造力的 AI。
展望未來(lái),研究人員認(rèn)為 M2N2 這類技術(shù)是“模型融合”大趨勢(shì)的重要組成部分。在他們?cè)O(shè)想的未來(lái)場(chǎng)景里:AI 是一個(gè)不斷進(jìn)化的生態(tài)系統(tǒng),模型的能力會(huì)根據(jù)需求進(jìn)行組合,而非從零開(kāi)始構(gòu)建一個(gè)龐大的“單一的巨石型模型”。模型能夠通過(guò)持續(xù)進(jìn)化與融合不斷適應(yīng)新的挑戰(zhàn),從而讓企業(yè)能夠維護(hù)完整的 AI 模型生態(tài)系統(tǒng)。
參考資料:
相關(guān)論文:https://arxiv.org/pdf/2508.16204
GitHub 鏈接:https://github.com/SakanaAI/natural_niches
https://sakana.ai/
https://www.linkedin.com/company/sakana-ai/
https://www.linkedin.com/in/yujin-tang-98b3ab5a/?originalSubdomain=jp
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.