如果無需訓(xùn)練單一巨型模型,而是通過“培育”模型來打造強(qiáng)大的新型 AI,這有可能嗎?研究界常說“師法自然”,那么打造 AI 時(shí)是否也能從大自然汲取靈感?自然界的智能并非單一整體,而是一個(gè)由多樣且專門化的有機(jī)體組成的活躍生態(tài)系統(tǒng),生物們通過競爭、協(xié)作與基因組合實(shí)現(xiàn)適應(yīng)進(jìn)化。那么,能否用同樣的方式構(gòu)建 AI?這便是上海交通大學(xué)本科校友唐玉金和同事剛剛完成的一項(xiàng)創(chuàng)舉,這也是華人研究者在日本 AI 圈嶄露頭角的故事。
圖 | 唐玉金(來源:https://www.linkedin.com/in/yujin-tang-9)
據(jù)了解,唐玉金本科畢業(yè)于上海交通大學(xué),碩士和博士分別畢業(yè)于日本早稻田大學(xué)和日本東京大學(xué)。博士畢業(yè)以后,他先是在日本知名電信運(yùn)營商 KDDI 工作,后在 Google 和 Google DeepMind 工作。2024 年,他加入日本知名 AI 初創(chuàng)公司 Sakana AI,該公司由“Transformer 八子”的其中一位創(chuàng)辦。
在上述工作中,唐玉金和同事針對大模型打造出一款新型進(jìn)化算法,讓人們能在無需昂貴訓(xùn)練和微調(diào)過程的情況下增強(qiáng) AI 能力。這款名為“自然生態(tài)位模型融合”(M2N2,Model Merging of Natural Niches)的算法克服了其他模型融合方法的局限性,甚至能夠完全從零開始進(jìn)化出新模型。日前,相關(guān)論文發(fā)表于國際頂會遺傳與進(jìn)化計(jì)算會議(GECCO,Genetic and Evolutionary Computation Conference),并獲得“最佳論文提名。與此同時(shí),M2N2 的代碼已經(jīng)在 GitHub 開源。
(來源:https://arxiv.org/pdf/2508.16204)
如下圖所示,唐玉金等人通過 M2N2 打造的的融合模型成功整合了各個(gè)種子模型的優(yōu)勢,同時(shí)還能規(guī)避它們的劣勢。與種子模型相比,融合模型展現(xiàn)出兩項(xiàng)關(guān)鍵改進(jìn):首先,生成的圖像更具照片真實(shí)感,這也與此次研究使用的訓(xùn)練集中的真實(shí)照片數(shù)據(jù)互相契合;其次,融合模型對于輸入提示詞的語義理解能力更強(qiáng)。例如,在下圖最右側(cè)一列中,多個(gè)種子模型雖然能夠生成視覺效果尚可的自行車圖像,但是融合模型不僅能夠“專門捕捉提示詞中指定的‘自行車車牌號顯示區(qū)域’”,還生成了“更像是真實(shí)照片而非合成渲染”的圖像。
(來源:https://arxiv.org/pdf/2508.16204)
下圖則顯示:盡管融合模型完全是基于日語提示詞進(jìn)化而來的,但是它對日語和英語均具備良好的理解能力。這種“涌現(xiàn)出的雙語能力”體現(xiàn)了模型融合的核心優(yōu)勢,即能夠整合互補(bǔ)能力,同時(shí)避免“基于梯度的訓(xùn)練方法通常會存在的災(zāi)難性遺忘”問題。
(來源:https://arxiv.org/pdf/2508.16204)
如下表所示,本次融合模型在測試集上獲得了超越所有對比模型的最高歸一化壓縮分?jǐn)?shù)(NCS,Normalized Compression Score)。此外,在弗雷歇初始距離(FID,F(xiàn)réchet Inception Distance)這一指標(biāo)上,本次融合模型也超越了基于協(xié)方差矩陣自適應(yīng)進(jìn)化策略(CMA-ES,Covariance Matrix Adaptation Evolution Strategy)的模型融合基線(盡管該基線是明確以最小化訓(xùn)練集 FID 值為目標(biāo)進(jìn)行訓(xùn)練的)。
(來源:https://arxiv.org/pdf/2508.16204)
此外,M2N2 還能擴(kuò)展至融合專業(yè)的語言模型和圖像生成模型,并能達(dá)到最先進(jìn)的性能水平。值得注意的是,M2N2 還能保留那些超出適應(yīng)度函數(shù)顯式優(yōu)化目標(biāo)的關(guān)鍵模型能力,故其具備較好的魯棒性與通用性。
什么是模型融合?它有何必要性?
據(jù)介紹,模型融合是一種將多個(gè)專業(yè)化 AI 模型的知識整合到單一更強(qiáng)模型中的技術(shù)。與使用新數(shù)據(jù)精調(diào)單個(gè)預(yù)訓(xùn)練模型的微調(diào)技術(shù)不同的是,融合技術(shù)可以同時(shí)整合多個(gè)模型的參數(shù)。這一過程可以將大量知識匯聚到一個(gè)模型中,同時(shí)無需進(jìn)行昂貴的基于梯度的訓(xùn)練,也無需訪問原始訓(xùn)練數(shù)據(jù)。
對于企業(yè)團(tuán)隊(duì)而言,相比傳統(tǒng)微調(diào)技術(shù),該方法具有多重優(yōu)勢。由于模型融合是一個(gè)無梯度的過程,因此只需前向傳播,其計(jì)算成本遠(yuǎn)低于涉及昂貴梯度更新的微調(diào)技術(shù)。這讓該技術(shù)既能規(guī)避必須精心平衡訓(xùn)練數(shù)據(jù)的需求,也避免了模型在學(xué)習(xí)新任務(wù)后出現(xiàn)“災(zāi)難性遺忘”的風(fēng)險(xiǎn)。當(dāng)專業(yè)模型的訓(xùn)練數(shù)據(jù)不可獲取時(shí),該技術(shù)顯得尤為必要和強(qiáng)大,因?yàn)閷τ谌诤蟻碚f它只需要模型權(quán)重本身即可實(shí)現(xiàn)。
早期的模型融合方法需要大量的人工干預(yù)。比如,為了尋找最優(yōu)組合,人們需要反復(fù)地試驗(yàn)和調(diào)整系數(shù)。不久之前,業(yè)內(nèi)引入了進(jìn)化算法,從而能夠通過自動(dòng)搜索最優(yōu)參數(shù)組合來實(shí)現(xiàn)流程的自動(dòng)化。但是,其中仍然存在一些人工環(huán)節(jié),比如開發(fā)者必須為可融合參數(shù)設(shè)定固定集合。這種限制縮小了搜索空間,也可能會更強(qiáng)大的組合方案的發(fā)現(xiàn)。
破題之鑰:從自然進(jìn)化原則中汲取靈感的 M2N2
M2N2 從自然界中的進(jìn)化原則汲取靈感,解決了上述局限性。M2N2 能夠探索更廣泛的可能性,并能發(fā)現(xiàn)更加有效的模型組合方式,而這主要得益于該算法所具備的以下三個(gè)關(guān)鍵特性。
(來源:https://arxiv.org/pdf/2508.16204)
首先,M2N2 消除了固定的合并邊界,例如塊或?qū)印K皇前凑疹A(yù)定義的層級針對參數(shù)進(jìn)行分組,而是使用靈活的“分割點(diǎn)”和“混合比例”來劃分和組合模型。舉個(gè)例子,算法可能會將模型 A 某一層中 30% 的參數(shù)與模型 B 同一層中 70% 的參數(shù)進(jìn)行合并。整個(gè)過程從一個(gè)“種子模型檔案庫”開始,在每一步中 M2N2 從檔案庫中選取兩個(gè)模型,確定一個(gè)混合比例和一個(gè)分割點(diǎn),然后將它們合并。如果合并后的模型表現(xiàn)良好,它就會被重新加入檔案庫,并會替換掉其中較弱的一個(gè)模型。這使得 M2N2 能夠隨著時(shí)間的推移探索越來越復(fù)雜的組合。這種逐步引入復(fù)雜性的方式,在保持計(jì)算可行性的同時(shí),能夠確保更廣泛的探索可能性。
其次,M2N2 通過競爭機(jī)制來管理模型種群的多樣性。打個(gè)比方,假設(shè)你是一名批改卷子的老師,你合并了兩名考生的兩份考試答卷,如果兩份答卷上的答案完全相同,那么合并它們不會帶來任何改進(jìn)。但是,如果每份答卷針對不同的問題給出了正確答案,那么合并后的結(jié)果就會強(qiáng)得多。模型融合的道理也是一樣的。然而,此前的挑戰(zhàn)在于如何定義哪種多樣性是有價(jià)值的。M2N2 并沒有依賴人工設(shè)計(jì)的指標(biāo),而是模擬了對有限資源的競爭。這種受自然啟發(fā)的方法會很自然地獎(jiǎng)勵(lì)那些擁有獨(dú)特技能的模型,因?yàn)樗鼈兛梢浴矮@取未被爭奪的資源”,并能解決其他模型無法解決的問題。
再次,M2N2 使用一種稱為“吸引力”的啟發(fā)式方法來配對待合并的模型。不同于其他合并算法簡單地將表現(xiàn)最好的模型組合在一起的做法,M2N2 基于模型的互補(bǔ)優(yōu)勢來進(jìn)行配對。一個(gè)“吸引力得分”會識別出這樣一對模型:其中一個(gè)模型在另一個(gè)模型難以處理的數(shù)據(jù)點(diǎn)上表現(xiàn)出色。這不僅提高了搜索效率,也提升了最終合并模型的質(zhì)量。
事實(shí)上,M2N2 的提出正是源于 Sakana AI 長期以來對自然界關(guān)鍵規(guī)律的借鑒。
一方面,在本次研究之中唐玉金等人不再以人工方式定義“多樣性”的含義,而是構(gòu)建了一個(gè)數(shù)字生態(tài)系統(tǒng),從而讓模型為爭奪有限資源(即正確解決數(shù)據(jù)樣本)去展開競爭。這種競爭壓力會推動(dòng)模型向不同“生態(tài)位”專精以便謀求生存,從而形成一組高度適合融合的多樣化專精模型種群。
另一方面,他們突破了僵化的融合框架。以往的方法需基于固定邊界(如完整的模型層)融合模型,而 M2N2 允許通過進(jìn)化發(fā)現(xiàn)靈活的“分割點(diǎn)”,來對模型的局部組件進(jìn)行融合,進(jìn)而實(shí)現(xiàn)更復(fù)雜、更強(qiáng)大的參數(shù)組合。為了優(yōu)化這一過程,如前所述唐玉金等人還引入了“吸引力”啟發(fā)式規(guī)則,這是一種類似“配偶選擇”的機(jī)制,會優(yōu)先將具備互補(bǔ)優(yōu)勢的模型配對融合,大幅提升進(jìn)化搜索的效率。
在應(yīng)用上,M2N2 可被用于各類機(jī)器學(xué)習(xí)模型,包括大語言模型和文生圖模型。對于希望構(gòu)建定制化 AI 解決方案的企業(yè)而言,M2N2 可以通過整合現(xiàn)有開源模型優(yōu)勢,提供一種高效創(chuàng)建專業(yè)化模型的途徑。對于那些已經(jīng)開發(fā)出專用模型的企業(yè)而言,模型融合的商業(yè)價(jià)值極具吸引力。通過融合他們可以獲得其他方式難以實(shí)現(xiàn)的新型混合能力。例如,將一個(gè)“為有說服力的銷售話術(shù)優(yōu)化的大模型”與一個(gè)“用于解讀客戶反應(yīng)的視覺模型”融合,可以創(chuàng)建一個(gè)“能根據(jù)實(shí)時(shí)視頻反饋動(dòng)態(tài)調(diào)整銷售話術(shù)”的單一智能體。這種方式既能釋放多個(gè)模型的綜合智能,又只需承擔(dān)運(yùn)行單個(gè)模型的成本與延遲。
事實(shí)上,一直以來 Sakana AI 都沒有將單一巨型模型的規(guī)模擴(kuò)張作為追求目標(biāo),而是在努力構(gòu)建一個(gè)由多樣、專精模型構(gòu)成的生態(tài)系統(tǒng),這些模型通過共同進(jìn)化、協(xié)作與融合,最終形成更具適應(yīng)性、穩(wěn)健性與創(chuàng)造力的 AI。
展望未來,研究人員認(rèn)為 M2N2 這類技術(shù)是“模型融合”大趨勢的重要組成部分。在他們設(shè)想的未來場景里:AI 是一個(gè)不斷進(jìn)化的生態(tài)系統(tǒng),模型的能力會根據(jù)需求進(jìn)行組合,而非從零開始構(gòu)建一個(gè)龐大的“單一的巨石型模型”。模型能夠通過持續(xù)進(jìn)化與融合不斷適應(yīng)新的挑戰(zhàn),從而讓企業(yè)能夠維護(hù)完整的 AI 模型生態(tài)系統(tǒng)。
參考資料:
相關(guān)論文:https://arxiv.org/pdf/2508.16204
GitHub 鏈接:https://github.com/SakanaAI/natural_niches
https://sakana.ai/
https://www.linkedin.com/company/sakana-ai/
https://www.linkedin.com/in/yujin-tang-98b3ab5a/?originalSubdomain=jp
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.