近年來(lái),大語(yǔ)言模型(LLM)已展現(xiàn)出卓越的通用能力,但其核心仍是靜態(tài)的。面對(duì)日新月異的任務(wù)、知識(shí)領(lǐng)域和交互環(huán)境,模型無(wú)法實(shí)時(shí)調(diào)整其內(nèi)部參數(shù),這一根本性瓶頸日益凸顯。
當(dāng)我們將視野從提升靜態(tài)模型的規(guī)模,轉(zhuǎn)向構(gòu)建能夠?qū)崟r(shí)學(xué)習(xí)和適應(yīng)的動(dòng)態(tài)智能體時(shí),一個(gè)全新的范式——自進(jìn)化智能體(Self-evolving Agents)——正引領(lǐng)著人工智能領(lǐng)域的變革。
然而,盡管學(xué)術(shù)界與工業(yè)界對(duì)自進(jìn)化智能體的興趣與日俱增,但整個(gè)領(lǐng)域仍缺乏一個(gè)系統(tǒng)性的梳理與頂層設(shè)計(jì)。多數(shù)研究將「演化」作為智能體整體框架的一個(gè)子集,未能深入回答該領(lǐng)域三個(gè)最根本的問(wèn)題:智能體的哪些部分應(yīng)該演化(What)?演化何時(shí)發(fā)生(When)?以及,演化如何實(shí)現(xiàn)(How)?
為應(yīng)對(duì)上述挑戰(zhàn),普林斯頓大學(xué)聯(lián)合多所頂尖機(jī)構(gòu)的研究者們聯(lián)合發(fā)布了首個(gè)全面且系統(tǒng)的自進(jìn)化智能體綜述。該綜述旨在為這一新興領(lǐng)域建立一個(gè)統(tǒng)一的理論框架和清晰的路線圖,最終為實(shí)現(xiàn)通用人工智能(AGI)乃至人工超級(jí)智能(ASI)鋪平道路。
- 論文標(biāo)題:A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
- 論文地址:
- https://arxiv.org/pdf/2507.21046
- GitHub:
- https://github.com/CharlesQ9/Self-Evolving-Agents
- X (Twitter):
- https://x.com/JiahaoQiu99/status/1950093150003089823
自進(jìn)化智能體的形式化定義
為確保研究的嚴(yán)謹(jǐn)性,該綜述首先為「自進(jìn)化智能體」提供了一套形式化的定義,為整個(gè)領(lǐng)域的研究和討論奠定了數(shù)學(xué)基礎(chǔ)。
- 環(huán)境(Environment):智能體所處的環(huán)境被定義為一個(gè)部分可觀察馬爾可夫決策過(guò)程(POMDP)。這個(gè)環(huán)境包含了智能體需要實(shí)現(xiàn)的潛在目標(biāo)(Goals)、環(huán)境的內(nèi)部狀態(tài)(States)、智能體可以執(zhí)行的動(dòng)作(Actions,如文本推理、工具調(diào)用)、狀態(tài)轉(zhuǎn)移概率,以及用于評(píng)估的反饋/獎(jiǎng)勵(lì)函數(shù)(Reward Function)。智能體無(wú)法完全觀測(cè)到環(huán)境的全部狀態(tài),只能接收到觀測(cè)(Observations)。
- 智能體系統(tǒng)(Agent System):一個(gè)智能體系統(tǒng)(Π)被解構(gòu)為四個(gè)核心組成部分:
- 架構(gòu)(Γ):決定了系統(tǒng)的控制流程或多智能體間的協(xié)作結(jié)構(gòu)。
- 模型({ψi}):底層的語(yǔ)言模型或多模態(tài)模型。
- 上下文({Ci}):包含提示(Prompts)和記憶(Memory)等信息。
- 工具集({Wi}):智能體可用的工具或 API 集合。
- 自進(jìn)化策略(Self-evolving Strategy):這是定義的核心。一個(gè)自進(jìn)化策略被形式化為一個(gè)轉(zhuǎn)換函數(shù)。該函數(shù)接收當(dāng)前智能體系統(tǒng)(Π)、其在任務(wù)中生成的軌跡(τ)以及獲得的反饋(r)作為輸入,然后輸出一個(gè)全新的、經(jīng)過(guò)演化的智能體系統(tǒng)(Π')。這個(gè)過(guò)程精確地描述了「進(jìn)化」這一行為。
- f
- Π' = f(Π, τ, r)
- 終極目標(biāo)(Objective):自進(jìn)化智能體的設(shè)計(jì)目標(biāo),是構(gòu)建一個(gè)最優(yōu)的自進(jìn)化策略,使得智能體在一系列連續(xù)任務(wù)上的累積效用(Cumulative Utility)最大化。這為所有演化方法提供了一個(gè)統(tǒng)一的優(yōu)化方向。
- f
核心框架:四大維度定義智能體演化
該綜述的核心貢獻(xiàn)是圍繞「What、When、How、Where」四個(gè)維度,構(gòu)建了一個(gè)用于分析和設(shè)計(jì)自進(jìn)化智能體的完整框架,并系統(tǒng)梳理了相關(guān)的前沿技術(shù)。
What to Evolve?(演化什么?)
此維度明確了智能體系統(tǒng)中可以進(jìn)行自我提升的四大核心支柱:
- 模型(Models):這是智能體認(rèn)知能力的核心。演化可以發(fā)生在兩個(gè)層面:一是決策策略(Policy)的優(yōu)化,例如通過(guò)自我生成挑戰(zhàn)性任務(wù)(如 SCA)或利用自然語(yǔ)言反饋進(jìn)行在線微調(diào)(如 SELF、TextGrad),直接更新模型參數(shù);二是經(jīng)驗(yàn)(Experience)的積累與學(xué)習(xí),智能體通過(guò)與環(huán)境交互(如 Reflexion 的自我反思機(jī)制、RAGEN 的強(qiáng)化學(xué)習(xí)框架)將成功或失敗的經(jīng)驗(yàn)轉(zhuǎn)化為學(xué)習(xí)信號(hào),驅(qū)動(dòng)迭代改進(jìn)。
- 上下文(Context):這是塑造智能體行為的動(dòng)態(tài)信息流。演化體現(xiàn)在兩個(gè)方面:一是記憶(Memory)的演化,智能體需要學(xué)會(huì)動(dòng)態(tài)管理其長(zhǎng)期記憶,例如通過(guò) Mem0 框架中的 ADD/MERGE/DELETE 機(jī)制來(lái)保持記憶的一致性,或像 Expel 一樣從經(jīng)驗(yàn)中提煉出可泛化的規(guī)則和見(jiàn)解;二是指令提示(Prompt)的自動(dòng)化優(yōu)化,從簡(jiǎn)單的候選提示生成(如 APE),到將整個(gè)工作流視為可微分程序進(jìn)行聯(lián)合優(yōu)化的復(fù)雜框架(如 DSPy),再到面向多智能體系統(tǒng)的通信模式優(yōu)化(如 MASS)。
- 工具(Tools):這是智能體與外部世界交互的橋梁,也是能力拓展的關(guān)鍵。其演化路徑可分為三步:首先是新工具的自主創(chuàng)造(Creation),智能體或通過(guò)探索式學(xué)習(xí)(如 Voyager),或通過(guò)響應(yīng)式代碼生成(如 Alita)來(lái)彌補(bǔ)能力短板;其次是已有工具的精通(Mastery),通過(guò)自我糾錯(cuò)循環(huán)(如 LearnAct)來(lái)修復(fù)和完善工具的功能與文檔;最后是管理與選擇(Management & Selection),當(dāng)工具庫(kù)變得龐大時(shí),智能體需要高效地檢索和組合工具,例如 ToolGen 將工具調(diào)用轉(zhuǎn)化為生成問(wèn)題,而 AgentSquare 則通過(guò)元學(xué)習(xí)自動(dòng)尋找最優(yōu)的組件配置。
- 架構(gòu)(Architecture):這是智能體系統(tǒng)的頂層設(shè)計(jì)。演化既可以針對(duì)單智能體,例如優(yōu)化其內(nèi)部固定的工作流節(jié)點(diǎn)(如 TextGrad),甚至賦予其重寫(xiě)自身源代碼的能力(如 Darwin G?del Machine);也可以針對(duì)多智能體系統(tǒng),例如通過(guò)蒙特卡洛樹(shù)搜索等方法自動(dòng)發(fā)現(xiàn)最優(yōu)的協(xié)作流程(如 AFlow),或利用多智能體強(qiáng)化學(xué)習(xí)(如ReMA)來(lái)共同演化出高效的協(xié)同策略。
When to Evolve?(何時(shí)演化?)
演化的時(shí)機(jī)決定了學(xué)習(xí)與任務(wù)執(zhí)行的關(guān)系,主要分為兩大模式,每種模式下都可以運(yùn)用上下文學(xué)習(xí)(ICL)、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)等范式。
- 測(cè)試時(shí)自進(jìn)化(Intra-test-time Self-evolution):這指的是在任務(wù)執(zhí)行期間發(fā)生的實(shí)時(shí)適應(yīng)。當(dāng)智能體在解決某個(gè)特定問(wèn)題時(shí)遇到障礙,它會(huì)即時(shí)啟動(dòng)學(xué)習(xí)機(jī)制。例如,AdaPlanner 通過(guò) ICL 在執(zhí)行中動(dòng)態(tài)修正計(jì)劃;一些前沿工作探索了利用「self-edits」指令觸發(fā)即時(shí) SFT 來(lái)更新模型權(quán)重;而 LADDER 框架則通過(guò) RL 機(jī)制實(shí)現(xiàn)了「即時(shí)技能獲取」,在遇到難題時(shí)當(dāng)場(chǎng)進(jìn)行針對(duì)性訓(xùn)練。
- 測(cè)試間自進(jìn)化(Inter-test-time Self-evolution):這是在任務(wù)執(zhí)行之后發(fā)生的、更主流的演化模式。智能體利用已完成任務(wù)的經(jīng)驗(yàn)積累,對(duì)自身能力進(jìn)行迭代更新,為未來(lái)任務(wù)做準(zhǔn)備。例如,STaR 和 SiriuS 等方法通過(guò) SFT 范式,讓模型從自己成功或失敗的推理鏈中生成新的訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)「自舉式」提升;而 RAGEN 和WebRL等框架則利用 RL,在任務(wù)間歇期通過(guò)大量與環(huán)境的交互來(lái)優(yōu)化策略。
How to Evolve?(如何演化?)
實(shí)現(xiàn)演化的具體方法論,即智能體如何將經(jīng)驗(yàn)和反饋轉(zhuǎn)化為能力提升,主要分為三大范式。
- 基于獎(jiǎng)勵(lì)的演化(Reward-based Evolution):這是最核心的演化驅(qū)動(dòng)力,通過(guò)設(shè)計(jì)不同形式的獎(jiǎng)勵(lì)信號(hào)來(lái)引導(dǎo)智能體。獎(jiǎng)勵(lì)信號(hào)可以是非常豐富的:
- 文本反饋(Textual Feedback):利用自然語(yǔ)言提供詳細(xì)、可解釋的改進(jìn)建議,比單一的標(biāo)量獎(jiǎng)勵(lì)更具指導(dǎo)性(如 Reflexion)。
- 內(nèi)部獎(jiǎng)勵(lì)(Internal Rewards):利用模型自身的置信度或不確定性作為獎(jiǎng)勵(lì),實(shí)現(xiàn)無(wú)外部監(jiān)督的自我評(píng)估與校準(zhǔn)(如 CISC)。
- 外部獎(jiǎng)勵(lì)(External Rewards):來(lái)自環(huán)境的直接反饋(如工具執(zhí)行成功/失?。⒍鄶?shù)投票或顯式規(guī)則。
- 隱式獎(jiǎng)勵(lì)(Implicit Rewards):從沒(méi)有明確標(biāo)記為「獎(jiǎng)勵(lì)」的信號(hào)中學(xué)習(xí),例如直接從模型 logits 中提取內(nèi)生的獎(jiǎng)勵(lì)函數(shù)。
- 模仿與演示學(xué)習(xí)(Imitation & Demonstration Learning):智能體通過(guò)學(xué)習(xí)高質(zhì)量的范例來(lái)提升能力,尤其適用于有充足專家數(shù)據(jù)或可以自生成高質(zhì)量軌跡的場(chǎng)景。學(xué)習(xí)來(lái)源可以是自我生成的演示(如 STaR)、跨智能體的演示(如從共享的經(jīng)驗(yàn)庫(kù)中學(xué)習(xí)),或是兩者的混合。
- 基于種群的演化方法(Population-based & Evolutionary Methods):這種方法借鑒生物進(jìn)化思想,同時(shí)維護(hù)多個(gè)智能體變體或團(tuán)隊(duì),通過(guò)選擇、變異、競(jìng)爭(zhēng)等機(jī)制并行探索廣闊的解空間,從而發(fā)現(xiàn)傳統(tǒng)優(yōu)化方法難以觸及的新穎策略與架構(gòu)。其演化對(duì)象可以是單個(gè)智能體(如 Darwin G?del Machine 的開(kāi)放式代碼進(jìn)化),也可以是多智能體系統(tǒng)(如EvoMAC的「文本反向傳播」機(jī)制)。
Where to Evolve?(在何處演化?)
此維度明確了自進(jìn)化智能體的應(yīng)用場(chǎng)域,展示了其在不同類(lèi)型任務(wù)中的演化路徑。
- 通用領(lǐng)域演化(General Domain Evolution):這類(lèi)智能體旨在成為多才多藝的數(shù)字助手,其演化目標(biāo)是拓展在廣泛任務(wù)上的通用能力。實(shí)現(xiàn)這一目標(biāo)的機(jī)制包括:
- 記憶機(jī)制:智能體通過(guò)總結(jié)歷史成敗經(jīng)驗(yàn),形成可復(fù)用的知識(shí)(如 Tips、Shortcuts),以應(yīng)對(duì)未來(lái)的新任務(wù)。
- 模型-智能體協(xié)同進(jìn)化:智能體與其輔助模型(如獎(jiǎng)勵(lì)模型、世界模型)共同進(jìn)化,通過(guò)相互促進(jìn)來(lái)提升整體性能和泛化能力。
- 課程驅(qū)動(dòng)訓(xùn)練:系統(tǒng)能夠根據(jù)智能體的表現(xiàn)自動(dòng)生成難度適宜的任務(wù),形成一個(gè)自適應(yīng)的「課程表」(如 WebRL),引導(dǎo)智能體由易到難地?cái)U(kuò)展能力。
- 特定領(lǐng)域演化(Specialized Domain Evolution):這類(lèi)智能體則專注于在某一垂直領(lǐng)域內(nèi)「深耕」,通過(guò)演化成為該領(lǐng)域的專家。論文展示了其在多個(gè)領(lǐng)域的應(yīng)用潛力:
- 編碼(Coding):智能體可以自主修改代碼庫(kù)(如 SICA),或通過(guò)多智能體協(xié)作進(jìn)行代碼生成、測(cè)試和優(yōu)化。
- 圖形用戶界面(GUI):智能體通過(guò)與桌面、網(wǎng)頁(yè)和移動(dòng)應(yīng)用的真實(shí)交互來(lái)學(xué)習(xí),從失敗軌跡中反思,或自動(dòng)從界面中挖掘功能,實(shí)現(xiàn)對(duì)圖形界面的精準(zhǔn)操控。
- 金融(Financial):智能體通過(guò)在模擬和真實(shí)環(huán)境中進(jìn)行交易,不斷迭代和優(yōu)化其量化策略與領(lǐng)域知識(shí)庫(kù)(如QuantAgent)。
- 醫(yī)療(Medical):智能體在模擬醫(yī)院中「行醫(yī)」以提升診斷能力(如 Agent Hospital),或作為虛擬生物學(xué)家進(jìn)行藥物靶點(diǎn)發(fā)現(xiàn)(如 OriGene)。
- 教育(Education):智能體可以作為個(gè)性化導(dǎo)師,根據(jù)學(xué)生的反應(yīng)調(diào)整教學(xué)策略(如 PACE),或作為教師助手,通過(guò)多智能體對(duì)抗來(lái)優(yōu)化課程計(jì)劃。
評(píng)估、挑戰(zhàn)與未來(lái)展望
除了構(gòu)建核心理論框架,該綜述還詳細(xì)探討了自進(jìn)化智能體的評(píng)估范式。評(píng)估自進(jìn)化智能體不能再局限于靜態(tài)的準(zhǔn)確率,而必須考察其動(dòng)態(tài)能力。
論文提出了五大評(píng)估目標(biāo):適應(yīng)性(Adaptivity)、知識(shí)保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety),并將其評(píng)估模式分為靜態(tài)評(píng)估、短時(shí)程自適應(yīng)評(píng)估和長(zhǎng)時(shí)程終身學(xué)習(xí)評(píng)估,為衡量這一新物種的能力提供了標(biāo)尺。
最后,該綜述為領(lǐng)域的未來(lái)發(fā)展指明了方向,包括個(gè)性化 AI 智能體、提升泛化與跨域適應(yīng)能力、構(gòu)建安全可控的智能體、以及探索多智能體生態(tài)系統(tǒng)等關(guān)鍵挑戰(zhàn)。
通過(guò)這份全面的綜述,研究者和開(kāi)發(fā)者可以獲得一個(gè)結(jié)構(gòu)化的視角,來(lái)理解、比較并設(shè)計(jì)下一代更強(qiáng)大、更魯棒的自適應(yīng)智能體系統(tǒng)。正如文中所指出的,自進(jìn)化智能體的發(fā)展是通往人工超級(jí)智能(ASI)的關(guān)鍵基石,而解決好其在演化過(guò)程中的安全性、泛化性與可控性等挑戰(zhàn),將是未來(lái)研究的重中之重。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.