GPT-5點贊！八大頂尖機(jī)構(gòu)發(fā)布「自進(jìn)化智能體」全面綜述

2025-08-21 14:18:28　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】在AI浪潮席卷全球的2025年，大語言模型（LLM）已從單純的聊天工具演變?yōu)槟芤?guī)劃、決策的智能體。但問題來了：這些智能體一旦部署，就如「凍結(jié)的冰塊」，難以適應(yīng)瞬息萬變的世界。試想，一個客服智能體面對突發(fā)的新產(chǎn)品政策時束手無策，或一個科研助手忽略了最新發(fā)表的算法——這樣的場景，不僅低效，還可能釀成災(zāi)難。近期，格拉斯哥大學(xué)、劍橋大學(xué)、謝菲爾德大學(xué)、新加坡國立大學(xué)、UCL等機(jī)構(gòu)的學(xué)者發(fā)布了最新綜述，系統(tǒng)梳理了AI智能體自進(jìn)化的核心框架與挑戰(zhàn)，并為研究者提供了一套清晰可落地的研發(fā)路線圖。

LLM驅(qū)動的AI智能體已展現(xiàn)出驚人潛力：它們以LLM為核心，集成感知模塊（處理文本/圖像/音頻/視頻）、規(guī)劃模塊（如鏈?zhǔn)剿伎糃oT或樹式思考ToT）、記憶模塊（短期上下文存儲與長期知識檢索）和工具模塊（調(diào)用API如搜索引擎或代碼執(zhí)行器）。

在單智能體系統(tǒng)中，這些組件協(xié)同工作，處理從網(wǎng)頁導(dǎo)航、代碼生成、投資輔助到生物醫(yī)學(xué)分析的任務(wù)。而在多智能體系統(tǒng)（MAS）中，智能體間通過協(xié)作（如辯論或任務(wù)分解）攻克復(fù)雜問題，模擬人類團(tuán)隊的群體智能。

但問題顯而易見：現(xiàn)有的智能體系統(tǒng)依賴專家的手工搭建，并且一旦被部署后就會始終維持固定的架構(gòu)和功能。

一旦環(huán)境改變（如用戶改變意圖、出現(xiàn)新工具或者信息來源出現(xiàn)變化），手動重配置就成了瓶頸——耗時、費(fèi)力、不具規(guī)模化。

論文直擊這一痛點，引入「自進(jìn)化AI智能體」（Self-Evolving AI Agents）的概念：這些系統(tǒng)通過與環(huán)境的持續(xù)交互并獲得反饋，自主優(yōu)化內(nèi)部組件，目標(biāo)是適應(yīng)變化的任務(wù)、上下文和資源，同時確保安全、性能提升和自主性。

論文鏈接：https://arxiv.org/pdf/2508.07407

項目地址：https://github.com/EvoAgentX/EvoAgentX

研究人員強(qiáng)調(diào)，這不是科幻，而是從基礎(chǔ)模型的靜態(tài)能力向終身智能體系統(tǒng)的橋梁。

為了讓進(jìn)化有序，作者借鑒艾薩克·阿西莫夫的機(jī)器人三定律，創(chuàng)新提出「自進(jìn)化AI智能體三定律」：

Endure（安全適應(yīng)），任何修改必須保證系統(tǒng)安全與穩(wěn)定。例如，醫(yī)療 AI 智能體在優(yōu)化診斷模型時，絕不能降低對患者安全的保障。

Excel（性能保持），在安全前提下，必須保持或提升現(xiàn)有任務(wù)性能。不能為了適應(yīng)新場景，導(dǎo)致核心功能（如客服的問題解決率）下降。

Evolve（自主進(jìn)化），在前兩定律基礎(chǔ)上，自主優(yōu)化內(nèi)部組件以適應(yīng)任務(wù)、環(huán)境或資源變化。例如，金融 AI 智能體需自主調(diào)整分析模型，應(yīng)對市場突發(fā)波動。

這三定律如AI的「內(nèi)在憲法」，分層設(shè)計（第二定律不能違背第一），確保進(jìn)化不失控，而是有序推進(jìn)。

值得一提的是，這篇綜述已經(jīng)沖上了Hugging Face Daily Paper熱榜前三名，并且在X上和GPT5賬號進(jìn)行了神奇的聯(lián)動：

看來即使是LLM也會被自進(jìn)化這個話題所吸引呢。

該團(tuán)隊同時維護(hù)全球首個AI智能體自進(jìn)化開源框架 ——EvoAgentX，旨在構(gòu)建一個可信賴的 AI 智能體自進(jìn)化生態(tài)體系。

從「固定工具」到「自主進(jìn)化」

AI智能體四次范式飛躍

論文進(jìn)一步描繪了LLM終身學(xué)習(xí)的范式，傳統(tǒng)AI系統(tǒng)往往是「一次性產(chǎn)品」：訓(xùn)練完成后就固定不變，面對動態(tài)環(huán)境時需要人工重新配置。

而自進(jìn)化AI智能體的突破，在于構(gòu)建了持續(xù)自我優(yōu)化的閉環(huán)。

從早期靜態(tài)預(yù)訓(xùn)練（MOP，Model Offline Pretraining），依賴大規(guī)模靜態(tài)數(shù)據(jù)；

到在線適應(yīng)（MOA，Model Online Adaptation），引入微調(diào)和RLHF；再到多智能體協(xié)調(diào)（MAO，Multi-Agent Orchestration），智能體間消息交換解決復(fù)雜任務(wù)；

最終抵達(dá)多智能體自進(jìn)化（MASE，Multi-Agent Self-Evolving），智能體群體基于環(huán)境反饋和元獎勵，持續(xù)精煉一切——從提示詞到交互拓?fù)浣Y(jié)構(gòu)。

表1詳細(xì)對比了四個范式：MOP的交互僅限于靜態(tài)數(shù)據(jù)和損失函數(shù)；MASE則通過環(huán)境信號驅(qū)動行為優(yōu)化、提示詞優(yōu)化等技術(shù)。這不僅僅是技術(shù)升級，更是范式革命——AI從「一次性訓(xùn)練」轉(zhuǎn)向「終身學(xué)習(xí)」.

統(tǒng)一框架

自進(jìn)化的「建筑藍(lán)圖」

論文提出的統(tǒng)一框架（圖 3）揭示了自進(jìn)化的底層邏輯，拆解為一個閉環(huán)迭代優(yōu)化循環(huán)。

四大數(shù)據(jù)流環(huán)環(huán)相扣：

系統(tǒng)輸入（System Inputs）：包括任務(wù)描述、訓(xùn)練數(shù)據(jù)集或具體實例（如輸入-輸出對），定義優(yōu)化邊界。任務(wù)級優(yōu)化針對整體性能，實例級則細(xì)化單個案例。

智能體系統(tǒng)（Agent System）：核心執(zhí)行者，可單智能體或多智能體形式，涵蓋LLM、提示詞、記憶、工具、工作流和通信機(jī)制。優(yōu)化可針對單個組件（如提示詞）或聯(lián)合（如提示詞+拓?fù)洌?/p>

環(huán)境（Environment）：模擬真實世界，提供操作上下文和反饋信號——從量化指標(biāo)（如準(zhǔn)確率、F1分?jǐn)?shù)、成功率）到LLM評估器生成的文本反饋。

優(yōu)化器（Optimisers）：大腦中樞，通過搜索空間（e.g.,提示詞模板、工具選擇）和優(yōu)化算法（規(guī)則啟發(fā)式、梯度下降、貝葉斯優(yōu)化、MCTS、RL或進(jìn)化策略）更新系統(tǒng)，尋找最佳配置。

例如，一個代碼生成智能體的進(jìn)化過程可能是：輸入「提升 Python 代碼調(diào)試效率」的任務(wù)→智能體嘗試不同的工具調(diào)用策略→在真實代碼環(huán)境中測試（環(huán)境）→優(yōu)化器根據(jù)調(diào)試成功率調(diào)整策略→迭代升級。

從單智能體「修煉」到多智能體「協(xié)作」

基于框架，論文系統(tǒng)分類優(yōu)化技術(shù)（見圖2的視覺分類樹，覆蓋2023-2025年方法）

單智能體優(yōu)化：聚焦個體提升

LLM行為優(yōu)化：訓(xùn)練式如SFT（STaR自訓(xùn)練理性）和RL（Self-Rewarding自我獎勵）；測試時擴(kuò)展如反饋導(dǎo)向（Baldur驗證器）和搜索（Tree-of-Thoughts多路徑探索）。

提示詞優(yōu)化：編輯式（GRIPS漸進(jìn)式提示詞）、生成式（OPRO零樣本優(yōu)化）、文本梯度式（TextGrad模擬梯度）和進(jìn)化式（EvoPrompt遺傳算法）。

記憶優(yōu)化：短期記憶（如COMEDY動態(tài)總結(jié)歷史）和長期記憶（如MemGPT RAG增強(qiáng)檢索）。

工具優(yōu)化：訓(xùn)練式（ToolLLM工具調(diào)用微調(diào)）和推理時（EASYTOOL工具鏈選擇），甚至自主創(chuàng)建工具（如CREATOR生成新API）。

多智能體優(yōu)化：從手動設(shè)計轉(zhuǎn)向自進(jìn)化

提示詞優(yōu)化：擴(kuò)展到團(tuán)隊角色（如AutoAgents自動分配）。

拓?fù)鋬?yōu)化：代碼級工作流（AutoFlow動態(tài)流程）和通信圖（GPTSwarm蜂群式交互）。

統(tǒng)一優(yōu)化：基于代碼（ADAS智能體設(shè)計空間）、基于搜索（EvoAgent進(jìn)化智能體）和基于學(xué)習(xí)（MaAS多智能體自監(jiān)督）。

LLM基座模型：推理導(dǎo)向訓(xùn)練（如Sirius規(guī)劃增強(qiáng)）和協(xié)作導(dǎo)向（如COPPER通信協(xié)議優(yōu)化）。

領(lǐng)域特定優(yōu)化：在專業(yè)場景落地

醫(yī)療診斷智能體可整合多模態(tài)數(shù)據(jù)（如影像、病歷），例如 MDTeamGPT 模擬多學(xué)科會診，通過反思討論提升診斷準(zhǔn)確率；分子發(fā)現(xiàn)智能體通過工具調(diào)用（如化學(xué)模擬軟件）設(shè)計新藥分子。

編程：代碼優(yōu)化智能體能自主調(diào)試、重構(gòu)代碼，例如 Self-Debugging 通過執(zhí)行軌跡反饋修正錯誤；多智能體協(xié)作（如「程序員 - 測試員」分工）提升開發(fā)效率。

金融與法律：金融智能體可結(jié)合市場動態(tài)與政策調(diào)整分析模型，法律智能體能模擬法庭辯論，通過對抗式進(jìn)化提升推理嚴(yán)謹(jǐn)性。

看完這些案例，你會發(fā)現(xiàn)自進(jìn)化不是空想，而是已經(jīng)在多個行業(yè)開花結(jié)果，正悄悄改變AI攻克專業(yè)難題的方式。

安全與評估：自進(jìn)化的「護(hù)欄」與「體檢」

自進(jìn)化的強(qiáng)大，也意味著更高的不可控風(fēng)險。論文指出，在高自治度的智能體中，安全、合規(guī)與可信評估必須是「內(nèi)建」的，而非「附加」的。

例如，AgentHarm 等基準(zhǔn)測試揭示了模型在多輪交互中被引導(dǎo)執(zhí)行惡意任務(wù)的可能性；R-Judge等方法則利用智能體充當(dāng)評估者，對其他智能體的行為進(jìn)行批判性審查。

這不僅關(guān)系到技術(shù)本身的穩(wěn)定性，更是未來AI大規(guī)模落地的社會底線。

從「能跑」

到「跑得遠(yuǎn)、跑得好、還能自己升級」

自進(jìn)化AI智能體的故事，才剛剛開始。雖然它們已經(jīng)能在多個領(lǐng)域「上場打比賽」，但要實現(xiàn)真正的終身進(jìn)化，還有不少硬骨頭要啃。這些挑戰(zhàn)可以用三個關(guān)鍵詞概括：持久（Endure）、卓越（Excel）、進(jìn)化（Evolve）。

挑戰(zhàn)一：持久運(yùn)行的安全與合規(guī)

安全與對齊難題

現(xiàn)有優(yōu)化方法更多關(guān)注「分?jǐn)?shù)高不高」，而忽視了「會不會出事」。比如，模型在演化中可能出現(xiàn)隱私泄露、目標(biāo)跑偏等風(fēng)險，而現(xiàn)有法規(guī)（如 EU AI Act、GDPR）都是按「靜態(tài)模型」寫的，根本沒考慮會自己變的系統(tǒng)。

穩(wěn)定性隱患

獎勵模型如果數(shù)據(jù)少、反饋噪聲大，很容易導(dǎo)致智能體行為不穩(wěn)定，甚至出現(xiàn)意料之外的錯誤。就像開車時方向盤太靈敏，一點點抖動就會偏航。

挑戰(zhàn)二：性能不僅要高，還要能穩(wěn)住

專業(yè)領(lǐng)域評測難

在生物醫(yī)學(xué)、法律等領(lǐng)域，很難有統(tǒng)一、可靠的「標(biāo)準(zhǔn)答案」，這讓模型優(yōu)化缺少精準(zhǔn)的反饋信號。

效率與效果的平衡

多智能體優(yōu)化可以讓結(jié)果更好，但計算成本、延遲和不穩(wěn)定性也會飆升，必須找到性能與資源消耗的平衡點。

優(yōu)化成果的可遷移性差

在一種大模型上調(diào)好的提示和架構(gòu)，換個模型可能就失效了，這對大規(guī)模落地是個大障礙。

挑戰(zhàn)三：真正的自主進(jìn)化

多模態(tài)與空間推理不足

現(xiàn)實世界不僅有文字，還有圖像、視頻、傳感器數(shù)據(jù)等，智能體要學(xué)會在這些信息中建立自己的「世界模型」，并具備時間和空間的推理能力。

工具的自主使用與創(chuàng)造

現(xiàn)在的智能體大多用的是「別人準(zhǔn)備好的工具」，缺少自己發(fā)現(xiàn)、組合、甚至創(chuàng)造工具的能力。

未來方向

這些問題并非無解，它們也是自進(jìn)化 AI 走向更高階段的機(jī)會：

開放式自進(jìn)化模擬環(huán)境

建立一個能「關(guān)起門來自己練」的虛擬世界，讓智能體在其中反復(fù)試錯、優(yōu)化提示、記憶、工具和工作流。

工具的自適應(yīng)使用與創(chuàng)造

從被動調(diào)用固定工具，升級為能主動選擇、組合甚至創(chuàng)造新工具，并用反饋和強(qiáng)化學(xué)習(xí)不斷打磨。

貼近真實場景的長期評測

不再只做一次性的「考試」，而是設(shè)計能持續(xù)跟蹤智能體長期表現(xiàn)的評測標(biāo)準(zhǔn)。

性能–資源雙目標(biāo)優(yōu)化

讓多智能體系統(tǒng)在性能和延遲、成本、能耗之間找到最優(yōu)平衡點。

面向行業(yè)的定制演化

針對科學(xué)、醫(yī)療、法律、教育等領(lǐng)域，結(jié)合專有知識、特定評測標(biāo)準(zhǔn)和法規(guī)要求進(jìn)行定制化演化。

未來的AI智能體，不僅要能跑，還要跑得遠(yuǎn)、跑得好，并且能在跑的過程中學(xué)會換鞋、補(bǔ)能、升級引擎。

沿著MOP→MOA→MAO→MASE的進(jìn)化路線，并以「三定律」為指南，這篇論文正在為這種「可持續(xù)、可自我進(jìn)化」的智能體提供很好的技術(shù)路線圖。

不同于以往智能體調(diào)研（聚焦靜態(tài)架構(gòu)），這份綜述填補(bǔ)自進(jìn)化空白，提供實用指南。

如果你想深入探索，可訪問論文配套的GitHub倉庫，獲取最新研究資源與代碼工具。

綜述對比

有趣的是，就在這篇綜述發(fā)布前不久，普林斯頓大學(xué)團(tuán)隊也推出了《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》。

兩篇論文相隔僅十天，卻在內(nèi)容與視角上形成了鮮明互補(bǔ)：

框架差異

格拉斯哥團(tuán)隊提出了「系統(tǒng)輸入—智能體系統(tǒng)—環(huán)境—優(yōu)化器」的四環(huán)反饋回路，直觀、可操作，更強(qiáng)調(diào)落地性。

普林斯頓團(tuán)隊則以「演化什么、何時演化、如何演化」三大維度進(jìn)行概括，更加宏觀，也更具哲學(xué)意味。

技術(shù)聚焦差異

格拉斯哥團(tuán)隊深入探討了 LLM 與終身學(xué)習(xí)場景，細(xì)化到 Prompt、Memory、Tools、多智能體通信等具體技術(shù)層面。

普林斯頓團(tuán)隊則更多聚焦于長遠(yuǎn)愿景，標(biāo)題本身也更偏哲學(xué)化，對工程細(xì)節(jié)的涉及較少。

深度與應(yīng)用差異

格拉斯哥團(tuán)隊提供了生物醫(yī)學(xué)、編程等領(lǐng)域的實戰(zhàn)案例，并專設(shè)了評估、安全與合規(guī)的章節(jié)。

普林斯頓團(tuán)隊則更偏向趨勢與遠(yuǎn)景藍(lán)圖，強(qiáng)調(diào)整體性的思考。

換言之，普林斯頓的綜述更像一幅宏觀地圖，展示了「自進(jìn)化智能體」可能的未來方向；而格拉斯哥的綜述更像一套操作指南，體現(xiàn)出當(dāng)下研究者如何將自進(jìn)化智能體真正落地。兩者相互呼應(yīng)，共同勾勒出這一新興領(lǐng)域的理論圖景與實踐路徑。

參考資料：

https://arxiv.org/pdf/2508.07407

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.