成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5點贊!八大頂尖機(jī)構(gòu)發(fā)布「自進(jìn)化智能體」全面綜述

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】在AI浪潮席卷全球的2025年,大語言模型(LLM)已從單純的聊天工具演變?yōu)槟芤?guī)劃、決策的智能體。但問題來了:這些智能體一旦部署,就如「凍結(jié)的冰塊」,難以適應(yīng)瞬息萬變的世界。試想,一個客服智能體面對突發(fā)的新產(chǎn)品政策時束手無策,或一個科研助手忽略了最新發(fā)表的算法——這樣的場景,不僅低效,還可能釀成災(zāi)難。近期,格拉斯哥大學(xué)、劍橋大學(xué)、謝菲爾德大學(xué)、新加坡國立大學(xué)、UCL等機(jī)構(gòu)的學(xué)者發(fā)布了最新綜述,系統(tǒng)梳理了AI智能體自進(jìn)化的核心框架與挑戰(zhàn),并為研究者提供了一套清晰可落地的研發(fā)路線圖。

LLM驅(qū)動的AI智能體已展現(xiàn)出驚人潛力:它們以LLM為核心,集成感知模塊(處理文本/圖像/音頻/視頻)、規(guī)劃模塊(如鏈?zhǔn)剿伎糃oT或樹式思考ToT)、記憶模塊(短期上下文存儲與長期知識檢索)和工具模塊(調(diào)用API如搜索引擎或代碼執(zhí)行器)。

在單智能體系統(tǒng)中,這些組件協(xié)同工作,處理從網(wǎng)頁導(dǎo)航、代碼生成、投資輔助到生物醫(yī)學(xué)分析的任務(wù)。而在多智能體系統(tǒng)(MAS)中,智能體間通過協(xié)作(如辯論或任務(wù)分解)攻克復(fù)雜問題,模擬人類團(tuán)隊的群體智能。

但問題顯而易見:現(xiàn)有的智能體系統(tǒng)依賴專家的手工搭建,并且一旦被部署后就會始終維持固定的架構(gòu)和功能。

一旦環(huán)境改變(如用戶改變意圖、出現(xiàn)新工具或者信息來源出現(xiàn)變化),手動重配置就成了瓶頸——耗時、費(fèi)力、不具規(guī)模化。

論文直擊這一痛點,引入「自進(jìn)化AI智能體」(Self-Evolving AI Agents)的概念:這些系統(tǒng)通過與環(huán)境的持續(xù)交互并獲得反饋,自主優(yōu)化內(nèi)部組件,目標(biāo)是適應(yīng)變化的任務(wù)、上下文和資源,同時確保安全、性能提升和自主性。


論文鏈接:https://arxiv.org/pdf/2508.07407

項目地址:https://github.com/EvoAgentX/EvoAgentX

研究人員強(qiáng)調(diào),這不是科幻,而是從基礎(chǔ)模型的靜態(tài)能力向終身智能體系統(tǒng)的橋梁。

為了讓進(jìn)化有序,作者借鑒艾薩克·阿西莫夫的機(jī)器人三定律,創(chuàng)新提出「自進(jìn)化AI智能體三定律」:

Endure(安全適應(yīng)),任何修改必須保證系統(tǒng)安全與穩(wěn)定。例如,醫(yī)療 AI 智能體在優(yōu)化診斷模型時,絕不能降低對患者安全的保障。

Excel(性能保持),在安全前提下,必須保持或提升現(xiàn)有任務(wù)性能。不能為了適應(yīng)新場景,導(dǎo)致核心功能(如客服的問題解決率)下降。

Evolve(自主進(jìn)化),在前兩定律基礎(chǔ)上,自主優(yōu)化內(nèi)部組件以適應(yīng)任務(wù)、環(huán)境或資源變化。例如,金融 AI 智能體需自主調(diào)整分析模型,應(yīng)對市場突發(fā)波動。

這三定律如AI的「內(nèi)在憲法」,分層設(shè)計(第二定律不能違背第一),確保進(jìn)化不失控,而是有序推進(jìn)。

值得一提的是,這篇綜述已經(jīng)沖上了Hugging Face Daily Paper熱榜前三名,并且在X上和GPT5賬號進(jìn)行了神奇的聯(lián)動:


看來即使是LLM也會被自進(jìn)化這個話題所吸引呢。

該團(tuán)隊同時維護(hù)全球首個AI智能體自進(jìn)化開源框架 ——EvoAgentX,旨在構(gòu)建一個可信賴的 AI 智能體自進(jìn)化生態(tài)體系。

從「固定工具」到「自主進(jìn)化」

AI智能體四次范式飛躍

論文進(jìn)一步描繪了LLM終身學(xué)習(xí)的范式,傳統(tǒng)AI系統(tǒng)往往是 「一次性產(chǎn)品」:訓(xùn)練完成后就固定不變,面對動態(tài)環(huán)境時需要人工重新配置。

而自進(jìn)化AI智能體的突破,在于構(gòu)建了持續(xù)自我優(yōu)化的閉環(huán)。

從早期靜態(tài)預(yù)訓(xùn)練(MOP,Model Offline Pretraining),依賴大規(guī)模靜態(tài)數(shù)據(jù);

到在線適應(yīng)(MOA,Model Online Adaptation),引入微調(diào)和RLHF;再到多智能體協(xié)調(diào)(MAO,Multi-Agent Orchestration),智能體間消息交換解決復(fù)雜任務(wù);

最終抵達(dá)多智能體自進(jìn)化(MASE,Multi-Agent Self-Evolving),智能體群體基于環(huán)境反饋和元獎勵,持續(xù)精煉一切——從提示詞到交互拓?fù)浣Y(jié)構(gòu)。


表1詳細(xì)對比了四個范式:MOP的交互僅限于靜態(tài)數(shù)據(jù)和損失函數(shù);MASE則通過環(huán)境信號驅(qū)動行為優(yōu)化、提示詞優(yōu)化等技術(shù)。這不僅僅是技術(shù)升級,更是范式革命——AI從「一次性訓(xùn)練」轉(zhuǎn)向「終身學(xué)習(xí)」.

統(tǒng)一框架

自進(jìn)化的「建筑藍(lán)圖」

論文提出的統(tǒng)一框架(圖 3)揭示了自進(jìn)化的底層邏輯,拆解為一個閉環(huán)迭代優(yōu)化循環(huán)。


四大數(shù)據(jù)流環(huán)環(huán)相扣:

系統(tǒng)輸入(System Inputs):包括任務(wù)描述、訓(xùn)練數(shù)據(jù)集或具體實例(如輸入-輸出對),定義優(yōu)化邊界。任務(wù)級優(yōu)化針對整體性能,實例級則細(xì)化單個案例。

智能體系統(tǒng)(Agent System):核心執(zhí)行者,可單智能體或多智能體形式,涵蓋LLM、提示詞、記憶、工具、工作流和通信機(jī)制。優(yōu)化可針對單個組件(如提示詞)或聯(lián)合(如提示詞+拓?fù)洌?/p>

環(huán)境(Environment):模擬真實世界,提供操作上下文和反饋信號——從量化指標(biāo)(如準(zhǔn)確率、F1分?jǐn)?shù)、成功率)到LLM評估器生成的文本反饋。

優(yōu)化器(Optimisers):大腦中樞,通過搜索空間(e.g.,提示詞模板、工具選擇)和優(yōu)化算法(規(guī)則啟發(fā)式、梯度下降、貝葉斯優(yōu)化、MCTS、RL或進(jìn)化策略)更新系統(tǒng),尋找最佳配置。

例如,一個代碼生成智能體的進(jìn)化過程可能是:輸入「提升 Python 代碼調(diào)試效率」的任務(wù)→智能體嘗試不同的工具調(diào)用策略→在真實代碼環(huán)境中測試(環(huán)境)→優(yōu)化器根據(jù)調(diào)試成功率調(diào)整策略→迭代升級。

從單智能體「修煉」到多智能體「協(xié)作」

基于框架,論文系統(tǒng)分類優(yōu)化技術(shù)(見圖2的視覺分類樹,覆蓋2023-2025年方法)

單智能體優(yōu)化:聚焦個體提升

LLM行為優(yōu)化:訓(xùn)練式如SFT(STaR自訓(xùn)練理性)和RL(Self-Rewarding自我獎勵);測試時擴(kuò)展如反饋導(dǎo)向(Baldur驗證器)和搜索(Tree-of-Thoughts多路徑探索)。

提示詞優(yōu)化:編輯式(GRIPS漸進(jìn)式提示詞)、生成式(OPRO零樣本優(yōu)化)、文本梯度式(TextGrad模擬梯度)和進(jìn)化式(EvoPrompt遺傳算法)。

記憶優(yōu)化:短期記憶(如COMEDY動態(tài)總結(jié)歷史)和長期記憶(如MemGPT RAG增強(qiáng)檢索)。

工具優(yōu)化:訓(xùn)練式(ToolLLM工具調(diào)用微調(diào))和推理時(EASYTOOL工具鏈選擇),甚至自主創(chuàng)建工具(如CREATOR生成新API)。

多智能體優(yōu)化:從手動設(shè)計轉(zhuǎn)向自進(jìn)化

提示詞優(yōu)化:擴(kuò)展到團(tuán)隊角色(如AutoAgents自動分配)。

拓?fù)鋬?yōu)化:代碼級工作流(AutoFlow動態(tài)流程)和通信圖(GPTSwarm蜂群式交互)。

統(tǒng)一優(yōu)化:基于代碼(ADAS智能體設(shè)計空間)、基于搜索(EvoAgent進(jìn)化智能體)和基于學(xué)習(xí)(MaAS多智能體自監(jiān)督)。

LLM基座模型:推理導(dǎo)向訓(xùn)練(如Sirius規(guī)劃增強(qiáng))和協(xié)作導(dǎo)向(如COPPER通信協(xié)議優(yōu)化)。

領(lǐng)域特定優(yōu)化:在專業(yè)場景落地

醫(yī)療診斷智能體可整合多模態(tài)數(shù)據(jù)(如影像、病歷),例如 MDTeamGPT 模擬多學(xué)科會診,通過反思討論提升診斷準(zhǔn)確率;分子發(fā)現(xiàn)智能體通過工具調(diào)用(如化學(xué)模擬軟件)設(shè)計新藥分子。

編程:代碼優(yōu)化智能體能自主調(diào)試、重構(gòu)代碼,例如 Self-Debugging 通過執(zhí)行軌跡反饋修正錯誤;多智能體協(xié)作(如 「程序員 - 測試員」 分工)提升開發(fā)效率。

金融與法律:金融智能體可結(jié)合市場動態(tài)與政策調(diào)整分析模型,法律智能體能模擬法庭辯論,通過對抗式進(jìn)化提升推理嚴(yán)謹(jǐn)性。

看完這些案例,你會發(fā)現(xiàn)自進(jìn)化不是空想,而是已經(jīng)在多個行業(yè)開花結(jié)果,正悄悄改變AI攻克專業(yè)難題的方式。

安全與評估:自進(jìn)化的「護(hù)欄」與「體檢」

自進(jìn)化的強(qiáng)大,也意味著更高的不可控風(fēng)險。論文指出,在高自治度的智能體中,安全、合規(guī)與可信評估必須是「內(nèi)建」的,而非「附加」的。

例如,AgentHarm 等基準(zhǔn)測試揭示了模型在多輪交互中被引導(dǎo)執(zhí)行惡意任務(wù)的可能性;R-Judge等方法則利用智能體充當(dāng)評估者,對其他智能體的行為進(jìn)行批判性審查。

這不僅關(guān)系到技術(shù)本身的穩(wěn)定性,更是未來AI大規(guī)模落地的社會底線。

從「能跑」

「跑得遠(yuǎn)、跑得好、還能自己升級」

自進(jìn)化AI智能體的故事,才剛剛開始。雖然它們已經(jīng)能在多個領(lǐng)域「上場打比賽」,但要實現(xiàn)真正的終身進(jìn)化,還有不少硬骨頭要啃。這些挑戰(zhàn)可以用三個關(guān)鍵詞概括:持久(Endure)、卓越(Excel)、進(jìn)化(Evolve)

挑戰(zhàn)一:持久運(yùn)行的安全與合規(guī)

安全與對齊難題

現(xiàn)有優(yōu)化方法更多關(guān)注「分?jǐn)?shù)高不高」,而忽視了「會不會出事」。比如,模型在演化中可能出現(xiàn)隱私泄露、目標(biāo)跑偏等風(fēng)險,而現(xiàn)有法規(guī)(如 EU AI Act、GDPR)都是按「靜態(tài)模型」寫的,根本沒考慮會自己變的系統(tǒng)。

穩(wěn)定性隱患

獎勵模型如果數(shù)據(jù)少、反饋噪聲大,很容易導(dǎo)致智能體行為不穩(wěn)定,甚至出現(xiàn)意料之外的錯誤。就像開車時方向盤太靈敏,一點點抖動就會偏航。

挑戰(zhàn)二:性能不僅要高,還要能穩(wěn)住

專業(yè)領(lǐng)域評測難

在生物醫(yī)學(xué)、法律等領(lǐng)域,很難有統(tǒng)一、可靠的「標(biāo)準(zhǔn)答案」,這讓模型優(yōu)化缺少精準(zhǔn)的反饋信號。

效率與效果的平衡

多智能體優(yōu)化可以讓結(jié)果更好,但計算成本、延遲和不穩(wěn)定性也會飆升,必須找到性能與資源消耗的平衡點。

優(yōu)化成果的可遷移性差

在一種大模型上調(diào)好的提示和架構(gòu),換個模型可能就失效了,這對大規(guī)模落地是個大障礙。

挑戰(zhàn)三:真正的自主進(jìn)化

多模態(tài)與空間推理不足

現(xiàn)實世界不僅有文字,還有圖像、視頻、傳感器數(shù)據(jù)等,智能體要學(xué)會在這些信息中建立自己的「世界模型」,并具備時間和空間的推理能力。

工具的自主使用與創(chuàng)造

現(xiàn)在的智能體大多用的是「別人準(zhǔn)備好的工具」,缺少自己發(fā)現(xiàn)、組合、甚至創(chuàng)造工具的能力。

未來方向

這些問題并非無解,它們也是自進(jìn)化 AI 走向更高階段的機(jī)會:

開放式自進(jìn)化模擬環(huán)境

建立一個能「關(guān)起門來自己練」的虛擬世界,讓智能體在其中反復(fù)試錯、優(yōu)化提示、記憶、工具和工作流。

工具的自適應(yīng)使用與創(chuàng)造

從被動調(diào)用固定工具,升級為能主動選擇、組合甚至創(chuàng)造新工具,并用反饋和強(qiáng)化學(xué)習(xí)不斷打磨。

貼近真實場景的長期評測

不再只做一次性的「考試」,而是設(shè)計能持續(xù)跟蹤智能體長期表現(xiàn)的評測標(biāo)準(zhǔn)。

性能–資源雙目標(biāo)優(yōu)化

讓多智能體系統(tǒng)在性能和延遲、成本、能耗之間找到最優(yōu)平衡點。

面向行業(yè)的定制演化

針對科學(xué)、醫(yī)療、法律、教育等領(lǐng)域,結(jié)合專有知識、特定評測標(biāo)準(zhǔn)和法規(guī)要求進(jìn)行定制化演化。

未來的AI智能體,不僅要能跑,還要跑得遠(yuǎn)、跑得好,并且能在跑的過程中學(xué)會換鞋、補(bǔ)能、升級引擎。

沿著MOP→MOA→MAO→MASE的進(jìn)化路線,并以「三定律」為指南,這篇論文正在為這種「可持續(xù)、可自我進(jìn)化」的智能體提供很好的技術(shù)路線圖。

不同于以往智能體調(diào)研(聚焦靜態(tài)架構(gòu)),這份綜述填補(bǔ)自進(jìn)化空白,提供實用指南。

如果你想深入探索,可訪問論文配套的GitHub倉庫,獲取最新研究資源與代碼工具。

綜述對比

有趣的是,就在這篇綜述發(fā)布前不久,普林斯頓大學(xué)團(tuán)隊也推出了《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》。

兩篇論文相隔僅十天,卻在內(nèi)容與視角上形成了鮮明互補(bǔ):

框架差異

格拉斯哥團(tuán)隊提出了「系統(tǒng)輸入—智能體系統(tǒng)—環(huán)境—優(yōu)化器」的四環(huán)反饋回路,直觀、可操作,更強(qiáng)調(diào)落地性。

普林斯頓團(tuán)隊則以「演化什么、何時演化、如何演化」三大維度進(jìn)行概括,更加宏觀,也更具哲學(xué)意味。

技術(shù)聚焦差異

格拉斯哥團(tuán)隊深入探討了 LLM 與終身學(xué)習(xí)場景,細(xì)化到 Prompt、Memory、Tools、多智能體通信等具體技術(shù)層面。

普林斯頓團(tuán)隊則更多聚焦于長遠(yuǎn)愿景,標(biāo)題本身也更偏哲學(xué)化,對工程細(xì)節(jié)的涉及較少。

深度與應(yīng)用差異

格拉斯哥團(tuán)隊提供了生物醫(yī)學(xué)、編程等領(lǐng)域的實戰(zhàn)案例,并專設(shè)了評估、安全與合規(guī)的章節(jié)。

普林斯頓團(tuán)隊則更偏向趨勢與遠(yuǎn)景藍(lán)圖,強(qiáng)調(diào)整體性的思考。

換言之,普林斯頓的綜述更像一幅宏觀地圖,展示了「自進(jìn)化智能體」可能的未來方向;而格拉斯哥的綜述更像一套操作指南,體現(xiàn)出當(dāng)下研究者如何將自進(jìn)化智能體真正落地。兩者相互呼應(yīng),共同勾勒出這一新興領(lǐng)域的理論圖景與實踐路徑。

參考資料:

https://arxiv.org/pdf/2508.07407


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
場均轟38.4分,5年2.38億頂薪!勇士錯失超巨,湖人迎組4巨頭良機(jī)

場均轟38.4分,5年2.38億頂薪!勇士錯失超巨,湖人迎組4巨頭良機(jī)

老梁體育漫談
2025-08-30 23:01:50
又一個張本智和!國乒主力加入日本國籍,傾囊相授只為打敗中國隊

又一個張本智和!國乒主力加入日本國籍,傾囊相授只為打敗中國隊

涼羽亭
2025-08-27 17:19:58
人生最好的境界,就是時刻有放空自己的智慧

人生最好的境界,就是時刻有放空自己的智慧

沐浴春江
2025-08-30 22:07:30
潘石屹夫婦的家族信托布局全解

潘石屹夫婦的家族信托布局全解

WEALTH財富管理
2025-08-25 16:34:22
阿莫林不保證下個月仍執(zhí)教曼聯(lián)!承認(rèn)有時真想辭職,厭惡本隊球員

阿莫林不保證下個月仍執(zhí)教曼聯(lián)!承認(rèn)有時真想辭職,厭惡本隊球員

羅米的曼聯(lián)博客
2025-08-30 08:33:08
1946年華中軍區(qū)曾密電毛澤東:陳毅不會打仗!毛主席三句話定乾坤

1946年華中軍區(qū)曾密電毛澤東:陳毅不會打仗!毛主席三句話定乾坤

云霄紀(jì)史觀
2025-08-30 15:00:23
特朗普只剩8個月可活?萬斯告訴全美,自己準(zhǔn)備好接過總統(tǒng)位子

特朗普只剩8個月可活?萬斯告訴全美,自己準(zhǔn)備好接過總統(tǒng)位子

前沿天地
2025-08-30 15:05:44
藥性最好的中藥一覽表,太珍貴了!

藥性最好的中藥一覽表,太珍貴了!

環(huán)京快爆
2025-08-27 12:32:09
低密度脂蛋白不超過這個范圍,根本不需要用藥

低密度脂蛋白不超過這個范圍,根本不需要用藥

醫(yī)學(xué)原創(chuàng)故事會
2025-08-30 23:59:54
重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

流蘇晚晴
2025-08-30 18:06:15
2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

老媹古裝影視解說
2025-08-29 21:07:49
有高人預(yù)測:2025下半年,若不出大意外,國內(nèi)將發(fā)生這6大變化!

有高人預(yù)測:2025下半年,若不出大意外,國內(nèi)將發(fā)生這6大變化!

裝修秀
2025-08-18 12:00:03
河南一家升學(xué)宴,親戚朋友無一人到場,年邁的爺爺掏出一千元

河南一家升學(xué)宴,親戚朋友無一人到場,年邁的爺爺掏出一千元

愛論歷史
2025-08-27 22:04:06
這位上外老師說,“年輕一代要為和平而努力”

這位上外老師說,“年輕一代要為和平而努力”

微言教育
2025-08-30 16:42:38
我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

吳學(xué)華看天下
2023-12-20 12:32:08
1米3袖珍美女:嫁1米48男孩,婚后丈夫奇跡長高,兩人不歡而散

1米3袖珍美女:嫁1米48男孩,婚后丈夫奇跡長高,兩人不歡而散

知鑒明史
2025-08-28 16:20:03
創(chuàng)新藥之后,下一個潛在的市場爆點

創(chuàng)新藥之后,下一個潛在的市場爆點

醫(yī)藥投資部落
2025-08-29 09:02:33
汪小菲就是從這個時候開始不愛大S的,鄙夷不屑的眼神太明顯了!

汪小菲就是從這個時候開始不愛大S的,鄙夷不屑的眼神太明顯了!

探源歷史
2025-08-30 07:50:10
河南黃金樓,開業(yè)首日晚間數(shù)千人,年預(yù)計客流可達(dá)80萬

河南黃金樓,開業(yè)首日晚間數(shù)千人,年預(yù)計客流可達(dá)80萬

白淺娛樂聊
2025-08-28 10:11:47
中共中央、國務(wù)院:支持老舊住房自主更新、原拆原建!

中共中央、國務(wù)院:支持老舊住房自主更新、原拆原建!

越喬
2025-08-29 09:20:43
2025-08-31 03:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

健康
房產(chǎn)
時尚
公開課
軍事航空

精神科專家解答學(xué)習(xí)困難七大問題

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國務(wù)院批準(zhǔn)對烏新軍售

無障礙瀏覽 進(jìn)入關(guān)懷版