論文作者包括來(lái)自上海交通大學(xué)的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢(mèng)輝、陳渤、唐睿明。
本文第一作者是朱家琛,上海交通大學(xué)博士生,主要研究興趣集中在大模型推理,個(gè)性化 Agent。本文通訊作者是張偉楠,上海交通大學(xué)教授,研究方向包含強(qiáng)化學(xué)習(xí)、數(shù)據(jù)科學(xué)、機(jī)器人控制、推薦搜索等。
自從 Transformer 問(wèn)世,NLP 領(lǐng)域發(fā)生了顛覆性變化。大語(yǔ)言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今,AI 正不斷向前,具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。
不同于以往只會(huì)對(duì)話(huà)的 LLM 機(jī)器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類(lèi) API,還能根據(jù)真實(shí)環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問(wèn)答模式” 的限制,能夠主動(dòng)執(zhí)行任務(wù)、應(yīng)對(duì)各種復(fù)雜場(chǎng)景,真正成為用戶(hù)身邊可靠的智能助手。
在這股 AI Agent 浪潮中,每個(gè)人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強(qiáng)大呢?海量的 Agent 評(píng)測(cè)方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬(wàn)馬中挑選出最適合你的測(cè)評(píng)方式呢?作為 AI Agent 的開(kāi)發(fā)者,你是否也在思考該從哪個(gè)角度來(lái)提升你的 “秘密武器”,在這場(chǎng)激烈的 AI Agent 大戰(zhàn)中脫穎而出?
因此,這引出了一個(gè)順理成章的問(wèn)題:
AI Agent 到底和傳統(tǒng)聊天機(jī)器人有何本質(zhì)區(qū)別?又該如何科學(xué)評(píng)測(cè) AI Agent?
- 論文標(biāo)題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/pdf/2506.11102
一、從 LLM Chatbot 到 AI Agent
論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類(lèi)對(duì)話(huà),還具備了五個(gè)維度的進(jìn)化:
1.復(fù)雜環(huán)境:Agent 不再局限于單一對(duì)話(huà)場(chǎng)景,可以與代碼庫(kù)、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)實(shí)驗(yàn)等各類(lèi)環(huán)境交互。
2.多源指令:Agent 不只接收人工輸入,還能結(jié)合自我反思、智能體協(xié)作等多源指令。
3.動(dòng)態(tài)反饋:Agent 運(yùn)行于連續(xù)多樣的反饋環(huán)境,可基于指標(biāo)、獎(jiǎng)勵(lì)等動(dòng)態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動(dòng)對(duì)話(huà)糾正。
4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺(jué)、聽(tīng)覺(jué)等多種數(shù)據(jù)。
5.高級(jí)能力:隨著外部環(huán)境復(fù)雜化,Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力,實(shí)現(xiàn)從被動(dòng)響應(yīng)到自主執(zhí)行的躍遷。
圖 1:AI Agent 與 LLM Chatbot 演化的五個(gè)維度。
LLM Chatbot 向 AI Agent 的演進(jìn),背后主要受兩方面推動(dòng):一是外部環(huán)境的日益復(fù)雜,二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長(zhǎng),而 Agent 能力的提升又推動(dòng)人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場(chǎng)景。正是這種內(nèi)外循環(huán)、相互促進(jìn),成為現(xiàn)代 AI Agent 加速進(jìn)化的根本動(dòng)力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi)學(xué)。隨后進(jìn)行趨勢(shì)討論,對(duì) Agent 評(píng)測(cè)方法演化趨勢(shì)的討論,涉及環(huán)境角度,Agent 角度,評(píng)估者角度,指標(biāo)角度,并最終提出基準(zhǔn)選擇的方法論。
圖 2:論文框架總覽
二、評(píng)測(cè)框架與基準(zhǔn)盤(pán)點(diǎn)
面對(duì) Agent 能力的指數(shù)級(jí)擴(kuò)展,原有的聊天機(jī)器人評(píng)測(cè)方法已無(wú)法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi):
1.環(huán)境維度:細(xì)分為代碼、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)、游戲等環(huán)境。
2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級(jí)能力。
針對(duì)每種環(huán)境與能力,論文整理了當(dāng)前最具代表性的評(píng)測(cè)基準(zhǔn),并梳理出一套 “實(shí)用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。
以表 1 為例,我們列出了我們認(rèn)為最重要的屬性:真實(shí)性,離線(xiàn) / 在線(xiàn),評(píng)測(cè)者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準(zhǔn)歸到這些屬性中。
表 1:Web 環(huán)境下的 Agent 基準(zhǔn)以及其各類(lèi)屬性
三、AI Agent 評(píng)測(cè)方法的進(jìn)化趨勢(shì)
圖 3:AI Agent 評(píng)測(cè)未來(lái)演化的四個(gè)視角。
論文深刻總結(jié)了 AI Agent 評(píng)測(cè)方法的未來(lái)趨勢(shì),不再只是 “比誰(shuí)答得對(duì)”,而是從四個(gè)關(guān)鍵視角全面升級(jí):
1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從少狀態(tài)到多狀態(tài)。
最初,Agent 評(píng)測(cè)只圍繞文本展開(kāi),如今則逐漸擴(kuò)展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿(mǎn)足需求,動(dòng)態(tài)、實(shí)時(shí)更新的真實(shí)環(huán)境成為新常態(tài)。同時(shí),評(píng)測(cè)方式也在轉(zhuǎn)變,開(kāi)始關(guān)注智能體在連續(xù)任務(wù)過(guò)程中的表現(xiàn)和調(diào)整,而不再只看最終結(jié)果。
2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動(dòng)。
新一代評(píng)測(cè)不僅關(guān)注單個(gè) Agent 的能力,更重視多個(gè) Agent 間的協(xié)作與博弈。與此同時(shí),任務(wù)由簡(jiǎn)單的一問(wèn)一答,演化為多輪對(duì)話(huà)、持續(xù)推理和復(fù)雜任務(wù)鏈,考驗(yàn) Agent 的全局規(guī)劃與長(zhǎng)期記憶。
3. 評(píng)測(cè)者視角:從人工到 AI 自動(dòng)評(píng)測(cè)、從通用到個(gè)性化。
AI 不再只是被動(dòng)接受人類(lèi)評(píng)分,越來(lái)越多的 Agent 可以自動(dòng)評(píng)判同行,實(shí)現(xiàn)規(guī)?;?、自主化評(píng)測(cè)。同時(shí),未來(lái)的評(píng)測(cè)將更加關(guān)注個(gè)性化,衡量 Agent 是否能針對(duì)不同用戶(hù)給出個(gè)性化的服務(wù)。
4. 指標(biāo)視角:從粗粒度到細(xì)粒度,從關(guān)注正確率到關(guān)注效率、安全與社會(huì)價(jià)值。
單一的正確率已無(wú)法反映 Agent 真實(shí)能力。未來(lái)評(píng)測(cè)更強(qiáng)調(diào)任務(wù)效率、細(xì)粒度決策的質(zhì)量、安全性和倫理性,比如防止誤操作、保障用戶(hù)利益、促進(jìn)社會(huì)善意等。
四、行動(dòng)指南:
如何選擇合適的 Agent 評(píng)測(cè)基準(zhǔn)
面對(duì) AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評(píng)估 AI Agent” 這一核心問(wèn)題,提出了一套二階段的基準(zhǔn)選擇方法論:
第一階段:從當(dāng)下出發(fā)。
根據(jù)實(shí)際任務(wù)環(huán)境和 Agent 能力,先鎖定對(duì)應(yīng)的環(huán)境和能力分類(lèi)(圖 2),從屬性表(表 1)中精準(zhǔn)匹配最適用的評(píng)測(cè)基準(zhǔn)。例如,開(kāi)發(fā)者 Z 開(kāi)發(fā)了能預(yù)訂航班和酒店的 Agent,應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準(zhǔn)進(jìn)行測(cè)試。
第二階段:為未來(lái)考慮。
結(jié)合評(píng)測(cè)進(jìn)化趨勢(shì)(圖 3),開(kāi)發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會(huì)價(jià)值等新維度。隨著產(chǎn)品商業(yè)化,適時(shí)引入動(dòng)態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個(gè)性化(如 PeToolBench)等多樣化評(píng)測(cè)基準(zhǔn),確保 Agent 持續(xù)優(yōu)化與進(jìn)化。
結(jié)語(yǔ)
AI Agent 正在從 “會(huì)對(duì)話(huà)” 進(jìn)化為 “會(huì)行動(dòng)”,推動(dòng)人工智能邁向更智能、更自主、更有價(jià)值的下一個(gè)時(shí)代。而如何科學(xué)評(píng)測(cè) AI Agent,是驅(qū)動(dòng)這一切的關(guān)鍵。如果讀者你也關(guān)心如何評(píng)測(cè)新穎的 AI Agent,我們的綜述值得一讀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.