網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI Agent、傳統(tǒng)聊天機(jī)器人有何區(qū)別？這篇30頁(yè)綜述講明白了

2025-07-02 16:11:51　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

論文作者包括來(lái)自上海交通大學(xué)的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠，以及華為諾亞研究所的朱夢(mèng)輝、陳渤、唐睿明。

本文第一作者是朱家琛，上海交通大學(xué)博士生，主要研究興趣集中在大模型推理，個(gè)性化 Agent。本文通訊作者是張偉楠，上海交通大學(xué)教授，研究方向包含強(qiáng)化學(xué)習(xí)、數(shù)據(jù)科學(xué)、機(jī)器人控制、推薦搜索等。

自從 Transformer 問(wèn)世，NLP 領(lǐng)域發(fā)生了顛覆性變化。大語(yǔ)言模型極大提升了文本理解與生成能力，成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今，AI 正不斷向前，具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。

不同于以往只會(huì)對(duì)話(huà)的 LLM 機(jī)器人，AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類(lèi) API，還能根據(jù)真實(shí)環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力，已經(jīng)突破了傳統(tǒng) “問(wèn)答模式” 的限制，能夠主動(dòng)執(zhí)行任務(wù)、應(yīng)對(duì)各種復(fù)雜場(chǎng)景，真正成為用戶(hù)身邊可靠的智能助手。

在這股 AI Agent 浪潮中，每個(gè)人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強(qiáng)大呢？海量的 Agent 評(píng)測(cè)方式層出不窮，你是否挑得眼花繚亂？如何在這千軍萬(wàn)馬中挑選出最適合你的測(cè)評(píng)方式呢？作為 AI Agent 的開(kāi)發(fā)者，你是否也在思考該從哪個(gè)角度來(lái)提升你的 “秘密武器”，在這場(chǎng)激烈的 AI Agent 大戰(zhàn)中脫穎而出？

因此，這引出了一個(gè)順理成章的問(wèn)題：

AI Agent 到底和傳統(tǒng)聊天機(jī)器人有何本質(zhì)區(qū)別？又該如何科學(xué)評(píng)測(cè) AI Agent？

論文標(biāo)題：Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
論文鏈接：https://arxiv.org/pdf/2506.11102

一、從 LLM Chatbot 到 AI Agent

論文指出，AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類(lèi)對(duì)話(huà)，還具備了五個(gè)維度的進(jìn)化：

1.復(fù)雜環(huán)境：Agent 不再局限于單一對(duì)話(huà)場(chǎng)景，可以與代碼庫(kù)、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)實(shí)驗(yàn)等各類(lèi)環(huán)境交互。

2.多源指令：Agent 不只接收人工輸入，還能結(jié)合自我反思、智能體協(xié)作等多源指令。

3.動(dòng)態(tài)反饋：Agent 運(yùn)行于連續(xù)多樣的反饋環(huán)境，可基于指標(biāo)、獎(jiǎng)勵(lì)等動(dòng)態(tài)反饋持續(xù)優(yōu)化自身能力，不再局限于被動(dòng)對(duì)話(huà)糾正。

4.多模態(tài)：Agent 擁有跨模態(tài)處理能力，能理解文本、視覺(jué)、聽(tīng)覺(jué)等多種數(shù)據(jù)。

5.高級(jí)能力：隨著外部環(huán)境復(fù)雜化，Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力，實(shí)現(xiàn)從被動(dòng)響應(yīng)到自主執(zhí)行的躍遷。

圖 1：AI Agent 與 LLM Chatbot 演化的五個(gè)維度。

LLM Chatbot 向 AI Agent 的演進(jìn)，背后主要受兩方面推動(dòng)：一是外部環(huán)境的日益復(fù)雜，二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長(zhǎng)，而 Agent 能力的提升又推動(dòng)人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場(chǎng)景。正是這種內(nèi)外循環(huán)、相互促進(jìn)，成為現(xiàn)代 AI Agent 加速進(jìn)化的根本動(dòng)力。因此，論文的總體框架如圖 2 所示：我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn)，提出 “環(huán)境 - 能力” 兩方面的分類(lèi)學(xué)。隨后進(jìn)行趨勢(shì)討論，對(duì) Agent 評(píng)測(cè)方法演化趨勢(shì)的討論，涉及環(huán)境角度，Agent 角度，評(píng)估者角度，指標(biāo)角度，并最終提出基準(zhǔn)選擇的方法論。

圖 2：論文框架總覽

二、評(píng)測(cè)框架與基準(zhǔn)盤(pán)點(diǎn)

面對(duì) Agent 能力的指數(shù)級(jí)擴(kuò)展，原有的聊天機(jī)器人評(píng)測(cè)方法已無(wú)法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn)，提出 “環(huán)境 - 能力” 兩方面的分類(lèi)：

1.環(huán)境維度：細(xì)分為代碼、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)、游戲等環(huán)境。

2.能力維度：涵蓋規(guī)劃、自我反省、交互、記憶等高級(jí)能力。

針對(duì)每種環(huán)境與能力，論文整理了當(dāng)前最具代表性的評(píng)測(cè)基準(zhǔn)，并梳理出一套 “實(shí)用屬性表”，幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

以表 1 為例，我們列出了我們認(rèn)為最重要的屬性：真實(shí)性，離線(xiàn) / 在線(xiàn)，評(píng)測(cè)者，輸入模態(tài)，主要挑戰(zhàn)。并將所有 web 環(huán)境的基準(zhǔn)歸到這些屬性中。

表 1：Web 環(huán)境下的 Agent 基準(zhǔn)以及其各類(lèi)屬性

三、AI Agent 評(píng)測(cè)方法的進(jìn)化趨勢(shì)

圖 3：AI Agent 評(píng)測(cè)未來(lái)演化的四個(gè)視角。

論文深刻總結(jié)了 AI Agent 評(píng)測(cè)方法的未來(lái)趨勢(shì)，不再只是 “比誰(shuí)答得對(duì)”，而是從四個(gè)關(guān)鍵視角全面升級(jí)：

1. 環(huán)境視角：從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從少狀態(tài)到多狀態(tài)。

最初，Agent 評(píng)測(cè)只圍繞文本展開(kāi)，如今則逐漸擴(kuò)展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿(mǎn)足需求，動(dòng)態(tài)、實(shí)時(shí)更新的真實(shí)環(huán)境成為新常態(tài)。同時(shí)，評(píng)測(cè)方式也在轉(zhuǎn)變，開(kāi)始關(guān)注智能體在連續(xù)任務(wù)過(guò)程中的表現(xiàn)和調(diào)整，而不再只看最終結(jié)果。

2. 智能體視角：從單 Agent 到多 Agent、從單輪到多輪互動(dòng)。

新一代評(píng)測(cè)不僅關(guān)注單個(gè) Agent 的能力，更重視多個(gè) Agent 間的協(xié)作與博弈。與此同時(shí)，任務(wù)由簡(jiǎn)單的一問(wèn)一答，演化為多輪對(duì)話(huà)、持續(xù)推理和復(fù)雜任務(wù)鏈，考驗(yàn) Agent 的全局規(guī)劃與長(zhǎng)期記憶。

3. 評(píng)測(cè)者視角：從人工到 AI 自動(dòng)評(píng)測(cè)、從通用到個(gè)性化。

AI 不再只是被動(dòng)接受人類(lèi)評(píng)分，越來(lái)越多的 Agent 可以自動(dòng)評(píng)判同行，實(shí)現(xiàn)規(guī)?；?、自主化評(píng)測(cè)。同時(shí)，未來(lái)的評(píng)測(cè)將更加關(guān)注個(gè)性化，衡量 Agent 是否能針對(duì)不同用戶(hù)給出個(gè)性化的服務(wù)。

4. 指標(biāo)視角：從粗粒度到細(xì)粒度，從關(guān)注正確率到關(guān)注效率、安全與社會(huì)價(jià)值。

單一的正確率已無(wú)法反映 Agent 真實(shí)能力。未來(lái)評(píng)測(cè)更強(qiáng)調(diào)任務(wù)效率、細(xì)粒度決策的質(zhì)量、安全性和倫理性，比如防止誤操作、保障用戶(hù)利益、促進(jìn)社會(huì)善意等。

四、行動(dòng)指南：

如何選擇合適的 Agent 評(píng)測(cè)基準(zhǔn)

面對(duì) AI Agent 的快速發(fā)展，論文圍繞 “如何用演化視角系統(tǒng)評(píng)估 AI Agent” 這一核心問(wèn)題，提出了一套二階段的基準(zhǔn)選擇方法論：

第一階段：從當(dāng)下出發(fā)。

根據(jù)實(shí)際任務(wù)環(huán)境和 Agent 能力，先鎖定對(duì)應(yīng)的環(huán)境和能力分類(lèi)（圖 2），從屬性表（表 1）中精準(zhǔn)匹配最適用的評(píng)測(cè)基準(zhǔn)。例如，開(kāi)發(fā)者 Z 開(kāi)發(fā)了能預(yù)訂航班和酒店的 Agent，應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力，選用如 WebVoyager 和 ComplexFuncBench 等基準(zhǔn)進(jìn)行測(cè)試。

第二階段：為未來(lái)考慮。

結(jié)合評(píng)測(cè)進(jìn)化趨勢(shì)（圖 3），開(kāi)發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會(huì)價(jià)值等新維度。隨著產(chǎn)品商業(yè)化，適時(shí)引入動(dòng)態(tài)環(huán)境（如 BFCL）、安全性（如 ST WebAgentBench）和個(gè)性化（如 PeToolBench）等多樣化評(píng)測(cè)基準(zhǔn)，確保 Agent 持續(xù)優(yōu)化與進(jìn)化。

結(jié)語(yǔ)

AI Agent 正在從 “會(huì)對(duì)話(huà)” 進(jìn)化為 “會(huì)行動(dòng)”，推動(dòng)人工智能邁向更智能、更自主、更有價(jià)值的下一個(gè)時(shí)代。而如何科學(xué)評(píng)測(cè) AI Agent，是驅(qū)動(dòng)這一切的關(guān)鍵。如果讀者你也關(guān)心如何評(píng)測(cè)新穎的 AI Agent，我們的綜述值得一讀。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.