成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI Agent、傳統(tǒng)聊天機(jī)器人有何區(qū)別?這篇30頁(yè)綜述講明白了

0
分享至



論文作者包括來(lái)自上海交通大學(xué)的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢(mèng)輝、陳渤、唐睿明。

本文第一作者是朱家琛,上海交通大學(xué)博士生,主要研究興趣集中在大模型推理,個(gè)性化 Agent。本文通訊作者是張偉楠,上海交通大學(xué)教授,研究方向包含強(qiáng)化學(xué)習(xí)、數(shù)據(jù)科學(xué)、機(jī)器人控制、推薦搜索等。

自從 Transformer 問(wèn)世,NLP 領(lǐng)域發(fā)生了顛覆性變化。大語(yǔ)言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今,AI 正不斷向前,具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。

不同于以往只會(huì)對(duì)話(huà)的 LLM 機(jī)器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類(lèi) API,還能根據(jù)真實(shí)環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問(wèn)答模式” 的限制,能夠主動(dòng)執(zhí)行任務(wù)、應(yīng)對(duì)各種復(fù)雜場(chǎng)景,真正成為用戶(hù)身邊可靠的智能助手。

在這股 AI Agent 浪潮中,每個(gè)人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強(qiáng)大呢?海量的 Agent 評(píng)測(cè)方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬(wàn)馬中挑選出最適合你的測(cè)評(píng)方式呢?作為 AI Agent 的開(kāi)發(fā)者,你是否也在思考該從哪個(gè)角度來(lái)提升你的 “秘密武器”,在這場(chǎng)激烈的 AI Agent 大戰(zhàn)中脫穎而出?

因此,這引出了一個(gè)順理成章的問(wèn)題:

AI Agent 到底和傳統(tǒng)聊天機(jī)器人有何本質(zhì)區(qū)別?又該如何科學(xué)評(píng)測(cè) AI Agent?



  • 論文標(biāo)題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/pdf/2506.11102

一、從 LLM Chatbot 到 AI Agent

論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類(lèi)對(duì)話(huà),還具備了五個(gè)維度的進(jìn)化:

1.復(fù)雜環(huán)境:Agent 不再局限于單一對(duì)話(huà)場(chǎng)景,可以與代碼庫(kù)、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)實(shí)驗(yàn)等各類(lèi)環(huán)境交互。

2.多源指令:Agent 不只接收人工輸入,還能結(jié)合自我反思、智能體協(xié)作等多源指令。

3.動(dòng)態(tài)反饋:Agent 運(yùn)行于連續(xù)多樣的反饋環(huán)境,可基于指標(biāo)、獎(jiǎng)勵(lì)等動(dòng)態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動(dòng)對(duì)話(huà)糾正。

4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺(jué)、聽(tīng)覺(jué)等多種數(shù)據(jù)。

5.高級(jí)能力:隨著外部環(huán)境復(fù)雜化,Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力,實(shí)現(xiàn)從被動(dòng)響應(yīng)到自主執(zhí)行的躍遷。



圖 1:AI Agent 與 LLM Chatbot 演化的五個(gè)維度。

LLM Chatbot 向 AI Agent 的演進(jìn),背后主要受兩方面推動(dòng):一是外部環(huán)境的日益復(fù)雜,二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長(zhǎng),而 Agent 能力的提升又推動(dòng)人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場(chǎng)景。正是這種內(nèi)外循環(huán)、相互促進(jìn),成為現(xiàn)代 AI Agent 加速進(jìn)化的根本動(dòng)力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi)學(xué)。隨后進(jìn)行趨勢(shì)討論,對(duì) Agent 評(píng)測(cè)方法演化趨勢(shì)的討論,涉及環(huán)境角度,Agent 角度,評(píng)估者角度,指標(biāo)角度,并最終提出基準(zhǔn)選擇的方法論。



圖 2:論文框架總覽

二、評(píng)測(cè)框架與基準(zhǔn)盤(pán)點(diǎn)

面對(duì) Agent 能力的指數(shù)級(jí)擴(kuò)展,原有的聊天機(jī)器人評(píng)測(cè)方法已無(wú)法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評(píng)測(cè)基準(zhǔn),提出 “環(huán)境 - 能力” 兩方面的分類(lèi):

1.環(huán)境維度:細(xì)分為代碼、網(wǎng)頁(yè)、操作系統(tǒng)、移動(dòng)端、科學(xué)、游戲等環(huán)境。

2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級(jí)能力。

針對(duì)每種環(huán)境與能力,論文整理了當(dāng)前最具代表性的評(píng)測(cè)基準(zhǔn),并梳理出一套 “實(shí)用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

以表 1 為例,我們列出了我們認(rèn)為最重要的屬性:真實(shí)性,離線(xiàn) / 在線(xiàn),評(píng)測(cè)者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準(zhǔn)歸到這些屬性中。



表 1:Web 環(huán)境下的 Agent 基準(zhǔn)以及其各類(lèi)屬性

三、AI Agent 評(píng)測(cè)方法的進(jìn)化趨勢(shì)



圖 3:AI Agent 評(píng)測(cè)未來(lái)演化的四個(gè)視角。

論文深刻總結(jié)了 AI Agent 評(píng)測(cè)方法的未來(lái)趨勢(shì),不再只是 “比誰(shuí)答得對(duì)”,而是從四個(gè)關(guān)鍵視角全面升級(jí):

1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從少狀態(tài)到多狀態(tài)。

最初,Agent 評(píng)測(cè)只圍繞文本展開(kāi),如今則逐漸擴(kuò)展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿(mǎn)足需求,動(dòng)態(tài)、實(shí)時(shí)更新的真實(shí)環(huán)境成為新常態(tài)。同時(shí),評(píng)測(cè)方式也在轉(zhuǎn)變,開(kāi)始關(guān)注智能體在連續(xù)任務(wù)過(guò)程中的表現(xiàn)和調(diào)整,而不再只看最終結(jié)果。

2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動(dòng)。

新一代評(píng)測(cè)不僅關(guān)注單個(gè) Agent 的能力,更重視多個(gè) Agent 間的協(xié)作與博弈。與此同時(shí),任務(wù)由簡(jiǎn)單的一問(wèn)一答,演化為多輪對(duì)話(huà)、持續(xù)推理和復(fù)雜任務(wù)鏈,考驗(yàn) Agent 的全局規(guī)劃與長(zhǎng)期記憶。

3. 評(píng)測(cè)者視角:從人工到 AI 自動(dòng)評(píng)測(cè)、從通用到個(gè)性化。

AI 不再只是被動(dòng)接受人類(lèi)評(píng)分,越來(lái)越多的 Agent 可以自動(dòng)評(píng)判同行,實(shí)現(xiàn)規(guī)?;?、自主化評(píng)測(cè)。同時(shí),未來(lái)的評(píng)測(cè)將更加關(guān)注個(gè)性化,衡量 Agent 是否能針對(duì)不同用戶(hù)給出個(gè)性化的服務(wù)。

4. 指標(biāo)視角:從粗粒度到細(xì)粒度,從關(guān)注正確率到關(guān)注效率、安全與社會(huì)價(jià)值。

單一的正確率已無(wú)法反映 Agent 真實(shí)能力。未來(lái)評(píng)測(cè)更強(qiáng)調(diào)任務(wù)效率、細(xì)粒度決策的質(zhì)量、安全性和倫理性,比如防止誤操作、保障用戶(hù)利益、促進(jìn)社會(huì)善意等。

四、行動(dòng)指南:

如何選擇合適的 Agent 評(píng)測(cè)基準(zhǔn)

面對(duì) AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評(píng)估 AI Agent” 這一核心問(wèn)題,提出了一套二階段的基準(zhǔn)選擇方法論:

第一階段:從當(dāng)下出發(fā)。

根據(jù)實(shí)際任務(wù)環(huán)境和 Agent 能力,先鎖定對(duì)應(yīng)的環(huán)境和能力分類(lèi)(圖 2),從屬性表(表 1)中精準(zhǔn)匹配最適用的評(píng)測(cè)基準(zhǔn)。例如,開(kāi)發(fā)者 Z 開(kāi)發(fā)了能預(yù)訂航班和酒店的 Agent,應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準(zhǔn)進(jìn)行測(cè)試。

第二階段:為未來(lái)考慮。

結(jié)合評(píng)測(cè)進(jìn)化趨勢(shì)(圖 3),開(kāi)發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會(huì)價(jià)值等新維度。隨著產(chǎn)品商業(yè)化,適時(shí)引入動(dòng)態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個(gè)性化(如 PeToolBench)等多樣化評(píng)測(cè)基準(zhǔn),確保 Agent 持續(xù)優(yōu)化與進(jìn)化。

結(jié)語(yǔ)

AI Agent 正在從 “會(huì)對(duì)話(huà)” 進(jìn)化為 “會(huì)行動(dòng)”,推動(dòng)人工智能邁向更智能、更自主、更有價(jià)值的下一個(gè)時(shí)代。而如何科學(xué)評(píng)測(cè) AI Agent,是驅(qū)動(dòng)這一切的關(guān)鍵。如果讀者你也關(guān)心如何評(píng)測(cè)新穎的 AI Agent,我們的綜述值得一讀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今天!全澳大爆發(fā)!華人紛紛關(guān)店避難!留學(xué)生“別出門(mén)”

今天!全澳大爆發(fā)!華人紛紛關(guān)店避難!留學(xué)生“別出門(mén)”

數(shù)局
2025-08-31 17:40:38
占用他人車(chē)位半小時(shí),結(jié)果不收200不移車(chē)?

占用他人車(chē)位半小時(shí),結(jié)果不收200不移車(chē)?

瀟湘晨報(bào)
2025-08-31 18:12:04
韓國(guó)頂級(jí)名媛去世一年后,私密視頻曝光,被財(cái)閥當(dāng)母狗,在KTV做

韓國(guó)頂級(jí)名媛去世一年后,私密視頻曝光,被財(cái)閥當(dāng)母狗,在KTV做

社會(huì)醬
2025-08-31 10:15:44
林心如與霍建華演唱會(huì)上接吻秀恩愛(ài),大屏幕捕捉甜蜜瞬間,現(xiàn)場(chǎng)觀眾沸騰

林心如與霍建華演唱會(huì)上接吻秀恩愛(ài),大屏幕捕捉甜蜜瞬間,現(xiàn)場(chǎng)觀眾沸騰

極目新聞
2025-08-31 21:36:04
貴陽(yáng)一700年古樹(shù)砸扁“寶馬”,現(xiàn)場(chǎng)慘不忍睹,林業(yè)局:車(chē)主他也有錯(cuò)

貴陽(yáng)一700年古樹(shù)砸扁“寶馬”,現(xiàn)場(chǎng)慘不忍睹,林業(yè)局:車(chē)主他也有錯(cuò)

瀟湘晨報(bào)
2025-08-31 14:14:24
梁曉聲:草根子弟沉迷?shī)蕵?lè)4小時(shí),高干子弟22歲已能主持百人會(huì)議

梁曉聲:草根子弟沉迷?shī)蕵?lè)4小時(shí),高干子弟22歲已能主持百人會(huì)議

清風(fēng)拂心
2025-08-31 14:15:03
全網(wǎng)抵制!拿沒(méi)教養(yǎng)當(dāng)個(gè)性的他,終于惹了眾怒!難怪連于謙都嫌棄

全網(wǎng)抵制!拿沒(méi)教養(yǎng)當(dāng)個(gè)性的他,終于惹了眾怒!難怪連于謙都嫌棄

火之文
2025-08-30 18:04:23
全球航線(xiàn)大洗牌:中國(guó)缺席全球繁忙航線(xiàn),背后說(shuō)明了什么?

全球航線(xiàn)大洗牌:中國(guó)缺席全球繁忙航線(xiàn),背后說(shuō)明了什么?

掘金日本房產(chǎn)
2025-08-30 16:50:58
舔狗經(jīng)濟(jì)崩塌,性蕭條時(shí)代來(lái)臨,2025年的七夕慘淡收?qǐng)?>
    </a>
        <h3>
      <a href=花心電影
2025-08-31 10:55:26
世錦賽爆大冷!世界第一0:2被淘汰,山口茜造慘案,陳雨菲沖冠

世錦賽爆大冷!世界第一0:2被淘汰,山口茜造慘案,陳雨菲沖冠

知軒體育
2025-08-31 10:04:29
泰國(guó)女總理被無(wú)情罷免,佩通坦難翻身了,他信父女會(huì)乖乖認(rèn)輸嗎?

泰國(guó)女總理被無(wú)情罷免,佩通坦難翻身了,他信父女會(huì)乖乖認(rèn)輸嗎?

博覽歷史
2025-08-30 20:40:32
陳雨菲0-2不敵山口茜,獲得世錦賽女單亞軍

陳雨菲0-2不敵山口茜,獲得世錦賽女單亞軍

懂球帝
2025-08-31 21:14:15
我堂妹27歲,身高162厘米,她爸給她全款買(mǎi)了一套180平的房子。

我堂妹27歲,身高162厘米,她爸給她全款買(mǎi)了一套180平的房子。

人情皆文史
2025-08-28 03:46:48
36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
止步16強(qiáng),中國(guó)女排慘敗,李盈瑩沮喪,輸球罪人揪出,創(chuàng)15年最差

止步16強(qiáng),中國(guó)女排慘敗,李盈瑩沮喪,輸球罪人揪出,創(chuàng)15年最差

東球弟
2025-08-31 21:17:08
普京專(zhuān)機(jī)抵達(dá)天津,三個(gè)沒(méi)想到;連俄媒都忍不住直呼:實(shí)屬罕見(jiàn)

普京專(zhuān)機(jī)抵達(dá)天津,三個(gè)沒(méi)想到;連俄媒都忍不住直呼:實(shí)屬罕見(jiàn)

平祥生活日志
2025-08-31 19:32:05
成都車(chē)展上演黑色幽默!一群身穿黑衣拿黑傘和黑布的人預(yù)演防維權(quán)

成都車(chē)展上演黑色幽默!一群身穿黑衣拿黑傘和黑布的人預(yù)演防維權(quán)

火山詩(shī)話(huà)
2025-08-31 05:31:58
華為再次官降:8月31日,全面降價(jià)

華為再次官降:8月31日,全面降價(jià)

科技堡壘
2025-08-31 13:29:02
披國(guó)旗沖線(xiàn)卻因作弊被取消成績(jī),這是為國(guó)爭(zhēng)光還是抹黑?

披國(guó)旗沖線(xiàn)卻因作弊被取消成績(jī),這是為國(guó)爭(zhēng)光還是抹黑?

歷史總在押韻
2025-08-30 23:53:04
8月31日俄烏最新:包圍圈合攏

8月31日俄烏最新:包圍圈合攏

西樓飲月
2025-08-31 19:45:50
2025-08-31 23:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會(huì)了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會(huì)了

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂(lè)要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車(chē)要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

教育
旅游
本地
數(shù)碼
公開(kāi)課

教育要聞

江蘇考生|專(zhuān)科到本科的逆襲!|幫學(xué)生成功“撿漏”本科名額

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

數(shù)碼要聞

英特爾酷睿 Ultra 3 205 處理器整機(jī)系統(tǒng)韓國(guó)上架,約 50 萬(wàn)韓元

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版