成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AgentAuditor: 讓智能體安全評估器的精確度達到人類水平

0
分享至



LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進化為能自主決策、執(zhí)行復雜任務的 “行動派”。它們可以使用工具、實時與環(huán)境互動,向著通用人工智能(AGI)大步邁進。然而,這份 “自主權” 也帶來了新的問題:智能體在自主交互中,是否安全?

研究者們?yōu)檫@一問題提出了許多基準(benchmark),嘗試評估現(xiàn)有智能體的安全性。然而,這些基準卻面臨著一個共同的問題:沒有足夠有效、精準的評估器(evaluator)。傳統(tǒng)的 LLM 安全評估在單純的評估生成內(nèi)容上表現(xiàn)優(yōu)異,但對智能體的復雜的環(huán)境交互和決策過程卻 “鞭長莫及”?,F(xiàn)有的智能體評估方法,無論是基于規(guī)則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準” 的困境:難以捕捉微妙風險、忽略小問題累積、對模糊規(guī)則感到困惑?;谝?guī)則的評估方法往往僅依靠環(huán)境中某個變量的變化來判斷是否安全,難以正確識別智能體在交互過程中引入的微妙風險;而基于大模型的評估方法,無論使用最為強大的通用大模型還是專門為安全判斷任務微調(diào)的專用模型,在精確度上均不如人意。

為了解決這一難題,來自紐約大學、南洋理工大學、伊利諾伊大學香檳分校、KTH 皇家理工學院、悉尼大學、新加坡國立大學的研究者們,推出AgentAuditor—— 一個通用、免訓練、具備記憶增強推理能力的框架,讓 LLM 評估器達到了人類專家的評估水平,精準識別智能體的安全風險。



  • 論文題目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2506.00641
  • 代碼 / 項目主頁:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概覽:AgentAuditor 如何解決精確度難題

AgentAuditor 將結構化記憶和RAG(檢索強化推理)結合在一起,賦予了 LLM 評估器類似人類的學習和理解復雜的交互記錄的能力,最終極大地增強了 LLM 評估器的性能。它通過三個關鍵階段實現(xiàn):

1. 特征記憶構建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉(zhuǎn)化為結構化、向量化的 “經(jīng)驗數(shù)據(jù)庫”。這里不僅有交互內(nèi)容,更有場景、風險類型、智能體行為模式等深度語義信息。

2. 推理記憶構建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內(nèi)部使用的同一個 LLM,確保自洽性)生成高質(zhì)量的思維鏈(CoT)推理過程。這些 CoT 就像人類專家的 “判案經(jīng)驗”,為后續(xù)評估提供指導。

3. 記憶增強推理 (Memory-Augmented Reasoning): 面對新的智能體交互案例,AgentAuditor 通過多階段、上下文感知的檢索機制,從推理記憶中動態(tài)調(diào)取最相關的 “判案經(jīng)驗”(CoT),輔助 LLM 評估器做出更精準、更魯棒的判斷。



數(shù)據(jù)集:ASSEBench 的構建

為了全面驗證 AgentAuditor 的實力,并填補智能體安全(Safety)與安全(Security)評估基準的空白,研究團隊還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準:

  • 規(guī)模宏大: 包含 4 個子集,共 2293 條精心標注的真實智能體交互記錄。
  • 覆蓋廣泛: 涵蓋 15 種風險類型、528 個交互環(huán)境、橫跨 29 個應用場景以及 26 種智能體行為模式。
  • 標注精細: 采用創(chuàng)新的人機協(xié)同標注流程,并對模糊風險情況引入 “嚴格” 和 “寬松” 兩種判斷標準,評估更細致。
  • 雙管齊下: 同時關注智能體的 “Safety”(避免無意犯錯)和 “Security”(抵御惡意攻擊)兩大方面。



實驗效果:AgentAuditor 讓 LLM 評估器的精確度達到人類水平

在 ASSEBench 及 R-Judge 等多個基準上的廣泛實驗表明:

  • 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評估器在所有數(shù)據(jù)集上的表現(xiàn)。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分數(shù)提升了高達 48.2%!
  • 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個數(shù)據(jù)集上取得了SOTA成績,其評估準確率(如在 R-Judge 上達到 96.1% Acc)已接近甚至超越單個人類標注員的平均水平。
  • 強大的自適應能力: 面對 ASSEBench-Strict 和 ASSEBench-Lenient 這兩個針對模糊場景設計的不同標準子集,AgentAuditor 能自適應調(diào)整其推理策略,顯著縮小不同模型在不同標準下的性能差距。







上圖分別展示了 AgentAuditor 與現(xiàn)有方法及人類評估水平的對比。左圖比較了 AgentAuditor 與直接使用 LLM 的評估方法在 R-Judge 基準上的準確率(Acc)和 F1 分數(shù);右圖則比較了 AgentAuditor 的準確率與在無討論情況下單個人類評估者在多個benchmark中的的平均準確率。

AgentAuditor 的核心貢獻

  • 系統(tǒng)性分析挑戰(zhàn): 深入剖析了當前自動化評估 Agent 安全面臨的核心難題。
  • 創(chuàng)新框架: 通過自適應代表性樣本選擇、結構化記憶、RAG 和自動生成 CoT,顯著增強 LLM 評估能力。
  • 首個專用基準: ASSEBench 填補了領域空白,為人機協(xié)同標注提供了新范式。
  • 人類級表現(xiàn): 實驗證明其評估準確性和可靠性已達到專業(yè)人類水準。

結語

AgentAuditor 和 ASSEBench 的提出,為構建更值得信賴的 LLM 智能體提供了強有力的評估工具和研究基礎。這項工作不僅推動了 LLM 評估器的發(fā)展,也為未來構建更安全、更可靠的智能體防御系統(tǒng)指明了方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

北青網(wǎng)-北京青年報
2025-08-31 19:47:15
社保的石頭 韓國已經(jīng)摸過了

社保的石頭 韓國已經(jīng)摸過了

盧詩翰
2025-08-13 21:58:51
儒·釋·道的最高境界,總結的太好了!

儒·釋·道的最高境界,總結的太好了!

金沛的國學筆記
2025-08-25 18:14:30
中央?yún)R金,萬億元持倉曝光!

中央?yún)R金,萬億元持倉曝光!

新浪財經(jīng)
2025-08-31 15:06:40
周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

大運河時空
2025-08-30 13:09:33
1699 元!蘋果新品官宣,即將發(fā)布

1699 元!蘋果新品官宣,即將發(fā)布

芝麻科技訊官方號
2025-08-31 15:07:08
矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

火山詩話
2025-08-31 08:38:18
美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

一個有靈魂的作者
2025-08-31 15:40:38
6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

體壇小鵬
2025-08-31 21:40:03
羅馬諾:曼聯(lián)已與大馬丁談妥個人條款,正與維拉展開接洽

羅馬諾:曼聯(lián)已與大馬丁談妥個人條款,正與維拉展開接洽

雷速體育
2025-08-31 21:18:53
調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

泠泠說史
2025-08-30 17:31:49
閱兵還剩5天,美軍終于坐不住:新裝備是重大挑戰(zhàn),航母危險了!

閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險了!

墨蘭史書
2025-08-30 04:05:03
利物浦vs阿森納:維爾茨、埃基蒂克、馬丁內(nèi)利首發(fā),埃澤替補

利物浦vs阿森納:維爾茨、?;倏?、馬丁內(nèi)利首發(fā),埃澤替補

懂球帝
2025-08-31 22:27:15
1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

我愛英超
2025-08-31 01:07:08
8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

大象新聞
2025-08-30 20:21:23
有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

田先生籃球
2025-08-30 22:45:46
1-0!鄧卓翔戰(zhàn)術完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

1-0!鄧卓翔戰(zhàn)術完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

刀鋒體育
2025-08-31 22:01:16
54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

草莓解說體育
2025-08-31 07:57:42
9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

文史道
2025-08-30 06:45:03
我還是想把銀牌的故事寫下來…

我還是想把銀牌的故事寫下來…

后體工隊長
2025-08-31 22:41:43
2025-08-31 23:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

游戲
手機
旅游
房產(chǎn)
公開課

絕地潛兵2運營被噴 Xbox幾十萬玩家涌入仍未扭轉(zhuǎn)戰(zhàn)局

手機要聞

曝小米16有大驚喜,澎湃OS 3 Beta版反饋還不錯

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

顛覆認知!??谡嬲暮勒髌?,終于出現(xiàn)了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版