成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型亂試錯(cuò)、盲調(diào)用?KnowSelf讓智能體有「知識(shí)邊界感知」能力

0
分享至




在 AI 領(lǐng)域,大模型智能體的發(fā)展日新月異。我們今天要介紹的這篇 ACL 2025 論文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能體的「知識(shí)邊界感知」能力,使其在復(fù)雜任務(wù)規(guī)劃中更加得心應(yīng)手,為智能體的可靠應(yīng)用提供了新思路。



  • 論文標(biāo)題:Agentic Knowledgeable Self-awareness
  • 論文鏈接:https://arxiv.org/abs/2504.03553
  • 代碼鏈接:https://github.com/zjunlp/KnowSelf

30 秒速讀版本

KnowSelf 聚焦于大模型智能體在決策過(guò)程中所面臨的「知識(shí)邊界感知」問題。受人類決策機(jī)制啟發(fā),本文指出智能體應(yīng)具備三類行為模式的自主決策能力:快速反應(yīng)(快思考)、深度推理(慢思考),以及主動(dòng)調(diào)用外部工具(本文以外部知識(shí)增強(qiáng)為例)。

KnowSelf 通過(guò)學(xué)習(xí)自身的知識(shí)邊界,使智能體能在不同情境下自主判斷是否具備足夠知識(shí)進(jìn)行生成和推理,以減少無(wú)效試錯(cuò)與知識(shí)濫用。實(shí)驗(yàn)表明,KnowSelf 可提升智能體的知識(shí)調(diào)用準(zhǔn)確率、任務(wù)規(guī)劃效率和跨任務(wù)泛化能力。

研究背景:智能體規(guī)劃的困境

大模型智能體在諸多領(lǐng)域展現(xiàn)出巨大潛力,但現(xiàn)有智能體規(guī)劃方法存在弊端。傳統(tǒng)方法多采用「盲目灌輸」模式,將標(biāo)準(zhǔn)軌跡、外部反饋和領(lǐng)域知識(shí)無(wú)差別地注入智能體模型,完全忽視了人類決策過(guò)程中至關(guān)重要的「自我認(rèn)知」原則。

這種「無(wú)腦式」灌輸導(dǎo)致智能體在面對(duì)意外信號(hào)時(shí)極易崩潰,陷入模式崩塌困境,且過(guò)度試錯(cuò)與盲目知識(shí)融合在實(shí)際場(chǎng)景中往往不可行,還會(huì)大幅推高模型推理成本。

人類在決策時(shí),會(huì)根據(jù)面臨的情境動(dòng)態(tài)評(píng)估自身狀態(tài),靈活調(diào)整策略。比如,當(dāng)我們遇到簡(jiǎn)單問題時(shí),能迅速做出判斷并行動(dòng);遇到棘手問題,會(huì)放慢思考節(jié)奏,深入分析;而面對(duì)超出自身能力范圍的問題,會(huì)主動(dòng)尋求外部知識(shí)或幫助。

然而,當(dāng)前大模型智能體普遍缺乏這種「知識(shí)邊界感知」能力,導(dǎo)致規(guī)劃行為低效且脆弱。

核心方法:KnowSelf 框架

為破解這一難題,論文提出了智能體「知識(shí)邊界感知」的思路,并基于此設(shè)計(jì)了數(shù)據(jù)驅(qū)動(dòng) KnowSelf 方法,讓大模型智能體能夠自主調(diào)節(jié)知識(shí)的運(yùn)用。



  • 知識(shí)系統(tǒng)構(gòu)建

對(duì)于外部工具(知識(shí)),并采用了一種簡(jiǎn)單高效知識(shí)收集方法,以極低成本完成知識(shí)庫(kù)的離線構(gòu)建。該知識(shí)系統(tǒng)由知識(shí)庫(kù)和知識(shí)選擇模塊組成,其中知識(shí)庫(kù)包含一系列知識(shí)條目,知識(shí)選擇模塊能依據(jù)智能體歷史軌跡從知識(shí)庫(kù)中精準(zhǔn)挑選所需知識(shí)。這種設(shè)計(jì)兼顧了知識(shí)系統(tǒng)的實(shí)用性和高效性。

  • 情境判斷標(biāo)準(zhǔn)

論文基于智能體的能力,將情境劃分為三類:快速思考(Fast Thinking)、慢速思考(Slow Thinking)和知識(shí)型思考(Knowledgeable Thinking)。并提出了啟發(fā)式情境判斷標(biāo)準(zhǔn),用于標(biāo)記智能體自我探索軌跡中的特殊標(biāo)記,從而針對(duì)智能體的能力構(gòu)建出訓(xùn)練數(shù)據(jù),為后續(xù)訓(xùn)練奠定基礎(chǔ)。

  • 快思考:智能體無(wú)需多慮,能直接給出正確行動(dòng)
  • 慢思考:智能體雖能給出正確行動(dòng),但需經(jīng)過(guò)多步思考與反思
  • 知識(shí)型思考:智能體自身無(wú)法提供正確行動(dòng),必須借助外部知識(shí)輔助思考
  • 自我認(rèn)知訓(xùn)練

KnowSelf 采用雙階段訓(xùn)練過(guò)程,先通過(guò)監(jiān)督式微調(diào)(SFT),讓智能體模型初步掌握自我認(rèn)知規(guī)劃模式;再引入 RPO 損失函數(shù),進(jìn)一步強(qiáng)化自我認(rèn)知能力。在這一體系下,智能體會(huì)生成特定特殊標(biāo)記,表明其對(duì)情境的判斷,在推理過(guò)程中實(shí)現(xiàn)知識(shí)查詢與反思的精準(zhǔn)調(diào)控。

實(shí)驗(yàn)成果

本文在兩個(gè)模擬大模型智能體規(guī)劃數(shù)據(jù)集 ALFWorld 和 WebShop 上,對(duì) KnowSelf 進(jìn)行了全面評(píng)估,涵蓋 Llama-8B 和 Gemma-2B 兩個(gè)不同規(guī)模的模型。實(shí)驗(yàn)結(jié)果顯示,KnowSelf 憑借極少的反思和知識(shí)使用,性能優(yōu)于多種基線方法。





與無(wú)知識(shí)基線方法對(duì)比,KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展現(xiàn)出卓越性能。與知識(shí)增強(qiáng)型基線方法相比,KnowSelf 僅用少量知識(shí),就超越了所有的 100% 知識(shí)增強(qiáng)基線方法,充分證明了并非知識(shí)越多越好,精準(zhǔn)的知識(shí)引入機(jī)制才是關(guān)鍵。

進(jìn)一步分析:深入探索智能體自我認(rèn)知

  • 智能體規(guī)劃模式過(guò)擬合



本文通過(guò)消融實(shí)驗(yàn),發(fā)現(xiàn)僅在標(biāo)準(zhǔn)軌跡上訓(xùn)練的模型更易陷入模式擬合,而引入反思和知識(shí)邊界感知后,智能體規(guī)劃能力提升。這表明,在許多情況下,智能體并非不能做出正確決策,而是受限于規(guī)劃模式。此外,過(guò)度引入知識(shí)可能會(huì)對(duì)性能產(chǎn)生負(fù)面影響,因此凸顯了精準(zhǔn)知識(shí)引入機(jī)制的重要性。

  • 智能體規(guī)劃泛化能力



在泛化能力測(cè)試中,KnowSelf 在 ALFWorld 的三項(xiàng)挑戰(zhàn)性任務(wù)上表現(xiàn)優(yōu)異,優(yōu)于基于提示的基線方法 Reflexion。這表明 KnowSelf 能有效打破傳統(tǒng)規(guī)劃軌跡訓(xùn)練的局限,使模型具備跨任務(wù)情境感知能力,在未見過(guò)的任務(wù)上能靈活運(yùn)用反思和知識(shí)引入策略。

  • 模型與數(shù)據(jù)規(guī)模影響



隨著模型規(guī)模擴(kuò)大和自我認(rèn)知訓(xùn)練數(shù)據(jù)量增加,KnowSelf 性能穩(wěn)步提升。當(dāng)自我認(rèn)知訓(xùn)練數(shù)據(jù)相對(duì)比例低于 40% 時(shí),模型性能可能出現(xiàn)波動(dòng)甚至下降,推測(cè)模型需達(dá)到一定自我認(rèn)知水平才能穩(wěn)定發(fā)揮效能。

  • 智能體自我認(rèn)知機(jī)制機(jī)理



本文在 Transformer 模型的各層計(jì)算不同情境標(biāo)記的平均概率,發(fā)現(xiàn) Reflection 標(biāo)記概率始終為零,Knowledge 標(biāo)記和 Action 標(biāo)記在模型最后幾層才出現(xiàn)。這表明智能體在內(nèi)部決策時(shí),僅在最后幾層隱藏層才決定是否調(diào)用外部知識(shí),且調(diào)用知識(shí)的決策可能更晚出現(xiàn),暗示智能體在 Token 空間內(nèi)通過(guò)隱式獎(jiǎng)勵(lì)引導(dǎo)進(jìn)行探索,最終做出決策。

結(jié)論與展望

本文提出的 KnowSelf 方法為智能體規(guī)劃提供了新思路,初步探索了智能體知識(shí)邊界感知這一問題。在后 R1 時(shí)代,隨著 Search-R1、ReSearch、Deep Researcher 等工作的出現(xiàn),基于 RL 的智能體自主知識(shí)獲取工作展現(xiàn)了巨大的前景,KnowSelf 還只是在這個(gè)時(shí)代之前的初步產(chǎn)物,相信隨著技術(shù)的發(fā)展,基于 RL 的智能體自我認(rèn)知能迸發(fā)更大的活力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為何諜戰(zhàn)劇都以軍統(tǒng)作為背景而不是中統(tǒng)?網(wǎng)友的回答扎心又現(xiàn)實(shí)!

為何諜戰(zhàn)劇都以軍統(tǒng)作為背景而不是中統(tǒng)?網(wǎng)友的回答扎心又現(xiàn)實(shí)!

近史閣
2025-08-24 17:46:50
對(duì)曼城破門,米爾納同時(shí)成為英超時(shí)代第二年輕&年長(zhǎng)的進(jìn)球者

對(duì)曼城破門,米爾納同時(shí)成為英超時(shí)代第二年輕&年長(zhǎng)的進(jìn)球者

懂球帝
2025-08-31 23:20:26
謝杏芳萬(wàn)萬(wàn)沒想到,因林丹敗光的體面,如今被9歲兒子掙了回來(lái)

謝杏芳萬(wàn)萬(wàn)沒想到,因林丹敗光的體面,如今被9歲兒子掙了回來(lái)

TVB的四小花
2025-08-28 00:29:04
中國(guó)第一大淡水湖沒水了,三峽大壩水位162米,能放水提升嗎?

中國(guó)第一大淡水湖沒水了,三峽大壩水位162米,能放水提升嗎?

環(huán)球科學(xué)貓
2025-08-30 11:15:42
孝感通報(bào)西大渠成“黑水河”主要受干旱影響,爆料博主:此前已有水環(huán)境綜合治理項(xiàng)目立項(xiàng)

孝感通報(bào)西大渠成“黑水河”主要受干旱影響,爆料博主:此前已有水環(huán)境綜合治理項(xiàng)目立項(xiàng)

澎湃新聞
2025-08-31 12:18:28
死刑一次費(fèi)用是多少?張波、葉誠(chéng)塵執(zhí)行死刑,最后時(shí)光如何度過(guò)?

死刑一次費(fèi)用是多少?張波、葉誠(chéng)塵執(zhí)行死刑,最后時(shí)光如何度過(guò)?

涼羽亭
2025-08-29 16:36:44
東契奇豪取26分10板11助!興奮慶祝送雙手飛吻 斯洛文尼亞終獲首勝

東契奇豪取26分10板11助!興奮慶祝送雙手飛吻 斯洛文尼亞終獲首勝

野渡舟山人
2025-08-31 22:03:35
終獲首勝!東契奇狂轟26+10+11終結(jié)連?。含F(xiàn)場(chǎng)送飛吻興奮慶祝

終獲首勝!東契奇狂轟26+10+11終結(jié)連?。含F(xiàn)場(chǎng)送飛吻興奮慶祝

追球者
2025-08-31 22:03:00
中國(guó)將用70分鐘大閱兵,讓其他國(guó)清楚地認(rèn)清差距

中國(guó)將用70分鐘大閱兵,讓其他國(guó)清楚地認(rèn)清差距

一個(gè)有靈魂的作者
2025-08-26 11:00:04
中國(guó)銀行、中國(guó)農(nóng)業(yè)銀行,深夜連發(fā)公告,釋放什么信號(hào)?

中國(guó)銀行、中國(guó)農(nóng)業(yè)銀行,深夜連發(fā)公告,釋放什么信號(hào)?

財(cái)經(jīng)保探長(zhǎng)
2025-08-31 15:51:11
孟村殺妻案公公下跪求原諒,提酒上門望撤訴,弟弟曝姐姐生前遺愿

孟村殺妻案公公下跪求原諒,提酒上門望撤訴,弟弟曝姐姐生前遺愿

壹月情感
2025-08-28 23:38:27
湖南衛(wèi)視播出!69集諜戰(zhàn)劇來(lái)襲,,劇情高能,全員高顏值演技派

湖南衛(wèi)視播出!69集諜戰(zhàn)劇來(lái)襲,,劇情高能,全員高顏值演技派

樂楓電影
2025-08-31 14:45:03
男人搞定女人最快的方法,從古至今從未改變

男人搞定女人最快的方法,從古至今從未改變

伊人河畔
2025-08-13 08:16:29
招商銀行平均月薪5萬(wàn)!

招商銀行平均月薪5萬(wàn)!

新浪財(cái)經(jīng)
2025-08-31 09:35:40
被法國(guó)淘汰!吳夢(mèng)潔自責(zé)痛哭,吉祥物安慰龔翔宇,好好總結(jié)吧!

被法國(guó)淘汰!吳夢(mèng)潔自責(zé)痛哭,吉祥物安慰龔翔宇,好好總結(jié)吧!

籃球資訊達(dá)人
2025-08-31 21:33:17
中元節(jié)快到了,中元節(jié)燒紙最佳時(shí)間是哪天?可別在燒錯(cuò)了!

中元節(jié)快到了,中元節(jié)燒紙最佳時(shí)間是哪天?可別在燒錯(cuò)了!

農(nóng)夫也瘋狂
2025-08-31 10:07:03
郭德綱首次回應(yīng)郭麒麟家宴遭冷落:背后有公司搞事情,我很愛他!

郭德綱首次回應(yīng)郭麒麟家宴遭冷落:背后有公司搞事情,我很愛他!

甜檸聊史
2025-08-31 12:00:58
最新世界排名:肖國(guó)棟超趙心童追丁俊暉,入圍金球賽機(jī)會(huì)陡增!

最新世界排名:肖國(guó)棟超趙心童追丁俊暉,入圍金球賽機(jī)會(huì)陡增!

夜深聊球
2025-08-31 22:06:42
我考上985舅舅給張卡,說(shuō)有5萬(wàn),我爸要當(dāng)眾驗(yàn),看到余額他慌了

我考上985舅舅給張卡,說(shuō)有5萬(wàn),我爸要當(dāng)眾驗(yàn),看到余額他慌了

秋風(fēng)專欄
2025-08-22 14:36:49
西甲積分榜:皇馬三連勝暫登頂,馬競(jìng)?cè)啿粍贂号诺?5

西甲積分榜:皇馬三連勝暫登頂,馬競(jìng)?cè)啿粍贂号诺?5

直播吧
2025-08-31 05:38:15
2025-08-31 23:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

旅游
健康
房產(chǎn)
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

精神科專家解答學(xué)習(xí)困難七大問題

房產(chǎn)要聞

顛覆認(rèn)知!海口真正的豪宅作品,終于出現(xiàn)了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版