成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agent RL與智能體進化關(guān)鍵一步:TaskCraft實現(xiàn)復(fù)雜任務(wù)自動生成

0
分享至



近年來,基于智能體的強化學(xué)習(xí)(Agent + RL)與智能體優(yōu)化(Agent Optimization)在學(xué)術(shù)界引發(fā)了廣泛關(guān)注。然而,實現(xiàn)具備工具調(diào)用能力的端到端智能體訓(xùn)練,首要瓶頸在于高質(zhì)量任務(wù)數(shù)據(jù)的極度稀缺。當前如GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構(gòu)建過程中高度依賴人工標注,因而在規(guī)模與任務(wù)復(fù)雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務(wù),GAIA 則僅提供約 500 條多工具協(xié)同任務(wù)樣本。與基礎(chǔ)大模型訓(xùn)練中動輒萬級以上的指令數(shù)據(jù)相比,差距十分顯著。

盡管在基礎(chǔ)模型階段,像self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語言模型(LLM)成功構(gòu)建了大規(guī)模的指令型數(shù)據(jù),有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態(tài)指令數(shù)據(jù)卻難以滿足實際需求。原因在于,復(fù)雜的智能體任務(wù)通常需要模型與環(huán)境進行持續(xù)的動態(tài)交互,同時涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性,導(dǎo)致其在智能體訓(xùn)練中遷移性差、適用性有限。

為應(yīng)對上述挑戰(zhàn),OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務(wù)的自動化生成框架,旨在高效構(gòu)建具備可擴展難度、多工具協(xié)同與可驗證執(zhí)行路徑的智能體任務(wù)實例。TaskCraft 通過統(tǒng)一的流程化建構(gòu)機制,擺脫了對人工標注的依賴,能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復(fù)雜任務(wù)場景,并支持任務(wù)目標的自動驗證,確保數(shù)據(jù)質(zhì)量與執(zhí)行閉環(huán)。 基于該框架,研究團隊構(gòu)建并開源了一個包含約 41,000 條智能體任務(wù)的合成數(shù)據(jù)集,顯著擴展了現(xiàn)有Agent 數(shù)據(jù)資源的規(guī)模與多樣性,為后續(xù)通用智能體的訓(xùn)練與評估提供了有力支撐。



  • 論文標題:
  • TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:
  • https://arxiv.org/abs/2506.10055
  • Github:
  • https://github.com/OPPO-PersonalAI/TaskCraft
  • 數(shù)據(jù)集:
  • https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分:第一部分生成簡單且可驗證的原子任務(wù);第二部分通過深度拓展和寬度拓展,不斷構(gòu)建新的原子任務(wù),使復(fù)雜性逐步提升。

原子任務(wù)的生成



原子結(jié)構(gòu)生成示意圖

可以簡單理解為,從原始數(shù)據(jù)中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關(guān)鍵步驟:

1.收集信息:系統(tǒng)從多種來源(網(wǎng)頁、PDF、圖片等)提取信息。例如,企業(yè)財報、一張統(tǒng)計圖或一篇新聞文章。

2.識別關(guān)鍵內(nèi)容:利用LLM從這些文檔中提取候選結(jié)論,比如:2025 年蘋果公司總收入為383.3 億美元

3.生成問題:LLM需要將這些候選結(jié)論轉(zhuǎn)換為工具回答的問題。例如:“在財務(wù)報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗證任務(wù):每個原子任務(wù)被保留必須滿足以下兩個條件:

  • 必須依賴工具才能解答(LLM無法直接推導(dǎo)答案)。
  • 必須經(jīng)過Agent驗證,確保能夠順利執(zhí)行任務(wù)。

任務(wù)拓展

任務(wù)拓展旨在將一個簡單任務(wù)逐步演化為更具層次和挑戰(zhàn)性的復(fù)雜任務(wù),使Agent 必須通過多個步驟才能完成任務(wù)。拓展方式主要包括深度拓展寬度拓展。



深度拓展示意圖

其中,深度拓展的目標是為了構(gòu)建可被拆解為一系列相互依賴的任務(wù)。每一步都依賴前一步的結(jié)果,從而構(gòu)建出一條多步推理鏈。其主要包括以下四步:

1.確認主任務(wù)與拓展標識符:拓展標識符一般是具有強特殊性的文本,往往作為獲取工具上下文的輸入關(guān)鍵字。例如對于任務(wù):“電影《星際穿越》的導(dǎo)演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標識符是:《星際穿越》。

2.執(zhí)行Agent搜索,構(gòu)造新的輔助原子任務(wù):SearchAgent以拓展標識符為線索執(zhí)行搜索,并從搜索結(jié)果中構(gòu)造一個新的原子任務(wù),其答案即為該拓展標識符。例如:“哪部美國著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務(wù),更新主任務(wù):將輔助原子任務(wù)與原主任務(wù)進行融合,構(gòu)建一個邏輯連貫的復(fù)合任務(wù)。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導(dǎo)演是誰?“(答案:克里斯托弗·諾蘭)

4.驗證任務(wù)合理性:為了規(guī)避對合并問題的整體驗證,研究者采用了多種規(guī)則對合并后的主任務(wù)進行語義驗證,包括:超集驗證、關(guān)系驗證、信息泄露驗證、替換合理性驗證等。

這些任務(wù)應(yīng)來自同一信息源(如同一篇網(wǎng)頁或PDF),且答案之間不存在因果依賴。使用LLM 將多個任務(wù)的語義合并成一個自然、流暢且具備完整性的新任務(wù)。

而寬度拓展則是通過選擇兩個(或多個)結(jié)構(gòu)兼容的原子任務(wù),



寬度拓展示意圖

通過PromptLearning 提升任務(wù)生成效率

在TaskCraft 的任務(wù)構(gòu)建流程中,Prompt 的設(shè)計起到了至關(guān)重要的作用。研究團隊采用了自舉式 few-shot 提示優(yōu)化機制,基于生成的任務(wù)數(shù)據(jù)對提示進行了迭代優(yōu)化,從而實現(xiàn)了提示模板的自我進化。如表1,實驗結(jié)果顯示,原子任務(wù)的生成通過率從初始的54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務(wù)中,6 輪任務(wù)擴展的成功率由 41% 提升至 51.2%,進一步驗證了生成數(shù)據(jù)在提升任務(wù)構(gòu)建質(zhì)量與效率方面的顯著效果。



表1PromptLearning實驗結(jié)果

對智能體基礎(chǔ)模型進行SFT訓(xùn)練

其次,研究團隊進一步評估了TaskCraft 所生成任務(wù)數(shù)據(jù)在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎(chǔ),研究者基于三個典型的多跳問答數(shù)據(jù)集(HotpotQA、Musique 和 Bamboogle)的訓(xùn)練集,生成了約32k條多跳任務(wù)以及軌跡,并利用這些生成數(shù)據(jù)對模型進行監(jiān)督微調(diào)(SFT)。如表2,實驗結(jié)果表明,經(jīng)過微調(diào)后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數(shù)據(jù)在增強大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外,當這些微調(diào)模型與強化學(xué)習(xí)方法 Search-R1 相結(jié)合時,模型性能進一步提升,進一步證明 TaskCraft 所生成的任務(wù)數(shù)據(jù)不僅能用于監(jiān)督學(xué)習(xí),也可作為強化學(xué)習(xí)的優(yōu)質(zhì)訓(xùn)練起點。



表2監(jiān)督微調(diào)效果

此外,你可能會好奇:引入搜索Agent 是否真的有必要?為此,研究團隊設(shè)計了一項對比實驗,比較了兩種任務(wù)構(gòu)建方式的效果:一是直接使用 GPT-4.1 基于某個結(jié)論生成任務(wù),另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務(wù)。結(jié)果如表 3 所示,TaskCraft 構(gòu)建范式在多項指標上表現(xiàn)更優(yōu)。



表3任務(wù)構(gòu)建范式的有效性分析

相比之下,TaskCraft 生成的任務(wù)具有顯著更高的通過率,驗證時間更短,且工具使用次數(shù)更符合“原子任務(wù)”的定義(理論最優(yōu)為:一次輸入索引 + 一次目標工具調(diào)用)。此外,任務(wù)的工具調(diào)用次數(shù)也更穩(wěn)定,方差更小,反映出 TaskCraft 在保持原子任務(wù)難度的一致性方面具備更強的優(yōu)勢。



原子數(shù)據(jù)域分布

基于TaskCraft,研究者構(gòu)建了一個包含約41,000 個 agentic 任務(wù)的大規(guī)模數(shù)據(jù)集,為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評估提供了堅實的基礎(chǔ)。該數(shù)據(jù)集覆蓋多個工具使用場景,包括網(wǎng)頁搜索、PDF 閱讀、圖像理解等,任務(wù)結(jié)構(gòu)層次豐富,難度可控,支持原子級任務(wù)和多跳復(fù)雜任務(wù)。由于所有任務(wù)都附帶了真實的執(zhí)行軌跡,不僅可以進行監(jiān)督式微調(diào)(SFT),還能為強化學(xué)習(xí)(RL)提供高質(zhì)量的訓(xùn)練數(shù)據(jù)起點。這使得該數(shù)據(jù)集可廣泛應(yīng)用于智能體基礎(chǔ)模型的能力增強、Agent 推理策略的評估,以及多工具調(diào)用環(huán)境下的泛化能力測試。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
處暑過后收起你的涼鞋,今秋這3雙“平底鞋”火出圈,時髦又好看

處暑過后收起你的涼鞋,今秋這3雙“平底鞋”火出圈,時髦又好看

白宸侃片
2025-09-01 02:58:01
央視點評女排出局惹爭議,樊振東王楚欽全輸了,陳雨菲輸日本落淚

央視點評女排出局惹爭議,樊振東王楚欽全輸了,陳雨菲輸日本落淚

三十年萊斯特城球迷
2025-08-31 21:55:14
南京大學(xué)33歲東思嘉自殺去世!老公大14歲,是副院長,曝其出軌

南京大學(xué)33歲東思嘉自殺去世!老公大14歲,是副院長,曝其出軌

180視角
2025-08-29 09:32:14
離開娛樂圈4年,霍尊事業(yè)重啟,而被送進去的陳露,活成了這樣

離開娛樂圈4年,霍尊事業(yè)重啟,而被送進去的陳露,活成了這樣

泠泠說史
2025-08-08 18:27:11
利物浦3連勝存爭議?絕殺功臣疑壓哨逃點 胳膊觸球被主裁+VAR無視

利物浦3連勝存爭議?絕殺功臣疑壓哨逃點 胳膊觸球被主裁+VAR無視

我愛英超
2025-09-01 02:03:49
記者:斯盧茨基技戰(zhàn)術(shù)沒啥先進東西,防守壓迫等長板本場消失了

記者:斯盧茨基技戰(zhàn)術(shù)沒啥先進東西,防守壓迫等長板本場消失了

直播吧
2025-08-31 21:33:27
官宣!遼籃2米13內(nèi)線告別,3年合同加盟新東家,一數(shù)據(jù)創(chuàng)CBA紀錄

官宣!遼籃2米13內(nèi)線告別,3年合同加盟新東家,一數(shù)據(jù)創(chuàng)CBA紀錄

璞玉話體壇
2025-08-31 20:47:21
《蛟龍行動》再次遭遇慘敗,兩天票房僅1000萬,虧損約9億

《蛟龍行動》再次遭遇慘敗,兩天票房僅1000萬,虧損約9億

影視高原說
2025-08-31 11:24:35
所有中國人被趕出仁愛礁?菲大將公布戰(zhàn)果,9月3號當天,準備鬧事

所有中國人被趕出仁愛礁?菲大將公布戰(zhàn)果,9月3號當天,準備鬧事

大白話瞰世界
2025-08-28 14:48:27
5000萬歐真香!馬卡:許多人質(zhì)疑A費轉(zhuǎn)會費,他僅用3場就證明自己

5000萬歐真香!馬卡:許多人質(zhì)疑A費轉(zhuǎn)會費,他僅用3場就證明自己

直播吧
2025-08-31 17:40:30
大S墓地對外開放,知名導(dǎo)演曬更多墓地照片,太多具俊曄留下痕跡

大S墓地對外開放,知名導(dǎo)演曬更多墓地照片,太多具俊曄留下痕跡

古希臘掌管月桂的神
2025-08-31 22:14:22
陳雨菲:我已經(jīng)吃了八顆止疼藥,站在場上想去爭取一下

陳雨菲:我已經(jīng)吃了八顆止疼藥,站在場上想去爭取一下

懂球帝
2025-08-31 21:56:16
南京十大超級工程曝光!總投資超2396億,這些將徹底改變你的生活

南京十大超級工程曝光!總投資超2396億,這些將徹底改變你的生活

愛下廚的阿釃
2025-08-31 22:52:01
抱上三個女人大腿,建起金融帝國崩塌后,庭審上卻說自己不懂法律

抱上三個女人大腿,建起金融帝國崩塌后,庭審上卻說自己不懂法律

神秘歷史故事
2024-01-09 12:58:41
日本發(fā)動機全球領(lǐng)先,我國拆解百臺無法仿制?中國專家說出三大難

日本發(fā)動機全球領(lǐng)先,我國拆解百臺無法仿制?中國專家說出三大難

芭比衣櫥
2025-08-18 15:21:31
美網(wǎng)戰(zhàn)報:3-1!辛納奪十連勝,一人爆冷,德約、阿卡出征沖八強

美網(wǎng)戰(zhàn)報:3-1!辛納奪十連勝,一人爆冷,德約、阿卡出征沖八強

華聲體育
2025-08-31 23:36:07
國安官方為0-6致歉:全隊深感恥辱+夜不能寐!永爭第1的決心不變

國安官方為0-6致歉:全隊深感恥辱+夜不能寐!永爭第1的決心不變

我愛英超
2025-09-01 03:12:06
抵制這個,抵制那個,到了醫(yī)院就老實了

抵制這個,抵制那個,到了醫(yī)院就老實了

霹靂炮
2025-08-31 22:46:34
“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

芳芳歷史燴
2025-08-26 16:43:53
不出意外的話,這5名球員再也進不去男籃國家隊了

不出意外的話,這5名球員再也進不去男籃國家隊了

籃色生活
2025-08-31 11:37:10
2025-09-01 06:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔(dān)責(zé)

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

健康
數(shù)碼
教育
時尚
軍事航空

精神科專家解答學(xué)習(xí)困難七大問題

數(shù)碼要聞

9 秒開機 + 2 秒喚醒:聯(lián)想開天信創(chuàng)筆記本電腦刷新開機速度紀錄

教育要聞

南陽市一中2025級軍訓(xùn)紀實

看來看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

軍事要聞

哈馬斯證實其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無障礙瀏覽 進入關(guān)懷版