Agent RL與智能體進化關(guān)鍵一步：TaskCraft實現(xiàn)復(fù)雜任務(wù)自動生成

2025-07-04 13:05:41　來源: 機器之心Pro

遼寧舉報

分享至

近年來，基于智能體的強化學(xué)習(xí)（Agent + RL）與智能體優(yōu)化（Agent Optimization）在學(xué)術(shù)界引發(fā)了廣泛關(guān)注。然而，實現(xiàn)具備工具調(diào)用能力的端到端智能體訓(xùn)練，首要瓶頸在于高質(zhì)量任務(wù)數(shù)據(jù)的極度稀缺。當前如GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構(gòu)建過程中高度依賴人工標注，因而在規(guī)模與任務(wù)復(fù)雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務(wù)，GAIA 則僅提供約 500 條多工具協(xié)同任務(wù)樣本。與基礎(chǔ)大模型訓(xùn)練中動輒萬級以上的指令數(shù)據(jù)相比，差距十分顯著。

盡管在基礎(chǔ)模型階段，像self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語言模型（LLM）成功構(gòu)建了大規(guī)模的指令型數(shù)據(jù)，有效提升了模型的通用性和泛化能力，但在智能體（Agent）場景下，這類靜態(tài)指令數(shù)據(jù)卻難以滿足實際需求。原因在于，復(fù)雜的智能體任務(wù)通常需要模型與環(huán)境進行持續(xù)的動態(tài)交互，同時涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性，導(dǎo)致其在智能體訓(xùn)練中遷移性差、適用性有限。

為應(yīng)對上述挑戰(zhàn)，OPPO 研究院的研究者提出了 TaskCraft，一個面向智能體任務(wù)的自動化生成框架，旨在高效構(gòu)建具備可擴展難度、多工具協(xié)同與可驗證執(zhí)行路徑的智能體任務(wù)實例。TaskCraft 通過統(tǒng)一的流程化建構(gòu)機制，擺脫了對人工標注的依賴，能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具（如URL、PDF、HTML、Image 等）的復(fù)雜任務(wù)場景，并支持任務(wù)目標的自動驗證，確保數(shù)據(jù)質(zhì)量與執(zhí)行閉環(huán)。基于該框架，研究團隊構(gòu)建并開源了一個包含約 41,000 條智能體任務(wù)的合成數(shù)據(jù)集，顯著擴展了現(xiàn)有Agent 數(shù)據(jù)資源的規(guī)模與多樣性，為后續(xù)通用智能體的訓(xùn)練與評估提供了有力支撐。

論文標題：
TaskCraft: Automated Generation of Agentic Tasks
論文地址：
https://arxiv.org/abs/2506.10055
Github：
https://github.com/OPPO-PersonalAI/TaskCraft
數(shù)據(jù)集：
https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分：第一部分生成簡單且可驗證的原子任務(wù)；第二部分通過深度拓展和寬度拓展，不斷構(gòu)建新的原子任務(wù)，使復(fù)雜性逐步提升。

原子任務(wù)的生成

原子結(jié)構(gòu)生成示意圖

可以簡單理解為，從原始數(shù)據(jù)中提取核心問題，然后確保問題必須通過特定工具來解決。整個流程包含以下四個關(guān)鍵步驟：

1.收集信息：系統(tǒng)從多種來源（網(wǎng)頁、PDF、圖片等）提取信息。例如，企業(yè)財報、一張統(tǒng)計圖或一篇新聞文章。

2.識別關(guān)鍵內(nèi)容:利用LLM從這些文檔中提取候選結(jié)論，比如：2025 年蘋果公司總收入為383.3 億美元

3.生成問題：LLM需要將這些候選結(jié)論轉(zhuǎn)換為工具回答的問題。例如：“在財務(wù)報告《Apple 2025 年度報告》中，2025 年的總收入是多少？”（答案：383.3 億美元）

4.驗證任務(wù)：每個原子任務(wù)被保留必須滿足以下兩個條件：

必須依賴工具才能解答（LLM無法直接推導(dǎo)答案）。
必須經(jīng)過Agent驗證，確保能夠順利執(zhí)行任務(wù)。

任務(wù)拓展

任務(wù)拓展旨在將一個簡單任務(wù)逐步演化為更具層次和挑戰(zhàn)性的復(fù)雜任務(wù)，使Agent 必須通過多個步驟才能完成任務(wù)。拓展方式主要包括深度拓展與寬度拓展。

深度拓展示意圖

其中，深度拓展的目標是為了構(gòu)建可被拆解為一系列相互依賴的任務(wù)。每一步都依賴前一步的結(jié)果，從而構(gòu)建出一條多步推理鏈。其主要包括以下四步：

1.確認主任務(wù)與拓展標識符：拓展標識符一般是具有強特殊性的文本，往往作為獲取工具上下文的輸入關(guān)鍵字。例如對于任務(wù)：“電影《星際穿越》的導(dǎo)演是誰？”（答案：克里斯托弗·諾蘭），其中的拓展標識符是:《星際穿越》。

2.執(zhí)行Agent搜索，構(gòu)造新的輔助原子任務(wù)：SearchAgent以拓展標識符為線索執(zhí)行搜索，并從搜索結(jié)果中構(gòu)造一個新的原子任務(wù)，其答案即為該拓展標識符。例如：“哪部美國著名科幻電影是在2014 年 11 月 7 日上映的？”（答案：《星際穿越》）

3.合并輔助原子任務(wù)，更新主任務(wù)：將輔助原子任務(wù)與原主任務(wù)進行融合，構(gòu)建一個邏輯連貫的復(fù)合任務(wù)。例如：“2014 年 11 月 7 日上映的美國著名科幻電影，它的導(dǎo)演是誰？“（答案：克里斯托弗·諾蘭）

4.驗證任務(wù)合理性：為了規(guī)避對合并問題的整體驗證，研究者采用了多種規(guī)則對合并后的主任務(wù)進行語義驗證，包括：超集驗證、關(guān)系驗證、信息泄露驗證、替換合理性驗證等。

這些任務(wù)應(yīng)來自同一信息源（如同一篇網(wǎng)頁或PDF），且答案之間不存在因果依賴。使用LLM 將多個任務(wù)的語義合并成一個自然、流暢且具備完整性的新任務(wù)。

而寬度拓展則是通過選擇兩個（或多個）結(jié)構(gòu)兼容的原子任務(wù)，

寬度拓展示意圖

通過PromptLearning 提升任務(wù)生成效率

在TaskCraft 的任務(wù)構(gòu)建流程中，Prompt 的設(shè)計起到了至關(guān)重要的作用。研究團隊采用了自舉式 few-shot 提示優(yōu)化機制，基于生成的任務(wù)數(shù)據(jù)對提示進行了迭代優(yōu)化，從而實現(xiàn)了提示模板的自我進化。如表1，實驗結(jié)果顯示，原子任務(wù)的生成通過率從初始的54.9% 提高至 68.1%，同時平均生成時間減少了近 20%。在深度拓展任務(wù)中，6 輪任務(wù)擴展的成功率由 41% 提升至 51.2%，進一步驗證了生成數(shù)據(jù)在提升任務(wù)構(gòu)建質(zhì)量與效率方面的顯著效果。

表1PromptLearning實驗結(jié)果

對智能體基礎(chǔ)模型進行SFT訓(xùn)練

其次，研究團隊進一步評估了TaskCraft 所生成任務(wù)數(shù)據(jù)在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎(chǔ)，研究者基于三個典型的多跳問答數(shù)據(jù)集（HotpotQA、Musique 和 Bamboogle）的訓(xùn)練集，生成了約32k條多跳任務(wù)以及軌跡，并利用這些生成數(shù)據(jù)對模型進行監(jiān)督微調(diào)（SFT）。如表2，實驗結(jié)果表明，經(jīng)過微調(diào)后，Base 模型的平均性能提升了 14%，Instruct 模型提升了 6%，說明 TaskCraft 生成的數(shù)據(jù)在增強大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外，當這些微調(diào)模型與強化學(xué)習(xí)方法 Search-R1 相結(jié)合時，模型性能進一步提升，進一步證明 TaskCraft 所生成的任務(wù)數(shù)據(jù)不僅能用于監(jiān)督學(xué)習(xí)，也可作為強化學(xué)習(xí)的優(yōu)質(zhì)訓(xùn)練起點。

表2監(jiān)督微調(diào)效果

此外，你可能會好奇：引入搜索Agent 是否真的有必要？為此，研究團隊設(shè)計了一項對比實驗，比較了兩種任務(wù)構(gòu)建方式的效果：一是直接使用 GPT-4.1 基于某個結(jié)論生成任務(wù)，另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務(wù)。結(jié)果如表 3 所示，TaskCraft 構(gòu)建范式在多項指標上表現(xiàn)更優(yōu)。

表3任務(wù)構(gòu)建范式的有效性分析

相比之下，TaskCraft 生成的任務(wù)具有顯著更高的通過率，驗證時間更短，且工具使用次數(shù)更符合“原子任務(wù)”的定義（理論最優(yōu)為：一次輸入索引 + 一次目標工具調(diào)用）。此外，任務(wù)的工具調(diào)用次數(shù)也更穩(wěn)定，方差更小，反映出 TaskCraft 在保持原子任務(wù)難度的一致性方面具備更強的優(yōu)勢。

原子數(shù)據(jù)域分布

基于TaskCraft，研究者構(gòu)建了一個包含約41,000 個 agentic 任務(wù)的大規(guī)模數(shù)據(jù)集，為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評估提供了堅實的基礎(chǔ)。該數(shù)據(jù)集覆蓋多個工具使用場景，包括網(wǎng)頁搜索、PDF 閱讀、圖像理解等，任務(wù)結(jié)構(gòu)層次豐富，難度可控，支持原子級任務(wù)和多跳復(fù)雜任務(wù)。由于所有任務(wù)都附帶了真實的執(zhí)行軌跡，不僅可以進行監(jiān)督式微調(diào)（SFT），還能為強化學(xué)習(xí)（RL）提供高質(zhì)量的訓(xùn)練數(shù)據(jù)起點。這使得該數(shù)據(jù)集可廣泛應(yīng)用于智能體基礎(chǔ)模型的能力增強、Agent 推理策略的評估，以及多工具調(diào)用環(huán)境下的泛化能力測試。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.