本文第一作者是來(lái)自北京大學(xué)的本科生殷紹峰,合作者包含來(lái)自北京大學(xué)的博士生雷廷,通訊作者為北京大學(xué)王選計(jì)算機(jī)研究所研究員、助理教授劉洋。
本文主要介紹來(lái)自該團(tuán)隊(duì)的最新論文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。
本文提出了一個(gè)旨在提升基礎(chǔ)模型工具使用能力的大型多模態(tài)數(shù)據(jù)集 ——ToolVQA?,F(xiàn)有研究已在工具增強(qiáng)的視覺(jué)問(wèn)答(VQA)任務(wù)中展現(xiàn)出較強(qiáng)性能,但在真實(shí)世界中,多模態(tài)任務(wù)往往涉及多步驟推理與功能多樣的工具使用,現(xiàn)有模型在此方面仍存在顯著差距。
為彌補(bǔ)這一空缺,ToolVQA 共包含2.3 萬(wàn)條樣本,覆蓋真實(shí)圖像場(chǎng)景與隱式多步驟推理任務(wù),更貼近真實(shí)用戶交互需求。我們提出了一種新穎的數(shù)據(jù)構(gòu)建流程ToolEngine,通過(guò)深度優(yōu)先搜索(DFS)與動(dòng)態(tài)上下文示例匹配機(jī)制,模擬人類工具使用過(guò)程中的推理鏈條。該數(shù)據(jù)集涵蓋 10 種多模態(tài)工具與 7 類任務(wù)領(lǐng)域,每條樣本平均涉及 2.78 步推理。在 ToolVQA 上微調(diào)后的 7B 模型不僅在測(cè)試集上表現(xiàn)優(yōu)異,還在多個(gè)分布外(OOD)基準(zhǔn)數(shù)據(jù)集上超越了閉源大模型 GPT-3.5-turbo,展現(xiàn)出良好的泛化能力和實(shí)際應(yīng)用潛力。
目前該研究已被 ICCV 2025 正式接收,相關(guān)代碼與模型已全部開(kāi)源。
- 論文標(biāo)題:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools
- 論文鏈接:https://arxiv.org/abs/2508.03284
- 代碼鏈接:https://github.com/Fugtemypt123/ToolVQA-release
- 項(xiàng)目主頁(yè):https://fugtemypt123.github.io/ToolVQA-website/
打破合成范式:ToolVQA 開(kāi)啟真實(shí)圖像下的多步工具問(wèn)答新紀(jì)元
本文提出了一種全新的多模態(tài)視覺(jué)問(wèn)答數(shù)據(jù)集 ——ToolVQA,通過(guò)真實(shí)世界任務(wù)與復(fù)雜工具鏈模擬,為大模型提供系統(tǒng)化、多步推理的訓(xùn)練與評(píng)估基準(zhǔn)。當(dāng)前,將外部工具集成進(jìn)大模型(Large Foundation Models, LFMs)已成為提升其復(fù)雜任務(wù)處理能力的重要方向。借助外部工具,模型可以將難題拆解為更小的子任務(wù),交由特定功能的工具處理,從而實(shí)現(xiàn)更強(qiáng)的泛化與執(zhí)行力。
雖然已有研究在視覺(jué)問(wèn)答(VQA)中引入工具使用機(jī)制,并取得了一定成果,但最新的多個(gè)基準(zhǔn)測(cè)試表明:當(dāng)前模型在真實(shí)世界的多模態(tài)、多功能、多步驟任務(wù)中,工具使用能力仍存在明顯短板。例如,真實(shí)用戶在交互中往往提出語(yǔ)義隱含、信息模糊的問(wèn)題,解決這類問(wèn)題需要模型綜合使用多個(gè)工具,提取圖像、文本和外部知識(shí)中的多源信息,構(gòu)建連貫的推理鏈,而這正是當(dāng)前主流模型難以勝任的挑戰(zhàn)。
通過(guò)微調(diào)方法可以增強(qiáng)大模型的工具使用能力,但已有的數(shù)據(jù)集常存在兩類問(wèn)題:
一是圖像場(chǎng)景大多為合成內(nèi)容,缺乏真實(shí)世界背景的復(fù)雜性與不確定性;二是任務(wù)設(shè)計(jì)趨于模板化,問(wèn)題過(guò)于簡(jiǎn)單,或直接在指令中提示要使用哪種工具,難以覆蓋真實(shí)人類問(wèn)題的隱式推理特性,進(jìn)而限制了模型在實(shí)際應(yīng)用中的遷移能力與評(píng)估效果。
針對(duì)這一問(wèn)題,本文提出 ToolVQA 數(shù)據(jù)集,它由數(shù)據(jù)合成引擎 ToolEngine 生成,具有以下關(guān)鍵特性:
1.全自動(dòng)生成:僅需輸入一張圖片即可生成高質(zhì)量 VQA 實(shí)例,不需要任何人工標(biāo)注,顯著降低數(shù)據(jù)成本,具備規(guī)?;瘽摿?;
2.真實(shí)世界圖像與語(yǔ)境:覆蓋新聞圖片、電商場(chǎng)景、考試題圖等多源復(fù)雜圖像類型,任務(wù)語(yǔ)義貼近真實(shí)用戶行為;
3.隱式多步推理鏈:每個(gè)問(wèn)題都需模型自主規(guī)劃工具調(diào)用順序,通過(guò)多輪交互完成任務(wù),而非顯式提示;
4.豐富的工具種類與功能組合:涵蓋 10 類典型工具,支持從文本提取、圖像理解、數(shù)值計(jì)算到圖表繪制與搜索生成;
下面的圖 1 可視化了 ToolVQA 與先前數(shù)據(jù)集在真實(shí)世界設(shè)定下的差異。
圖 1 ToolVQA(右)的真實(shí)世界設(shè)定包括:(1) 具有真實(shí)世界語(yǔ)境的復(fù)雜視覺(jué)場(chǎng)景;(2) 具有隱式多步驟推理過(guò)程的挑戰(zhàn)性查詢。相比之下,現(xiàn)有數(shù)據(jù)集(左)無(wú)法滿足這些要求。
自動(dòng)構(gòu)建的擬人化推理流程:ToolEngine 重現(xiàn)類人的工具使用模式
圖 2 ToolEngine 數(shù)據(jù)合成框架
為克服現(xiàn)有 VQA 數(shù)據(jù)集“模板化、靜態(tài)化、淺層化”的構(gòu)建弊端,ToolVQA 背后的關(guān)鍵技術(shù)支撐 ——ToolEngine,提出了一種模擬人類問(wèn)題解決流程的自動(dòng)數(shù)據(jù)構(gòu)建框架,使得每一條數(shù)據(jù)不僅貼合真實(shí)視覺(jué)任務(wù),還具備可解釋的多步工具使用路徑。
ToolEngine 從無(wú)標(biāo)注圖像出發(fā),圍繞 “如何合理調(diào)用工具解決復(fù)雜問(wèn)題” 這一核心展開(kāi),依托以下三個(gè)關(guān)鍵機(jī)制完成數(shù)據(jù)合成:
1.圖像引導(dǎo)的深度優(yōu)先搜索(Image-guided DFS)
ToolEngine 首先將圖像輸入構(gòu)建為推理圖搜索的起點(diǎn)。在多模態(tài)工具圖上,系統(tǒng)通過(guò)深度優(yōu)先策略依次選擇調(diào)用工具,并執(zhí)行實(shí)際推理操作。每個(gè)步驟不僅包括工具名稱的選擇,還包含參數(shù)構(gòu)造與調(diào)用結(jié)果解析,從而生成邏輯連貫、目標(biāo)導(dǎo)向的推理軌跡。與以往 “單步調(diào)用 + 答案附加” 的方式不同,ToolEngine 要求每一工具步驟都必須對(duì)后續(xù)任務(wù)產(chǎn)生實(shí)質(zhì)性影響,確保推理鏈條具有嚴(yán)密的因果邏輯。
2.LCS 動(dòng)態(tài)示例匹配機(jī)制(Longest Common Subsequence Matching)
為克服模板方法在生成路徑組合上的局限,ToolEngine 引入一種基于最長(zhǎng)公共子序列的動(dòng)態(tài)匹配機(jī)制。它從專家構(gòu)建的人類多步驟工具調(diào)用與推理的示例中,選出當(dāng)前軌跡最相關(guān)的多個(gè)參考示例,并據(jù)此指導(dǎo)下一個(gè)工具的選擇與參數(shù)生成。該機(jī)制避免了以往固定模板中 “匹配不上就失敗” 的問(wèn)題,使得系統(tǒng)能夠自動(dòng)調(diào)整路徑、靈活組合操作,展現(xiàn)出更接近人類直覺(jué)的思維遷移能力。
3.問(wèn)題構(gòu)造與答案提煉機(jī)制
在完成完整的工具軌跡后,ToolEngine 使用語(yǔ)言模型生成最終的問(wèn)題 - 答案對(duì)。為了確保查詢具備 “隱式多步性” 和 “真實(shí)場(chǎng)景相關(guān)性”,ToolEngine 強(qiáng)制要求問(wèn)題不能直接暴露推理線索,例如不能出現(xiàn) “請(qǐng)使用 OCR 識(shí)別” 等顯性提示;同時(shí),答案必須來(lái)自最后一步工具調(diào)用結(jié)果,而非任意圖像描述或常識(shí)補(bǔ)全。此外,系統(tǒng)還會(huì)嘗試將部分答案轉(zhuǎn)化為圖像(如圖表、繪圖等),進(jìn)一步豐富數(shù)據(jù)的模態(tài)多樣性。
為確保數(shù)據(jù)質(zhì)量,ToolVQA 的訓(xùn)練集通過(guò)人工抽檢驗(yàn)證,結(jié)果達(dá)到了 90.8% 的準(zhǔn)確率。測(cè)試集由專家重標(biāo),綜合考慮圖文對(duì)齊性、工具路徑有效性與答案合理性等多個(gè)維度。
兼具真實(shí)復(fù)雜性與可量化評(píng)估:ToolVQA 樹(shù)立多步工具智能體新標(biāo)桿
ToolVQA 數(shù)據(jù)集共包含 23,655 個(gè)任務(wù)樣本,每條樣本由五元組構(gòu)成,包括圖像、工具集、自然語(yǔ)言查詢、最終答案及完整的工具調(diào)用軌跡,支持文本與圖像雙模態(tài)輸入輸出。具體統(tǒng)計(jì)如下:
- 平均每個(gè)問(wèn)題包含2.78 步工具調(diào)用,體現(xiàn)出顯著的多步推理深度;
- 涵蓋10 類代表性工具,包括 OCR、圖像字幕生成、區(qū)域描述、繪圖、計(jì)算器、圖像生成等,廣泛適配真實(shí)應(yīng)用場(chǎng)景;
- 查詢平均長(zhǎng)度為 15.7 個(gè)詞,答案長(zhǎng)度控制在 2.7 個(gè)詞內(nèi),避免語(yǔ)言冗余;
- 工具使用分布符合人類真實(shí)使用頻率,確保其實(shí)用性與必要性。
圖 3 ToolVQA 統(tǒng)計(jì)數(shù)據(jù)
在實(shí)驗(yàn)評(píng)估中,ToolVQA 涵蓋三種模型設(shè)定(VLM、VLM+tool、LLM+tool)與兩種評(píng)估模式(端到端解答與逐步執(zhí)行),系統(tǒng)測(cè)試了包括 GPT-4o、GPT-3.5、Claude-3.5、Qwen2、LLaVA 在內(nèi)的主流大模型,以及在 ToolVQA 訓(xùn)練集上微調(diào)的 LLaVA-7B 模型。性能表現(xiàn)總結(jié)如下:
1. 在 ToolVQA 測(cè)試集上,微調(diào)后的 LLaVA-7B 性能顯著超越baseline,在五項(xiàng)重要評(píng)估指標(biāo)中領(lǐng)先閉源大模型 GPT-3.5-Turbo;
2. 微調(diào)后模型在分布外(out-of-distribution)數(shù)據(jù)集(TextVQA、TallyQA、InfoSeek、GTA、TEMPLAMA)上也展現(xiàn)出出色的泛化能力,在多個(gè)數(shù)據(jù)集上超越 GPT-3.5-Turbo;
表 1 ToolVQA 實(shí)驗(yàn)結(jié)果。每列指標(biāo)分別表示模型在 ToolVQA 測(cè)試集下的表現(xiàn):Acc. 為最終答案準(zhǔn)確率,Inst. 為工具調(diào)用成功率,Tool. 為工具選擇準(zhǔn)確率,Arg. 為參數(shù)生成準(zhǔn)確率,Summ. 為最終答案整合準(zhǔn)確率。圖中對(duì)比不同模型(開(kāi)源與閉源)在三種推理設(shè)定(VLM、VLM+tool、LLM+tool)下的能力。
表 2 分布外數(shù)據(jù)集實(shí)驗(yàn)結(jié)果。展示模型在五個(gè)分布外數(shù)據(jù)集(TextVQA、TallyQA、InfoSeek、GTA、TEMPLAMA)上的準(zhǔn)確率表現(xiàn)。各數(shù)據(jù)集代表不同類型的跨模態(tài)任務(wù)場(chǎng)景,用于衡量模型的泛化能力。
此外,F(xiàn)ew-shot 上下文學(xué)習(xí)實(shí)驗(yàn)顯示,ToolVQA 上的微調(diào)模型依然能從小樣本示例中獲益,表明該數(shù)據(jù)集兼具訓(xùn)練適應(yīng)性 與 評(píng)估擴(kuò)展性,可同時(shí)服務(wù)于監(jiān)督學(xué)習(xí)和指令微調(diào)等多種研究范式。
表 3 小樣本上下文學(xué)習(xí)實(shí)驗(yàn)結(jié)果。展示四個(gè)模型(GPT-4o、GPT-3.5-Turbo、LLaVA-7B 及微調(diào)后的 LLaVA)在不同 shot 數(shù)(0-shot、1-shot、5-shot、10-shot)下的準(zhǔn)確率變化。shot 數(shù)表示在模型回答問(wèn)題前,輸入上下文中提供的示例個(gè)數(shù)。
盡管微調(diào)后的模型在 ToolVQA 上表現(xiàn)出較強(qiáng)能力,但對(duì)錯(cuò)誤樣本的分析顯示,當(dāng)前模型在多步推理中仍存在關(guān)鍵瓶頸。我們對(duì) 100 個(gè)失敗案例進(jìn)行了分類統(tǒng)計(jì),發(fā)現(xiàn)主要錯(cuò)誤集中于以下兩個(gè)方面:
1.參數(shù)預(yù)測(cè)錯(cuò)誤:模型在調(diào)用工具時(shí)常常遺漏關(guān)鍵信息,如在搜索 “馬匹年齡” 問(wèn)題中未包含關(guān)鍵詞 “age”,導(dǎo)致工具返回?zé)o關(guān)內(nèi)容。這表明模型在提取任務(wù)目標(biāo)中的顯式要素方面仍不穩(wěn)定。
2.答案整合錯(cuò)誤:即使工具已返回正確內(nèi)容,模型也可能錯(cuò)誤地選擇信息。例如,面對(duì) “每日攝入量” 類問(wèn)題,模型錯(cuò)誤地將體重 “1,300 磅” 當(dāng)作答案,而忽視了上下文中 “25 磅 / 天” 的正確數(shù)值。
進(jìn)一步分析表明,多步推理任務(wù)中一旦早期出現(xiàn)失誤(如工具選擇或參數(shù)錯(cuò)誤),后續(xù)步驟將受到累積干擾,最終導(dǎo)致整體推理失敗。這類 “誤差累積效應(yīng)” 也是當(dāng)前工具智能體設(shè)計(jì)中的一大挑戰(zhàn)。
這些發(fā)現(xiàn)揭示出:當(dāng)前大模型在面對(duì)動(dòng)態(tài)反饋和中間信息整合時(shí),尚不具備足夠的魯棒性,而 ToolVQA 提供了評(píng)估與改進(jìn)此類能力的理想基準(zhǔn)。
圖 4 微調(diào)后模型的錯(cuò)誤可視化
總結(jié):VQA 與工具智能體的融合范式
ToolVQA 是一個(gè)面向真實(shí)場(chǎng)景工具增強(qiáng)推理任務(wù)的大規(guī)模多模態(tài)數(shù)據(jù)集,涵蓋 10 種典型工具和 7 個(gè)應(yīng)用領(lǐng)域,包含 23K 條具備隱式多步推理鏈的任務(wù)樣本?;谧詣?dòng)化數(shù)據(jù)生成引擎 ToolEngine,ToolVQA 構(gòu)建了結(jié)構(gòu)化的工具使用軌跡與高質(zhì)量問(wèn)題答案對(duì),為模型的推理能力與工具理解能力提供了系統(tǒng)性訓(xùn)練與評(píng)估平臺(tái)。
實(shí)驗(yàn)結(jié)果表明,ToolVQA 顯著提升了微調(diào)后模型在復(fù)雜推理任務(wù)中的表現(xiàn),不僅在測(cè)試集上超越 GPT-3.5,還在多個(gè)分布外數(shù)據(jù)集上展現(xiàn)出強(qiáng)泛化能力。進(jìn)一步的錯(cuò)誤分析指出,參數(shù)預(yù)測(cè)與答案整合仍是當(dāng)前模型在工具使用任務(wù)中的關(guān)鍵瓶頸。
ToolVQA 不僅是一個(gè)數(shù)據(jù)集,更為多模態(tài)工具智能體的研究設(shè)立了評(píng)估標(biāo)準(zhǔn)和任務(wù)框架,為未來(lái)推動(dòng)具備更強(qiáng)推理能力與泛化能力的通用智能體提供了堅(jiān)實(shí)基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.