本文由清華大學、上海人工智能實驗室、上海交通大學等機構(gòu)聯(lián)合完成。第一作者為上海 AI Lab 博士生樊鈺辰,研究方向是 Agent 以及強化學習;通訊作者為清華大學周伯文教授。
此前的 Agentic Search RL 任務大多采用真實搜索引擎,導致訓練效率低,速度慢,穩(wěn)定性差。ZeroSearch探索利用另一個模型提供信息的訓練方法,取得了較好的表現(xiàn)。然而,模型依賴自身世界知識能夠達到的上限,以及如何有效利用自身世界知識,降低幻覺仍然是一個值得探究的問題。為研究這些問題,本文引入SSRL。
SSRL 利用結(jié)構(gòu)化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各個 benchmark 上取得了更好的效果,有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環(huán)境的參與,并發(fā)現(xiàn)在接入真實搜索引擎后,經(jīng)過 SSRL 訓練的模型可以取得更好的效果,體現(xiàn)了Sim2Real的有效性。
SSRL 所有訓練數(shù)據(jù),訓練細節(jié),以及訓練模型均已開源。
- Github鏈接: https://github.com/TsinghuaC3I/SSRL
- 論文鏈接:https://arxiv.org/abs/2508.10874
一句話總結(jié)
本研究探索 SSRL,通過大語言模型 (LLM)內(nèi)部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩(wěn)定性。實驗證明,該方法在多種基準測試中優(yōu)于傳統(tǒng)基于外部搜索引擎的方法,同時首次在 LLM 智能體領域?qū)崿F(xiàn)了從模擬到真實 (Sim2Real) 的有效遷移。
一、動機
當前 RL 訓練 Search Agent 主要有兩種方式:
1.全真實搜索 (Full-Real Search):直接調(diào)用商業(yè)搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫
2.半真實搜索 (Semi-Real Search):使用輔助 LLM 模擬搜索引擎行為
問題:
- 高昂成本:商業(yè) API 調(diào)用費用昂貴,本地知識庫加重 GPU 負擔,且和真實場景存在差距
- 訓練效率低下:多輪工具調(diào)用導致 rollout 效率降低
- 訓練不穩(wěn)定性:外部信息引入導致模型容易崩潰
- 非端到端訓練:半真實搜索仍需額外微調(diào)步驟
綜上所述,目前的 Search Agent 訓練非常昂貴,耗時,且不穩(wěn)定。
如何能夠降低訓練成本與訓練時間,同時能夠穩(wěn)定地訓練 Search Agent 呢?
面對這些問題,我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發(fā) LLM 自發(fā)地利用世界知識,并且通過 pass@k 證明了其極高的上限。受此啟發(fā),我們嘗試用 RL 進一步強化模型利用自身世界知識的能力,探索 SSRL 的效果。在此基礎上,我們首次在 LLM Agent 領域提出 Sim2Real,并驗證 SSRL 訓練的模型在真實場景的泛化性。
二、觀察:LLM 利用世界知識的上限
對應 Agentic Search 任務 Pass@K 上限很高
此前已經(jīng)有研究證明 LLM 通過重復采樣的方式可以在數(shù)學和代碼取得極高的通過率,然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內(nèi)部知識(Self-Search)。
我們在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上進行了大量采樣,實驗結(jié)果顯示,僅依賴模型內(nèi)部知識,就可以在所有的 benchmark 上獲得明顯的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率,在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發(fā)現(xiàn)在這類任務上 Llama 系列效果遠超 Qwen 系列,這和 math 上的結(jié)論恰恰相反。
Thinking 越多效果不一定越好
受啟發(fā)于 Long-CoT LRM 的驚人表現(xiàn),我們探究了 Long-CoT 對知識類的問題是否會有更好的表現(xiàn)。我們進行了三種 setting 的檢驗:
- 對于 reasoning model,我們對是否使用 thinking mode 進行了對比實驗。
- 對于 sampling strategy,我們對比了是否使用 multi-turn generation 以及 reflection-based generation。
實驗結(jié)果顯示,過多的 thinking,或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果,這也和之前的 reasoning 工作中的結(jié)論相左。
Pass@K 上限很高,但 Maj@N 達到上限很難
證明了 Self-Search 具有極高的上限后,我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結(jié)果顯示,僅僅依賴答案進行投票的方式無法逼近模型能力的上限,并且在增加參與 majority voting 的采樣數(shù)量時,效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。
三、SSRL:自搜索強化學習
訓練目標優(yōu)化
標準的搜索 RL Search Agent 目標函數(shù)為:
由于 R(檢索信息)來自策略本身,優(yōu)化目標方程可以簡化為一個標準的 GRPO 優(yōu)化目標:
關(guān)鍵技術(shù)設計
1.信息掩碼(Information Masking)
和之前的 Search RL 工作一樣,我們在訓練時屏蔽
標簽內(nèi)的 token,從而強制模型基于查詢和推理生成答案,而非簡單復制。
2.復合獎勵函數(shù)
由于我們沒有人為地干預模型的生成過程,因此需要一個 format reward 去規(guī)范模型的格式化輸出,以更好地利用內(nèi)部知識。同時,我們采用 outcome reward 防止 reward hacking,確保獎勵的有效性。
實驗結(jié)果
我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練,實驗結(jié)果如下:
可以看到:
- 利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果,然而在 Qwen 系列上,效果還有一定的差距。
- 使用 SSRL 訓練效率可以提升約 5.6 倍,并且在訓練過程中,Training reward 持續(xù)增長,在訓練 2000 多步時也并未觀察到 collapse 現(xiàn)象。
- 相比于 Base model,Instruct model 表現(xiàn)出更好的能力,我們將其歸因為 SFT 階段的大量信息注入。
四、Sim2Real Generalization
由于 Search 任務是和真實世界高度相關(guān)的,因此能夠結(jié)合真實搜索去實時地解決問題也是非常重要的。在這個工作中,我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力,我們稱為 Sim2Real。
替換 Self-Searched Knowledge 為 Online-Searched Information
首先我們進行實驗,將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結(jié)果進行替換,我們發(fā)現(xiàn)
- Sim2Real 會獲得一定程度的效果提升,這顯示了適當引入外部知識可以輔助模型思考。
- 隨著 K 的增加,Sim2Real 的效果不會持續(xù)增長,這也顯示了模型內(nèi)部知識的一定優(yōu)越性,即高度壓縮性和靈活性,對于同樣的一個問題,模型 self-search 的知識可能更加貼合。
結(jié)合 Self-Generated Knowledge 和 Real-world Knowledge
此前我們已經(jīng)證明了,真實世界的知識和模型生成的知識都各有其優(yōu)越性,如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search,我們首先提取出 search content,如果呈現(xiàn)熵增趨勢,表明模型具有不確定性,我們應當尋求外部工具的幫助,如果熵減,則使用模型生成的知識。實驗結(jié)果如下:
實驗結(jié)果顯示,Search 次數(shù)相比于之前減少了 20%-42%,而實驗效果可以取得一個 comparable 的表現(xiàn),但這只是一個初步的嘗試,更精細的結(jié)合方法仍是一個問題。
五、SSRL 和 TTRL 的結(jié)合
我們嘗試 SSRL 和 TTRL 相結(jié)合,證明 SSRL 的泛化性和有效性??梢园l(fā)現(xiàn),當使用 TTRL 時,相比于 GRPO-based SSRL,我們可以取得更好的效果,甚至可以獲得 67% 的效果提升。
甚至在最為困難的 BrowseComp 上,我們?nèi)匀荒軌颢@得穩(wěn)定的增長。然而我們觀察到,使用 TTRL 時,模型會變得過于 confident,模型塌縮到每個問題只會搜索一次,且模型會學會一個捷徑,即先指出最后的答案,再通過 search 去 verify。此外,TTRL 也非常容易崩潰,Training reward 會極速下降到 0。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.