自搜索強化學習SSRL：Agentic RL的Sim2Real時刻

2025-09-02 11:03:15　來源: 機器之心Pro

河北舉報

分享至

本文由清華大學、上海人工智能實驗室、上海交通大學等機構(gòu)聯(lián)合完成。第一作者為上海 AI Lab 博士生樊鈺辰，研究方向是 Agent 以及強化學習；通訊作者為清華大學周伯文教授。

此前的 Agentic Search RL 任務大多采用真實搜索引擎，導致訓練效率低，速度慢，穩(wěn)定性差。ZeroSearch探索利用另一個模型提供信息的訓練方法，取得了較好的表現(xiàn)。然而，模型依賴自身世界知識能夠達到的上限，以及如何有效利用自身世界知識，降低幻覺仍然是一個值得探究的問題。為研究這些問題，本文引入SSRL。

SSRL 利用結(jié)構(gòu)化的 prompt 和 format reward，有效地提取出了模型中的 world knowledge，在各個 benchmark 上取得了更好的效果，有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環(huán)境的參與，并發(fā)現(xiàn)在接入真實搜索引擎后，經(jīng)過 SSRL 訓練的模型可以取得更好的效果，體現(xiàn)了Sim2Real的有效性。

SSRL 所有訓練數(shù)據(jù)，訓練細節(jié)，以及訓練模型均已開源。

Github鏈接: https://github.com/TsinghuaC3I/SSRL
論文鏈接：https://arxiv.org/abs/2508.10874

一句話總結(jié)

本研究探索 SSRL，通過大語言模型 (LLM)內(nèi)部世界知識的利用，可以顯著提升 Search Agent 的訓練效率和穩(wěn)定性。實驗證明，該方法在多種基準測試中優(yōu)于傳統(tǒng)基于外部搜索引擎的方法，同時首次在 LLM 智能體領域?qū)崿F(xiàn)了從模擬到真實 (Sim2Real) 的有效遷移。

一、動機

當前 RL 訓練 Search Agent 主要有兩種方式：

1.全真實搜索 (Full-Real Search)：直接調(diào)用商業(yè)搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫

2.半真實搜索 (Semi-Real Search)：使用輔助 LLM 模擬搜索引擎行為

問題：

高昂成本：商業(yè) API 調(diào)用費用昂貴，本地知識庫加重 GPU 負擔，且和真實場景存在差距
訓練效率低下：多輪工具調(diào)用導致 rollout 效率降低
訓練不穩(wěn)定性：外部信息引入導致模型容易崩潰
非端到端訓練：半真實搜索仍需額外微調(diào)步驟

綜上所述，目前的 Search Agent 訓練非常昂貴，耗時，且不穩(wěn)定。

如何能夠降低訓練成本與訓練時間，同時能夠穩(wěn)定地訓練 Search Agent 呢？

面對這些問題，我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發(fā) LLM 自發(fā)地利用世界知識，并且通過 pass@k 證明了其極高的上限。受此啟發(fā)，我們嘗試用 RL 進一步強化模型利用自身世界知識的能力，探索 SSRL 的效果。在此基礎上，我們首次在 LLM Agent 領域提出 Sim2Real，并驗證 SSRL 訓練的模型在真實場景的泛化性。

二、觀察：LLM 利用世界知識的上限

對應 Agentic Search 任務 Pass@K 上限很高

此前已經(jīng)有研究證明 LLM 通過重復采樣的方式可以在數(shù)學和代碼取得極高的通過率，然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內(nèi)部知識（Self-Search）。

我們在大量的模型（包括 Qwen2.5，Qwen3，Llama3.1，Llama3.2）上進行了大量采樣，實驗結(jié)果顯示，僅依賴模型內(nèi)部知識，就可以在所有的 benchmark 上獲得明顯的效果提升，如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率，在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發(fā)現(xiàn)在這類任務上 Llama 系列效果遠超 Qwen 系列，這和 math 上的結(jié)論恰恰相反。

Thinking 越多效果不一定越好

受啟發(fā)于 Long-CoT LRM 的驚人表現(xiàn)，我們探究了 Long-CoT 對知識類的問題是否會有更好的表現(xiàn)。我們進行了三種 setting 的檢驗：

對于 reasoning model，我們對是否使用 thinking mode 進行了對比實驗。
對于 sampling strategy，我們對比了是否使用 multi-turn generation 以及 reflection-based generation。

實驗結(jié)果顯示，過多的 thinking，或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果，這也和之前的 reasoning 工作中的結(jié)論相左。

Pass@K 上限很高，但 Maj@N 達到上限很難

證明了 Self-Search 具有極高的上限后，我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結(jié)果顯示，僅僅依賴答案進行投票的方式無法逼近模型能力的上限，并且在增加參與 majority voting 的采樣數(shù)量時，效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。

三、SSRL：自搜索強化學習

訓練目標優(yōu)化

標準的搜索 RL Search Agent 目標函數(shù)為：

由于 R（檢索信息）來自策略本身，優(yōu)化目標方程可以簡化為一個標準的 GRPO 優(yōu)化目標：

關(guān)鍵技術(shù)設計

1.信息掩碼（Information Masking）

和之前的 Search RL 工作一樣，我們在訓練時屏蔽

標簽內(nèi)的 token，從而強制模型基于查詢和推理生成答案，而非簡單復制。

2.復合獎勵函數(shù)

由于我們沒有人為地干預模型的生成過程，因此需要一個 format reward 去規(guī)范模型的格式化輸出，以更好地利用內(nèi)部知識。同時，我們采用 outcome reward 防止 reward hacking，確保獎勵的有效性。

實驗結(jié)果

我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練，實驗結(jié)果如下：

可以看到：

利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果，然而在 Qwen 系列上，效果還有一定的差距。
使用 SSRL 訓練效率可以提升約 5.6 倍，并且在訓練過程中，Training reward 持續(xù)增長，在訓練 2000 多步時也并未觀察到 collapse 現(xiàn)象。
相比于 Base model，Instruct model 表現(xiàn)出更好的能力，我們將其歸因為 SFT 階段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任務是和真實世界高度相關(guān)的，因此能夠結(jié)合真實搜索去實時地解決問題也是非常重要的。在這個工作中，我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力，我們稱為 Sim2Real。

替換 Self-Searched Knowledge 為 Online-Searched Information

首先我們進行實驗，將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結(jié)果進行替換，我們發(fā)現(xiàn)

Sim2Real 會獲得一定程度的效果提升，這顯示了適當引入外部知識可以輔助模型思考。
隨著 K 的增加，Sim2Real 的效果不會持續(xù)增長，這也顯示了模型內(nèi)部知識的一定優(yōu)越性，即高度壓縮性和靈活性，對于同樣的一個問題，模型 self-search 的知識可能更加貼合。

結(jié)合 Self-Generated Knowledge 和 Real-world Knowledge

此前我們已經(jīng)證明了，真實世界的知識和模型生成的知識都各有其優(yōu)越性，如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search，我們首先提取出 search content，如果呈現(xiàn)熵增趨勢，表明模型具有不確定性，我們應當尋求外部工具的幫助，如果熵減，則使用模型生成的知識。實驗結(jié)果如下：

實驗結(jié)果顯示，Search 次數(shù)相比于之前減少了 20%-42%，而實驗效果可以取得一個 comparable 的表現(xiàn)，但這只是一個初步的嘗試，更精細的結(jié)合方法仍是一個問題。

五、SSRL 和 TTRL 的結(jié)合

我們嘗試 SSRL 和 TTRL 相結(jié)合，證明 SSRL 的泛化性和有效性?？梢园l(fā)現(xiàn)，當使用 TTRL 時，相比于 GRPO-based SSRL，我們可以取得更好的效果，甚至可以獲得 67% 的效果提升。

甚至在最為困難的 BrowseComp 上，我們?nèi)匀荒軌颢@得穩(wěn)定的增長。然而我們觀察到，使用 TTRL 時，模型會變得過于 confident，模型塌縮到每個問題只會搜索一次，且模型會學會一個捷徑，即先指出最后的答案，再通過 search 去 verify。此外，TTRL 也非常容易崩潰，Training reward 會極速下降到 0。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.