成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自搜索強化學習SSRL:Agentic RL的Sim2Real時刻

0
分享至



本文由清華大學、上海人工智能實驗室、上海交通大學等機構(gòu)聯(lián)合完成。第一作者為上海 AI Lab 博士生樊鈺辰,研究方向是 Agent 以及強化學習;通訊作者為清華大學周伯文教授。

此前的 Agentic Search RL 任務大多采用真實搜索引擎,導致訓練效率低,速度慢,穩(wěn)定性差。ZeroSearch探索利用另一個模型提供信息的訓練方法,取得了較好的表現(xiàn)。然而,模型依賴自身世界知識能夠達到的上限,以及如何有效利用自身世界知識,降低幻覺仍然是一個值得探究的問題。為研究這些問題,本文引入SSRL。

SSRL 利用結(jié)構(gòu)化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各個 benchmark 上取得了更好的效果,有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環(huán)境的參與,并發(fā)現(xiàn)在接入真實搜索引擎后,經(jīng)過 SSRL 訓練的模型可以取得更好的效果,體現(xiàn)了Sim2Real的有效性。

SSRL 所有訓練數(shù)據(jù),訓練細節(jié),以及訓練模型均已開源。



  • Github鏈接: https://github.com/TsinghuaC3I/SSRL
  • 論文鏈接:https://arxiv.org/abs/2508.10874

一句話總結(jié)

本研究探索 SSRL,通過大語言模型 (LLM)內(nèi)部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩(wěn)定性。實驗證明,該方法在多種基準測試中優(yōu)于傳統(tǒng)基于外部搜索引擎的方法,同時首次在 LLM 智能體領域?qū)崿F(xiàn)了從模擬到真實 (Sim2Real) 的有效遷移。

一、動機

當前 RL 訓練 Search Agent 主要有兩種方式:

1.全真實搜索 (Full-Real Search):直接調(diào)用商業(yè)搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫

2.半真實搜索 (Semi-Real Search):使用輔助 LLM 模擬搜索引擎行為

問題:

  • 高昂成本:商業(yè) API 調(diào)用費用昂貴,本地知識庫加重 GPU 負擔,且和真實場景存在差距
  • 訓練效率低下:多輪工具調(diào)用導致 rollout 效率降低
  • 訓練不穩(wěn)定性:外部信息引入導致模型容易崩潰
  • 非端到端訓練:半真實搜索仍需額外微調(diào)步驟

綜上所述,目前的 Search Agent 訓練非常昂貴,耗時,且不穩(wěn)定。

如何能夠降低訓練成本與訓練時間,同時能夠穩(wěn)定地訓練 Search Agent 呢?

面對這些問題,我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發(fā) LLM 自發(fā)地利用世界知識,并且通過 pass@k 證明了其極高的上限。受此啟發(fā),我們嘗試用 RL 進一步強化模型利用自身世界知識的能力,探索 SSRL 的效果。在此基礎上,我們首次在 LLM Agent 領域提出 Sim2Real,并驗證 SSRL 訓練的模型在真實場景的泛化性。

二、觀察:LLM 利用世界知識的上限

對應 Agentic Search 任務 Pass@K 上限很高

此前已經(jīng)有研究證明 LLM 通過重復采樣的方式可以在數(shù)學和代碼取得極高的通過率,然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內(nèi)部知識(Self-Search)。



我們在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上進行了大量采樣,實驗結(jié)果顯示,僅依賴模型內(nèi)部知識,就可以在所有的 benchmark 上獲得明顯的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率,在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發(fā)現(xiàn)在這類任務上 Llama 系列效果遠超 Qwen 系列,這和 math 上的結(jié)論恰恰相反。



Thinking 越多效果不一定越好

受啟發(fā)于 Long-CoT LRM 的驚人表現(xiàn),我們探究了 Long-CoT 對知識類的問題是否會有更好的表現(xiàn)。我們進行了三種 setting 的檢驗:

  • 對于 reasoning model,我們對是否使用 thinking mode 進行了對比實驗。
  • 對于 sampling strategy,我們對比了是否使用 multi-turn generation 以及 reflection-based generation。

實驗結(jié)果顯示,過多的 thinking,或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果,這也和之前的 reasoning 工作中的結(jié)論相左。





Pass@K 上限很高,但 Maj@N 達到上限很難

證明了 Self-Search 具有極高的上限后,我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結(jié)果顯示,僅僅依賴答案進行投票的方式無法逼近模型能力的上限,并且在增加參與 majority voting 的采樣數(shù)量時,效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。



三、SSRL:自搜索強化學習

訓練目標優(yōu)化

標準的搜索 RL Search Agent 目標函數(shù)為:



由于 R(檢索信息)來自策略本身,優(yōu)化目標方程可以簡化為一個標準的 GRPO 優(yōu)化目標:



關(guān)鍵技術(shù)設計

1.信息掩碼(Information Masking)

和之前的 Search RL 工作一樣,我們在訓練時屏蔽

標簽內(nèi)的 token,從而強制模型基于查詢和推理生成答案,而非簡單復制。

2.復合獎勵函數(shù)

由于我們沒有人為地干預模型的生成過程,因此需要一個 format reward 去規(guī)范模型的格式化輸出,以更好地利用內(nèi)部知識。同時,我們采用 outcome reward 防止 reward hacking,確保獎勵的有效性。



實驗結(jié)果

我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練,實驗結(jié)果如下:







可以看到:

  • 利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果,然而在 Qwen 系列上,效果還有一定的差距。
  • 使用 SSRL 訓練效率可以提升約 5.6 倍,并且在訓練過程中,Training reward 持續(xù)增長,在訓練 2000 多步時也并未觀察到 collapse 現(xiàn)象。
  • 相比于 Base model,Instruct model 表現(xiàn)出更好的能力,我們將其歸因為 SFT 階段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任務是和真實世界高度相關(guān)的,因此能夠結(jié)合真實搜索去實時地解決問題也是非常重要的。在這個工作中,我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力,我們稱為 Sim2Real。

替換 Self-Searched Knowledge 為 Online-Searched Information

首先我們進行實驗,將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結(jié)果進行替換,我們發(fā)現(xiàn)

  • Sim2Real 會獲得一定程度的效果提升,這顯示了適當引入外部知識可以輔助模型思考。
  • 隨著 K 的增加,Sim2Real 的效果不會持續(xù)增長,這也顯示了模型內(nèi)部知識的一定優(yōu)越性,即高度壓縮性和靈活性,對于同樣的一個問題,模型 self-search 的知識可能更加貼合。





結(jié)合 Self-Generated Knowledge 和 Real-world Knowledge

此前我們已經(jīng)證明了,真實世界的知識和模型生成的知識都各有其優(yōu)越性,如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search,我們首先提取出 search content,如果呈現(xiàn)熵增趨勢,表明模型具有不確定性,我們應當尋求外部工具的幫助,如果熵減,則使用模型生成的知識。實驗結(jié)果如下:



實驗結(jié)果顯示,Search 次數(shù)相比于之前減少了 20%-42%,而實驗效果可以取得一個 comparable 的表現(xiàn),但這只是一個初步的嘗試,更精細的結(jié)合方法仍是一個問題。

五、SSRL 和 TTRL 的結(jié)合

我們嘗試 SSRL 和 TTRL 相結(jié)合,證明 SSRL 的泛化性和有效性??梢园l(fā)現(xiàn),當使用 TTRL 時,相比于 GRPO-based SSRL,我們可以取得更好的效果,甚至可以獲得 67% 的效果提升。



甚至在最為困難的 BrowseComp 上,我們?nèi)匀荒軌颢@得穩(wěn)定的增長。然而我們觀察到,使用 TTRL 時,模型會變得過于 confident,模型塌縮到每個問題只會搜索一次,且模型會學會一個捷徑,即先指出最后的答案,再通過 search 去 verify。此外,TTRL 也非常容易崩潰,Training reward 會極速下降到 0。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
金正恩乘專列入境中國,經(jīng)過一個特殊地點,朝媒罕見發(fā)文信任中方

金正恩乘專列入境中國,經(jīng)過一個特殊地點,朝媒罕見發(fā)文信任中方

傲傲講歷史
2025-09-02 13:00:11
已獲批復!湖北一所大學正式更名

已獲批復!湖北一所大學正式更名

極目新聞
2025-09-02 15:30:08
網(wǎng)友們已經(jīng)猜出了今年的新出生人口數(shù)據(jù)了

網(wǎng)友們已經(jīng)猜出了今年的新出生人口數(shù)據(jù)了

清暉有墨
2025-09-01 17:42:14
新華社快訊:中方?jīng)Q定自2025年9月15日至2026年9月14日,對俄羅斯持普通護照人員試行免簽政策

新華社快訊:中方?jīng)Q定自2025年9月15日至2026年9月14日,對俄羅斯持普通護照人員試行免簽政策

北青網(wǎng)-北京青年報
2025-09-02 16:19:04
美歐敲定數(shù)萬大軍入烏計劃后,普京在天津?qū)χ杏〗坏祝袊驯M力

美歐敲定數(shù)萬大軍入烏計劃后,普京在天津?qū)χ杏〗坏?,中國已盡力

阿傖說事
2025-09-02 11:45:08
馬英九大陸遇冷才明白:不是大陸需要他,是他高估了自己的分量!

馬英九大陸遇冷才明白:不是大陸需要他,是他高估了自己的分量!

阿天愛旅行
2025-09-02 13:05:32
A股:今天,周二,股市突然跳水,原因主要有兩點!

A股:今天,周二,股市突然跳水,原因主要有兩點!

明心
2025-09-02 11:20:48
缺席九三閱兵的歐洲,已失去國際格局中“另一極”的地位

缺席九三閱兵的歐洲,已失去國際格局中“另一極”的地位

觀察者網(wǎng)
2025-09-02 08:08:08
杭州一小吃坊一份面賣2208元 老板:明碼標價,今天還賣出兩份

杭州一小吃坊一份面賣2208元 老板:明碼標價,今天還賣出兩份

封面新聞
2025-09-02 16:07:10
A股:放量大跌的原因是?主力凈套現(xiàn)2000億,不出意外,明天漲?

A股:放量大跌的原因是?主力凈套現(xiàn)2000億,不出意外,明天漲?

虎哥閑聊
2025-09-02 15:55:06
中央?yún)R金大舉加倉股票

中央?yún)R金大舉加倉股票

證券時報
2025-09-02 06:23:19
“最快女護士”哭求調(diào)休跑馬拉松,網(wǎng)友涌入361°直播間刷屏,工作人員:評論太多了,我也很蒙

“最快女護士”哭求調(diào)休跑馬拉松,網(wǎng)友涌入361°直播間刷屏,工作人員:評論太多了,我也很蒙

極目新聞
2025-09-02 14:28:33
最快女護士社死!背刺領導坑慘同事,連續(xù)鋪路9年,難怪名利雙收

最快女護士社死!背刺領導坑慘同事,連續(xù)鋪路9年,難怪名利雙收

寒士之言本尊
2025-09-02 00:53:48
美軍王牌武器,現(xiàn)身中國境內(nèi),美方看到后,產(chǎn)生了前所未有的擔憂

美軍王牌武器,現(xiàn)身中國境內(nèi),美方看到后,產(chǎn)生了前所未有的擔憂

空天力量
2025-09-02 13:07:56
85歲老人在養(yǎng)老院被揍到骨折!凌晨挨打2小時,院長還幫著隱瞞!

85歲老人在養(yǎng)老院被揍到骨折!凌晨挨打2小時,院長還幫著隱瞞!

烏娛子醬
2025-09-02 13:50:56
不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄上億年薪!

不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄上億年薪!

青青子衿
2025-09-02 04:12:58
九三閱兵,有效震懾美國法西斯的軍事冒險!

九三閱兵,有效震懾美國法西斯的軍事冒險!

北山浮生
2025-09-02 00:47:05
是否有外國軍隊參加九三閱兵?外交部回應

是否有外國軍隊參加九三閱兵?外交部回應

澎湃新聞
2025-09-02 15:36:26
上海新規(guī)開始施行,不得隨意以安全為由禁止!市民需求強烈:終于等到了

上海新規(guī)開始施行,不得隨意以安全為由禁止!市民需求強烈:終于等到了

魯中晨報
2025-09-02 09:23:12
5歲半斗牛犬五年撿瓶子攢下1萬多元!每天早中晚撿3次……狗主人:是自己在外奮斗的縮影

5歲半斗牛犬五年撿瓶子攢下1萬多元!每天早中晚撿3次……狗主人:是自己在外奮斗的縮影

極目新聞
2025-09-02 17:27:14
2025-09-02 18:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11215文章數(shù) 142436關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

莫迪剛剛結(jié)束中國之行 特朗普"暴怒"發(fā)出最新威脅

頭條要聞

莫迪剛剛結(jié)束中國之行 特朗普"暴怒"發(fā)出最新威脅

體育要聞

等了十年,石宇奇終于說出這句話

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經(jīng)要聞

一級市場不靈,LP勸我去炒股

汽車要聞

勢能爆發(fā) 盧放談全新嵐圖知音爆款邏輯

態(tài)度原創(chuàng)

本地
房產(chǎn)
游戲
教育
公開課

本地新聞

換個城市過夏天 | “中式美學”打開夏日濰坊

房產(chǎn)要聞

38萬㎡!央企大盤,方案曝光!

7款劇情轉(zhuǎn)折和反差巨大的JRPG 情節(jié)難以忘懷!

教育要聞

注意!這些雙非院校,985考生扎堆!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版