成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

螞蟻安全團隊新范式Agentic Deep Research,推理能力顯著提升

0
分享至



盡管 LLM 的能力與日俱增,但其在復雜任務上的表現仍受限于靜態(tài)的內部知識。為從根本上解決這一限制,突破 AI 能力界限,業(yè)界研究者們提出了 Agentic Deep Research 系統(tǒng),在該系統(tǒng)中基于 LLM 的 Agent 通過自主推理、調用搜索引擎和迭代地整合信息來給出全面、有深度且正確性有保障的解決方案。

OpenAI 和 Google 的研究者們總結了 Agentic Deep Researcher 的幾大優(yōu)勢:(1)深入的問題理解能力(Comprehensive Understanding):能夠處理復雜、多跳的用戶提問;(2)強大的信息整合能力(Enhanced Synthesis):能夠將廣泛甚至沖突的信息源整合為合理的輸出;(3)減輕用戶的認知負擔(Reduced User Effort):整個 research 過程完全自主,不需要用戶的過多干預。

現存最先進的 Agentic Deep Research 系統(tǒng)往往基于由可驗證結果獎勵指導的強化學習訓練,盡管該訓練范式帶來了顯著的性能收益,但仍存在以下核心問題:

  • 梯度沖突(Gradients Conflicts):在基于可驗證結果獎勵的強化學習范式中,即使中間的推理過程或研究策略是有效的,只要最終答案錯誤,整個推理軌跡都會受到懲罰。這種粗粒度的獎勵設計在中間推理步驟與最終答案之間引入了潛在的梯度沖突,阻礙了模型發(fā)現更優(yōu)的推理能力和研究策略,從而限制了其泛化能力
  • 獎勵稀疏(Reward sparsity):基于結果的強化學習僅依賴最終答案生成獎勵,導致每個訓練樣本只能提供稀疏的反饋信號。這嚴重限制了策略優(yōu)化的效率,因為它增加了對更大規(guī)模訓練數據和更長訓練周期的依賴。

以上兩個限制限制了 Agentic Deep Research 系統(tǒng)的性能上線,為決解這兩大限制,來自螞蟻安全與智能實驗室團隊提出了 Atom-Searcher,進一步推動了 Agentic Deep Research 系統(tǒng)的性能邊界。



  • 論文標題:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
  • 論文:https://arxiv.org/abs/2508.12800
  • Github: https://github.com/antgroup/Research-Venus
  • Huggingface: https://huggingface.co/dikw/Atom-Searcher



方法介紹

本研究提出了一種創(chuàng)新性的 Agentic Deep Research 系統(tǒng)訓練框架 Atom-Searcher,結合監(jiān)督微調(SFT)與基于細粒度獎勵的強化學習構建強大的 Agentic Deep Research 系統(tǒng)。

與現存 Agentic Deep Research 訓練框架相比,Atom-Searcher 創(chuàng)新地提出了 Atomic Thought 推理范式,引導 LLM 進行更加深入、可信和可解釋的推理;然后引入 Reasoning Reward Model(RRM)對 Atomic Thought 式的推理過程進行監(jiān)督,構建細粒度的 Atomic Thought Reward(ATR);進而提出一種課程學習啟發(fā)的獎勵融合策略將 ATR 與可驗證結果獎勵進行聚合;最后基于聚合獎勵進行強化學習訓練。



Atomic Thought 推理范式





細粒度 Atomic Thought Reward 構建



課程學習啟發(fā)的獎勵聚合策略

基于可驗證結果的獎勵的 Agentic Deep Research 系統(tǒng)之所以存在梯度沖突問題,是由于基于結果的獎勵在 token 級別的獎勵分配上過于粗糙。具體來說,它將中間推理步驟的正確性完全歸因于最終答案,常常在不考慮各步驟實際貢獻的情況下對其進行獎勵或懲罰。這種錯位在優(yōu)化過程中會引發(fā)梯度沖突。為解決這一問題,我們將 ATR 與結果獎勵相結合,利用 ATR 作為輔助信號來校準結果獎勵,從而緩解梯度沖突。

然而,使用靜態(tài)的獎勵加權系數無法與訓練動態(tài)保持一致。具體而言,在訓練初期,模型能力尚有限,難以生成完全正確的答案,但更有可能探索出對最終正確解有貢獻的有用 “原子思維”。如果此階段僅依賴基于結果的獎勵,這些有益的原子思維可能因最終答案錯誤而遭到不公正的懲罰;相反,一些有害的原子思維也可能被錯誤地強化,導致嚴重的梯度沖突,因而需要 ATR 進行較強的校準。隨著訓練的推進,模型能力逐步提升,其推理軌跡與正確答案的對齊程度也日益提高。因此,梯度沖突逐漸減弱,而來自 ATR 的過度校準可能會引入不必要的噪聲,反而損害最終的準確性。

強化學習訓練

基于混合獎勵,本文采用了 GRPO 算法進行強化學習訓練。并使用了 Loss Masking 策略保證訓練的穩(wěn)定性。具體而言,在原始的 GRPO 框架中,損失函數會計算整個推理路徑中所有 token 的梯度。但在 Atom-Searcher 中,模型的輸出路徑包含由外部環(huán)境檢索得到的內容(如搜索結果),這些內容不是模型生成的,也不可訓練。為了避免模型在訓練時被這些靜態(tài)、不可控的內容誤導,本文采用了 Loss Masking 機制,將檢索結果部分的 token 排除在損失計算之外。

實驗效果

主實驗

Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表現均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 2.5% 的性能提升。



消融實驗

作者們證明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的貢獻,并證明了相較于傳統(tǒng)的 < think > 推理范式 Atomic Thought 范式為 RRM 提供了有效的監(jiān)督錨點,從而帶來了性能提升



案例分析

作者們通過案例分析對比了 Atom-Searcher 與最優(yōu) baseline——DeepResearcher 的推理過程。展示了 Atom-Searcher 的優(yōu)勢:(1)Atom-Searcher 在其推理過程中自主生成了 Atomic Thoughts,展現出更接近人類的認知行為,例如問題分析、提出解決方案假設、預測錯誤以及規(guī)劃下一步操作,使其推理過程更加深入且清晰;(2)Atom-Searcher 會觸發(fā)更多的搜索調用,從而獲取更豐富的外部信息,以確保答案的正確性。這些優(yōu)勢表明,Atom-Searcher 在更復雜的 Deep Research 任務中具有巨大潛力。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“人妻專業(yè)戶”妃光莉:改名改不了命,還是轉行跳脫衣舞更適合

“人妻專業(yè)戶”妃光莉:改名改不了命,還是轉行跳脫衣舞更適合

一代文嚎
2025-09-01 16:08:54
清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

小蘿卜絲
2025-08-31 09:55:45
蘇超18歲高中生球員疑讓25歲女生懷孕,女方表態(tài)去父留子

蘇超18歲高中生球員疑讓25歲女生懷孕,女方表態(tài)去父留子

塵語者
2025-09-01 17:28:01
張學友東莞演唱會高音多次破音,致歉稱想“中止演唱會,給所有人退票”,27個月內他共演出277場,曾4次告“病假”

張學友東莞演唱會高音多次破音,致歉稱想“中止演唱會,給所有人退票”,27個月內他共演出277場,曾4次告“病假”

極目新聞
2025-09-01 15:13:41
退休人員養(yǎng)老金迎來“二次核算”,1955年前出生,每月漲多少錢?

退休人員養(yǎng)老金迎來“二次核算”,1955年前出生,每月漲多少錢?

貓叔東山再起
2025-09-01 08:30:03
苑舉正受邀來看閱兵,已經抵達北京,采訪時一句話霸氣外露

苑舉正受邀來看閱兵,已經抵達北京,采訪時一句話霸氣外露

另子維愛讀史
2025-09-01 07:56:32
火烈鳥導彈炸響,澤連斯基和歐洲有新動作

火烈鳥導彈炸響,澤連斯基和歐洲有新動作

山河路口
2025-09-01 13:00:44
日本專家:我們投降不是因為美國原子彈,而是蘇聯在背后捅刀子

日本專家:我們投降不是因為美國原子彈,而是蘇聯在背后捅刀子

娛樂圈的嗶嗶王
2025-08-27 10:01:06
斯諾克最新戰(zhàn)報!4將直通正賽,中國軍團2勝1負,雷佩凡被轟4-0!

斯諾克最新戰(zhàn)報!4將直通正賽,中國軍團2勝1負,雷佩凡被轟4-0!

劉姚堯的文字城堡
2025-09-01 19:38:14
上海主持人丹丹:直播承認已離職,坦言如今走上了另一條人生道路

上海主持人丹丹:直播承認已離職,坦言如今走上了另一條人生道路

陌識
2025-09-01 15:37:07
漲182%,新政后的上海樓市…

漲182%,新政后的上海樓市…

新浪財經
2025-09-01 00:14:08
“50至64歲,退休優(yōu)先,包吃包??!”蘇州一餐廳“只招老人”引熱議

“50至64歲,退休優(yōu)先,包吃包??!”蘇州一餐廳“只招老人”引熱議

揚子晚報
2025-09-01 14:37:18
酸了!字節(jié)3-2員工自曝四4年賺了1000萬!真有那么高收入嗎?

酸了!字節(jié)3-2員工自曝四4年賺了1000萬!真有那么高收入嗎?

恪守原則和底線
2025-08-31 13:21:22
怎么去除水中的微塑料?廣州醫(yī)科大學研究,只需要燒開水然后過濾就行

怎么去除水中的微塑料?廣州醫(yī)科大學研究,只需要燒開水然后過濾就行

粵語音樂噴泉
2025-09-01 12:49:48
上海外灘咖啡節(jié)遇惡劣天氣提前落幕,攤主:被帳篷砸傷,萬元咖啡機泡水

上海外灘咖啡節(jié)遇惡劣天氣提前落幕,攤主:被帳篷砸傷,萬元咖啡機泡水

吃貨的分享
2025-09-01 17:33:43
8.27,南京一中高中軍訓突發(fā)事件

8.27,南京一中高中軍訓突發(fā)事件

吃瓜體
2025-09-01 13:38:05
中國沙漠太空艙被韓國人訂爆:82座引萬人入住,為何這么火?

中國沙漠太空艙被韓國人訂爆:82座引萬人入住,為何這么火?

天行艦
2025-08-31 00:00:06
父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

詩意世界
2025-08-30 10:20:18
馬筱梅為愛犬辦葬禮遭網暴,評論區(qū)淪陷,和大S離世時畫風太像

馬筱梅為愛犬辦葬禮遭網暴,評論區(qū)淪陷,和大S離世時畫風太像

鑫鑫說說
2025-09-01 13:28:41
公公70大壽20個人點15瓶五糧液,當眾喊我買單,我假裝付錢拿包就走

公公70大壽20個人點15瓶五糧液,當眾喊我買單,我假裝付錢拿包就走

今天說故事
2025-07-16 17:57:32
2025-09-01 21:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11206文章數 142432關注度
往期回顧 全部

科技要聞

成都車展眾生相:20個主播圍著拍華為

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

蘇有朋,禍從口出?

財經要聞

行情剛好點,創(chuàng)始人立馬漲估值

汽車要聞

激光雷達上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

房產
數碼
旅游
本地
公開課

房產要聞

海珠宅地上新!廣州大道南788號二期8.6億起拍!

數碼要聞

華碩帶來白色款 Prime RX 9070 XT OC 顯卡,基于原版相同模具

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版