成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

擊敗Meta登榜首:推理增強的文檔排序模型ReasonRank來了

0
分享至



本文的第一作者是劉文涵,就讀于中國人民大學高瓴人工智能學院,博士三年級,導師為竇志成教授,目前在百度大搜部門進行實習。他的研究方向聚焦于 AI 搜索,在頂級國際會議如 ACL、WWW 等發(fā)表了多篇論文。

推理大模型(Large Reasoning Model)極大的促進了自然語言處理領域的發(fā)展,而信息檢索領域的核心問題之一是文檔排序,如何利用強大的推理大模型通過主動推理來判斷文檔的相關性,進而再對文檔進行排序是一個值得探索的方向。

在本次工作中,我們提出了ReasonRank,ReasonRank 在包括 BRIGHT、R2MED在內的多個榜單,擊敗了 UMASS 大學,Waterloo 大學,Meta 在內的多個大學和機構,于 2025 年 8 月 9 日榮登榜單第一名。我們更小尺寸的 ReasonRank-7B 也遠遠超越了其他 32B 大小的推理型排序大模型,同時相比 pointwise 排序器具備明顯的效率優(yōu)勢。此外,我們的論文還獲得了 Huggingface paper 日榜第一名。



圖 1:8 月 9 日,ReasonRank 在BRIGHT benchmark 上榮登榜單第一名





  • 論文標題:ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
  • 論文鏈接:https://arxiv.org/pdf/2508.07050
  • 代碼倉庫:https://github.com/8421BCD/ReasonRank/
  • 開源數(shù)據(jù) & 模型:https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究動機:復雜推理型訓練數(shù)據(jù)的缺乏

近來,test-time reasoning 已經被證明能夠提升文檔排序器的排序效果。其通過在給出最終排序結果前,先顯式進行一系列推理過程(查詢理解,文檔比較等等)。然而,由于推理密集型(reasoning-intensive)排序訓練數(shù)據(jù)的稀缺,現(xiàn)有推理型排序器均依賴 MSMARCO 這種傳統(tǒng) web 搜索數(shù)據(jù)進行訓練。

這些數(shù)據(jù)主要側重簡單的語義或詞匹配,導致模型在面臨復雜搜索場景(如 StackExchange 復雜查詢、代碼類查詢、數(shù)學類查詢等)時泛化能力受限。而使用人工標注構造推理密集型排序訓練數(shù)據(jù)代價又是非常高的。

方法設計:數(shù)據(jù)合成 + 兩階段訓練

為破解推理密集型排序訓練數(shù)據(jù)稀缺的問題,我們提出了基于 DeepSeek-R1 的自動化數(shù)據(jù)合成框架,生成了 13K 高質量的推理密集型 listwise 排序訓練數(shù)據(jù)?;诤铣傻挠柧殧?shù)據(jù),我們進一步設計了一個兩階段的訓練框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 階段,不同于以往僅使用排序指標作為獎勵(reward),我們基于 listwise 排序中滑動窗口策略的特性設計了 multi-view ranking reward,其更適合 listwise 排序。

1. 數(shù)據(jù)合成

傳統(tǒng)模型在復雜排序任務上表現(xiàn)差,主要是由于缺少面向復雜推理搜索場景的訓練數(shù)據(jù)的缺失。根據(jù)已有的 IR benchmarks,我們將復雜搜索查詢分為四大類并收集了對應領域的用戶查詢:

  • 復雜問答型查詢
  • 代碼類查詢
  • 數(shù)學類查詢
  • 網頁搜索類查詢



有了查詢,如何挖掘高質量的候選文檔列表以及構造訓練 label 是一個關鍵問題,其直接影響模型訓練的效果。

在本文,我們提出利用強大的 DeepSeek-R1 從海量的 web 頁面和已有的文檔 corpus 挖掘其相關文檔以及不相關文檔(包含難負例)。在這個過程,我們還給 R1 提供了 query 的人工標注的正確答案來提高挖掘的準確性,相比傳統(tǒng)蒸餾,這樣能夠進一步提升 R1 相關性判斷的準確性。

這樣我們便得到了文檔的 pointwise 訓練標簽(相關 / 不相關)。為了訓練最終的 listwise 排序器,我們繼續(xù)利用 DeepSeek-R1 對候選文檔進行 listwise 排序,得到 listwise 訓練標簽(包含推理鏈以及最終的 gold ranking list)。

為了提升訓練數(shù)據(jù)的質量,我們進一步設計了一個自一致性(self-consistency)數(shù)據(jù)過濾機制。

我們利用得到的 pointwise 標簽對 listwise 標簽中的 gold ranking list 計算排序指標 NDCG@10,小于閾值 α 的數(shù)據(jù)將被過濾掉(表明教師模型 R1 判斷不一致,相應數(shù)據(jù)樣本被丟棄),最終我們得到 13K 高質量的多領域訓練數(shù)據(jù)集。

2. 兩階段訓練



階段一:冷啟動 SFT

在獲得高質量的推理密集型訓練數(shù)據(jù)后,我們首先采用監(jiān)督微調對大模型進行 “冷啟動” 訓練,通過 R1 的推理鏈顯式引導模型學習如何對一組文檔進行對比、推理和排序。具體而言,輸入由用戶查詢和對應的候選文檔列表組成,輸出為 listwise label(也即 R1 生成的推理鏈和 gold ranking list)。

階段二:多視角排序 reward 的強化學習

多視角排序 reward

1) 召回視角(Recall@10):

現(xiàn)有方法在強化學習訓練排序任務中,通常只采用單輪的 NDCG@10 作為獎勵信號。然而,我們認為這種單輪獎勵對于多輪滑動窗口的 listwise 排序任務而言是次優(yōu)的。這是因為滑動窗口策略要求模型在排序時進行多輪、序列化的局部決策:每一步窗口內的前 10 個文檔才會被傳遞給下一個排序窗口,并通過滑動窗口不斷迭代,實現(xiàn)整體排序。此時,單獨優(yōu)化每一窗口的 NDCG 指標,并不一定能夠帶來全局最優(yōu)的排序效果?;谏鲜鲇^察,我們在強化學習獎勵設計中,額外引入了 Recall@10 指標來確保重要文檔不會在滑動過程中被遺漏,有助于后續(xù)窗口獲得更優(yōu)的排序基礎。

2) 排序相似度視角(RBO):

此外,相較于基于 pointwise 標簽計算 NDCG@10,我們認為 listwise 訓練標簽的 gold ranking list 能夠提供更細粒度的排序信號。因此,我們引入 RBO(Rank-biased Overlap)指標,作為補充排序獎勵,用于衡量當前排序結果與金標準排序的相似性。

我們將 NDCG@10、Recall@10 和 RBO 結合,構建了多視角排序獎勵:



格式 reward

為了保證正確的輸出格式,我們考慮了兩種格式:

(1)輸出格式:保證輸出內容嵌套在

和 < answer > 標簽中;

(2)答案格式:

標簽內的排序列表要滿足特定的輸出格式(例如:[4] > [2] > …)。

最終,我們的強化學習 reward 計算如下,我們使用 GRPO 算法進行 RL 優(yōu)化。



核心實驗 1:多個 benchmarks 上效果實現(xiàn)SOTA

為充分評估 ReasonRank 在不同推理型搜索任務上的效果,我們選取了兩個推理型 IR benchmark:

  • BRIGHT:包含 12 個推理密集型搜索任務,涉及復雜問答型檢索,代碼類檢索,定理類檢索等等
  • R2MED:包含 8 個面向醫(yī)療類的復雜查詢檢索數(shù)據(jù)集,覆蓋問答參考文獻檢索、臨床證據(jù)檢索和臨床病例檢索





從實驗結果可以發(fā)現(xiàn):ReasonRank 顯著優(yōu)于已有的排序器。ReasonRank(32B)在 BRIGHT 和 R2MED 上分別超越最好的 baselines 4-5 個點;且 ReasonRank(7B)甚至優(yōu)于所有的 32B 的 baselines。



此外,我們還在傳統(tǒng) IR benchmark BEIR 上開展了實驗,結果證明了其良好的泛化性。

核心實驗 2:效率優(yōu)勢



我們還在 BRIGHT 上測試了 ReasonRank 的排序效率,并與推理型 pointwise 排序器 Rank1 比較。在以往,pointwise 排序器被認為是最高效的。然而,推理場景下,我們發(fā)現(xiàn)我們的listwise 排序器 ReasonRank 效率顯著高于 pointwise 排序器 Rank1。這種高效性來自于 Rank1 需要為每個段落生成推理鏈,而 ReasonRank 一次處理 20 個段落,只生成一條推理鏈,大大減少了輸出的 token 數(shù)量。

核心實驗 3:消融實驗



我們還開展了詳盡的消融實驗,結果證明了我們構造的多領域數(shù)據(jù)集相比于單領域(MSMARCO)的效果優(yōu)勢以及我們兩階段訓練框架和 multi-view ranking reward 設計的合理性。

總結與未來展望

我們在本文提出了多領域面向推理型排序的訓練數(shù)據(jù),解決了訓練數(shù)據(jù)上的難題。并設計了合理的 SFT 和 RL 訓練方法,充分激發(fā)了推理型排序器的效果。未來,如何基于大模型的推理能力繼續(xù)提升搜索排序器的效果,我們認為仍有多個方向值得探索:

  • 引入非推理型數(shù)據(jù):未來可以在訓練過程中融合非推理型數(shù)據(jù),使模型能夠靈活適應不同難度的搜索場景,在推理與非推理模式間自如切換,提升排序器的通用性和實用性。

  • 探索基于全排序(full ranking)的推理型重排序方法:已有的工作已經證明 LLM 一次排序全部候選文檔的能力。未來可以結合 LLM 強大的全排序能力,研究基于推理的全局排序方法,替代當前的滑動窗口策略,以提升模型在大規(guī)模文檔排序任務中的效率和表現(xiàn)。

  • 嘗試多樣化模型骨干:后續(xù)可嘗試以 Llama 3.1、以及推理型 LRM(例如 Qwen3)等更多不同類型的大語言模型作為 ReasonRank 的基礎,進一步驗證方法的通用性和有效性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京成大贏家?德國一夜變天,“親俄派”登頂,默茨間接承認失敗

普京成大贏家?德國一夜變天,“親俄派”登頂,默茨間接承認失敗

觀察者小海風
2025-09-01 10:40:14
唯一一次見到劉亦菲穿肉色絲襪的美圖,真的很難得?

唯一一次見到劉亦菲穿肉色絲襪的美圖,真的很難得?

鄉(xiāng)野小珥
2025-09-01 07:53:14
倆女同吵架當街脫衣視頻瘋傳,一絲不掛坐地這身材全網都在心疼…

倆女同吵架當街脫衣視頻瘋傳,一絲不掛坐地這身材全網都在心疼…

浪花媽媽
2025-08-31 23:44:55
女教授講兩性關系,實在太精辟!

女教授講兩性關系,實在太精辟!

行走的知識庫
2025-09-01 10:33:35
為了早日找到女朋友“脫單”,上海男子一口氣買下6部手機……

為了早日找到女朋友“脫單”,上海男子一口氣買下6部手機……

環(huán)球網資訊
2025-09-01 09:33:22
設計院的廢物老公失業(yè)了,我要和他離婚!

設計院的廢物老公失業(yè)了,我要和他離婚!

黯泉
2025-09-01 12:06:40
解放前,一偵查員將被處決,房東送斷頭飯時悄聲道:這飯要仔細吃

解放前,一偵查員將被處決,房東送斷頭飯時悄聲道:這飯要仔細吃

蕭蕭趣事
2025-08-31 22:50:34
努力不一定成功,但不努力注定一無所獲

努力不一定成功,但不努力注定一無所獲

沐浴春江
2025-09-01 11:44:27
陪睡陪玩不算啥,繼岳云鵬后,王晶再爆潛規(guī)則,一個比一個荒唐

陪睡陪玩不算啥,繼岳云鵬后,王晶再爆潛規(guī)則,一個比一個荒唐

冷紫葉
2025-08-31 15:17:15
大S墓地對外開放,知名導演曬更多墓地照片,太多具俊曄留下痕跡

大S墓地對外開放,知名導演曬更多墓地照片,太多具俊曄留下痕跡

鄭丁嘉話
2025-09-01 09:18:28
又抓住3條大魚!性質惡劣,多虧芯片戰(zhàn),國內才揪出這么多叛徒

又抓住3條大魚!性質惡劣,多虧芯片戰(zhàn),國內才揪出這么多叛徒

元爸體育
2025-09-01 06:54:05
兩宋三百多年都未能收回燕云十六州,為何朱元璋用一年就能成功?

兩宋三百多年都未能收回燕云十六州,為何朱元璋用一年就能成功?

掠影后有感
2025-08-26 15:31:16
隨著皇馬2-1逆轉馬洛卡,喜迎三連勝,3大事實不得不提!

隨著皇馬2-1逆轉馬洛卡,喜迎三連勝,3大事實不得不提!

田先生籃球
2025-08-31 13:10:55
26國領導人赴華,伊朗最高領袖瞄準時機,用中文說出了對華心聲

26國領導人赴華,伊朗最高領袖瞄準時機,用中文說出了對華心聲

南宗歷史
2025-09-01 13:35:57
閱兵前夕風云突變,特朗普突然宣布要訪華?中方專機提前抵達美國

閱兵前夕風云突變,特朗普突然宣布要訪華?中方專機提前抵達美國

凡知
2025-08-31 15:50:55
周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

大運河時空
2025-08-30 13:09:33
達美航空客機在學校上空傾倒45噸燃油致56人傷,支付5.6億元和解

達美航空客機在學校上空傾倒45噸燃油致56人傷,支付5.6億元和解

奇聞不要看
2025-08-31 11:04:47
金秋9月,財神點名,橫財正財一起到手的三個星座,財富翻倍

金秋9月,財神點名,橫財正財一起到手的三個星座,財富翻倍

小晴星座說
2025-09-01 13:20:46
一天20元餐費能吃到龍蝦、鮑魚,河南一幼兒園餐食走紅,網友稱堪比星級酒店

一天20元餐費能吃到龍蝦、鮑魚,河南一幼兒園餐食走紅,網友稱堪比星級酒店

極目新聞
2025-08-31 22:51:05
“火烈鳥”投入實戰(zhàn),澤連斯基宣布將打擊俄國縱深目標

“火烈鳥”投入實戰(zhàn),澤連斯基宣布將打擊俄國縱深目標

近距離
2025-09-01 10:30:24
2025-09-01 15:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11201文章數(shù) 142431關注度
往期回顧 全部

科技要聞

百度19億美元收購將成歷史:91助手全面停服

頭條要聞

"最快女護士"哭求領導支持調休跑馬引熱議 賬號已關評

頭條要聞

"最快女護士"哭求領導支持調休跑馬引熱議 賬號已關評

體育要聞

林書豪退役了,我們該如何評價他

娛樂要聞

張曼玉 活成了多少人不敢想的樣子?

財經要聞

個人消費貸款貼息開閘!多家銀行提前預熱

汽車要聞

依舊充滿驚喜 福特智趣烈馬好玩更全能

態(tài)度原創(chuàng)

旅游
健康
家居
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

精神科專家解答學習困難七大問題

家居要聞

意式極簡 盡顯時尚小眾

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯證實其軍事領導人辛瓦爾已死亡

無障礙瀏覽 進入關懷版