網易首頁 > 網易號 > 正文申請入駐

擊敗Meta登榜首：推理增強的文檔排序模型ReasonRank來了

2025-08-21 15:35:08　來源: 機器之心Pro

河北舉報

分享至

本文的第一作者是劉文涵，就讀于中國人民大學高瓴人工智能學院，博士三年級，導師為竇志成教授，目前在百度大搜部門進行實習。他的研究方向聚焦于 AI 搜索，在頂級國際會議如 ACL、WWW 等發(fā)表了多篇論文。

推理大模型（Large Reasoning Model）極大的促進了自然語言處理領域的發(fā)展，而信息檢索領域的核心問題之一是文檔排序，如何利用強大的推理大模型通過主動推理來判斷文檔的相關性，進而再對文檔進行排序是一個值得探索的方向。

在本次工作中，我們提出了ReasonRank，ReasonRank 在包括 BRIGHT、R2MED在內的多個榜單，擊敗了 UMASS 大學，Waterloo 大學，Meta 在內的多個大學和機構，于 2025 年 8 月 9 日榮登榜單第一名。我們更小尺寸的 ReasonRank-7B 也遠遠超越了其他 32B 大小的推理型排序大模型，同時相比 pointwise 排序器具備明顯的效率優(yōu)勢。此外，我們的論文還獲得了 Huggingface paper 日榜第一名。

圖 1：8 月 9 日，ReasonRank 在BRIGHT benchmark 上榮登榜單第一名

論文標題：ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
論文鏈接：https://arxiv.org/pdf/2508.07050
代碼倉庫：https://github.com/8421BCD/ReasonRank/
開源數(shù)據(jù) & 模型：https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究動機：復雜推理型訓練數(shù)據(jù)的缺乏

近來，test-time reasoning 已經被證明能夠提升文檔排序器的排序效果。其通過在給出最終排序結果前，先顯式進行一系列推理過程（查詢理解，文檔比較等等）。然而，由于推理密集型（reasoning-intensive）排序訓練數(shù)據(jù)的稀缺，現(xiàn)有推理型排序器均依賴 MSMARCO 這種傳統(tǒng) web 搜索數(shù)據(jù)進行訓練。

這些數(shù)據(jù)主要側重簡單的語義或詞匹配，導致模型在面臨復雜搜索場景（如 StackExchange 復雜查詢、代碼類查詢、數(shù)學類查詢等）時泛化能力受限。而使用人工標注構造推理密集型排序訓練數(shù)據(jù)代價又是非常高的。

方法設計：數(shù)據(jù)合成 + 兩階段訓練

為破解推理密集型排序訓練數(shù)據(jù)稀缺的問題，我們提出了基于 DeepSeek-R1 的自動化數(shù)據(jù)合成框架，生成了 13K 高質量的推理密集型 listwise 排序訓練數(shù)據(jù)?；诤铣傻挠柧殧?shù)據(jù)，我們進一步設計了一個兩階段的訓練框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 階段，不同于以往僅使用排序指標作為獎勵（reward），我們基于 listwise 排序中滑動窗口策略的特性設計了 multi-view ranking reward，其更適合 listwise 排序。

1. 數(shù)據(jù)合成

傳統(tǒng)模型在復雜排序任務上表現(xiàn)差，主要是由于缺少面向復雜推理搜索場景的訓練數(shù)據(jù)的缺失。根據(jù)已有的 IR benchmarks，我們將復雜搜索查詢分為四大類并收集了對應領域的用戶查詢：

復雜問答型查詢
代碼類查詢
數(shù)學類查詢
網頁搜索類查詢

有了查詢，如何挖掘高質量的候選文檔列表以及構造訓練 label 是一個關鍵問題，其直接影響模型訓練的效果。

在本文，我們提出利用強大的 DeepSeek-R1 從海量的 web 頁面和已有的文檔 corpus 挖掘其相關文檔以及不相關文檔（包含難負例）。在這個過程，我們還給 R1 提供了 query 的人工標注的正確答案來提高挖掘的準確性，相比傳統(tǒng)蒸餾，這樣能夠進一步提升 R1 相關性判斷的準確性。

這樣我們便得到了文檔的 pointwise 訓練標簽（相關 / 不相關）。為了訓練最終的 listwise 排序器，我們繼續(xù)利用 DeepSeek-R1 對候選文檔進行 listwise 排序，得到 listwise 訓練標簽（包含推理鏈以及最終的 gold ranking list）。

為了提升訓練數(shù)據(jù)的質量，我們進一步設計了一個自一致性（self-consistency）數(shù)據(jù)過濾機制。

我們利用得到的 pointwise 標簽對 listwise 標簽中的 gold ranking list 計算排序指標 NDCG@10，小于閾值 α 的數(shù)據(jù)將被過濾掉（表明教師模型 R1 判斷不一致，相應數(shù)據(jù)樣本被丟棄），最終我們得到 13K 高質量的多領域訓練數(shù)據(jù)集。

2. 兩階段訓練

階段一：冷啟動 SFT

在獲得高質量的推理密集型訓練數(shù)據(jù)后，我們首先采用監(jiān)督微調對大模型進行 “冷啟動” 訓練，通過 R1 的推理鏈顯式引導模型學習如何對一組文檔進行對比、推理和排序。具體而言，輸入由用戶查詢和對應的候選文檔列表組成，輸出為 listwise label（也即 R1 生成的推理鏈和 gold ranking list）。

階段二：多視角排序 reward 的強化學習

多視角排序 reward

1) 召回視角（Recall@10）：

現(xiàn)有方法在強化學習訓練排序任務中，通常只采用單輪的 NDCG@10 作為獎勵信號。然而，我們認為這種單輪獎勵對于多輪滑動窗口的 listwise 排序任務而言是次優(yōu)的。這是因為滑動窗口策略要求模型在排序時進行多輪、序列化的局部決策：每一步窗口內的前 10 個文檔才會被傳遞給下一個排序窗口，并通過滑動窗口不斷迭代，實現(xiàn)整體排序。此時，單獨優(yōu)化每一窗口的 NDCG 指標，并不一定能夠帶來全局最優(yōu)的排序效果?；谏鲜鲇^察，我們在強化學習獎勵設計中，額外引入了 Recall@10 指標來確保重要文檔不會在滑動過程中被遺漏，有助于后續(xù)窗口獲得更優(yōu)的排序基礎。

2) 排序相似度視角（RBO）：

此外，相較于基于 pointwise 標簽計算 NDCG@10，我們認為 listwise 訓練標簽的 gold ranking list 能夠提供更細粒度的排序信號。因此，我們引入 RBO（Rank-biased Overlap）指標，作為補充排序獎勵，用于衡量當前排序結果與金標準排序的相似性。

我們將 NDCG@10、Recall@10 和 RBO 結合，構建了多視角排序獎勵：

格式 reward

為了保證正確的輸出格式，我們考慮了兩種格式：

（1）輸出格式：保證輸出內容嵌套在

和 < answer > 標簽中；

（2）答案格式：

標簽內的排序列表要滿足特定的輸出格式（例如：[4] > [2] > …）。

最終，我們的強化學習 reward 計算如下，我們使用 GRPO 算法進行 RL 優(yōu)化。

核心實驗 1：多個 benchmarks 上效果實現(xiàn)SOTA

為充分評估 ReasonRank 在不同推理型搜索任務上的效果，我們選取了兩個推理型 IR benchmark：

BRIGHT：包含 12 個推理密集型搜索任務，涉及復雜問答型檢索，代碼類檢索，定理類檢索等等
R2MED：包含 8 個面向醫(yī)療類的復雜查詢檢索數(shù)據(jù)集，覆蓋問答參考文獻檢索、臨床證據(jù)檢索和臨床病例檢索

從實驗結果可以發(fā)現(xiàn)：ReasonRank 顯著優(yōu)于已有的排序器。ReasonRank（32B）在 BRIGHT 和 R2MED 上分別超越最好的 baselines 4-5 個點；且 ReasonRank（7B）甚至優(yōu)于所有的 32B 的 baselines。

此外，我們還在傳統(tǒng) IR benchmark BEIR 上開展了實驗，結果證明了其良好的泛化性。

核心實驗 2：效率優(yōu)勢

我們還在 BRIGHT 上測試了 ReasonRank 的排序效率，并與推理型 pointwise 排序器 Rank1 比較。在以往，pointwise 排序器被認為是最高效的。然而，推理場景下，我們發(fā)現(xiàn)我們的listwise 排序器 ReasonRank 效率顯著高于 pointwise 排序器 Rank1。這種高效性來自于 Rank1 需要為每個段落生成推理鏈，而 ReasonRank 一次處理 20 個段落，只生成一條推理鏈，大大減少了輸出的 token 數(shù)量。

核心實驗 3：消融實驗

我們還開展了詳盡的消融實驗，結果證明了我們構造的多領域數(shù)據(jù)集相比于單領域（MSMARCO）的效果優(yōu)勢以及我們兩階段訓練框架和 multi-view ranking reward 設計的合理性。

總結與未來展望

我們在本文提出了多領域面向推理型排序的訓練數(shù)據(jù)，解決了訓練數(shù)據(jù)上的難題。并設計了合理的 SFT 和 RL 訓練方法，充分激發(fā)了推理型排序器的效果。未來，如何基于大模型的推理能力繼續(xù)提升搜索排序器的效果，我們認為仍有多個方向值得探索：

引入非推理型數(shù)據(jù)：未來可以在訓練過程中融合非推理型數(shù)據(jù)，使模型能夠靈活適應不同難度的搜索場景，在推理與非推理模式間自如切換，提升排序器的通用性和實用性。

探索基于全排序（full ranking）的推理型重排序方法：已有的工作已經證明 LLM 一次排序全部候選文檔的能力。未來可以結合 LLM 強大的全排序能力，研究基于推理的全局排序方法，替代當前的滑動窗口策略，以提升模型在大規(guī)模文檔排序任務中的效率和表現(xiàn)。

嘗試多樣化模型骨干：后續(xù)可嘗試以 Llama 3.1、以及推理型 LRM（例如 Qwen3）等更多不同類型的大語言模型作為 ReasonRank 的基礎，進一步驗證方法的通用性和有效性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.