本文的第一作者是劉文涵,就讀于中國人民大學高瓴人工智能學院,博士三年級,導師為竇志成教授,目前在百度大搜部門進行實習。他的研究方向聚焦于 AI 搜索,在頂級國際會議如 ACL、WWW 等發(fā)表了多篇論文。
推理大模型(Large Reasoning Model)極大的促進了自然語言處理領域的發(fā)展,而信息檢索領域的核心問題之一是文檔排序,如何利用強大的推理大模型通過主動推理來判斷文檔的相關性,進而再對文檔進行排序是一個值得探索的方向。
在本次工作中,我們提出了ReasonRank,ReasonRank 在包括 BRIGHT、R2MED在內的多個榜單,擊敗了 UMASS 大學,Waterloo 大學,Meta 在內的多個大學和機構,于 2025 年 8 月 9 日榮登榜單第一名。我們更小尺寸的 ReasonRank-7B 也遠遠超越了其他 32B 大小的推理型排序大模型,同時相比 pointwise 排序器具備明顯的效率優(yōu)勢。此外,我們的論文還獲得了 Huggingface paper 日榜第一名。
圖 1:8 月 9 日,ReasonRank 在BRIGHT benchmark 上榮登榜單第一名
- 論文標題:ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
- 論文鏈接:https://arxiv.org/pdf/2508.07050
- 代碼倉庫:https://github.com/8421BCD/ReasonRank/
- 開源數(shù)據(jù) & 模型:https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2
研究動機:復雜推理型訓練數(shù)據(jù)的缺乏
近來,test-time reasoning 已經被證明能夠提升文檔排序器的排序效果。其通過在給出最終排序結果前,先顯式進行一系列推理過程(查詢理解,文檔比較等等)。然而,由于推理密集型(reasoning-intensive)排序訓練數(shù)據(jù)的稀缺,現(xiàn)有推理型排序器均依賴 MSMARCO 這種傳統(tǒng) web 搜索數(shù)據(jù)進行訓練。
這些數(shù)據(jù)主要側重簡單的語義或詞匹配,導致模型在面臨復雜搜索場景(如 StackExchange 復雜查詢、代碼類查詢、數(shù)學類查詢等)時泛化能力受限。而使用人工標注構造推理密集型排序訓練數(shù)據(jù)代價又是非常高的。
方法設計:數(shù)據(jù)合成 + 兩階段訓練
為破解推理密集型排序訓練數(shù)據(jù)稀缺的問題,我們提出了基于 DeepSeek-R1 的自動化數(shù)據(jù)合成框架,生成了 13K 高質量的推理密集型 listwise 排序訓練數(shù)據(jù)?;诤铣傻挠柧殧?shù)據(jù),我們進一步設計了一個兩階段的訓練框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 階段,不同于以往僅使用排序指標作為獎勵(reward),我們基于 listwise 排序中滑動窗口策略的特性設計了 multi-view ranking reward,其更適合 listwise 排序。
1. 數(shù)據(jù)合成
傳統(tǒng)模型在復雜排序任務上表現(xiàn)差,主要是由于缺少面向復雜推理搜索場景的訓練數(shù)據(jù)的缺失。根據(jù)已有的 IR benchmarks,我們將復雜搜索查詢分為四大類并收集了對應領域的用戶查詢:
- 復雜問答型查詢
- 代碼類查詢
- 數(shù)學類查詢
- 網頁搜索類查詢
有了查詢,如何挖掘高質量的候選文檔列表以及構造訓練 label 是一個關鍵問題,其直接影響模型訓練的效果。
在本文,我們提出利用強大的 DeepSeek-R1 從海量的 web 頁面和已有的文檔 corpus 挖掘其相關文檔以及不相關文檔(包含難負例)。在這個過程,我們還給 R1 提供了 query 的人工標注的正確答案來提高挖掘的準確性,相比傳統(tǒng)蒸餾,這樣能夠進一步提升 R1 相關性判斷的準確性。
這樣我們便得到了文檔的 pointwise 訓練標簽(相關 / 不相關)。為了訓練最終的 listwise 排序器,我們繼續(xù)利用 DeepSeek-R1 對候選文檔進行 listwise 排序,得到 listwise 訓練標簽(包含推理鏈以及最終的 gold ranking list)。
為了提升訓練數(shù)據(jù)的質量,我們進一步設計了一個自一致性(self-consistency)數(shù)據(jù)過濾機制。
我們利用得到的 pointwise 標簽對 listwise 標簽中的 gold ranking list 計算排序指標 NDCG@10,小于閾值 α 的數(shù)據(jù)將被過濾掉(表明教師模型 R1 判斷不一致,相應數(shù)據(jù)樣本被丟棄),最終我們得到 13K 高質量的多領域訓練數(shù)據(jù)集。
2. 兩階段訓練
階段一:冷啟動 SFT
在獲得高質量的推理密集型訓練數(shù)據(jù)后,我們首先采用監(jiān)督微調對大模型進行 “冷啟動” 訓練,通過 R1 的推理鏈顯式引導模型學習如何對一組文檔進行對比、推理和排序。具體而言,輸入由用戶查詢和對應的候選文檔列表組成,輸出為 listwise label(也即 R1 生成的推理鏈和 gold ranking list)。
階段二:多視角排序 reward 的強化學習
多視角排序 reward
1) 召回視角(Recall@10):
現(xiàn)有方法在強化學習訓練排序任務中,通常只采用單輪的 NDCG@10 作為獎勵信號。然而,我們認為這種單輪獎勵對于多輪滑動窗口的 listwise 排序任務而言是次優(yōu)的。這是因為滑動窗口策略要求模型在排序時進行多輪、序列化的局部決策:每一步窗口內的前 10 個文檔才會被傳遞給下一個排序窗口,并通過滑動窗口不斷迭代,實現(xiàn)整體排序。此時,單獨優(yōu)化每一窗口的 NDCG 指標,并不一定能夠帶來全局最優(yōu)的排序效果?;谏鲜鲇^察,我們在強化學習獎勵設計中,額外引入了 Recall@10 指標來確保重要文檔不會在滑動過程中被遺漏,有助于后續(xù)窗口獲得更優(yōu)的排序基礎。
2) 排序相似度視角(RBO):
此外,相較于基于 pointwise 標簽計算 NDCG@10,我們認為 listwise 訓練標簽的 gold ranking list 能夠提供更細粒度的排序信號。因此,我們引入 RBO(Rank-biased Overlap)指標,作為補充排序獎勵,用于衡量當前排序結果與金標準排序的相似性。
我們將 NDCG@10、Recall@10 和 RBO 結合,構建了多視角排序獎勵:
格式 reward
為了保證正確的輸出格式,我們考慮了兩種格式:
(1)輸出格式:保證輸出內容嵌套在
和 < answer > 標簽中;
(2)答案格式:
標簽內的排序列表要滿足特定的輸出格式(例如:[4] > [2] > …)。
最終,我們的強化學習 reward 計算如下,我們使用 GRPO 算法進行 RL 優(yōu)化。
核心實驗 1:多個 benchmarks 上效果實現(xiàn)SOTA
為充分評估 ReasonRank 在不同推理型搜索任務上的效果,我們選取了兩個推理型 IR benchmark:
- BRIGHT:包含 12 個推理密集型搜索任務,涉及復雜問答型檢索,代碼類檢索,定理類檢索等等
- R2MED:包含 8 個面向醫(yī)療類的復雜查詢檢索數(shù)據(jù)集,覆蓋問答參考文獻檢索、臨床證據(jù)檢索和臨床病例檢索
從實驗結果可以發(fā)現(xiàn):ReasonRank 顯著優(yōu)于已有的排序器。ReasonRank(32B)在 BRIGHT 和 R2MED 上分別超越最好的 baselines 4-5 個點;且 ReasonRank(7B)甚至優(yōu)于所有的 32B 的 baselines。
此外,我們還在傳統(tǒng) IR benchmark BEIR 上開展了實驗,結果證明了其良好的泛化性。
核心實驗 2:效率優(yōu)勢
我們還在 BRIGHT 上測試了 ReasonRank 的排序效率,并與推理型 pointwise 排序器 Rank1 比較。在以往,pointwise 排序器被認為是最高效的。然而,推理場景下,我們發(fā)現(xiàn)我們的listwise 排序器 ReasonRank 效率顯著高于 pointwise 排序器 Rank1。這種高效性來自于 Rank1 需要為每個段落生成推理鏈,而 ReasonRank 一次處理 20 個段落,只生成一條推理鏈,大大減少了輸出的 token 數(shù)量。
核心實驗 3:消融實驗
我們還開展了詳盡的消融實驗,結果證明了我們構造的多領域數(shù)據(jù)集相比于單領域(MSMARCO)的效果優(yōu)勢以及我們兩階段訓練框架和 multi-view ranking reward 設計的合理性。
總結與未來展望
我們在本文提出了多領域面向推理型排序的訓練數(shù)據(jù),解決了訓練數(shù)據(jù)上的難題。并設計了合理的 SFT 和 RL 訓練方法,充分激發(fā)了推理型排序器的效果。未來,如何基于大模型的推理能力繼續(xù)提升搜索排序器的效果,我們認為仍有多個方向值得探索:
- 引入非推理型數(shù)據(jù):未來可以在訓練過程中融合非推理型數(shù)據(jù),使模型能夠靈活適應不同難度的搜索場景,在推理與非推理模式間自如切換,提升排序器的通用性和實用性。
- 探索基于全排序(full ranking)的推理型重排序方法:已有的工作已經證明 LLM 一次排序全部候選文檔的能力。未來可以結合 LLM 強大的全排序能力,研究基于推理的全局排序方法,替代當前的滑動窗口策略,以提升模型在大規(guī)模文檔排序任務中的效率和表現(xiàn)。
- 嘗試多樣化模型骨干:后續(xù)可嘗試以 Llama 3.1、以及推理型 LRM(例如 Qwen3)等更多不同類型的大語言模型作為 ReasonRank 的基礎,進一步驗證方法的通用性和有效性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.