網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

打破瓶頸，讓RAG學(xué)會(huì)思考：中科大、智源等發(fā)布推理檢索框架

2025-08-27 14:36:49　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

機(jī)器之心編輯部

人工智能的浪潮正將我們推向一個(gè)由 RAG 和 AI Agent 定義的新時(shí)代。然而，要讓這些智能體真正「智能」，而非僅僅是信息的搬運(yùn)工，就必須攻克一個(gè)橫亙?cè)谒许敿鈭F(tuán)隊(duì)面前的核心難題。這個(gè)難題，就是推理密集型信息檢索（Reasoning-Intensive IR）

它不僅是當(dāng)前 RAG 和 AI Agent 技術(shù)發(fā)展的關(guān)鍵瓶頸，更對(duì)大模型智能體和深度研究（DeepResearch）等應(yīng)用場(chǎng)景的成敗具有決定性意義。

正當(dāng)全球研究者都在為此尋求突破之際，我們看到了一項(xiàng)來自中國的貢獻(xiàn)：BGE-Reasoner

BGE-Reasoner 由來自中國科學(xué)技術(shù)大學(xué)、智源研究院、北京郵電大學(xué)與香港理工大學(xué)等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)研發(fā)，是一套用于推理密集型信息檢索任務(wù)的創(chuàng)新的端到端解決方案。通過系統(tǒng)性的查詢理解、向量檢索與重排序，該方案可顯著提升搜索引擎在推理密集型信息檢索任務(wù)中的表現(xiàn)。

在權(quán)威評(píng)測(cè)基準(zhǔn) BRIGHT 上，BGE-Reasoner 取得45.2的測(cè)試得分，以顯著優(yōu)勢(shì)刷新了該基準(zhǔn)的最佳紀(jì)錄。

作為 BGE 系列模型的又一重要里程碑，BGE-Reasoner 不僅實(shí)現(xiàn)了性能上的突破，更為解決推理密集型檢索這一行業(yè)難題提供了一套行之有效的新范式。從技術(shù)洞察來看，本次成果的核心創(chuàng)新主要體現(xiàn)在以下三個(gè)方面：

一個(gè)可復(fù)制的框架：提出了一個(gè)由 Rewriter、Embedder 和 Reranker 組成的三階段模塊化框架，為處理復(fù)雜查詢提供了清晰、高效的工程范式。
數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新：探索并證明了利用大模型合成高質(zhì)量、多領(lǐng)域推理訓(xùn)練數(shù)據(jù)的可行性，巧妙地解決了該領(lǐng)域訓(xùn)練數(shù)據(jù)稀缺的核心瓶頸。
強(qiáng)化學(xué)習(xí)賦能：成功將強(qiáng)化學(xué)習(xí)應(yīng)用于 Reranker 訓(xùn)練，讓模型在面對(duì)困難樣本時(shí)具備了更強(qiáng)的推理和泛化能力。

相關(guān)模型權(quán)重、訓(xùn)練代碼及訓(xùn)練數(shù)據(jù)即將面向社區(qū)開放，進(jìn)一步推動(dòng)該領(lǐng)域的研究與應(yīng)用發(fā)展。

項(xiàng)目主頁：https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner

簡(jiǎn)介

推理密集型信息檢索（Reasoning-Intensive IR）是近年來興起的一類新型信息檢索任務(wù)。與傳統(tǒng)檢索不同，它不僅依賴語義匹配，還需要綜合運(yùn)用深層邏輯推理、多步語義鏈以及相關(guān)背景知識(shí)，才能在查詢與目標(biāo)文檔之間建立起正確的語義關(guān)聯(lián)。

為推動(dòng)該領(lǐng)域研究，香港大學(xué)、普林斯頓大學(xué)和斯坦福大學(xué)聯(lián)合提出了首個(gè)面向推理密集型檢索的權(quán)威評(píng)測(cè)基準(zhǔn)BRIGHT。該基準(zhǔn)匯集了來自StackExchangeLeetCode數(shù)學(xué)競(jìng)賽等領(lǐng)域的真實(shí)查詢，并將其與需要多步推理才能識(shí)別的相關(guān)文檔進(jìn)行配對(duì)，用于評(píng)估檢索系統(tǒng)在復(fù)雜推理場(chǎng)景下的能力。

在 BRIGHT 基準(zhǔn)下，傳統(tǒng)依賴關(guān)鍵詞匹配或簡(jiǎn)單語義相似度的方法往往難以定位真正相關(guān)的目標(biāo)文檔，暴露出當(dāng)前檢索系統(tǒng)在復(fù)雜推理場(chǎng)景中的不足。因此，如何在推理密集型檢索中提升系統(tǒng)性能，成為推動(dòng)檢索增強(qiáng)生成（RAG）在復(fù)雜推理任務(wù)中發(fā)展的關(guān)鍵問題。

圖 1. 不同于基于關(guān)鍵詞和直接語義匹配的檢索任務(wù)，BRIGHT 評(píng)測(cè)基準(zhǔn)關(guān)注于推理密集型場(chǎng)景下的檢索任務(wù)

在這一背景下，BGE-Reasoner在推理密集型檢索任務(wù)中展現(xiàn)出卓越性能。在BRIGHT榜單中，它超越了此前由螞蟻、百度、字節(jié)跳動(dòng)、人民大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)提交的成果，并以領(lǐng)先第二名 3.6 分的優(yōu)勢(shì)刷新紀(jì)錄。與此同時(shí)，其內(nèi)置向量模型BGE-Reasoner-Embed也大幅超越了 Seed1.5-Embedding、Qwen3-Embedding、GTE 等當(dāng)前最強(qiáng)基線模型，展現(xiàn)了顯著的性能提升。

圖 2. 在 BRIGHT 榜單上，BGE-Reasoner 取得 SOTA 表現(xiàn)于 8 月 21 日榮登第一名，BGE-Reasoner-Embed 使用原生查詢即表現(xiàn)出色，在向量模型中取得 SOTA 結(jié)果，榜單鏈接：https://brightbenchmark.github.io

圖 3. BGE-Reasoner 及 BGE-Reasoner-Embed 與基線模型在 BRIGHT 上的檢索表現(xiàn)對(duì)比圖

技術(shù)分析

BGE-Reasoner采用信息檢索中的經(jīng)典三模塊體系：

查詢理解—— BGE-Reasoner-Rewriter：對(duì)初始查詢進(jìn)行理解與改寫，生成更適合檢索的優(yōu)化查詢；
向量模型—— BGE-Reasoner-Embed：與BM25協(xié)同利用改寫后的查詢進(jìn)行檢索，獲取候選文檔集合；
排序模型—— BGE-Reasoner-Reranker：對(duì)候選文檔進(jìn)行重排序，得到更為準(zhǔn)確的排序結(jié)果。

在實(shí)際工作流程中，用戶的原始查詢首先經(jīng)過BGE-Reasoner-Rewriter改寫，然后由BGE-Reasoner-EmbedBM25并行檢索得到候選文檔，最后交由BGE-Reasoner-Reranker進(jìn)行精排。系統(tǒng)通過集成多路結(jié)果，輸出最終排序，完成端到端的推理式檢索流程。完整框架如下圖所示：

圖 4. BGE-Reasoner 的端到端檢索流程示意圖

數(shù)據(jù)合成。不同于傳統(tǒng)的開放式問答場(chǎng)景，推理密集型信息檢索場(chǎng)景下的訓(xùn)練數(shù)據(jù)十分稀缺。為了解決這一問題，智源及合作機(jī)構(gòu)的研究團(tuán)隊(duì)訴諸于基于大語言模型的數(shù)據(jù)合成策略。具體來說，基于現(xiàn)實(shí)場(chǎng)景中存在的知識(shí)密集型語料庫，合成出針對(duì)特定場(chǎng)景的高質(zhì)量推理密集型查詢，然后借助于大語言模型強(qiáng)大的理解能力為每個(gè)查詢構(gòu)造出高質(zhì)量的正例和負(fù)例。最終構(gòu)造出一份覆蓋數(shù)學(xué)、代碼等多個(gè)領(lǐng)域的高質(zhì)量推理密集型檢索訓(xùn)練數(shù)據(jù)，為后續(xù)各個(gè)模塊的訓(xùn)練提供支撐。

查詢理解。在查詢理解模塊中，研究人員基于前述合成數(shù)據(jù)，借助推理能力較強(qiáng)的教師模型生成多條推理路徑，并通過拒絕采樣策略篩選高質(zhì)量結(jié)果以構(gòu)建訓(xùn)練樣本。隨后，利用這些訓(xùn)練數(shù)據(jù)對(duì) Qwen2.5-7B-Instruct 模型進(jìn)行微調(diào)，從而顯著提升其在查詢理解與改寫方面的能力，最終得到 BGE-Reasoner-Rewriter。

向量模型。內(nèi)嵌的向量模型 BGE-Reasoner-Embed 基于 Qwen3-8B 基座模型進(jìn)行微調(diào)。依托高質(zhì)量的合成訓(xùn)練數(shù)據(jù)，模型在推理密集型檢索任務(wù)中的能力得到了顯著增強(qiáng)。在 BRIGHT 基準(zhǔn)下，無論是基于原始查詢還是 GPT-4 推理查詢，BGE-Reasoner-Embed 均取得了當(dāng)前向量模型中的最佳檢索表現(xiàn)，充分驗(yàn)證了所構(gòu)建合成數(shù)據(jù)的有效性。

排序模型。內(nèi)嵌的排序模型 BGE-Reasoner-Reranker 基于 Qwen3 系列基座模型進(jìn)行微調(diào)。結(jié)合任務(wù)場(chǎng)景下的相關(guān)性定義，模型能夠在查詢與候選文檔之間展開細(xì)粒度推理，識(shí)別關(guān)鍵信息片段并準(zhǔn)確評(píng)估相關(guān)性。在訓(xùn)練過程中，引入強(qiáng)化學(xué)習(xí)以提升模型在困難樣本上的推理能力；在推理階段，模型通過測(cè)試時(shí)擴(kuò)展（test-time augmentation）獲取更加穩(wěn)健的相關(guān)性評(píng)分，從而進(jìn)一步增強(qiáng)排序性能。

圖 5. BGE-Reasoner-Reranker 的推理過程示意圖

總結(jié)

BGE-Reasoner 的卓越表現(xiàn)充分驗(yàn)證了強(qiáng)化學(xué)習(xí)與合成數(shù)據(jù)在推理密集型信息檢索中的重要作用，為未來 Agent Search 的發(fā)展提供了關(guān)鍵支撐。

智源研究院將持續(xù)深耕向量模型與檢索增強(qiáng)技術(shù)，不斷提升 BGE 系列模型的能力與通用性。未來期待與更多科研機(jī)構(gòu)及產(chǎn)業(yè)伙伴合作，共同推動(dòng)檢索與人工智能的發(fā)展，歡迎研究者與開發(fā)者關(guān)注并使用 BGE 系列模型，共建開放繁榮的開源生態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.