機(jī)器之心發(fā)布
機(jī)器之心編輯部
人工智能的浪潮正將我們推向一個(gè)由 RAG 和 AI Agent 定義的新時(shí)代。然而,要讓這些智能體真正「智能」,而非僅僅是信息的搬運(yùn)工,就必須攻克一個(gè)橫亙?cè)谒许敿鈭F(tuán)隊(duì)面前的核心難題。這個(gè)難題,就是推理密集型信息檢索(Reasoning-Intensive IR)
它不僅是當(dāng)前 RAG 和 AI Agent 技術(shù)發(fā)展的關(guān)鍵瓶頸,更對(duì)大模型智能體和深度研究(DeepResearch)等應(yīng)用場(chǎng)景的成敗具有決定性意義。
正當(dāng)全球研究者都在為此尋求突破之際,我們看到了一項(xiàng)來自中國的貢獻(xiàn):BGE-Reasoner
BGE-Reasoner 由來自中國科學(xué)技術(shù)大學(xué)、智源研究院、北京郵電大學(xué)與香港理工大學(xué)等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)研發(fā),是一套用于推理密集型信息檢索任務(wù)的創(chuàng)新的端到端解決方案。通過系統(tǒng)性的查詢理解、向量檢索與重排序,該方案可顯著提升搜索引擎在推理密集型信息檢索任務(wù)中的表現(xiàn)。
在權(quán)威評(píng)測(cè)基準(zhǔn) BRIGHT 上,BGE-Reasoner 取得45.2的測(cè)試得分,以顯著優(yōu)勢(shì)刷新了該基準(zhǔn)的最佳紀(jì)錄。
作為 BGE 系列模型的又一重要里程碑,BGE-Reasoner 不僅實(shí)現(xiàn)了性能上的突破,更為解決推理密集型檢索這一行業(yè)難題提供了一套行之有效的新范式。從技術(shù)洞察來看,本次成果的核心創(chuàng)新主要體現(xiàn)在以下三個(gè)方面:
- 一個(gè)可復(fù)制的框架: 提出了一個(gè)由 Rewriter、Embedder 和 Reranker 組成的三階段模塊化框架,為處理復(fù)雜查詢提供了清晰、高效的工程范式。
- 數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新: 探索并證明了利用大模型合成高質(zhì)量、多領(lǐng)域推理訓(xùn)練數(shù)據(jù)的可行性,巧妙地解決了該領(lǐng)域訓(xùn)練數(shù)據(jù)稀缺的核心瓶頸。
- 強(qiáng)化學(xué)習(xí)賦能: 成功將強(qiáng)化學(xué)習(xí)應(yīng)用于 Reranker 訓(xùn)練,讓模型在面對(duì)困難樣本時(shí)具備了更強(qiáng)的推理和泛化能力。
相關(guān)模型權(quán)重、訓(xùn)練代碼及訓(xùn)練數(shù)據(jù)即將面向社區(qū)開放,進(jìn)一步推動(dòng)該領(lǐng)域的研究與應(yīng)用發(fā)展。
項(xiàng)目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner
簡(jiǎn)介
推理密集型信息檢索(Reasoning-Intensive IR)是近年來興起的一類新型信息檢索任務(wù)。與傳統(tǒng)檢索不同,它不僅依賴語義匹配,還需要綜合運(yùn)用深層邏輯推理、多步語義鏈以及相關(guān)背景知識(shí),才能在查詢與目標(biāo)文檔之間建立起正確的語義關(guān)聯(lián)。
為推動(dòng)該領(lǐng)域研究,香港大學(xué)、普林斯頓大學(xué)和斯坦福大學(xué)聯(lián)合提出了首個(gè)面向推理密集型檢索的權(quán)威評(píng)測(cè)基準(zhǔn)BRIGHT。該基準(zhǔn)匯集了來自StackExchangeLeetCode數(shù)學(xué)競(jìng)賽等領(lǐng)域的真實(shí)查詢,并將其與需要多步推理才能識(shí)別的相關(guān)文檔進(jìn)行配對(duì),用于評(píng)估檢索系統(tǒng)在復(fù)雜推理場(chǎng)景下的能力。
在 BRIGHT 基準(zhǔn)下,傳統(tǒng)依賴關(guān)鍵詞匹配或簡(jiǎn)單語義相似度的方法往往難以定位真正相關(guān)的目標(biāo)文檔,暴露出當(dāng)前檢索系統(tǒng)在復(fù)雜推理場(chǎng)景中的不足。因此,如何在推理密集型檢索中提升系統(tǒng)性能,成為推動(dòng)檢索增強(qiáng)生成(RAG)在復(fù)雜推理任務(wù)中發(fā)展的關(guān)鍵問題。
圖 1. 不同于基于關(guān)鍵詞和直接語義匹配的檢索任務(wù),BRIGHT 評(píng)測(cè)基準(zhǔn)關(guān)注于推理密集型場(chǎng)景下的檢索任務(wù)
在這一背景下,BGE-Reasoner在推理密集型檢索任務(wù)中展現(xiàn)出卓越性能。在BRIGHT榜單中,它超越了此前由螞蟻、百度、字節(jié)跳動(dòng)、人民大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)提交的成果,并以領(lǐng)先第二名 3.6 分的優(yōu)勢(shì)刷新紀(jì)錄。與此同時(shí),其內(nèi)置向量模型BGE-Reasoner-Embed也大幅超越了 Seed1.5-Embedding、Qwen3-Embedding、GTE 等當(dāng)前最強(qiáng)基線模型,展現(xiàn)了顯著的性能提升。
圖 2. 在 BRIGHT 榜單上,BGE-Reasoner 取得 SOTA 表現(xiàn)于 8 月 21 日榮登第一名,BGE-Reasoner-Embed 使用原生查詢即表現(xiàn)出色,在向量模型中取得 SOTA 結(jié)果,榜單鏈接:https://brightbenchmark.github.io
圖 3. BGE-Reasoner 及 BGE-Reasoner-Embed 與基線模型在 BRIGHT 上的檢索表現(xiàn)對(duì)比圖
技術(shù)分析
BGE-Reasoner采用信息檢索中的經(jīng)典三模塊體系:
- 查詢理解—— BGE-Reasoner-Rewriter:對(duì)初始查詢進(jìn)行理解與改寫,生成更適合檢索的優(yōu)化查詢;
- 向量模型—— BGE-Reasoner-Embed:與BM25協(xié)同利用改寫后的查詢進(jìn)行檢索,獲取候選文檔集合;
- 排序模型—— BGE-Reasoner-Reranker:對(duì)候選文檔進(jìn)行重排序,得到更為準(zhǔn)確的排序結(jié)果。
在實(shí)際工作流程中,用戶的原始查詢首先經(jīng)過BGE-Reasoner-Rewriter改寫,然后由BGE-Reasoner-EmbedBM25并行檢索得到候選文檔,最后交由BGE-Reasoner-Reranker進(jìn)行精排。系統(tǒng)通過集成多路結(jié)果,輸出最終排序,完成端到端的推理式檢索流程。完整框架如下圖所示:
圖 4. BGE-Reasoner 的端到端檢索流程示意圖
數(shù)據(jù)合成。不同于傳統(tǒng)的開放式問答場(chǎng)景,推理密集型信息檢索場(chǎng)景下的訓(xùn)練數(shù)據(jù)十分稀缺。為了解決這一問題,智源及合作機(jī)構(gòu)的研究團(tuán)隊(duì)訴諸于基于大語言模型的數(shù)據(jù)合成策略。具體來說,基于現(xiàn)實(shí)場(chǎng)景中存在的知識(shí)密集型語料庫,合成出針對(duì)特定場(chǎng)景的高質(zhì)量推理密集型查詢,然后借助于大語言模型強(qiáng)大的理解能力為每個(gè)查詢構(gòu)造出高質(zhì)量的正例和負(fù)例。最終構(gòu)造出一份覆蓋數(shù)學(xué)、代碼等多個(gè)領(lǐng)域的高質(zhì)量推理密集型檢索訓(xùn)練數(shù)據(jù),為后續(xù)各個(gè)模塊的訓(xùn)練提供支撐。
查詢理解。在查詢理解模塊中,研究人員基于前述合成數(shù)據(jù),借助推理能力較強(qiáng)的教師模型生成多條推理路徑,并通過拒絕采樣策略篩選高質(zhì)量結(jié)果以構(gòu)建訓(xùn)練樣本。隨后,利用這些訓(xùn)練數(shù)據(jù)對(duì) Qwen2.5-7B-Instruct 模型進(jìn)行微調(diào),從而顯著提升其在查詢理解與改寫方面的能力,最終得到 BGE-Reasoner-Rewriter。
向量模型。內(nèi)嵌的向量模型 BGE-Reasoner-Embed 基于 Qwen3-8B 基座模型進(jìn)行微調(diào)。依托高質(zhì)量的合成訓(xùn)練數(shù)據(jù),模型在推理密集型檢索任務(wù)中的能力得到了顯著增強(qiáng)。在 BRIGHT 基準(zhǔn)下,無論是基于原始查詢還是 GPT-4 推理查詢,BGE-Reasoner-Embed 均取得了當(dāng)前向量模型中的最佳檢索表現(xiàn),充分驗(yàn)證了所構(gòu)建合成數(shù)據(jù)的有效性。
排序模型。內(nèi)嵌的排序模型 BGE-Reasoner-Reranker 基于 Qwen3 系列基座模型進(jìn)行微調(diào)。結(jié)合任務(wù)場(chǎng)景下的相關(guān)性定義,模型能夠在查詢與候選文檔之間展開細(xì)粒度推理,識(shí)別關(guān)鍵信息片段并準(zhǔn)確評(píng)估相關(guān)性。在訓(xùn)練過程中,引入強(qiáng)化學(xué)習(xí)以提升模型在困難樣本上的推理能力;在推理階段,模型通過測(cè)試時(shí)擴(kuò)展(test-time augmentation)獲取更加穩(wěn)健的相關(guān)性評(píng)分,從而進(jìn)一步增強(qiáng)排序性能。
圖 5. BGE-Reasoner-Reranker 的推理過程示意圖
總結(jié)
BGE-Reasoner 的卓越表現(xiàn)充分驗(yàn)證了強(qiáng)化學(xué)習(xí)與合成數(shù)據(jù)在推理密集型信息檢索中的重要作用,為未來 Agent Search 的發(fā)展提供了關(guān)鍵支撐。
智源研究院將持續(xù)深耕向量模型與檢索增強(qiáng)技術(shù),不斷提升 BGE 系列模型的能力與通用性。未來期待與更多科研機(jī)構(gòu)及產(chǎn)業(yè)伙伴合作,共同推動(dòng)檢索與人工智能的發(fā)展,歡迎研究者與開發(fā)者關(guān)注并使用 BGE 系列模型,共建開放繁榮的開源生態(tài)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.