新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】DeepConf由Meta AI與加州大學(xué)圣地亞哥分校提出,核心思路是讓大模型在推理過(guò)程中實(shí)時(shí)監(jiān)控置信度,低置信度路徑被動(dòng)態(tài)淘汰,高置信度路徑則加權(quán)投票,從而兼顧準(zhǔn)確率與效率。在AIME 2025上,它首次讓開(kāi)源模型無(wú)需外部工具便實(shí)現(xiàn)99.9%正確率,同時(shí)削減85%生成token。
如何讓模型在思考時(shí)更聰明、更高效,還能對(duì)答案有把握?
最近,Meta AI與加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)給出了一個(gè)令人振奮的答案——Deep Think with Confidence(DeepConf),讓模型自信的深度思考。
論文地址:https://arxiv.org/pdf/2508.15260
項(xiàng)目主頁(yè):https://jiaweizzhao.github.io/deepconf
這項(xiàng)新方法通過(guò)并行思考與「置信度篩選」,不僅讓模型在國(guó)際頂尖數(shù)學(xué)競(jìng)賽AIME 2025上拿下了高達(dá)99.9%的正確率。
可以說(shuō),這是首次利用開(kāi)源模型在AIME 2025上實(shí)現(xiàn)99.9%的準(zhǔn)確率,并且不使用任何工具!
并且在保持高質(zhì)量推理的同時(shí),將生成的token數(shù)量削減了84.7%。
DeepConf還為并行思考(parallel thinking)帶來(lái)了多項(xiàng)硬核優(yōu)勢(shì):
性能飆升:在各類模型與數(shù)據(jù)集上,準(zhǔn)確率平均提升約10%
極致高效:生成token數(shù)量銳減高達(dá)85%
即插即用:兼容任何現(xiàn)有模型——無(wú)需額外訓(xùn)練(也無(wú)需進(jìn)行超參數(shù)微調(diào)!)
輕松部署:在vLLM中僅需約50行代碼即可集成
以DeepConf在HMMT 25(哈佛–麻省理工數(shù)學(xué)競(jìng)賽)的第11道題目上的推理過(guò)程為例。
核心思想是DeepConf通過(guò)「置信度信號(hào)」篩選推理路徑,從而得到高質(zhì)量答案,并在效率與準(zhǔn)確率之間取得平衡。
橫軸(token index):表示模型生成的推理步驟(隨著token逐步增加)。
縱軸(confidence):表示每條推理路徑在該步驟上的置信度水平。
綠色曲線:表示不同推理路徑的置信度軌跡,越深的綠色表示置信度越高。
紅色叉叉:低于置信度閾值的推理路徑,被動(dòng)態(tài)篩除。
綠色對(duì)勾:最終被保留下來(lái)的高置信度路徑。
最終表決:這些路徑在基于置信度加權(quán)的多數(shù)表決下,最終得出統(tǒng)一答案:29。
DeepConf在生成過(guò)程中,會(huì)持續(xù)監(jiān)控推理路徑的置信度,低置信度路徑被及時(shí)淘汰,只保留「更有把握」的路徑,提升整體準(zhǔn)確性。
通過(guò)準(zhǔn)確率對(duì)比曲線,上圖可以看出縱軸是accuracy(準(zhǔn)確率),黃色曲線(DeepConf)比藍(lán)色曲線(標(biāo)準(zhǔn)方法)明顯更高。
表明DeepConf在相同投票規(guī)模下能達(dá)到更高的準(zhǔn)確率。
下圖橫軸是token數(shù)量(推理所需的計(jì)算成本),黃色曲線在準(zhǔn)確率保持較高的同時(shí),token消耗明顯更少。
表明DeepConf大幅減少了無(wú)效token的生成,推理效率更優(yōu)。
DeepConf讓模型不再「胡思亂想」,而是高效地走在高置信度的推理軌道上。
DeepConf支持兩種工作模式:
離線模式:根據(jù)置信度篩選已完成的推理路徑,然后根據(jù)質(zhì)量對(duì)投票進(jìn)行加權(quán)。
在線模式:當(dāng)置信度實(shí)時(shí)降至閾值以下時(shí),立即停止生成。
DeepConf的秘訣是什么?
其實(shí),LLM知道自己何時(shí)開(kāi)始不確定的,只是大家一直沒(méi)有認(rèn)真關(guān)注過(guò)他們的「思考過(guò)程」。
之前的方法在完整生成之后使用置信度/熵用于測(cè)試時(shí)和強(qiáng)化學(xué)習(xí)(RL)。
DeepConf的方法不同,不是在完成后,而是在生成過(guò)程中捕捉推理錯(cuò)誤。
DeepConf實(shí)時(shí)監(jiān)控「局部置信度」,在錯(cuò)誤的推理路徑消耗數(shù)千個(gè)token之前及時(shí)終止。
只有高質(zhì)量、高置信度的推理路徑才能保留下來(lái)!
DeepConf是怎樣「用置信度篩選、用置信度投票」?
這張圖展示了DeepConf在離線思考時(shí)的核心機(jī)制:
它先判斷哪些推理路徑值得信賴,把不靠譜的路徑提前剔除,再讓靠譜的路徑進(jìn)行加權(quán)投票,從而得到一個(gè)更準(zhǔn)確、更高效的最終答案。
首先是每一token「有多確定」。
當(dāng)模型在寫推理步驟時(shí),其實(shí)每個(gè)詞(token)背后都有一個(gè)「信心值」。
如果模型覺(jué)得「這一步答案很靠譜」,信心值就高。如果它自己都拿不準(zhǔn),這個(gè)信心值就會(huì)低。
上圖里用不同深淺的綠色和紅色標(biāo)出來(lái):綠色=更自信,紅色=不自信。
其次,不光要看單token,還要看整體趨勢(shì)。
DeepConf不只看某一個(gè)詞,而是會(huì)滑動(dòng)窗口:看看一小段話里的平均信心值,衡量「這段話整體是否靠譜」。
重點(diǎn)看看最后幾句話的信心值,因?yàn)樽罱K答案、最終結(jié)論往往決定于結(jié)尾。
DeepConf也會(huì)記下這條推理鏈里最差的一步,如果中間有明顯「翻車」,這條路徑就不太可靠。
這樣一來(lái),每條完整的推理鏈路都會(huì)得到一個(gè)綜合的「置信度分?jǐn)?shù)」。
最后,是先淘汰,再投票。
當(dāng)模型并行生成很多條不同的推理路徑時(shí):
第一步:過(guò)濾,把「置信度分?jǐn)?shù)」排序,最差的10%直接丟掉,避免浪費(fèi)。
第二步:投票,在剩下的推理鏈里,不是簡(jiǎn)單數(shù)票,而是按照置信度加權(quán)投票。
也就是說(shuō):一條高置信度的路徑,它的意見(jiàn)分量更大;低置信度的路徑,即便答案一樣,也不會(huì)拉高太多票重。
最后看一下結(jié)果,在圖的右邊可以看到:有的路徑說(shuō)「答案是109」,有的說(shuō)「答案是103、104、98」。
但由于支持「109」的路徑更多、而且置信度更高,所以最終投票選出了109作為答案。
成績(jī)刷爆99.9%
比GPT-5還高
離線模式結(jié)果:在AIME 2025上達(dá)到99.9%的準(zhǔn)確率(基線為97%)!
在5個(gè)模型×5個(gè)數(shù)據(jù)集上實(shí)現(xiàn)普適性增益。
在所有設(shè)置下均取得約10%的穩(wěn)定準(zhǔn)確率提升。
在線模式結(jié)果:在所有基準(zhǔn)測(cè)試中節(jié)省33%-85%的token!
在AIME 2025基準(zhǔn)測(cè)試中,使用GPT-OSS-120B,在減少85%的token消耗下,仍達(dá)到97.9%的準(zhǔn)確率。
該方法適用于從8B到120B的各類開(kāi)源模型——在不犧牲質(zhì)量的前提下實(shí)現(xiàn)實(shí)時(shí)高效。
在離線環(huán)境中對(duì)置信度度量進(jìn)行基準(zhǔn)測(cè)試。報(bào)告的數(shù)值為準(zhǔn)確率(%)。
Cons@512和mean@512分別表示使用512條推理軌跡進(jìn)行的多數(shù)投票結(jié)果,以及平均置信度的均值。所有實(shí)驗(yàn)均重復(fù)進(jìn)行了64次。
在在線環(huán)境中對(duì)DeepConf進(jìn)行基準(zhǔn)測(cè)試。
在投票規(guī)模預(yù)算為512的條件下,報(bào)告多數(shù)投票方法與DeepConf(高/低)的方法的準(zhǔn)確率(%)以及生成的token數(shù)量(×10?)。
基于置信度的深度思考
研究者的思考是:到底怎么把「置信度」用得更巧妙,讓模型既想得更準(zhǔn),又想得更快呢?
正如前文所述,這里可以分成兩個(gè)使用場(chǎng)景:
離線思考:等模型把一整條推理路徑都寫完了,再回頭去評(píng)估每條路徑的置信度,把靠譜的結(jié)果聚合在一起。這樣做的好處是能最大化提升答案的準(zhǔn)確性。
在線思考:在模型一步步生成推理的過(guò)程中,就實(shí)時(shí)參考置信度。如果發(fā)現(xiàn)某條思路不靠譜,可以及時(shí)停掉,避免浪費(fèi)算力。這樣能邊走邊篩選,提升效率甚至精度。
離線思考
在離線思考模式下,每個(gè)問(wèn)題的所有推理路徑均已生成。
此時(shí)的核心挑戰(zhàn)是:如何聚合來(lái)自多條路徑的信息,從而更準(zhǔn)確地確定最終答案。
針對(duì)這一點(diǎn),研究人員采用了標(biāo)準(zhǔn)的多數(shù)投票(majority voting)方法。
多數(shù)投票(Majority Voting)
在標(biāo)準(zhǔn)的多數(shù)投票中,每條推理路徑得出的最終答案對(duì)最終決策的貢獻(xiàn)是均等的。
設(shè)T為所有已生成路徑的集合,對(duì)于任意路徑t∈T,設(shè)answer(t)為從該路徑中提取的答案文本。
那么,每個(gè)候選答案a的票數(shù)為:
置信度加權(quán)多數(shù)投票
這個(gè)方法不再均等對(duì)待每條路徑的投票,而是依據(jù)其關(guān)聯(lián)路徑的置信度,為每個(gè)最終答案賦予權(quán)重。
對(duì)于每個(gè)候選答案a,它的總投票權(quán)會(huì)被重定義為:
置信度過(guò)濾
在加權(quán)多數(shù)投票的基礎(chǔ)上,還需要應(yīng)用置信度過(guò)濾,才能在將投票更集中于高置信度的推理路徑。
具體來(lái)說(shuō)就是,通過(guò)路徑的置信度分?jǐn)?shù),篩選出排序前η%的路徑,從而確保只有最可靠的路徑參與最終答案的決定。
選擇前10%:專注于置信度最高的少數(shù)路徑。適用于少數(shù)路徑就能解決問(wèn)題的場(chǎng)景,但風(fēng)險(xiǎn)是如果模型存在偏見(jiàn),容易選錯(cuò)答案。
選擇前90%:納入更廣泛的路徑。這種方法能保持多樣性、減少模型偏見(jiàn),在各路徑置信度相差不大時(shí)尤其穩(wěn)健。
圖3闡釋了各種置信度度量方法以及基于置信度的離線思考的工作原理。
算法1則提供了該算法的詳細(xì)實(shí)現(xiàn)。
在線思考
在線思考模式通過(guò)在生成過(guò)程中實(shí)時(shí)評(píng)估推理路徑的質(zhì)量,來(lái)動(dòng)態(tài)終止低質(zhì)量的路徑,進(jìn)而確保其在后續(xù)的置信度過(guò)濾階段大概率能被排除。
對(duì)此,研究人員提出了兩種基于最低分組置信度,并會(huì)自適應(yīng)地中止生成過(guò)程并調(diào)整推理路徑的預(yù)算的方法:DeepConf-low和DeepConf-high。
其中,共包含兩大核心組件:離線預(yù)熱與自適應(yīng)采樣。
離線預(yù)熱(Offline Warmup)
DeepConf需要一個(gè)離線預(yù)熱階段,以便為在線決策過(guò)程建立停止閾值s。
對(duì)于每個(gè)新的提示詞,首先生成Ninit條推理路徑(例如,Ninit=16)。
停止閾值s定義為:
在所有配置下,DeepConf-low均統(tǒng)一采用前η=10%的策略,而DeepConf-high則統(tǒng)一采用前η=90%的策略。
在在線生成過(guò)程中,一旦某條推理路徑的置信度低于預(yù)熱階段的數(shù)據(jù)所設(shè)定的、能夠篩選出置信度排序前η%路徑的最低門檻,生成過(guò)程就會(huì)被終止。
自適應(yīng)采樣(Adaptive Sampling)
在DeepConf中,所有方法都采用了自適應(yīng)采樣,如此就可以根據(jù)問(wèn)題難度動(dòng)態(tài)調(diào)整所生成推理路徑的數(shù)量。
問(wèn)題難度通過(guò)已生成路徑之間的一致性程度來(lái)評(píng)估,其量化方式為多數(shù)投票權(quán)重與總投票權(quán)重的比值:
若β <τ,則表明模型未能就當(dāng)前問(wèn)題達(dá)成共識(shí),推理路徑的生成將繼續(xù)。反之,則停止生成,并利用現(xiàn)有路徑確定最終答案。< pan>
由于采用的是最低分組置信度,一個(gè)足夠大的預(yù)熱集便能產(chǎn)生對(duì)停止閾值s的精確估計(jì)。
因此,任何被在線終止的路徑,其分組置信度必然低于s,也就會(huì)被離線過(guò)濾器所排除。
這樣,在線流程便能近似于離線的最低分組置信度策略,并且隨著Ninit的增加,其準(zhǔn)確率會(huì)逼近離線策略的準(zhǔn)確率。
圖4中闡釋了在線生成的過(guò)程。
算法2則提供了該算法的詳細(xì)實(shí)現(xiàn)。
具體過(guò)程,我們就用上圖里的這道「勾股三元組計(jì)數(shù)」問(wèn)題舉個(gè)例子。
DeepConf要在生成推理的同時(shí)判斷:哪條思路靠譜、該繼續(xù);哪條思路不靠譜、該盡早停,從而少花token、又更準(zhǔn)。
兩個(gè)階段:先定閾值,再在線篩
1. Offline Warm-up(上圖右側(cè),離線預(yù)熱)
先離線跑幾條完整的推理軌跡(Trace 1~5),給每條算一個(gè)「整體有多靠譜」的分?jǐn)?shù)。
按分?jǐn)?shù)做一次置信度過(guò)濾,好的軌跡在上方(綠色),差的在下方(紅色)。
據(jù)此確定一個(gè)停止閾值s(圖中綠色箭頭標(biāo)注)。
簡(jiǎn)單來(lái)說(shuō)就是低于 s 的,通常是不值得繼續(xù)的推理。
這一步就像「熱身+標(biāo)定」,模型把「該不該?!沟拈T檻先定好。
2. Online Generation(上圖中間,在線生成)
正式解題時(shí),同時(shí)展開(kāi)多條并行思路(多行的方塊序列)。
對(duì)每條思路,系統(tǒng)滾動(dòng)地評(píng)估「這段話最近一小段的可靠度」(圖中方塊從左到右代表一步步的生成)。
左下 & 右下的小曲線各自表示模型的「把握」程度。
左下綠曲線表示模型對(duì)接下來(lái)的詞更「有把握」,示例文本是正經(jīng)的數(shù)學(xué)推理(如「勾股三元組公式…」),這類內(nèi)容通常被保留。
右下紅曲線表示模型在猶豫或「自我懷疑」,示例文本是「讓我再想想、回頭檢查一下…」,這類猶豫/兜圈子的片段常被判為低置信度,從而觸發(fā)在線早停。
先離線確定「可靠度閾值s」,再在線用s給并行思路「邊走邊檢查」。
不靠譜就當(dāng)場(chǎng)叫停,靠譜的繼續(xù)前進(jìn)。這樣就能做到既快又準(zhǔn)了。
作者介紹
Yichao Fu
論文一作Yichao Fu是加州大學(xué)圣地亞哥分校(UC San Diego)計(jì)算機(jī)科學(xué)與工程系的博士生,師從張昊教授,也就是老朋友Hao AI Lab的負(fù)責(zé)人。
此前,他在浙江大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
他的研究興趣主要為分布式系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)以及高效機(jī)器學(xué)習(xí)算法,近期專注于為L(zhǎng)LM的推理過(guò)程設(shè)計(jì)并優(yōu)化算法與系統(tǒng)。
他參與的項(xiàng)目包括:Lookahead Decoding、vllm-ltr和Dynasor。
參考資料:
https://jiaweizzhao.github.io/deepconf/
https://huggingface.co/papers/2508.15260
https://x.com/jiawzhao/status/1958982524333678877
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.