網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

采樣越多越聰明？隱式擴(kuò)展顛覆認(rèn)知，采樣搜索如何挑出完美解

2025-04-21 12:45:35　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：英智

【新智元導(dǎo)讀】采樣多就一定準(zhǔn)嗎？研究人員用實(shí)驗(yàn)告訴你：是的，而且超乎想象！基于采樣的搜索不僅能在并行處理中大展身手，還通過(guò)隱式擴(kuò)展讓驗(yàn)證更精準(zhǔn)。

先讓模型生成多個(gè)候選答案，再通過(guò)自我驗(yàn)證挑出「真金」。

基于采樣的搜索在許多推理任務(wù)中表現(xiàn)優(yōu)異，可關(guān)于它的擴(kuò)展趨勢(shì)，還有許多未解之謎。

隨著采樣數(shù)量的增加，模型的推理性能能否繼續(xù)提升？這種簡(jiǎn)單的搜索范式能在多大程度上擴(kuò)展？

來(lái)自谷歌和伯克利的華人研究員發(fā)現(xiàn)，隨著采樣數(shù)量和驗(yàn)證強(qiáng)度的增加，模型的推理性能有顯著的提升。

論文鏈接：https://arxiv.org/abs/2502.01839

增加測(cè)試時(shí)計(jì)算的方法有很多。有些是通過(guò)強(qiáng)化學(xué)習(xí)，隱式地鼓勵(lì)模型生成更長(zhǎng)、更詳細(xì)的回答；還有些是通過(guò)巧妙的提示，讓模型更準(zhǔn)確地思考。

在眾多方法中，基于采樣的搜索策略顯得格外突出，生成多個(gè)候選答案，再?gòu)闹刑暨x出最佳的那個(gè)。

這種方法可以和其他策略搭配使用，還特別適合并行處理。

通過(guò)有效的自我驗(yàn)證，簡(jiǎn)單地?cái)U(kuò)展基于采樣的搜索就足以在推理和數(shù)學(xué)基準(zhǔn)測(cè)試，以及伯克利數(shù)學(xué)數(shù)據(jù)集上獲得最先進(jìn)的性能。

表中展示了Gemini v1.5 Pro模型在每個(gè)問(wèn)題僅嘗試一個(gè)解決方案（Pass@1）、嘗試200個(gè)解決方案并選擇最常見(jiàn)的最終答案（Consistency@200）以及在基于采樣的搜索中嘗試200個(gè)解決方案，并根據(jù)正確性評(píng)分選擇得分最高的答案（Verification@200）時(shí)的準(zhǔn)確性。

在基于采樣的搜索（Verification@200）中，Gemini v1.5超越了o1-Preview。

基于采樣的搜索

基于采樣的搜索是怎么運(yùn)作的呢？

簡(jiǎn)單來(lái)說(shuō)，就是模型先通過(guò)隨機(jī)采樣的方式，生成一堆候選答案。

然后，模型再對(duì)這些候選答案進(jìn)行自我驗(yàn)證，判斷哪個(gè)答案最靠譜。

具體的實(shí)現(xiàn)過(guò)程可以分為幾個(gè)關(guān)鍵步驟。首先是生成候選答案階段，LLM會(huì)根據(jù)給定的問(wèn)題，按照一定的溫度參數(shù)（=1.5），并行生成個(gè)候選答案。

這個(gè)溫度參數(shù)就像是調(diào)節(jié)模型創(chuàng)造力的旋鈕，數(shù)值越大，生成的答案就越多樣化，但也可能更偏離正確答案。

數(shù)值越小，答案就越保守，可能會(huì)錯(cuò)過(guò)一些有創(chuàng)意的解法。

接下來(lái)是驗(yàn)證候選答案階段。模型會(huì)為每個(gè)候選答案生成個(gè)二進(jìn)制的驗(yàn)證分?jǐn)?shù)，以此來(lái)判斷答案的正確性。

在這個(gè)過(guò)程中，模型會(huì)把答案改寫(xiě)為定理、引理和證明的形式，就像我們?cè)跀?shù)學(xué)證明中那樣，一步一步嚴(yán)謹(jǐn)?shù)貦z查答案是否合理。

要是遇到幾個(gè)候選答案得分很接近的情況，模型會(huì)把這些答案兩兩比較，每次比較都會(huì)重復(fù)多次（=100次），最后選出獲勝次數(shù)最多的答案作為最終輸出。

擴(kuò)展趨勢(shì)

研究人員在探索基于采樣的搜索的擴(kuò)展趨勢(shì)時(shí)，發(fā)現(xiàn)了一些有趣的現(xiàn)象。

他們通過(guò)實(shí)驗(yàn)，觀察隨著搜索，也就是采樣的數(shù)量和驗(yàn)證次數(shù)這兩個(gè)關(guān)鍵因素的變化，模型的推理性能會(huì)發(fā)生什么變化。

從實(shí)驗(yàn)結(jié)果的熱圖中可以看出，當(dāng)搜索和驗(yàn)證同時(shí)擴(kuò)展時(shí)，模型的性能提升最為明顯。

在一些基準(zhǔn)測(cè)試中，比如AIME，即使測(cè)試時(shí)計(jì)算擴(kuò)展到了自一致性方法性能飽和的程度，基于采樣的搜索的推理性能仍然在持續(xù)提高。

在AIME基準(zhǔn)測(cè)試中，基于采樣的搜索的擴(kuò)展趨勢(shì)最為顯著。

隨著采樣數(shù)量的增加，模型就能更大概率地找到正確答案。

而且，即使一致性方法（Consistency@k ）在處理這些難題時(shí)已經(jīng)達(dá)到了極限，基于采樣的搜索（Verification@k ）仍然能通過(guò)不斷擴(kuò)展驗(yàn)證能力，挖掘出那些隱藏在長(zhǎng)尾中的正確答案。

研究人員還發(fā)現(xiàn)了一個(gè)很神奇的現(xiàn)象：隱式擴(kuò)展。

按照常規(guī)想法，采樣的答案越多，驗(yàn)證器要處理的信息就越多，驗(yàn)證的準(zhǔn)確性應(yīng)該會(huì)下降。但實(shí)際情況卻恰恰相反！

當(dāng)模型生成的答案數(shù)量增加時(shí)，驗(yàn)證的準(zhǔn)確性也跟著提高了。這是為什么呢？

原來(lái)，寫(xiě)得好的答案更容易被驗(yàn)證，而增加采樣數(shù)量就像是擴(kuò)大了答案的「海選范圍」，讓更多高質(zhì)量的答案有機(jī)會(huì)被選出來(lái)。

在下圖中，將驗(yàn)證嘗試次數(shù)固定為50后，Verification@k的擴(kuò)展超越了Consistency@k的飽和點(diǎn)。

在AIME基準(zhǔn)測(cè)試?yán)?，Consistency@k趨于平穩(wěn)，Verification@k卻呈冪律擴(kuò)展。在AIME上，Consistency@50和 Consistency@10,000準(zhǔn)確率相同。

2024年AIME考試第二場(chǎng)第11題，Gemini v1.5模型從200個(gè)隨機(jī)采樣解決方案中，難以選定正確答案。

Consistency返回錯(cuò)誤答案1，且該答案在超一半的響應(yīng)中出現(xiàn)，而Verification成功從響應(yīng)分布長(zhǎng)尾中識(shí)別出正確答案601，并對(duì)1和601分別給出了≤36%和98%的分?jǐn)?shù)。

擴(kuò)展驗(yàn)證能力是推動(dòng)搜索改進(jìn)的關(guān)鍵，可以區(qū)分不同置信度的答案。

驗(yàn)證能有效利用模型響應(yīng)分布長(zhǎng)尾，表明Pass@k應(yīng)是搜索應(yīng)用的關(guān)鍵性能指標(biāo)，而現(xiàn)有針對(duì)Pass@1優(yōu)化的訓(xùn)練后技術(shù)（如RLHF），可能犧牲Pass@k，抑制搜索能力。

有效自我驗(yàn)證：提升推理的法寶

研究人員還總結(jié)出了兩個(gè)提升LLM自我驗(yàn)證能力的重要原則。

第一個(gè)原則是對(duì)比答案以定位錯(cuò)誤。

LLM在識(shí)別錯(cuò)誤和幻覺(jué)方面一直不太擅長(zhǎng)，就像一個(gè)視力不太好的人，很難發(fā)現(xiàn)遠(yuǎn)處的小錯(cuò)誤。但是，如果把不同的候選答案放在一起比較，模型就能更容易地發(fā)現(xiàn)錯(cuò)誤的位置。

這種比較的方法，其實(shí)也是隱式擴(kuò)展的一種體現(xiàn)，通過(guò)提供更多的對(duì)比信息，幫助模型更好地判斷答案的正確性。

第二個(gè)原則是根據(jù)輸出風(fēng)格適用性改寫(xiě)答案。不同的任務(wù)需要不同風(fēng)格的答案。

在生成答案時(shí)，思維鏈的方式很有效，它能幫助模型理清思路，找到正確的方向。

但這種方式生成的答案往往比較冗長(zhǎng)復(fù)雜，驗(yàn)證起來(lái)難度較大。

相反，嚴(yán)謹(jǐn)、分層和模塊化的寫(xiě)作風(fēng)格雖然在生成答案時(shí)可能不太靈活，但在驗(yàn)證時(shí)卻更容易被模型理解和判斷。

所以，研究人員建議在驗(yàn)證答案時(shí)，先把答案改寫(xiě)成更規(guī)范的形式，比如像數(shù)學(xué)證明一樣，有定理、引理和證明過(guò)程，這樣模型就能更輕松地檢查答案是否正確了。

為了驗(yàn)證這兩個(gè)原則的有效性，研究人員還進(jìn)行了消融研究。他們分別去掉比較答案和改寫(xiě)答案這兩個(gè)操作，看看會(huì)對(duì)模型的性能產(chǎn)生什么影響。

結(jié)果發(fā)現(xiàn)，去掉比較答案的操作后，模型在一些基準(zhǔn)測(cè)試中的性能明顯下降。去掉改寫(xiě)答案的操作后，驗(yàn)證的準(zhǔn)確性也受到了很大影響。

這充分說(shuō)明了這兩個(gè)原則對(duì)于提升模型自我驗(yàn)證能力的重要性。

額外實(shí)驗(yàn)，探索更多可能

研究人員還進(jìn)行了一些額外的實(shí)驗(yàn)，為我們揭示了更多有趣的發(fā)現(xiàn)。

在對(duì)較小模型的研究中，他們發(fā)現(xiàn)基于采樣的搜索同樣能為這些「小個(gè)子」模型帶來(lái)顯著的性能提升。

以Gemini v1.5 Flash模型為例，它的推理成本比Gemini v1.5 Pro低很多，但通過(guò)基于采樣的搜索，它的性能得到了大幅提升。

即使是用Flash模型來(lái)輔助Pro模型進(jìn)行驗(yàn)證（Pro+Flash），也能取得不錯(cuò)的效果，甚至在某些情況下，Pro+Flash Verification@200的性能超過(guò)了Pro Consistency@200。

研究人員還對(duì)LiveBench基準(zhǔn)測(cè)試中的不同子任務(wù)進(jìn)行了分析。

他們發(fā)現(xiàn)，基于采樣的搜索在不同子任務(wù)上的表現(xiàn)各有差異。

在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務(wù)上，Verification的提升效果非常明顯；但在LiveBench Math的Olympiad任務(wù)上，卻沒(méi)有看到明顯的提升。

這是因?yàn)镺lympiad任務(wù)的問(wèn)題設(shè)計(jì)比較特殊，它要求填寫(xiě)預(yù)寫(xiě)證明中的表達(dá)式選項(xiàng)，輸出特定的索引序列。

衡量模型的新驗(yàn)證基準(zhǔn)

前沿LLM雖然在解決問(wèn)題方面表現(xiàn)得很厲害，但它們的開(kāi)箱即用驗(yàn)證能力卻有點(diǎn)拖后腿。

為了更準(zhǔn)確地衡量這個(gè)問(wèn)題，研究人員創(chuàng)建了一個(gè)新的驗(yàn)證基準(zhǔn)。

這個(gè)基準(zhǔn)里包含了很多具有挑戰(zhàn)性的推理問(wèn)題，每個(gè)問(wèn)題都有一個(gè)正確答案和一個(gè)錯(cuò)誤答案。

基準(zhǔn)測(cè)試主要關(guān)注兩個(gè)任務(wù)：評(píng)分任務(wù)和比較任務(wù)。

在評(píng)分任務(wù)中，模型要判斷給定答案是否正確；在比較任務(wù)中，模型要從兩個(gè)答案中找出正確的那個(gè)。

這就好比讓模型當(dāng)小老師，批改作業(yè)和比較不同學(xué)生的答案。

研究人員用這個(gè)基準(zhǔn)測(cè)試了一些當(dāng)前的模型，結(jié)果發(fā)現(xiàn)表現(xiàn)參差不齊。

有些模型在驗(yàn)證方面的表現(xiàn)甚至比隨機(jī)猜測(cè)好不了多少，這說(shuō)明它們?cè)谧R(shí)別錯(cuò)誤答案和判斷答案正確性方面還有很大的提升空間。

基于采樣的搜索展現(xiàn)出了巨大的潛力。

它不僅簡(jiǎn)單有效，而且具有很強(qiáng)的擴(kuò)展性，能在各種推理任務(wù)中發(fā)揮重要作用。

參考資料：

https://x.com/ericzhao28/status/1901704344506192365

https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/

https://eric-zhao.com/blog/sampling

https://arxiv.org/abs/2502.01839

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.