新智元報(bào)道
編輯:英智
【新智元導(dǎo)讀】采樣多就一定準(zhǔn)嗎?研究人員用實(shí)驗(yàn)告訴你:是的,而且超乎想象!基于采樣的搜索不僅能在并行處理中大展身手,還通過(guò)隱式擴(kuò)展讓驗(yàn)證更精準(zhǔn)。
先讓模型生成多個(gè)候選答案,再通過(guò)自我驗(yàn)證挑出「真金」。
基于采樣的搜索在許多推理任務(wù)中表現(xiàn)優(yōu)異,可關(guān)于它的擴(kuò)展趨勢(shì),還有許多未解之謎。
隨著采樣數(shù)量的增加,模型的推理性能能否繼續(xù)提升?這種簡(jiǎn)單的搜索范式能在多大程度上擴(kuò)展?
來(lái)自谷歌和伯克利的華人研究員發(fā)現(xiàn),隨著采樣數(shù)量和驗(yàn)證強(qiáng)度的增加,模型的推理性能有顯著的提升。
論文鏈接:https://arxiv.org/abs/2502.01839
增加測(cè)試時(shí)計(jì)算的方法有很多。有些是通過(guò)強(qiáng)化學(xué)習(xí),隱式地鼓勵(lì)模型生成更長(zhǎng)、更詳細(xì)的回答;還有些是通過(guò)巧妙的提示,讓模型更準(zhǔn)確地思考。
在眾多方法中,基于采樣的搜索策略顯得格外突出,生成多個(gè)候選答案,再?gòu)闹刑暨x出最佳的那個(gè)。
這種方法可以和其他策略搭配使用,還特別適合并行處理。
通過(guò)有效的自我驗(yàn)證,簡(jiǎn)單地?cái)U(kuò)展基于采樣的搜索就足以在推理和數(shù)學(xué)基準(zhǔn)測(cè)試,以及伯克利數(shù)學(xué)數(shù)據(jù)集上獲得最先進(jìn)的性能。
表中展示了Gemini v1.5 Pro模型在每個(gè)問(wèn)題僅嘗試一個(gè)解決方案(Pass@1)、嘗試200個(gè)解決方案并選擇最常見(jiàn)的最終答案(Consistency@200)以及在基于采樣的搜索中嘗試200個(gè)解決方案,并根據(jù)正確性評(píng)分選擇得分最高的答案(Verification@200)時(shí)的準(zhǔn)確性。
在基于采樣的搜索(Verification@200)中,Gemini v1.5超越了o1-Preview。
基于采樣的搜索
基于采樣的搜索是怎么運(yùn)作的呢?
簡(jiǎn)單來(lái)說(shuō),就是模型先通過(guò)隨機(jī)采樣的方式,生成一堆候選答案。
然后,模型再對(duì)這些候選答案進(jìn)行自我驗(yàn)證,判斷哪個(gè)答案最靠譜。
具體的實(shí)現(xiàn)過(guò)程可以分為幾個(gè)關(guān)鍵步驟。首先是生成候選答案階段,LLM會(huì)根據(jù)給定的問(wèn)題,按照一定的溫度參數(shù)(=1.5),并行生成個(gè)候選答案。
這個(gè)溫度參數(shù)就像是調(diào)節(jié)模型創(chuàng)造力的旋鈕,數(shù)值越大,生成的答案就越多樣化,但也可能更偏離正確答案。
數(shù)值越小,答案就越保守,可能會(huì)錯(cuò)過(guò)一些有創(chuàng)意的解法。
接下來(lái)是驗(yàn)證候選答案階段。模型會(huì)為每個(gè)候選答案生成個(gè)二進(jìn)制的驗(yàn)證分?jǐn)?shù),以此來(lái)判斷答案的正確性。
在這個(gè)過(guò)程中,模型會(huì)把答案改寫(xiě)為定理、引理和證明的形式,就像我們?cè)跀?shù)學(xué)證明中那樣,一步一步嚴(yán)謹(jǐn)?shù)貦z查答案是否合理。
要是遇到幾個(gè)候選答案得分很接近的情況,模型會(huì)把這些答案兩兩比較,每次比較都會(huì)重復(fù)多次(=100次),最后選出獲勝次數(shù)最多的答案作為最終輸出。
擴(kuò)展趨勢(shì)
研究人員在探索基于采樣的搜索的擴(kuò)展趨勢(shì)時(shí),發(fā)現(xiàn)了一些有趣的現(xiàn)象。
他們通過(guò)實(shí)驗(yàn),觀察隨著搜索,也就是采樣的數(shù)量和驗(yàn)證次數(shù)這兩個(gè)關(guān)鍵因素的變化,模型的推理性能會(huì)發(fā)生什么變化。
從實(shí)驗(yàn)結(jié)果的熱圖中可以看出,當(dāng)搜索和驗(yàn)證同時(shí)擴(kuò)展時(shí),模型的性能提升最為明顯。
在一些基準(zhǔn)測(cè)試中,比如AIME,即使測(cè)試時(shí)計(jì)算擴(kuò)展到了自一致性方法性能飽和的程度,基于采樣的搜索的推理性能仍然在持續(xù)提高。
在AIME基準(zhǔn)測(cè)試中,基于采樣的搜索的擴(kuò)展趨勢(shì)最為顯著。
隨著采樣數(shù)量的增加,模型就能更大概率地找到正確答案。
而且,即使一致性方法(Consistency@k )在處理這些難題時(shí)已經(jīng)達(dá)到了極限,基于采樣的搜索(Verification@k )仍然能通過(guò)不斷擴(kuò)展驗(yàn)證能力,挖掘出那些隱藏在長(zhǎng)尾中的正確答案。
研究人員還發(fā)現(xiàn)了一個(gè)很神奇的現(xiàn)象:隱式擴(kuò)展。
按照常規(guī)想法,采樣的答案越多,驗(yàn)證器要處理的信息就越多,驗(yàn)證的準(zhǔn)確性應(yīng)該會(huì)下降。但實(shí)際情況卻恰恰相反!
當(dāng)模型生成的答案數(shù)量增加時(shí),驗(yàn)證的準(zhǔn)確性也跟著提高了。這是為什么呢?
原來(lái),寫(xiě)得好的答案更容易被驗(yàn)證,而增加采樣數(shù)量就像是擴(kuò)大了答案的「海選范圍」,讓更多高質(zhì)量的答案有機(jī)會(huì)被選出來(lái)。
在下圖中,將驗(yàn)證嘗試次數(shù)固定為50后,Verification@k的擴(kuò)展超越了Consistency@k的飽和點(diǎn)。
在AIME基準(zhǔn)測(cè)試?yán)?,Consistency@k趨于平穩(wěn),Verification@k卻呈冪律擴(kuò)展。在AIME上,Consistency@50和 Consistency@10,000準(zhǔn)確率相同。
2024年AIME考試第二場(chǎng)第11題,Gemini v1.5模型從200個(gè)隨機(jī)采樣解決方案中,難以選定正確答案。
Consistency返回錯(cuò)誤答案1,且該答案在超一半的響應(yīng)中出現(xiàn),而Verification成功從響應(yīng)分布長(zhǎng)尾中識(shí)別出正確答案601,并對(duì)1和601分別給出了≤36%和98%的分?jǐn)?shù)。
擴(kuò)展驗(yàn)證能力是推動(dòng)搜索改進(jìn)的關(guān)鍵,可以區(qū)分不同置信度的答案。
驗(yàn)證能有效利用模型響應(yīng)分布長(zhǎng)尾,表明Pass@k應(yīng)是搜索應(yīng)用的關(guān)鍵性能指標(biāo),而現(xiàn)有針對(duì)Pass@1優(yōu)化的訓(xùn)練后技術(shù)(如RLHF),可能犧牲Pass@k,抑制搜索能力。
有效自我驗(yàn)證:提升推理的法寶
研究人員還總結(jié)出了兩個(gè)提升LLM自我驗(yàn)證能力的重要原則。
第一個(gè)原則是對(duì)比答案以定位錯(cuò)誤。
LLM在識(shí)別錯(cuò)誤和幻覺(jué)方面一直不太擅長(zhǎng),就像一個(gè)視力不太好的人,很難發(fā)現(xiàn)遠(yuǎn)處的小錯(cuò)誤。但是,如果把不同的候選答案放在一起比較,模型就能更容易地發(fā)現(xiàn)錯(cuò)誤的位置。
這種比較的方法,其實(shí)也是隱式擴(kuò)展的一種體現(xiàn),通過(guò)提供更多的對(duì)比信息,幫助模型更好地判斷答案的正確性。
第二個(gè)原則是根據(jù)輸出風(fēng)格適用性改寫(xiě)答案。不同的任務(wù)需要不同風(fēng)格的答案。
在生成答案時(shí),思維鏈的方式很有效,它能幫助模型理清思路,找到正確的方向。
但這種方式生成的答案往往比較冗長(zhǎng)復(fù)雜,驗(yàn)證起來(lái)難度較大。
相反,嚴(yán)謹(jǐn)、分層和模塊化的寫(xiě)作風(fēng)格雖然在生成答案時(shí)可能不太靈活,但在驗(yàn)證時(shí)卻更容易被模型理解和判斷。
所以,研究人員建議在驗(yàn)證答案時(shí),先把答案改寫(xiě)成更規(guī)范的形式,比如像數(shù)學(xué)證明一樣,有定理、引理和證明過(guò)程,這樣模型就能更輕松地檢查答案是否正確了。
為了驗(yàn)證這兩個(gè)原則的有效性,研究人員還進(jìn)行了消融研究。他們分別去掉比較答案和改寫(xiě)答案這兩個(gè)操作,看看會(huì)對(duì)模型的性能產(chǎn)生什么影響。
結(jié)果發(fā)現(xiàn),去掉比較答案的操作后,模型在一些基準(zhǔn)測(cè)試中的性能明顯下降。去掉改寫(xiě)答案的操作后,驗(yàn)證的準(zhǔn)確性也受到了很大影響。
這充分說(shuō)明了這兩個(gè)原則對(duì)于提升模型自我驗(yàn)證能力的重要性。
額外實(shí)驗(yàn),探索更多可能
研究人員還進(jìn)行了一些額外的實(shí)驗(yàn),為我們揭示了更多有趣的發(fā)現(xiàn)。
在對(duì)較小模型的研究中,他們發(fā)現(xiàn)基于采樣的搜索同樣能為這些「小個(gè)子」模型帶來(lái)顯著的性能提升。
以Gemini v1.5 Flash模型為例,它的推理成本比Gemini v1.5 Pro低很多,但通過(guò)基于采樣的搜索,它的性能得到了大幅提升。
即使是用Flash模型來(lái)輔助Pro模型進(jìn)行驗(yàn)證(Pro+Flash),也能取得不錯(cuò)的效果,甚至在某些情況下,Pro+Flash Verification@200的性能超過(guò)了Pro Consistency@200。
研究人員還對(duì)LiveBench基準(zhǔn)測(cè)試中的不同子任務(wù)進(jìn)行了分析。
他們發(fā)現(xiàn),基于采樣的搜索在不同子任務(wù)上的表現(xiàn)各有差異。
在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務(wù)上,Verification的提升效果非常明顯;但在LiveBench Math的Olympiad任務(wù)上,卻沒(méi)有看到明顯的提升。
這是因?yàn)镺lympiad任務(wù)的問(wèn)題設(shè)計(jì)比較特殊,它要求填寫(xiě)預(yù)寫(xiě)證明中的表達(dá)式選項(xiàng),輸出特定的索引序列。
衡量模型的新驗(yàn)證基準(zhǔn)
前沿LLM雖然在解決問(wèn)題方面表現(xiàn)得很厲害,但它們的開(kāi)箱即用驗(yàn)證能力卻有點(diǎn)拖后腿。
為了更準(zhǔn)確地衡量這個(gè)問(wèn)題,研究人員創(chuàng)建了一個(gè)新的驗(yàn)證基準(zhǔn)。
這個(gè)基準(zhǔn)里包含了很多具有挑戰(zhàn)性的推理問(wèn)題,每個(gè)問(wèn)題都有一個(gè)正確答案和一個(gè)錯(cuò)誤答案。
基準(zhǔn)測(cè)試主要關(guān)注兩個(gè)任務(wù):評(píng)分任務(wù)和比較任務(wù)。
在評(píng)分任務(wù)中,模型要判斷給定答案是否正確;在比較任務(wù)中,模型要從兩個(gè)答案中找出正確的那個(gè)。
這就好比讓模型當(dāng)小老師,批改作業(yè)和比較不同學(xué)生的答案。
研究人員用這個(gè)基準(zhǔn)測(cè)試了一些當(dāng)前的模型,結(jié)果發(fā)現(xiàn)表現(xiàn)參差不齊。
有些模型在驗(yàn)證方面的表現(xiàn)甚至比隨機(jī)猜測(cè)好不了多少,這說(shuō)明它們?cè)谧R(shí)別錯(cuò)誤答案和判斷答案正確性方面還有很大的提升空間。
基于采樣的搜索展現(xiàn)出了巨大的潛力。
它不僅簡(jiǎn)單有效,而且具有很強(qiáng)的擴(kuò)展性,能在各種推理任務(wù)中發(fā)揮重要作用。
參考資料:
https://x.com/ericzhao28/status/1901704344506192365
https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/
https://eric-zhao.com/blog/sampling
https://arxiv.org/abs/2502.01839
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.