成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

采樣越多越聰明?隱式擴(kuò)展顛覆認(rèn)知,采樣搜索如何挑出完美解

0
分享至


新智元報(bào)道

編輯:英智

【新智元導(dǎo)讀】采樣多就一定準(zhǔn)嗎?研究人員用實(shí)驗(yàn)告訴你:是的,而且超乎想象!基于采樣的搜索不僅能在并行處理中大展身手,還通過(guò)隱式擴(kuò)展讓驗(yàn)證更精準(zhǔn)。

先讓模型生成多個(gè)候選答案,再通過(guò)自我驗(yàn)證挑出「真金」。

基于采樣的搜索在許多推理任務(wù)中表現(xiàn)優(yōu)異,可關(guān)于它的擴(kuò)展趨勢(shì),還有許多未解之謎。

隨著采樣數(shù)量的增加,模型的推理性能能否繼續(xù)提升?這種簡(jiǎn)單的搜索范式能在多大程度上擴(kuò)展?

來(lái)自谷歌和伯克利的華人研究員發(fā)現(xiàn),隨著采樣數(shù)量和驗(yàn)證強(qiáng)度的增加,模型的推理性能有顯著的提升。


論文鏈接:https://arxiv.org/abs/2502.01839

增加測(cè)試時(shí)計(jì)算的方法有很多。有些是通過(guò)強(qiáng)化學(xué)習(xí),隱式地鼓勵(lì)模型生成更長(zhǎng)、更詳細(xì)的回答;還有些是通過(guò)巧妙的提示,讓模型更準(zhǔn)確地思考。

在眾多方法中,基于采樣的搜索策略顯得格外突出,生成多個(gè)候選答案,再?gòu)闹刑暨x出最佳的那個(gè)。

這種方法可以和其他策略搭配使用,還特別適合并行處理。


通過(guò)有效的自我驗(yàn)證,簡(jiǎn)單地?cái)U(kuò)展基于采樣的搜索就足以在推理和數(shù)學(xué)基準(zhǔn)測(cè)試,以及伯克利數(shù)學(xué)數(shù)據(jù)集上獲得最先進(jìn)的性能。


表中展示了Gemini v1.5 Pro模型在每個(gè)問(wèn)題僅嘗試一個(gè)解決方案(Pass@1)、嘗試200個(gè)解決方案并選擇最常見(jiàn)的最終答案(Consistency@200)以及在基于采樣的搜索中嘗試200個(gè)解決方案,并根據(jù)正確性評(píng)分選擇得分最高的答案(Verification@200)時(shí)的準(zhǔn)確性。

在基于采樣的搜索(Verification@200)中,Gemini v1.5超越了o1-Preview。

基于采樣的搜索

基于采樣的搜索是怎么運(yùn)作的呢?

簡(jiǎn)單來(lái)說(shuō),就是模型先通過(guò)隨機(jī)采樣的方式,生成一堆候選答案。

然后,模型再對(duì)這些候選答案進(jìn)行自我驗(yàn)證,判斷哪個(gè)答案最靠譜。

具體的實(shí)現(xiàn)過(guò)程可以分為幾個(gè)關(guān)鍵步驟。首先是生成候選答案階段,LLM會(huì)根據(jù)給定的問(wèn)題,按照一定的溫度參數(shù)(=1.5),并行生成個(gè)候選答案。

這個(gè)溫度參數(shù)就像是調(diào)節(jié)模型創(chuàng)造力的旋鈕,數(shù)值越大,生成的答案就越多樣化,但也可能更偏離正確答案。

數(shù)值越小,答案就越保守,可能會(huì)錯(cuò)過(guò)一些有創(chuàng)意的解法。


接下來(lái)是驗(yàn)證候選答案階段。模型會(huì)為每個(gè)候選答案生成個(gè)二進(jìn)制的驗(yàn)證分?jǐn)?shù),以此來(lái)判斷答案的正確性。

在這個(gè)過(guò)程中,模型會(huì)把答案改寫(xiě)為定理、引理和證明的形式,就像我們?cè)跀?shù)學(xué)證明中那樣,一步一步嚴(yán)謹(jǐn)?shù)貦z查答案是否合理。

要是遇到幾個(gè)候選答案得分很接近的情況,模型會(huì)把這些答案兩兩比較,每次比較都會(huì)重復(fù)多次(=100次),最后選出獲勝次數(shù)最多的答案作為最終輸出。

擴(kuò)展趨勢(shì)

研究人員在探索基于采樣的搜索的擴(kuò)展趨勢(shì)時(shí),發(fā)現(xiàn)了一些有趣的現(xiàn)象。

他們通過(guò)實(shí)驗(yàn),觀察隨著搜索,也就是采樣的數(shù)量和驗(yàn)證次數(shù)這兩個(gè)關(guān)鍵因素的變化,模型的推理性能會(huì)發(fā)生什么變化。

從實(shí)驗(yàn)結(jié)果的熱圖中可以看出,當(dāng)搜索和驗(yàn)證同時(shí)擴(kuò)展時(shí),模型的性能提升最為明顯。


在一些基準(zhǔn)測(cè)試中,比如AIME,即使測(cè)試時(shí)計(jì)算擴(kuò)展到了自一致性方法性能飽和的程度,基于采樣的搜索的推理性能仍然在持續(xù)提高。

在AIME基準(zhǔn)測(cè)試中,基于采樣的搜索的擴(kuò)展趨勢(shì)最為顯著。

隨著采樣數(shù)量的增加,模型就能更大概率地找到正確答案。

而且,即使一致性方法(Consistency@k )在處理這些難題時(shí)已經(jīng)達(dá)到了極限,基于采樣的搜索(Verification@k )仍然能通過(guò)不斷擴(kuò)展驗(yàn)證能力,挖掘出那些隱藏在長(zhǎng)尾中的正確答案。

研究人員還發(fā)現(xiàn)了一個(gè)很神奇的現(xiàn)象:隱式擴(kuò)展。

按照常規(guī)想法,采樣的答案越多,驗(yàn)證器要處理的信息就越多,驗(yàn)證的準(zhǔn)確性應(yīng)該會(huì)下降。但實(shí)際情況卻恰恰相反!



當(dāng)模型生成的答案數(shù)量增加時(shí),驗(yàn)證的準(zhǔn)確性也跟著提高了。這是為什么呢?

原來(lái),寫(xiě)得好的答案更容易被驗(yàn)證,而增加采樣數(shù)量就像是擴(kuò)大了答案的「海選范圍」,讓更多高質(zhì)量的答案有機(jī)會(huì)被選出來(lái)。

在下圖中,將驗(yàn)證嘗試次數(shù)固定為50后,Verification@k的擴(kuò)展超越了Consistency@k的飽和點(diǎn)。

在AIME基準(zhǔn)測(cè)試?yán)?,Consistency@k趨于平穩(wěn),Verification@k卻呈冪律擴(kuò)展。在AIME上,Consistency@50和 Consistency@10,000準(zhǔn)確率相同。


2024年AIME考試第二場(chǎng)第11題,Gemini v1.5模型從200個(gè)隨機(jī)采樣解決方案中,難以選定正確答案。

Consistency返回錯(cuò)誤答案1,且該答案在超一半的響應(yīng)中出現(xiàn),而Verification成功從響應(yīng)分布長(zhǎng)尾中識(shí)別出正確答案601,并對(duì)1和601分別給出了≤36%和98%的分?jǐn)?shù)。


擴(kuò)展驗(yàn)證能力是推動(dòng)搜索改進(jìn)的關(guān)鍵,可以區(qū)分不同置信度的答案。

驗(yàn)證能有效利用模型響應(yīng)分布長(zhǎng)尾,表明Pass@k應(yīng)是搜索應(yīng)用的關(guān)鍵性能指標(biāo),而現(xiàn)有針對(duì)Pass@1優(yōu)化的訓(xùn)練后技術(shù)(如RLHF),可能犧牲Pass@k,抑制搜索能力。

有效自我驗(yàn)證:提升推理的法寶

研究人員還總結(jié)出了兩個(gè)提升LLM自我驗(yàn)證能力的重要原則。

第一個(gè)原則是對(duì)比答案以定位錯(cuò)誤。

LLM在識(shí)別錯(cuò)誤和幻覺(jué)方面一直不太擅長(zhǎng),就像一個(gè)視力不太好的人,很難發(fā)現(xiàn)遠(yuǎn)處的小錯(cuò)誤。但是,如果把不同的候選答案放在一起比較,模型就能更容易地發(fā)現(xiàn)錯(cuò)誤的位置。

這種比較的方法,其實(shí)也是隱式擴(kuò)展的一種體現(xiàn),通過(guò)提供更多的對(duì)比信息,幫助模型更好地判斷答案的正確性。

第二個(gè)原則是根據(jù)輸出風(fēng)格適用性改寫(xiě)答案。不同的任務(wù)需要不同風(fēng)格的答案。

在生成答案時(shí),思維鏈的方式很有效,它能幫助模型理清思路,找到正確的方向。

但這種方式生成的答案往往比較冗長(zhǎng)復(fù)雜,驗(yàn)證起來(lái)難度較大。

相反,嚴(yán)謹(jǐn)、分層和模塊化的寫(xiě)作風(fēng)格雖然在生成答案時(shí)可能不太靈活,但在驗(yàn)證時(shí)卻更容易被模型理解和判斷。

所以,研究人員建議在驗(yàn)證答案時(shí),先把答案改寫(xiě)成更規(guī)范的形式,比如像數(shù)學(xué)證明一樣,有定理、引理和證明過(guò)程,這樣模型就能更輕松地檢查答案是否正確了。

為了驗(yàn)證這兩個(gè)原則的有效性,研究人員還進(jìn)行了消融研究。他們分別去掉比較答案和改寫(xiě)答案這兩個(gè)操作,看看會(huì)對(duì)模型的性能產(chǎn)生什么影響。


結(jié)果發(fā)現(xiàn),去掉比較答案的操作后,模型在一些基準(zhǔn)測(cè)試中的性能明顯下降。去掉改寫(xiě)答案的操作后,驗(yàn)證的準(zhǔn)確性也受到了很大影響。


這充分說(shuō)明了這兩個(gè)原則對(duì)于提升模型自我驗(yàn)證能力的重要性。

額外實(shí)驗(yàn),探索更多可能

研究人員還進(jìn)行了一些額外的實(shí)驗(yàn),為我們揭示了更多有趣的發(fā)現(xiàn)。

在對(duì)較小模型的研究中,他們發(fā)現(xiàn)基于采樣的搜索同樣能為這些「小個(gè)子」模型帶來(lái)顯著的性能提升。


以Gemini v1.5 Flash模型為例,它的推理成本比Gemini v1.5 Pro低很多,但通過(guò)基于采樣的搜索,它的性能得到了大幅提升。

即使是用Flash模型來(lái)輔助Pro模型進(jìn)行驗(yàn)證(Pro+Flash),也能取得不錯(cuò)的效果,甚至在某些情況下,Pro+Flash Verification@200的性能超過(guò)了Pro Consistency@200。

研究人員還對(duì)LiveBench基準(zhǔn)測(cè)試中的不同子任務(wù)進(jìn)行了分析。

他們發(fā)現(xiàn),基于采樣的搜索在不同子任務(wù)上的表現(xiàn)各有差異。


在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務(wù)上,Verification的提升效果非常明顯;但在LiveBench Math的Olympiad任務(wù)上,卻沒(méi)有看到明顯的提升。

這是因?yàn)镺lympiad任務(wù)的問(wèn)題設(shè)計(jì)比較特殊,它要求填寫(xiě)預(yù)寫(xiě)證明中的表達(dá)式選項(xiàng),輸出特定的索引序列。

衡量模型的新驗(yàn)證基準(zhǔn)

前沿LLM雖然在解決問(wèn)題方面表現(xiàn)得很厲害,但它們的開(kāi)箱即用驗(yàn)證能力卻有點(diǎn)拖后腿。

為了更準(zhǔn)確地衡量這個(gè)問(wèn)題,研究人員創(chuàng)建了一個(gè)新的驗(yàn)證基準(zhǔn)。

這個(gè)基準(zhǔn)里包含了很多具有挑戰(zhàn)性的推理問(wèn)題,每個(gè)問(wèn)題都有一個(gè)正確答案和一個(gè)錯(cuò)誤答案。



基準(zhǔn)測(cè)試主要關(guān)注兩個(gè)任務(wù):評(píng)分任務(wù)和比較任務(wù)。

在評(píng)分任務(wù)中,模型要判斷給定答案是否正確;在比較任務(wù)中,模型要從兩個(gè)答案中找出正確的那個(gè)。

這就好比讓模型當(dāng)小老師,批改作業(yè)和比較不同學(xué)生的答案。

研究人員用這個(gè)基準(zhǔn)測(cè)試了一些當(dāng)前的模型,結(jié)果發(fā)現(xiàn)表現(xiàn)參差不齊。


有些模型在驗(yàn)證方面的表現(xiàn)甚至比隨機(jī)猜測(cè)好不了多少,這說(shuō)明它們?cè)谧R(shí)別錯(cuò)誤答案和判斷答案正確性方面還有很大的提升空間。

基于采樣的搜索展現(xiàn)出了巨大的潛力。

它不僅簡(jiǎn)單有效,而且具有很強(qiáng)的擴(kuò)展性,能在各種推理任務(wù)中發(fā)揮重要作用。

參考資料:

https://x.com/ericzhao28/status/1901704344506192365

https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/

https://eric-zhao.com/blog/sampling

https://arxiv.org/abs/2502.01839

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
八國(guó)聯(lián)軍中,有七個(gè)國(guó)家主動(dòng)退還賠款,唯有一國(guó)分文不退,是誰(shuí)?

八國(guó)聯(lián)軍中,有七個(gè)國(guó)家主動(dòng)退還賠款,唯有一國(guó)分文不退,是誰(shuí)?

通文知史
2025-08-31 09:20:03
娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

花心電影
2025-08-30 21:23:30
像滕哈格?太陽(yáng)報(bào):曼聯(lián)球迷看到拉芒的經(jīng)紀(jì)人有些“恐慌”

像滕哈格?太陽(yáng)報(bào):曼聯(lián)球迷看到拉芒的經(jīng)紀(jì)人有些“恐慌”

懂球帝
2025-09-03 10:36:17
軍事專家戴旭:目前全世界沒(méi)有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

軍事專家戴旭:目前全世界沒(méi)有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

阿晪美食
2025-08-31 04:56:34
醫(yī)學(xué)界對(duì)維生素D的看法發(fā)生了哪些改變?

醫(yī)學(xué)界對(duì)維生素D的看法發(fā)生了哪些改變?

科學(xué)公園
2025-09-01 22:43:15
他是國(guó)家一級(jí)演員,娶恩師女兒為妻,生下雙胞胎兒子如今比他還火

他是國(guó)家一級(jí)演員,娶恩師女兒為妻,生下雙胞胎兒子如今比他還火

顧史
2025-09-02 15:17:13
程維高之子攜巨款逃亡海外,買下65公頃島嶼,重金將女兒送進(jìn)政壇

程維高之子攜巨款逃亡海外,買下65公頃島嶼,重金將女兒送進(jìn)政壇

健康快樂(lè)丁
2025-08-05 15:53:11
特朗普,突發(fā)!深夜,暴跌!

特朗普,突發(fā)!深夜,暴跌!

數(shù)據(jù)寶
2025-09-02 07:43:47
全智賢剪短發(fā)后“減齡10歲”!穿黑色雙排扣短夾克秀蠻腰干練優(yōu)雅

全智賢剪短發(fā)后“減齡10歲”!穿黑色雙排扣短夾克秀蠻腰干練優(yōu)雅

明星私服穿搭daily
2025-09-03 10:16:00
廣東男籃公布終極陣容:四外援+五國(guó)手,陳家政王洪澤位置成疑

廣東男籃公布終極陣容:四外援+五國(guó)手,陳家政王洪澤位置成疑

王糬自駕
2025-09-03 08:16:40
護(hù)士馬拉松奪冠后續(xù):更多黑料曝光,老公身份被扒,夫妻一個(gè)德行

護(hù)士馬拉松奪冠后續(xù):更多黑料曝光,老公身份被扒,夫妻一個(gè)德行

歸史
2025-09-02 13:34:25
出席紀(jì)念抗戰(zhàn)勝利80周年大會(huì)的老領(lǐng)導(dǎo)們

出席紀(jì)念抗戰(zhàn)勝利80周年大會(huì)的老領(lǐng)導(dǎo)們

微微熱評(píng)
2025-09-03 09:57:59
九三大閱兵裝備變化:中國(guó)從追趕世界一流,正式邁向定義世界一流

九三大閱兵裝備變化:中國(guó)從追趕世界一流,正式邁向定義世界一流

利刃號(hào)
2025-09-02 20:18:51
塞爾維亞總統(tǒng)向普京抱怨:烏克蘭戰(zhàn)爭(zhēng)讓我們很難辦

塞爾維亞總統(tǒng)向普京抱怨:烏克蘭戰(zhàn)爭(zhēng)讓我們很難辦

桂系007
2025-09-02 23:32:40
增速均超4倍!固態(tài)電池業(yè)績(jī)?cè)鲎羁?家公司,最大增長(zhǎng)15倍

增速均超4倍!固態(tài)電池業(yè)績(jī)?cè)鲎羁?家公司,最大增長(zhǎng)15倍

元芳說(shuō)投資
2025-09-02 21:44:50
11歲熊孩子按門(mén)鈴?fù)鎼鹤鲃”秽従訕寭羯硗?!警方證實(shí):男童身中“數(shù)槍”

11歲熊孩子按門(mén)鈴?fù)鎼鹤鲃”秽従訕寭羯硗?!警方證實(shí):男童身中“數(shù)槍”

都市快報(bào)橙柿互動(dòng)
2025-09-02 07:50:59
西方偽史論的鼓吹者們,被俄國(guó)人騙慘了

西方偽史論的鼓吹者們,被俄國(guó)人騙慘了

冰川思想庫(kù)
2025-07-30 10:32:07
俄羅斯終于攤牌,愿以兩大底牌換中國(guó)幫助,中方是否會(huì)改變立場(chǎng)?

俄羅斯終于攤牌,愿以兩大底牌換中國(guó)幫助,中方是否會(huì)改變立場(chǎng)?

Ck的蜜糖
2025-08-12 01:58:01
臺(tái)媒曝猛料:黃仁勛攜特朗普旨意密會(huì)臺(tái)積電 要求分享對(duì)華芯片收入!

臺(tái)媒曝猛料:黃仁勛攜特朗普旨意密會(huì)臺(tái)積電 要求分享對(duì)華芯片收入!

EETOP半導(dǎo)體社區(qū)
2025-09-03 08:11:13
我國(guó)隱秘戰(zhàn)線大懸案:王石堅(jiān)叛變?yōu)楹胃憧辶酥泄睬楣は到y(tǒng)半壁江山

我國(guó)隱秘戰(zhàn)線大懸案:王石堅(jiān)叛變?yōu)楹胃憧辶酥泄睬楣は到y(tǒng)半壁江山

懸疑推理大師
2023-12-05 15:41:19
2025-09-03 11:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13373文章數(shù) 66142關(guān)注度
往期回顧 全部

科技要聞

谷歌搜索反壟斷案宣判:Chrome保住了

頭條要聞

殲擊機(jī)梯隊(duì)接受檢閱 殲-35A、殲-20S等在列

頭條要聞

殲擊機(jī)梯隊(duì)接受檢閱 殲-35A、殲-20S等在列

體育要聞

從山西到達(dá)拉斯,李月汝與她的籃球野心

娛樂(lè)要聞

謝霆鋒與王菲vs張柏芝合影 對(duì)比明顯

財(cái)經(jīng)要聞

黃金新一波漲勢(shì)來(lái)了!這輪能下場(chǎng)嗎?

汽車要聞

戰(zhàn)斗外觀 長(zhǎng)安第三代UNI-V給的情緒價(jià)值

態(tài)度原創(chuàng)

親子
健康
本地
時(shí)尚
公開(kāi)課

親子要聞

科普|娃為何突然變“口水娃”

內(nèi)分泌科專家破解身高八大謠言

本地新聞

換個(gè)城市過(guò)夏天 | “中式美學(xué)”打開(kāi)夏日濰坊

三種適合9月的風(fēng)格,好漂亮

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版