時(shí)令 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI通過自問自答就能提升推理能力?!
這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。
該框架包含提問者(proposer)和解答者(solver)兩個(gè)角色,提問者生成與給定主題相關(guān)的問題,解答者旨在解決問題。
網(wǎng)友們神評(píng),“簡直是帶有RL的GAN”。
值得一提的是,此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影~
通過強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)
當(dāng)前大語言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集,堪稱費(fèi)時(shí)費(fèi)力。
為了減輕這一負(fù)擔(dān),研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而,這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。
因此,問題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問題”。
這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足:
缺乏一種可擴(kuò)展且自我維持的流程,能夠在無人干預(yù)的情況下自動(dòng)生成有意義的問題和答案。
為此,研究者提出了SQLM框架
,一種非對(duì)稱的自我博弈框架,其中提問者
,解答者
回答該問題,兩者均通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以最大化期望獎(jiǎng)勵(lì)。
其中,提問者生成問題會(huì)對(duì)解答者形成條件影響,而解答者的表現(xiàn)又反過來為提問者提供獎(jiǎng)勵(lì),從而不斷優(yōu)化提問者。
由于缺乏真實(shí)答案,研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。
若生成器-驗(yàn)證器差距小(例如算數(shù)問題),則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。
若生成器-驗(yàn)證器差距大(例如編程問題),先由提問者生成測(cè)試用例,獎(jiǎng)勵(lì)則基于通過測(cè)試的比例。
這種極小極大式的訓(xùn)練框架通過自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練,并使獎(jiǎng)勵(lì)機(jī)制能夠針對(duì)具體問題進(jìn)行自適應(yīng)調(diào)整。
為了評(píng)估模型的不同能力,研究者進(jìn)行了三部分任務(wù),并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。
算術(shù)任務(wù)
研究人員讓提問者生成一個(gè)三位數(shù)的算數(shù)問題,并將其作為解答器的輸入。他們按照TinyZero的設(shè)置,構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問題的測(cè)試集。
代數(shù)任務(wù)
研究者讓模型生成最多包含兩個(gè)變量的線性方程,并在OMEGA基準(zhǔn)中的100道線性方程測(cè)試題上進(jìn)行評(píng)估。
編程問題
他們讓模型生成類似LeetCode中簡單題的問題,輸入為整數(shù)列表,輸出為單個(gè)整數(shù)或另一個(gè)列表,并在Codeforces測(cè)試集的一個(gè)子集上進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果顯示,SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%,在代數(shù)任務(wù)上提高了16%;在編程任務(wù)上的準(zhǔn)確率提高了7%。
此外,上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線(用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值),表明推理能力的真正提升。
團(tuán)隊(duì)介紹
Lili Chen,本科畢業(yè)于加州大學(xué)伯克利分校,現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。
Katerina Fragkiadaki,卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授,博士畢業(yè)于賓夕法尼亞大,曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員,并于谷歌研究院工作。
Hao Liu,博士畢業(yè)于加州大學(xué)伯克利分校,曾任谷歌DeepMind研究員,即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。
Deepak Pathak,Skild AI創(chuàng)始人,本科就讀于印度理工學(xué)院坎普爾分校,博士畢業(yè)于加州大學(xué)伯克利分校,曾在Meta擔(dān)任了一年的研究員,現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。
參考鏈接:
[1]https://x.com/iScienceLuvr/status/1953052817012474353
[2]https://arxiv.org/abs/2508.03682
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.