成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频第二页|日本久草天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

<abbr id="qtkry"></abbr>

<blockquote id="qtkry"></blockquote>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

無需外部數(shù)據(jù)！AI自問自答實(shí)現(xiàn)推理能力進(jìn)化

2025-08-08 15:51:21　來源: 量子位

北京舉報(bào)

0

分享至

時(shí)令發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

AI通過自問自答就能提升推理能力？！

這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無需外部數(shù)據(jù)的自我提問模型。

該框架包含提問者（proposer）和解答者（solver）兩個(gè)角色，提問者生成與給定主題相關(guān)的問題，解答者旨在解決問題。

網(wǎng)友們神評(píng)，“簡直是帶有RL的GAN”。

值得一提的是，此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影～

通過強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)

當(dāng)前大語言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集，堪稱費(fèi)時(shí)費(fèi)力。

為了減輕這一負(fù)擔(dān)，研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而，這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。

因此，問題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問題”。

這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足：

缺乏一種可擴(kuò)展且自我維持的流程，能夠在無人干預(yù)的情況下自動(dòng)生成有意義的問題和答案。

為此，研究者提出了SQLM框架

，一種非對(duì)稱的自我博弈框架，其中提問者

，解答者

回答該問題，兩者均通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，以最大化期望獎(jiǎng)勵(lì)。

其中，提問者生成問題會(huì)對(duì)解答者形成條件影響，而解答者的表現(xiàn)又反過來為提問者提供獎(jiǎng)勵(lì)，從而不斷優(yōu)化提問者。

由于缺乏真實(shí)答案，研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。

若生成器-驗(yàn)證器差距小（例如算數(shù)問題），則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。

若生成器-驗(yàn)證器差距大（例如編程問題），先由提問者生成測(cè)試用例，獎(jiǎng)勵(lì)則基于通過測(cè)試的比例。

這種極小極大式的訓(xùn)練框架通過自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練，并使獎(jiǎng)勵(lì)機(jī)制能夠針對(duì)具體問題進(jìn)行自適應(yīng)調(diào)整。

為了評(píng)估模型的不同能力，研究者進(jìn)行了三部分任務(wù)，并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。

算術(shù)任務(wù)

研究人員讓提問者生成一個(gè)三位數(shù)的算數(shù)問題，并將其作為解答器的輸入。他們按照TinyZero的設(shè)置，構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問題的測(cè)試集。

代數(shù)任務(wù)

研究者讓模型生成最多包含兩個(gè)變量的線性方程，并在OMEGA基準(zhǔn)中的100道線性方程測(cè)試題上進(jìn)行評(píng)估。

編程問題

他們讓模型生成類似LeetCode中簡單題的問題，輸入為整數(shù)列表，輸出為單個(gè)整數(shù)或另一個(gè)列表，并在Codeforces測(cè)試集的一個(gè)子集上進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果顯示，SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%，在代數(shù)任務(wù)上提高了16%；在編程任務(wù)上的準(zhǔn)確率提高了7%。

此外，上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線（用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值），表明推理能力的真正提升。

團(tuán)隊(duì)介紹

Lili Chen，本科畢業(yè)于加州大學(xué)伯克利分校，現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。

Katerina Fragkiadaki，卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授，博士畢業(yè)于賓夕法尼亞大，曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員，并于谷歌研究院工作。

Hao Liu，博士畢業(yè)于加州大學(xué)伯克利分校，曾任谷歌DeepMind研究員，即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。

Deepak Pathak，Skild AI創(chuàng)始人，本科就讀于印度理工學(xué)院坎普爾分校，博士畢業(yè)于加州大學(xué)伯克利分校，曾在Meta擔(dān)任了一年的研究員，現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。

參考鏈接：
[1]https://x.com/iScienceLuvr/status/1953052817012474353
[2]https://arxiv.org/abs/2508.03682

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

謝賽寧七年前OpenAI面試：白板編程、五小時(shí)會(huì)議，面完天都黑了

機(jī)器之心Pro 2025-08-29 17:36:58
0 跟貼 0
谷歌Nano Banana全網(wǎng)刷屏，起底背后團(tuán)隊(duì)

機(jī)器之心Pro 2025-08-29 15:36:46
1 跟貼 1

機(jī)器學(xué)習(xí)臨床預(yù)測(cè)模型構(gòu)建的一般流程

醫(yī)咖會(huì) 2025-08-11 19:56:31
0 跟貼 0

EMNLP 2025 | 動(dòng)態(tài)壓縮CoT推理新方法LightThinker來了

機(jī)器之心Pro 2025-08-28 14:20:41
0 跟貼 0
OpenAI頭號(hào)叛徒，竟然是自學(xué)的AI?

量子位 2025-08-22 16:06:15
0 跟貼 0

7B模型超越DeepSeek-R1：模仿人類教師，弱模型也能教出強(qiáng)推理LLM

量子位 2025-06-25 14:29:03
0 跟貼 0

騰訊提出RLVMR框架，讓7B模型「思考」比肩GPT-4o

機(jī)器之心Pro 2025-08-14 11:02:49
0 跟貼 0
OpenAI和Anthropic罕見互評(píng)模型：Claude幻覺明顯要低

量子位 2025-08-28 13:23:38
2 跟貼 2

被低估的GPT-5！OpenAI給7億人解鎖最強(qiáng)AI，大眾智能一夜撕裂舊秩序

新智元 2025-08-30 19:40:33
0 跟貼 0
宇樹機(jī)器人復(fù)雜環(huán)境穩(wěn)定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
218 跟貼 218
宇樹科技VS云深處，誰是國產(chǎn)機(jī)器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0
華裔女學(xué)霸揭秘Claude Code，一人帶六個(gè)AI開干！編程范式徹底被顛覆

新智元 2025-08-30 12:54:01
1 跟貼 1
當(dāng)AI學(xué)會(huì)作弊：比壞更可怕的是壞還聰明

機(jī)器之心Pro 2025-08-29 18:45:31
0 跟貼 0
別讓對(duì)手用AI和機(jī)器人卷死你：生物初創(chuàng)公司必看的「逆襲指南」來了

生物世界 2025-03-20 00:08:36
0 跟貼 0
純國產(chǎn)智能體產(chǎn)品MasterAgent 一句話生成智能體集群

量子位 2025-07-29 18:00:26
0 跟貼 0
Karpathy盛贊「環(huán)境中心」！AGI最后一塊拼圖開源，大廠豪擲百萬鎖死

新智元 2025-08-29 09:44:27
0 跟貼 0
Vibe Coding爆火，YouWare突圍(1)

機(jī)器之心Pro 2025-07-24 14:36:10
0 跟貼 0
深圳南山，藏著中國機(jī)器人天團(tuán)

華商韜略 2025-03-11 11:00:31
0 跟貼 0
吳恩達(dá)最新來信：是時(shí)候關(guān)注并行智能體了

量子位 2025-08-30 17:02:12
0 跟貼 0
機(jī)器人疊衣，靈巧手抓萬物，超實(shí)用機(jī)器人組合來了

量子位 2025-07-29 03:31:41
1 跟貼 1
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0
人機(jī)編程大戰(zhàn)，人類苦戰(zhàn)三天險(xiǎn)勝OpenAI

機(jī)器之心Pro 2025-07-18 18:21:43
0 跟貼 0
統(tǒng)一框架下的具身多模態(tài)推理

機(jī)器之心Pro 2025-06-18 14:49:46
0 跟貼 0
Qwen真是怪胎，獎(jiǎng)勵(lì)錯(cuò)了，模型反而更強(qiáng)，強(qiáng)化學(xué)習(xí)得推翻重來？

機(jī)器之心Pro 2025-06-04 21:44:30
0 跟貼 0
1分鐘逛遍世界機(jī)器人大會(huì)，機(jī)器人已經(jīng)沒有不會(huì)干的活了！

量子位 2025-08-10 02:23:22
0 跟貼 0
會(huì)打羽毛球的機(jī)器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
一句話生成智能體集群，開發(fā)Agent能有多簡單？

量子位 2025-07-30 02:58:47
0 跟貼 0
機(jī)器人首次踢5v5足球賽，摔跤是戰(zhàn)術(shù)？我們和參賽隊(duì)員聊了聊

量子位 2025-08-21 10:48:04
0 跟貼 0
直擊WAIC丨具身大模型賦能！機(jī)器人秒變專業(yè)鼓手

每日經(jīng)濟(jì)新聞 2025-07-29 01:50:00
0 跟貼 0
最低調(diào)的機(jī)器人天團(tuán)，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
機(jī)器狗跳千手觀音，波士頓動(dòng)力達(dá)人秀炸場(chǎng)

量子位 2025-06-13 15:55:52
0 跟貼 0
格斗冠軍機(jī)器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動(dòng)執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0
失敗147次后，他三天寫出萬能提示詞模板，600萬網(wǎng)友吵翻了

量子位 2025-07-13 17:09:11
0 跟貼 0
物流業(yè)deepseek時(shí)刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
從被群嘲到頂級(jí)玩家，阿里AI逆襲之路

華商韜略 2025-07-28 17:27:23
0 跟貼 0
超算互聯(lián)網(wǎng)上線開源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
研發(fā)自動(dòng)化的初衷是讓每一個(gè)研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
果然伯克利不養(yǎng)閑人！他們一出場(chǎng)就是王炸，樂評(píng)人都干沉默了

下飯音樂 2025-08-26 19:48:00
0 跟貼 0
不愧是狄大人，輕松推理出犯人

大風(fēng)車影視 2025-08-27 22:07:01
1 跟貼 1

“這是家長會(huì)，不是夜總會(huì)！”寶媽穿特殊褲子參加，被網(wǎng)友怒斥

“這是家長會(huì)，不是夜總會(huì)！”寶媽穿特殊褲子參加，被網(wǎng)友怒斥

熙熙說教

2025-08-22 17:46:53

遼籃悔之晚矣！張鎮(zhèn)麟剛加盟上海就完全康復(fù)，即將啟程參加拉練賽

遼籃悔之晚矣！張鎮(zhèn)麟剛加盟上海就完全康復(fù)，即將啟程參加拉練賽

格斗聯(lián)盟有話說

2025-08-30 19:51:41

兩岸突發(fā)大事！中國官宣重大消息：九三閱兵這天，這些人必邀出席

兩岸突發(fā)大事！中國官宣重大消息：九三閱兵這天，這些人必邀出席

絕對(duì)軍評(píng)

2025-08-30 14:25:32

閱兵還剩5天，美軍終于坐不住：新裝備是重大挑戰(zhàn)，航母危險(xiǎn)了！

閱兵還剩5天，美軍終于坐不?。盒卵b備是重大挑戰(zhàn)，航母危險(xiǎn)了！

墨蘭史書

2025-08-30 04:05:03

我們很可能拖不走仁愛礁菲坐灘舊軍艦，即便垮掉也是一個(gè)大問題

我們很可能拖不走仁愛礁菲坐灘舊軍艦，即便垮掉也是一個(gè)大問題

科普100克克

2025-08-28 21:59:00

西熱力江:新疆給趙睿720萬頂薪都留不住應(yīng)該拿他去換曾凡博廖三寧

西熱力江:新疆給趙睿720萬頂薪都留不住應(yīng)該拿他去換曾凡博廖三寧

818體育

2025-08-30 15:05:16

七夕共懷嚴(yán)鳳英，含冤而死后慘遭“開膛破肚”

七夕共懷嚴(yán)鳳英，含冤而死后慘遭“開膛破肚”

深度報(bào)

2025-08-29 16:22:55

男子在甘肅張掖七彩丹霞景區(qū)翻護(hù)欄下山撿相機(jī)！當(dāng)?shù)匚穆镁郑翰閷?shí)后會(huì)對(duì)當(dāng)事人做出處理，踩踏未造成太大影響

男子在甘肅張掖七彩丹霞景區(qū)翻護(hù)欄下山撿相機(jī)！當(dāng)?shù)匚穆镁郑翰閷?shí)后會(huì)對(duì)當(dāng)事人做出處理，踩踏未造成太大影響

臺(tái)州交通廣播

2025-08-30 16:37:55

重要賽事：8月31日晚18點(diǎn)，央視CCTV5直播有變，中國女排沖擊8強(qiáng)

重要賽事：8月31日晚18點(diǎn)，央視CCTV5直播有變，中國女排沖擊8強(qiáng)

體育就你秀

2025-08-30 12:14:02

巴基斯坦總理：中國為巴基斯坦所做的一切，都是美國做不到的

巴基斯坦總理：中國為巴基斯坦所做的一切，都是美國做不到的

泠泠說史

2025-08-30 17:54:07

敢跟美國正面硬剛的第二個(gè)國家出現(xiàn)，中國苦心經(jīng)營奏效

敢跟美國正面硬剛的第二個(gè)國家出現(xiàn)，中國苦心經(jīng)營奏效

閆樹軍論評(píng)

2025-08-30 21:27:30

孫興慜：美職聯(lián)有梅西、蘇亞雷斯等人，我的名字可能不算響亮

孫興慜：美職聯(lián)有梅西、蘇亞雷斯等人，我的名字可能不算響亮

懂球帝

2025-08-30 17:39:56

中泰鐵路大結(jié)局？泰中途把800億高鐵大單給日本，10年后悔不當(dāng)初

中泰鐵路大結(jié)局？泰中途把800億高鐵大單給日本，10年后悔不當(dāng)初

瘋狂的小菠蘿

2025-08-30 14:53:23

降息525基點(diǎn)！

格隆匯

2025-08-30 20:19:31

1946年華中軍區(qū)曾密電毛澤東：陳毅不會(huì)打仗！毛主席三句話定乾坤

1946年華中軍區(qū)曾密電毛澤東：陳毅不會(huì)打仗！毛主席三句話定乾坤

云霄紀(jì)史觀

2025-08-30 15:00:23

運(yùn)氣真好，曼聯(lián)新賽季英超的前兩個(gè)進(jìn)球都來自于對(duì)手烏龍

運(yùn)氣真好，曼聯(lián)新賽季英超的前兩個(gè)進(jìn)球都來自于對(duì)手烏龍

懂球帝

2025-08-30 22:47:24

余承東：尚界虧本也要讓利給消費(fèi)者，尚界H5憑16.98萬元預(yù)售價(jià)一舉打爆車圈

余承東：尚界虧本也要讓利給消費(fèi)者，尚界H5憑16.98萬元預(yù)售價(jià)一舉打爆車圈

瀟湘晨報(bào)

2025-08-30 16:47:16

這5類常用藥不宜長期使用，會(huì)破壞免疫力，不少人還在亂用

這5類常用藥不宜長期使用，會(huì)破壞免疫力，不少人還在亂用

醫(yī)者真言

2025-08-28 16:06:31

男軍官拒絕給孕婦讓座，下車后，椅背上的紙條讓孕婦崩潰了

男軍官拒絕給孕婦讓座，下車后，椅背上的紙條讓孕婦崩潰了

第四思維

2025-08-27 09:22:11

巴黎世錦賽混雙：蔣魏組合2-1逆轉(zhuǎn)娃卉組合，首次躋身世錦賽決賽

巴黎世錦賽混雙：蔣魏組合2-1逆轉(zhuǎn)娃卉組合，首次躋身世錦賽決賽

直播吧

2025-08-30 17:49:39

追蹤人工智能動(dòng)態(tài)

11215文章數(shù) 176256關(guān)注度

往期回顧全部

科技要聞

李斌內(nèi)部講話：蔚來四季度必須盈利

頭條要聞

關(guān)稅政策遭沉重打擊特朗普回?fù)簦核嘘P(guān)稅仍然有效

頭條要聞

關(guān)稅政策遭沉重打擊特朗普回?fù)簦核嘘P(guān)稅仍然有效

體育要聞

淘汰曼聯(lián)的英乙隊(duì)，仍然沒有忘記張恩華

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法！

汽車要聞

輔助駕駛新賽道理想VLA司機(jī)大模型即將全量推送

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時(shí)尚

房產(chǎn)

親子

手機(jī)

數(shù)碼

伊姐周六熱推：電視劇《十二封信》；電影《死神來了：血脈詛咒》......

房產(chǎn)要聞

顛覆認(rèn)知！?？谡嬲暮勒髌?，終于出現(xiàn)了！

親子要聞

廣東教育廳明確：今年秋季開學(xué)起逐步推行免費(fèi)學(xué)前教育

手機(jī)要聞

小米16系列再次被確認(rèn)：大電池、新工藝、強(qiáng)性能，亮點(diǎn)基本清晰了

數(shù)碼要聞

小米召回14萬充電寶支持退款

© 1997-2025 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版