henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
又是一場(chǎng)酣暢淋漓的戰(zhàn)斗!
寶可夢(mèng)主播GPT-5在直播間鏖戰(zhàn)一小時(shí),成功擊敗赤爺(Red),公屏瞬間刷滿GG(Good Game)。
根據(jù)推特博主Clad3815的最新戰(zhàn)報(bào),GPT-5僅用9517步就放倒了赤爺,通關(guān)《寶可夢(mèng)水晶》。
相比之下,o3則用了27040步,所用步數(shù)幾乎是GPT-5的三倍。
換句話說,GPT-5不吃不喝連肝一周多一點(diǎn)(202小時(shí))就能通關(guān)的《寶可夢(mèng)水晶》,換成o3需要近一個(gè)月。
如果把視角拉回到普通人類玩家身上,通關(guān)《寶可夢(mèng)水晶》的時(shí)間通常在5天左右(每天8小時(shí))。
基于此,不少玩家已經(jīng)開始留言,請(qǐng)繼續(xù)征戰(zhàn)下一代寶可夢(mèng)!
那么,GPT-5是怎么做到的?
赤爺不語,GPT-5登頂寶可夢(mèng)
在《寶可夢(mèng)水晶》的劇情中,玩家從小鎮(zhèn)出發(fā),選擇寶可夢(mèng),挑戰(zhàn)道館館主、收集徽章,阻止火箭隊(duì)的陰謀,最終迎戰(zhàn)最強(qiáng)訓(xùn)練家——赤紅(《寶可夢(mèng)紅/藍(lán)》的主角)
而這次,GPT-5就化身小智,成為了新的挑戰(zhàn)者——并一舉擊敗赤爺,登頂寶可夢(mèng)。
除了我們開頭提到的,GPT-5僅用了o3三分之一的步數(shù)就實(shí)現(xiàn)了通關(guān),在《寶可夢(mèng)水晶》全部的主線任務(wù)中,GPT-5也是按照劇情一路平推,效率遠(yuǎn)超o3好幾倍。
(注:在《寶可夢(mèng)水晶》中,玩家擊敗boss后仍然可以自由探索收集寶可夢(mèng),所以直播還開著。)
例如,在收集全部16枚游戲徽章的主線中,GPT-5僅用了9205步,而o3則耗費(fèi)了22334步。
更驚人的是,從收集完所有徽章到戰(zhàn)勝赤爺,o3還需要近5000步,而GPT-5僅用了312步,加速了十幾倍。
同樣的,在四天王和冠軍的劇情中,GPT-5也是僅花了7329步,而o3則用了兩倍多的步數(shù)(18115步)。
此外,在通關(guān)《寶可夢(mèng)水晶》之前,GPT-5還被用來通關(guān)《寶可夢(mèng)紅》(游戲長(zhǎng)度約為《寶可夢(mèng)水晶》的一半)。
赤爺不語,依舊是3倍的效率碾壓。
對(duì)此,OpenAI的總裁兼聯(lián)合創(chuàng)始人Greg Brockman也是親自轉(zhuǎn)發(fā)表示認(rèn)可!
看到GPT-5的生猛表現(xiàn),Clad老哥總結(jié)了這么幾個(gè)原因:
- 幻覺少,速度快:GPT-5的“幻覺”明顯比o3少,這也是它速度提升的主要原因。
- 空間推理強(qiáng):o3經(jīng)常試圖硬穿墻,復(fù)雜區(qū)域容易迷路,而GPT-5能規(guī)劃較長(zhǎng)行動(dòng)序列,幾乎不出錯(cuò),節(jié)省大量時(shí)間。
- 目標(biāo)規(guī)劃更好:GPT-5在規(guī)劃自身目標(biāo)并執(zhí)行上表現(xiàn)出色。
難道說,GPT-5模型能力的提升,在寶可夢(mèng)這個(gè)舞臺(tái)上才被完全體現(xiàn)出來?
(讓子彈多飛一會(huì)兒)
不過,必須說明的是——讓大模型玩寶可夢(mèng)并不新鮮。
早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾挑戰(zhàn)過寶可夢(mèng)。
其中,Gemini 2.5 Pro在今年五月的直播中,成功通關(guān)了《寶可夢(mèng)藍(lán)》,而Claude就比較慘了,至今仍被困于火箭隊(duì)。
那么問題來了:為啥AI大模型都如此偏愛這款上世紀(jì)的懷舊游戲呢?
寶可夢(mèng)是新的benchmark?
要回答上面的問題,我們得先知道大模型是怎么玩寶可夢(mèng)的。
一般來說,大模型玩寶可夢(mèng)的基本步驟如下:
- 提供一個(gè)系統(tǒng)提示,包含關(guān)于如何進(jìn)行游戲的實(shí)質(zhì)性建議
- 提供帶有額外信息疊加的游戲截圖
- 提供來自游戲內(nèi)存(RAM)的關(guān)鍵信息
- 提供保存文本以進(jìn)行規(guī)劃的能力
- 提供一個(gè)工具,可以將文本指令轉(zhuǎn)換為模擬器中的按鍵操作
- 提供路徑規(guī)劃工具
- 讓上下文能夠被自動(dòng)清理并定期總結(jié)
- 一個(gè)額外的用來“自我批評(píng)”的Critic/Guide模型。它們定期對(duì)主模型進(jìn)行評(píng)審,并配備系統(tǒng)提示以幫助主模型避免常見失敗模式。
此外,大模型還會(huì)專門構(gòu)建一個(gè)帶標(biāo)記的小地圖,幫助其在游戲世界里定位,這類似于人類玩家在玩游戲時(shí)腦補(bǔ)地圖的方式。
綜上,我們就獲得了一個(gè)基本印象:在寶可夢(mèng)游戲中,大模型通過多層信息整合、規(guī)劃、執(zhí)行與自我糾錯(cuò),實(shí)現(xiàn)了接近人類玩家的決策能力。
由此,寶可夢(mèng)游戲就能作為衡量模型上下文能力、決策規(guī)劃、界面控制能力的指標(biāo)之一。
可惜的是,這場(chǎng)考試的報(bào)名費(fèi)可并不便宜。
根據(jù)網(wǎng)友分析,在GPT-5通關(guān)游戲長(zhǎng)度僅為《寶可夢(mèng)水晶》一半的《寶可夢(mèng)紅》中,就花費(fèi)了約3500美元(約2萬五人民幣)的GPT-5 API額度。其中,每個(gè)token的花費(fèi)就達(dá)到了4塊多人民幣。
所以,除非你在OpenAI工作,否則想把寶可夢(mèng)當(dāng)作benchmark,還得先掂量一下錢包夠不夠厚。
[1]https://x.com/Clad3815/status/1959856362059387098
[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s
[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data
[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.