網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5通關(guān)《寶可夢(mèng)水晶》創(chuàng)紀(jì)錄！效率碾壓o3三倍！

2025-08-26 17:29:42　來源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

又是一場(chǎng)酣暢淋漓的戰(zhàn)斗！

寶可夢(mèng)主播GPT-5在直播間鏖戰(zhàn)一小時(shí)，成功擊敗赤爺（Red），公屏瞬間刷滿GG（Good Game）。

根據(jù)推特博主Clad3815的最新戰(zhàn)報(bào)，GPT-5僅用9517步就放倒了赤爺，通關(guān)《寶可夢(mèng)水晶》。

相比之下，o3則用了27040步，所用步數(shù)幾乎是GPT-5的三倍。

換句話說，GPT-5不吃不喝連肝一周多一點(diǎn)（202小時(shí)）就能通關(guān)的《寶可夢(mèng)水晶》，換成o3需要近一個(gè)月。

如果把視角拉回到普通人類玩家身上，通關(guān)《寶可夢(mèng)水晶》的時(shí)間通常在5天左右（每天8小時(shí)）。

基于此，不少玩家已經(jīng)開始留言，請(qǐng)繼續(xù)征戰(zhàn)下一代寶可夢(mèng)！

那么，GPT-5是怎么做到的？

赤爺不語，GPT-5登頂寶可夢(mèng)

在《寶可夢(mèng)水晶》的劇情中，玩家從小鎮(zhèn)出發(fā)，選擇寶可夢(mèng)，挑戰(zhàn)道館館主、收集徽章，阻止火箭隊(duì)的陰謀，最終迎戰(zhàn)最強(qiáng)訓(xùn)練家——赤紅（《寶可夢(mèng)紅/藍(lán)》的主角）

而這次，GPT-5就化身小智，成為了新的挑戰(zhàn)者——并一舉擊敗赤爺，登頂寶可夢(mèng)。

除了我們開頭提到的，GPT-5僅用了o3三分之一的步數(shù)就實(shí)現(xiàn)了通關(guān)，在《寶可夢(mèng)水晶》全部的主線任務(wù)中，GPT-5也是按照劇情一路平推，效率遠(yuǎn)超o3好幾倍。

（注：在《寶可夢(mèng)水晶》中，玩家擊敗boss后仍然可以自由探索收集寶可夢(mèng)，所以直播還開著。）

例如，在收集全部16枚游戲徽章的主線中，GPT-5僅用了9205步，而o3則耗費(fèi)了22334步。

更驚人的是，從收集完所有徽章到戰(zhàn)勝赤爺，o3還需要近5000步，而GPT-5僅用了312步，加速了十幾倍。

同樣的，在四天王和冠軍的劇情中，GPT-5也是僅花了7329步，而o3則用了兩倍多的步數(shù)（18115步）。

此外，在通關(guān)《寶可夢(mèng)水晶》之前，GPT-5還被用來通關(guān)《寶可夢(mèng)紅》（游戲長(zhǎng)度約為《寶可夢(mèng)水晶》的一半）。

赤爺不語，依舊是3倍的效率碾壓。

對(duì)此，OpenAI的總裁兼聯(lián)合創(chuàng)始人Greg Brockman也是親自轉(zhuǎn)發(fā)表示認(rèn)可！

看到GPT-5的生猛表現(xiàn)，Clad老哥總結(jié)了這么幾個(gè)原因：

幻覺少，速度快：GPT-5的“幻覺”明顯比o3少，這也是它速度提升的主要原因。
空間推理強(qiáng)：o3經(jīng)常試圖硬穿墻，復(fù)雜區(qū)域容易迷路，而GPT-5能規(guī)劃較長(zhǎng)行動(dòng)序列，幾乎不出錯(cuò)，節(jié)省大量時(shí)間。
目標(biāo)規(guī)劃更好：GPT-5在規(guī)劃自身目標(biāo)并執(zhí)行上表現(xiàn)出色。

難道說，GPT-5模型能力的提升，在寶可夢(mèng)這個(gè)舞臺(tái)上才被完全體現(xiàn)出來？

（讓子彈多飛一會(huì)兒）

不過，必須說明的是——讓大模型玩寶可夢(mèng)并不新鮮。

早在GPT-5之前，Google的Gemini和Anthropic的Claude就曾挑戰(zhàn)過寶可夢(mèng)。

其中，Gemini 2.5 Pro在今年五月的直播中，成功通關(guān)了《寶可夢(mèng)藍(lán)》，而Claude就比較慘了，至今仍被困于火箭隊(duì)。

那么問題來了：為啥AI大模型都如此偏愛這款上世紀(jì)的懷舊游戲呢？

寶可夢(mèng)是新的benchmark？

要回答上面的問題，我們得先知道大模型是怎么玩寶可夢(mèng)的。

一般來說，大模型玩寶可夢(mèng)的基本步驟如下：

提供一個(gè)系統(tǒng)提示，包含關(guān)于如何進(jìn)行游戲的實(shí)質(zhì)性建議
提供帶有額外信息疊加的游戲截圖
提供來自游戲內(nèi)存（RAM）的關(guān)鍵信息
提供保存文本以進(jìn)行規(guī)劃的能力
提供一個(gè)工具，可以將文本指令轉(zhuǎn)換為模擬器中的按鍵操作
提供路徑規(guī)劃工具
讓上下文能夠被自動(dòng)清理并定期總結(jié)
一個(gè)額外的用來“自我批評(píng)”的Critic/Guide模型。它們定期對(duì)主模型進(jìn)行評(píng)審，并配備系統(tǒng)提示以幫助主模型避免常見失敗模式。

此外，大模型還會(huì)專門構(gòu)建一個(gè)帶標(biāo)記的小地圖，幫助其在游戲世界里定位，這類似于人類玩家在玩游戲時(shí)腦補(bǔ)地圖的方式。

綜上，我們就獲得了一個(gè)基本印象：在寶可夢(mèng)游戲中，大模型通過多層信息整合、規(guī)劃、執(zhí)行與自我糾錯(cuò)，實(shí)現(xiàn)了接近人類玩家的決策能力。

由此，寶可夢(mèng)游戲就能作為衡量模型上下文能力、決策規(guī)劃、界面控制能力的指標(biāo)之一。

可惜的是，這場(chǎng)考試的報(bào)名費(fèi)可并不便宜。

根據(jù)網(wǎng)友分析，在GPT-5通關(guān)游戲長(zhǎng)度僅為《寶可夢(mèng)水晶》一半的《寶可夢(mèng)紅》中，就花費(fèi)了約3500美元（約2萬五人民幣）的GPT-5 API額度。其中，每個(gè)token的花費(fèi)就達(dá)到了4塊多人民幣。

所以，除非你在OpenAI工作，否則想把寶可夢(mèng)當(dāng)作benchmark，還得先掂量一下錢包夠不夠厚。

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.