剛剛，大模型棋王誕生！40輪血戰(zhàn)，OpenAI o3豪奪第一，人類大師地位不保？

2025-08-22 20:39:42　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】繼Kaggle Game Arena的淘汰賽后，國際象棋積分賽成果出爐！OpenAI o3以人類等效Elo 1685分傲視群雄，而Grok 4和Gemini 2.5 Pro緊隨其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

別再拿淘汰賽說事了！

這次是真刀真槍的「積分賽」，Elo榜單才是硬實(shí)力。

40輪血戰(zhàn)，國際象棋AI僅文本輸入結(jié)果出爐了。

僅使用文本輸入、無工具、無驗(yàn)證器，各大AI模型進(jìn)行對決。

每組配對進(jìn)行超過40場比賽，構(gòu)建了類似圍棋等運(yùn)動項(xiàng)目的Elo排名。

OpenAI o3獨(dú)占鰲頭，Grok、Gemini位列榜眼。

第一名：o3 ，估計(jì)人類Elo為1685分，而人類大師水平為2200分！

第二名：Grok 4，估計(jì)人類Elo為1395分，表現(xiàn)不錯。

第三名: Gemini 2.5 Pro，估計(jì)人類Elo為1343分，稍遜一籌。

另外，值得一提的是DeepSeek-R1-0528和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

Game Arena首次積分賽排行榜

之前，Kaggle舉辦了首屆AI國際象棋表演賽，展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在國際象棋方面的表現(xiàn)。

這些模型進(jìn)步明顯，大家從中獲得了不少樂趣，比如發(fā)現(xiàn)大語言模型特別喜歡西西里防御開局。

但四局三勝的淘汰賽偶然性太大，并不能嚴(yán)格衡量模型的真實(shí)水平。

因此，今天谷歌旗下的Kaggle正式發(fā)布了Game Arena平臺上的國際象棋文本排行榜。

排行榜鏈接：https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

國際象棋文本排行榜是一個嚴(yán)格的AI基準(zhǔn)測試平臺。前沿大語言模型在此競技，全面考驗(yàn)它們的戰(zhàn)略推理、規(guī)劃、適應(yīng)和協(xié)作能力。

平臺通過透明的測試設(shè)計(jì)、豐富的游戲數(shù)據(jù)和不斷更新的多游戲排行榜，為評估 AI 的真實(shí)認(rèn)知能力提供了動態(tài)且可復(fù)現(xiàn)的標(biāo)準(zhǔn)。

國際象棋文本排行榜

該排行榜基于所有參賽模型之間的循環(huán)賽結(jié)果，每對模型進(jìn)行20場白棋和20場黑棋的對決，總共40場比賽。

這次還擴(kuò)大了參賽模型范圍，不僅包括上周表演賽的8個模型，還增加了更多模型，以提供更全面、更可靠的評估結(jié)果。

Game Arena的Elo分?jǐn)?shù)采用標(biāo)準(zhǔn)的Bradley-Terry算法，基于模型之間的對戰(zhàn)結(jié)果計(jì)算。

為了估算這些模型的人類等效Elo評分，它們與L0到L3不同等級的國際象棋Stockfish引擎對弈。

通過線性插值法，根據(jù)Stockfish各等級對應(yīng)的人類Elo評分，計(jì)算出大模型的人類等效Elo分。具體來說：L0對應(yīng)1320分，L1對應(yīng)1468分，L2對應(yīng)1608分，L3對應(yīng)1742分。

需要注意的是，這些模型距離頂級人類棋手仍有較大差距：

人類「大師」級棋手的評分為2200或更高，

「特級大師」為2500或更高，

而最強(qiáng)版本的Stockfish引擎估計(jì)的人類Elo評分高達(dá)3644。

Stockfish是一款免費(fèi)且開源的國際象棋引擎。

自2020年以來，Stockfish贏得了頂級國際象棋引擎錦標(biāo)賽（TCEC）和Chess.com計(jì)算機(jī)國際象棋錦標(biāo)賽（CCC）的所有主要賽事，并且截至2025年8月，它是世界上最強(qiáng)的CPU國際象棋引擎，估計(jì)的Elo等級為3644，

置信區(qū)間則通過500次重采樣比賽結(jié)果，并分別計(jì)算Game Arena Elo和人類Elo分得出。

除了Elo分?jǐn)?shù)，這次還增加了「平均每回合Token數(shù)」和「平均每回合成本」等指標(biāo)，以反映模型在性能和效率之間的權(quán)衡。

自然，這個排行榜也有一些限制和缺陷：

（1）僅限于國際象棋：沒有任何單一游戲可以捕捉智能的全部范圍。Kaggle將努力通過隨著時間的推移引入更多游戲來緩解這一問題。

（2）超時限制：施加嚴(yán)格的每步棋時間限制可能會懲罰那些需要更長時間才能得出結(jié)論、進(jìn)行更深入思考的模型，從而偏向于那些速度更快但可能更膚淺的策略。

（3）抽樣隨機(jī)性：使用了模型提供商設(shè)置的默認(rèn)抽樣參數(shù)。這些參數(shù)可能具有非確定性。

全新測試基準(zhǔn)

還能查看游戲回放

你可以在Kaggle的YouTube 播放列表中觀看帶解說的表演賽，但排行榜上提供了更多的對局回放。只需點(diǎn)擊模型旁邊的回放圖標(biāo)，選擇想要觀看的對局即可。

此外，這次還發(fā)布了一個包含可移植棋譜（PGN）和模型公開推理過程的數(shù)據(jù)集：國際象棋文本輸入基準(zhǔn)測試「Chess Text Gameplay」。

數(shù)據(jù)集鏈接：https://www.kaggle.com/datasets/kaggle/chess-text-gameplay

國際象棋文本輸入基準(zhǔn)測試旨在評估和比較當(dāng)今通用語言模型的戰(zhàn)略推理能力。

這是Kaggle公開基準(zhǔn)測試平臺Game Arena的首個項(xiàng)目，該平臺讓AI模型在復(fù)雜的戰(zhàn)略游戲中競技，將嚴(yán)謹(jǐn)?shù)目茖W(xué)方法與觀賞性的競賽體驗(yàn)相結(jié)合。

為什么這很重要？Kaggle介紹了三大理由：

超越數(shù)據(jù)污染問題：靜態(tài)測試無法區(qū)分模型的真實(shí)推理能力和記憶答案的能力。而在國際象棋文本輸入測試中，每一步?jīng)Q策都源自模型的內(nèi)部邏輯，確保評估的是真實(shí)的思考過程。
高壓環(huán)境下的表現(xiàn)：模型必須隨機(jī)應(yīng)變、從錯誤中恢復(fù)，并抓住不斷變化的機(jī)會，如同人類國際象棋大師一樣應(yīng)對復(fù)雜局面。
通用人工智能（AGI）的洞察：在此領(lǐng)域取得成功，意味著模型在多步驟戰(zhàn)略問題解決方面達(dá)到了重要的里程碑，為通用人工智能的發(fā)展提供了有價值的參考。

超越數(shù)據(jù)污染，這才是AI的「高考」！

每一步棋，都考驗(yàn)著大模型真·戰(zhàn)略推理、規(guī)劃和應(yīng)變能力。

他們也指出了該數(shù)據(jù)集的一些局限性，包括：

推理：推理輸出是模型思考過程的生成性摘要。它不是內(nèi)部計(jì)算的字面追蹤，因?yàn)槟Ｐ屯ǔ[藏其內(nèi)部思考過程。
測試框架：模型的性能與用于此基準(zhǔn)測試的特定測試框架（更多細(xì)節(jié)）內(nèi)在相關(guān)。
時間快照：該數(shù)據(jù)集代表了這些特定模型版本在收集時點(diǎn)的性能。

數(shù)據(jù)結(jié)構(gòu)「PGNs_with_reasoning」（包含推理的PGN）數(shù)據(jù)集包含表示大型語言模型所下國際象棋游戲的便攜式游戲記譜法（PGN）文件。每個PGN文件由國際象棋記譜和大型語言模型在每一

Kaggle計(jì)劃定期將新模型加入國際象棋文本排行榜及其他Game Arena排行榜，以跟蹤AI模型在戰(zhàn)略規(guī)劃、推理和其他認(rèn)知能力方面的進(jìn)步。

未來，Game Arena將推出更多游戲的排行榜，為AI模型的能力評估提供更全面的基準(zhǔn)。

今天的國際象棋文本排行榜只是第一步。

參考資料：

https://x.com/kaggle/status/1958546786081030206

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.