新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】繼Kaggle Game Arena的淘汰賽后,國際象棋積分賽成果出爐!OpenAI o3以人類等效Elo 1685分傲視群雄,而Grok 4和Gemini 2.5 Pro緊隨其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
別再拿淘汰賽說事了!
這次是真刀真槍的「積分賽」,Elo榜單才是硬實(shí)力。
40輪血戰(zhàn),國際象棋AI僅文本輸入結(jié)果出爐了。
僅使用文本輸入、無工具、無驗(yàn)證器,各大AI模型進(jìn)行對決。
每組配對進(jìn)行超過40場比賽,構(gòu)建了類似圍棋等運(yùn)動項(xiàng)目的Elo排名。
OpenAI o3獨(dú)占鰲頭,Grok、Gemini位列榜眼。
第一名:o3 ,估計(jì)人類Elo為1685分,而人類大師水平為2200分!
第二名:Grok 4,估計(jì)人類Elo為1395分,表現(xiàn)不錯。
第三名: Gemini 2.5 Pro,估計(jì)人類Elo為1343分,稍遜一籌。
另外,值得一提的是DeepSeek-R1-0528和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
Game Arena首次積分賽排行榜
之前,Kaggle舉辦了首屆AI國際象棋表演賽,展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在國際象棋方面的表現(xiàn)。
這些模型進(jìn)步明顯,大家從中獲得了不少樂趣,比如發(fā)現(xiàn)大語言模型特別喜歡西西里防御開局。
但四局三勝的淘汰賽偶然性太大,并不能嚴(yán)格衡量模型的真實(shí)水平。
因此,今天谷歌旗下的Kaggle正式發(fā)布了Game Arena平臺上的國際象棋文本排行榜。
排行榜鏈接:https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard
國際象棋文本排行榜是一個嚴(yán)格的AI基準(zhǔn)測試平臺。前沿大語言模型在此競技,全面考驗(yàn)它們的戰(zhàn)略推理、規(guī)劃、適應(yīng)和協(xié)作能力。
平臺通過透明的測試設(shè)計(jì)、豐富的游戲數(shù)據(jù)和不斷更新的多游戲排行榜,為評估 AI 的真實(shí)認(rèn)知能力提供了動態(tài)且可復(fù)現(xiàn)的標(biāo)準(zhǔn)。
國際象棋文本排行榜
該排行榜基于所有參賽模型之間的循環(huán)賽結(jié)果,每對模型進(jìn)行20場白棋和20場黑棋的對決,總共40場比賽。
這次還擴(kuò)大了參賽模型范圍,不僅包括上周表演賽的8個模型,還增加了更多模型,以提供更全面、更可靠的評估結(jié)果。
Game Arena的Elo分?jǐn)?shù)采用標(biāo)準(zhǔn)的Bradley-Terry算法,基于模型之間的對戰(zhàn)結(jié)果計(jì)算。
為了估算這些模型的人類等效Elo評分,它們與L0到L3不同等級的國際象棋Stockfish引擎對弈。
通過線性插值法,根據(jù)Stockfish各等級對應(yīng)的人類Elo評分,計(jì)算出大模型的人類等效Elo分。具體來說:L0對應(yīng)1320分,L1對應(yīng)1468分,L2對應(yīng)1608分,L3對應(yīng)1742分。
需要注意的是,這些模型距離頂級人類棋手仍有較大差距:
人類「大師」級棋手的評分為2200或更高,
「特級大師」為2500或更高,
而最強(qiáng)版本的Stockfish引擎估計(jì)的人類Elo評分高達(dá)3644。
Stockfish是一款免費(fèi)且開源的國際象棋引擎。
自2020年以來,Stockfish贏得了頂級國際象棋引擎錦標(biāo)賽(TCEC)和Chess.com計(jì)算機(jī)國際象棋錦標(biāo)賽(CCC)的所有主要賽事,并且截至2025年8月,它是世界上最強(qiáng)的CPU國際象棋引擎,估計(jì)的Elo等級為3644,
置信區(qū)間則通過500次重采樣比賽結(jié)果,并分別計(jì)算Game Arena Elo和人類Elo分得出。
除了Elo分?jǐn)?shù),這次還增加了「平均每回合Token數(shù)」和「平均每回合成本」等指標(biāo),以反映模型在性能和效率之間的權(quán)衡。
自然,這個排行榜也有一些限制和缺陷:
(1)僅限于國際象棋:沒有任何單一游戲可以捕捉智能的全部范圍。Kaggle將努力通過隨著時間的推移引入更多游戲來緩解這一問題。
(2)超時限制:施加嚴(yán)格的每步棋時間限制可能會懲罰那些需要更長時間才能得出結(jié)論、進(jìn)行更深入思考的模型,從而偏向于那些速度更快但可能更膚淺的策略。
(3)抽樣隨機(jī)性:使用了模型提供商設(shè)置的默認(rèn)抽樣參數(shù)。這些參數(shù)可能具有非確定性。
全新測試基準(zhǔn)
還能查看游戲回放
你可以在Kaggle的YouTube 播放列表中觀看帶解說的表演賽,但排行榜上提供了更多的對局回放。只需點(diǎn)擊模型旁邊的回放圖標(biāo),選擇想要觀看的對局即可。
此外,這次還發(fā)布了一個包含可移植棋譜(PGN)和模型公開推理過程的數(shù)據(jù)集:國際象棋文本輸入基準(zhǔn)測試「Chess Text Gameplay」。
數(shù)據(jù)集鏈接:https://www.kaggle.com/datasets/kaggle/chess-text-gameplay
國際象棋文本輸入基準(zhǔn)測試旨在評估和比較當(dāng)今通用語言模型的戰(zhàn)略推理能力。
這是Kaggle公開基準(zhǔn)測試平臺Game Arena的首個項(xiàng)目,該平臺讓AI模型在復(fù)雜的戰(zhàn)略游戲中競技,將嚴(yán)謹(jǐn)?shù)目茖W(xué)方法與觀賞性的競賽體驗(yàn)相結(jié)合。
為什么這很重要?Kaggle介紹了三大理由:
超越數(shù)據(jù)污染問題: 靜態(tài)測試無法區(qū)分模型的真實(shí)推理能力和記憶答案的能力。而在國際象棋文本輸入測試中,每一步?jīng)Q策都源自模型的內(nèi)部邏輯,確保評估的是真實(shí)的思考過程。
高壓環(huán)境下的表現(xiàn): 模型必須隨機(jī)應(yīng)變、從錯誤中恢復(fù),并抓住不斷變化的機(jī)會,如同人類國際象棋大師一樣應(yīng)對復(fù)雜局面。
通用人工智能(AGI)的洞察: 在此領(lǐng)域取得成功,意味著模型在多步驟戰(zhàn)略問題解決方面達(dá)到了重要的里程碑,為通用人工智能的發(fā)展提供了有價值的參考。
超越數(shù)據(jù)污染,這才是AI的「高考」!
每一步棋,都考驗(yàn)著大模型真·戰(zhàn)略推理、規(guī)劃和應(yīng)變能力。
他們也指出了該數(shù)據(jù)集的一些局限性,包括:
推理:推理輸出是模型思考過程的生成性摘要。它不是內(nèi)部計(jì)算的字面追蹤,因?yàn)槟P屯ǔ[藏其內(nèi)部思考過程。
測試框架:模型的性能與用于此基準(zhǔn)測試的特定測試框架(更多細(xì)節(jié))內(nèi)在相關(guān)。
時間快照:該數(shù)據(jù)集代表了這些特定模型版本在收集時點(diǎn)的性能。
數(shù)據(jù)結(jié)構(gòu)「PGNs_with_reasoning」(包含推理的PGN)數(shù)據(jù)集包含表示大型語言模型所下國際象棋游戲的便攜式游戲記譜法(PGN)文件。每個PGN文件由國際象棋記譜和大型語言模型在每一
Kaggle計(jì)劃定期將新模型加入國際象棋文本排行榜及其他Game Arena排行榜,以跟蹤AI模型在戰(zhàn)略規(guī)劃、推理和其他認(rèn)知能力方面的進(jìn)步。
未來,Game Arena將推出更多游戲的排行榜,為AI模型的能力評估提供更全面的基準(zhǔn)。
今天的國際象棋文本排行榜只是第一步。
參考資料:
https://x.com/kaggle/status/1958546786081030206
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.