成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,大模型棋王誕生!40輪血戰(zhàn),OpenAI o3豪奪第一,人類大師地位不保?

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】繼Kaggle Game Arena的淘汰賽后,國際象棋積分賽成果出爐!OpenAI o3以人類等效Elo 1685分傲視群雄,而Grok 4和Gemini 2.5 Pro緊隨其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

別再拿淘汰賽說事了!

這次是真刀真槍的「積分賽」,Elo榜單才是硬實(shí)力。

40輪血戰(zhàn),國際象棋AI僅文本輸入結(jié)果出爐了。

僅使用文本輸入、無工具、無驗(yàn)證器,各大AI模型進(jìn)行對決。

每組配對進(jìn)行超過40場比賽,構(gòu)建了類似圍棋等運(yùn)動項(xiàng)目的Elo排名。


OpenAI o3獨(dú)占鰲頭,Grok、Gemini位列榜眼。

第一名:o3 ,估計(jì)人類Elo為1685分,而人類大師水平為2200分!

第二名:Grok 4,估計(jì)人類Elo為1395分,表現(xiàn)不錯。

第三名: Gemini 2.5 Pro,估計(jì)人類Elo為1343分,稍遜一籌。


另外,值得一提的是DeepSeek-R1-0528和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。


Game Arena首次積分賽排行榜

之前,Kaggle舉辦了首屆AI國際象棋表演賽,展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在國際象棋方面的表現(xiàn)。


這些模型進(jìn)步明顯,大家從中獲得了不少樂趣,比如發(fā)現(xiàn)大語言模型特別喜歡西西里防御開局。

但四局三勝的淘汰賽偶然性太大,并不能嚴(yán)格衡量模型的真實(shí)水平。

因此,今天谷歌旗下的Kaggle正式發(fā)布了Game Arena平臺上的國際象棋文本排行榜


排行榜鏈接:https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

國際象棋文本排行榜是一個嚴(yán)格的AI基準(zhǔn)測試平臺。前沿大語言模型在此競技,全面考驗(yàn)它們的戰(zhàn)略推理、規(guī)劃、適應(yīng)和協(xié)作能力。

平臺通過透明的測試設(shè)計(jì)、豐富的游戲數(shù)據(jù)和不斷更新的多游戲排行榜,為評估 AI 的真實(shí)認(rèn)知能力提供了動態(tài)且可復(fù)現(xiàn)的標(biāo)準(zhǔn)。

國際象棋文本排行榜

該排行榜基于所有參賽模型之間的循環(huán)賽結(jié)果,每對模型進(jìn)行20場白棋和20場黑棋的對決,總共40場比賽。

這次還擴(kuò)大了參賽模型范圍,不僅包括上周表演賽的8個模型,還增加了更多模型,以提供更全面、更可靠的評估結(jié)果。


Game Arena的Elo分?jǐn)?shù)采用標(biāo)準(zhǔn)的Bradley-Terry算法,基于模型之間的對戰(zhàn)結(jié)果計(jì)算。

為了估算這些模型的人類等效Elo評分,它們與L0到L3不同等級的國際象棋Stockfish引擎對弈。

通過線性插值法,根據(jù)Stockfish各等級對應(yīng)的人類Elo評分,計(jì)算出大模型的人類等效Elo分。具體來說:L0對應(yīng)1320分,L1對應(yīng)1468分,L2對應(yīng)1608分,L3對應(yīng)1742分。

需要注意的是,這些模型距離頂級人類棋手仍有較大差距

人類「大師」級棋手的評分為2200或更高,

「特級大師」為2500或更高,

而最強(qiáng)版本的Stockfish引擎估計(jì)的人類Elo評分高達(dá)3644。

Stockfish是一款免費(fèi)且開源的國際象棋引擎。


自2020年以來,Stockfish贏得了頂級國際象棋引擎錦標(biāo)賽(TCEC)和Chess.com計(jì)算機(jī)國際象棋錦標(biāo)賽(CCC)的所有主要賽事,并且截至2025年8月,它是世界上最強(qiáng)的CPU國際象棋引擎,估計(jì)的Elo等級為3644,

置信區(qū)間則通過500次重采樣比賽結(jié)果,并分別計(jì)算Game Arena Elo和人類Elo分得出。

除了Elo分?jǐn)?shù),這次還增加了「平均每回合Token數(shù)」和「平均每回合成本」等指標(biāo),以反映模型在性能和效率之間的權(quán)衡。


自然,這個排行榜也有一些限制和缺陷

(1)僅限于國際象棋:沒有任何單一游戲可以捕捉智能的全部范圍。Kaggle將努力通過隨著時間的推移引入更多游戲來緩解這一問題。

(2)超時限制:施加嚴(yán)格的每步棋時間限制可能會懲罰那些需要更長時間才能得出結(jié)論、進(jìn)行更深入思考的模型,從而偏向于那些速度更快但可能更膚淺的策略。

(3)抽樣隨機(jī)性:使用了模型提供商設(shè)置的默認(rèn)抽樣參數(shù)。這些參數(shù)可能具有非確定性。

全新測試基準(zhǔn)

還能查看游戲回放

你可以在Kaggle的YouTube 播放列表中觀看帶解說的表演賽,但排行榜上提供了更多的對局回放。只需點(diǎn)擊模型旁邊的回放圖標(biāo),選擇想要觀看的對局即可。


此外,這次還發(fā)布了一個包含可移植棋譜(PGN)和模型公開推理過程的數(shù)據(jù)集:國際象棋文本輸入基準(zhǔn)測試「Chess Text Gameplay」。


數(shù)據(jù)集鏈接:https://www.kaggle.com/datasets/kaggle/chess-text-gameplay

國際象棋文本輸入基準(zhǔn)測試旨在評估和比較當(dāng)今通用語言模型的戰(zhàn)略推理能力。

這是Kaggle公開基準(zhǔn)測試平臺Game Arena的首個項(xiàng)目,該平臺讓AI模型在復(fù)雜的戰(zhàn)略游戲中競技,將嚴(yán)謹(jǐn)?shù)目茖W(xué)方法與觀賞性的競賽體驗(yàn)相結(jié)合。

為什么這很重要?Kaggle介紹了三大理由:

  1. 超越數(shù)據(jù)污染問題: 靜態(tài)測試無法區(qū)分模型的真實(shí)推理能力和記憶答案的能力。而在國際象棋文本輸入測試中,每一步?jīng)Q策都源自模型的內(nèi)部邏輯,確保評估的是真實(shí)的思考過程。

  2. 高壓環(huán)境下的表現(xiàn): 模型必須隨機(jī)應(yīng)變、從錯誤中恢復(fù),并抓住不斷變化的機(jī)會,如同人類國際象棋大師一樣應(yīng)對復(fù)雜局面。

  3. 通用人工智能(AGI)的洞察: 在此領(lǐng)域取得成功,意味著模型在多步驟戰(zhàn)略問題解決方面達(dá)到了重要的里程碑,為通用人工智能的發(fā)展提供了有價值的參考。

超越數(shù)據(jù)污染,這才是AI的「高考」!

每一步棋,都考驗(yàn)著大模型真·戰(zhàn)略推理、規(guī)劃和應(yīng)變能力。

他們也指出了該數(shù)據(jù)集的一些局限性,包括:

  • 推理:推理輸出是模型思考過程的生成性摘要。它不是內(nèi)部計(jì)算的字面追蹤,因?yàn)槟P屯ǔ[藏其內(nèi)部思考過程。

  • 測試框架:模型的性能與用于此基準(zhǔn)測試的特定測試框架(更多細(xì)節(jié))內(nèi)在相關(guān)。

  • 時間快照:該數(shù)據(jù)集代表了這些特定模型版本在收集時點(diǎn)的性能。

數(shù)據(jù)結(jié)構(gòu)「PGNs_with_reasoning」(包含推理的PGN)數(shù)據(jù)集包含表示大型語言模型所下國際象棋游戲的便攜式游戲記譜法(PGN)文件。每個PGN文件由國際象棋記譜和大型語言模型在每一

Kaggle計(jì)劃定期將新模型加入國際象棋文本排行榜及其他Game Arena排行榜,以跟蹤AI模型在戰(zhàn)略規(guī)劃、推理和其他認(rèn)知能力方面的進(jìn)步。

未來,Game Arena將推出更多游戲的排行榜,為AI模型的能力評估提供更全面的基準(zhǔn)。

今天的國際象棋文本排行榜只是第一步。

參考資料:

https://x.com/kaggle/status/1958546786081030206


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄對烏發(fā)起新一輪猛烈空襲,烏克蘭前最高拉達(dá)主席遇襲身亡

俄對烏發(fā)起新一輪猛烈空襲,烏克蘭前最高拉達(dá)主席遇襲身亡

史政先鋒
2025-08-30 23:46:14
閱兵還沒開始,特朗普對中國撂下狠話,外交部回應(yīng)反將了一軍

閱兵還沒開始,特朗普對中國撂下狠話,外交部回應(yīng)反將了一軍

生活魔術(shù)專家
2025-08-31 16:37:51
國民黨主席選舉,郝龍斌未下決心,韓國瑜將出手,或推代理人參戰(zhàn)

國民黨主席選舉,郝龍斌未下決心,韓國瑜將出手,或推代理人參戰(zhàn)

現(xiàn)代小青青慕慕
2025-08-31 14:58:16
比芯片還難攻克?美國尖端武器放在我國幾十年,至今未能仿制成功

比芯片還難攻克?美國尖端武器放在我國幾十年,至今未能仿制成功

滄海旅行家
2025-08-29 20:42:02
?林峯老婆被闊太打到流產(chǎn)的瓜

?林峯老婆被闊太打到流產(chǎn)的瓜

熱鬧吃瓜大姐
2025-08-29 19:45:23
2025高考錄取總結(jié):民辦崩盤,鐵飯碗被捧上天,985天坑專業(yè)遇冷

2025高考錄取總結(jié):民辦崩盤,鐵飯碗被捧上天,985天坑專業(yè)遇冷

狐貍先森講升學(xué)規(guī)劃
2025-08-28 20:46:01
給退休金設(shè)立上下限,不止關(guān)乎公平問題,更關(guān)乎國家的未來

給退休金設(shè)立上下限,不止關(guān)乎公平問題,更關(guān)乎國家的未來

百味朱砂
2025-08-14 11:54:35
三連勝!申京再轟20+7+5,科塔15+7被壓制,難怪火箭想交易6號簽

三連勝!申京再轟20+7+5,科塔15+7被壓制,難怪火箭想交易6號簽

巴叔GO聊體育
2025-08-31 09:18:36
朝鮮誰都不服,卻主動將3位中國人寫進(jìn)教科書,并為其立了銅像!

朝鮮誰都不服,卻主動將3位中國人寫進(jìn)教科書,并為其立了銅像!

浩舞默畫
2025-08-14 08:53:59
金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

凡知
2025-08-30 15:10:45
Here we go!羅馬諾:霍伊倫將加盟那不勒斯,轉(zhuǎn)會總價5000萬歐

Here we go!羅馬諾:霍伊倫將加盟那不勒斯,轉(zhuǎn)會總價5000萬歐

懂球帝
2025-08-30 20:18:41
董卿父親董善祥:我這輩子最后悔的事,就是讓寶貝女兒嫁給密春雷

董卿父親董善祥:我這輩子最后悔的事,就是讓寶貝女兒嫁給密春雷

孫镴北漂拍客
2025-08-30 23:51:41
48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

罪案洞察者
2025-07-19 13:49:07
1973年,入獄7年,58歲的她無罪釋放,她卻拒絕出獄

1973年,入獄7年,58歲的她無罪釋放,她卻拒絕出獄

玥來玥好講故事
2025-08-29 20:36:14
下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊(duì)保級

下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊(duì)保級

綠茵舞著
2025-08-30 15:15:47
豐田強(qiáng)勢出擊!13.58萬起價,標(biāo)配10氣囊,月銷破萬引爆搶購潮!

豐田強(qiáng)勢出擊!13.58萬起價,標(biāo)配10氣囊,月銷破萬引爆搶購潮!

沙雕小琳琳
2025-08-30 21:23:58
重磅消息!哈馬斯軍事宣傳“靈魂人物”被以色列斬首!

重磅消息!哈馬斯軍事宣傳“靈魂人物”被以色列斬首!

國際情爆猿
2025-08-31 14:07:47
俄羅斯宣布將繼續(xù)侵略烏克蘭

俄羅斯宣布將繼續(xù)侵略烏克蘭

桂系007
2025-08-31 02:46:41
重慶市政協(xié)秘書長藍(lán)慶華被查,今年1月履新

重慶市政協(xié)秘書長藍(lán)慶華被查,今年1月履新

政知新媒體
2025-08-31 19:31:51
緊急提醒!明天,太原人請?zhí)崆?小時出門...

緊急提醒!明天,太原人請?zhí)崆?小時出門...

太原全接觸
2025-08-31 12:28:01
2025-08-31 21:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13359文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對比

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學(xué):辛苦但快樂

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學(xué):辛苦但快樂

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

時尚
本地
家居
健康
公開課

今年秋天最流行的4組搭配,誰穿誰好看!

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

家居要聞

提升功能 靈活居住環(huán)境

精神科專家解答學(xué)習(xí)困難七大問題

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版