機(jī)器之心報(bào)道
編輯:杜偉
GPT-5 問世的同時(shí),o3 也在最后一戰(zhàn)中封王了。
備受 AI 圈關(guān)注的首屆谷歌 Kaggle AI Chess 大賽(也即大模型國際象棋對抗賽)迎來了最終贏家。
就在昨天,Grok 4 攜手 OpenAI o3 進(jìn)入了決賽。在機(jī)器之心的投票中,大家更傾向于 o3 戰(zhàn)勝 Grok 4。
決賽結(jié)果如大家預(yù)期的一樣,o3 以 4-0 橫掃 Grok 4 奪得冠軍
另外,在季軍爭奪戰(zhàn)中,Gemini 2.5 Pro 以 3.5-0.5(三勝一和)強(qiáng)勢擊敗了 o4-mini
下圖為整個(gè)賽事所有選手的對陣表以及冠亞季軍得主。
評論區(qū)很有意思,「Grok 4 很強(qiáng),直到它遇上了 o3?!?/p>
隨著今晨 GPT-5 的發(fā)布,大家很好奇它會(huì)有怎樣的表現(xiàn)呢。
冠亞軍爭奪
o3 橫掃 Grok 4
一直到半決賽,Grok 4 的勢頭都很猛,被認(rèn)為是奪冠熱門。就連馬斯克都「裝」了起來,稱 Grok 4 玩國際象棋大材小用,它本身就沒有針對象棋游戲進(jìn)行優(yōu)化。
盡管此前偶有不靈光的地方,但 xAI 的這款大模型始終展現(xiàn)出了碾壓級別的棋力。比賽中,Grok 4 落子時(shí)近乎冷漠的風(fēng)格,更讓這個(gè)招招致命的「機(jī)械野獸」看起來不可戰(zhàn)勝。
然而,Grok 4 的神話在決賽中轟然崩塌,以 0-4 完敗于喋喋不休(chatty)的 o3。
當(dāng)天,Grok 4 的棋風(fēng)與往日「判若兩人」,頻頻出現(xiàn)低級失誤,而 o3 幾乎全程保持冷酷的處刑姿態(tài)。
首局較量中,Grok 4 在開局階段就毫無緣由地白丟了一象。少子劣勢下,Grok 4 竟主動(dòng)尋求兌子,這顯然違反了所有棋類典籍中「劣勢方應(yīng)避免簡化局面」的黃金法則。
隨著接下來的連續(xù)失誤,Grok 4 被 o3 干凈利落地將死。首局失利
第二局上演了西西里防御的「毒兵變例」,這是國際象棋中一種極具攻擊性與風(fēng)險(xiǎn)性的開局變例,屬于西西里防御的分支,常見于納依多夫變例中。其核心是黑方故意吃掉白方看似「無保護(hù)」的 b2 或 a2 兵(實(shí)際是陷阱),從而引發(fā)激烈的戰(zhàn)術(shù)對抗。
如果說 b2 兵對人類棋手是劇毒之物,那么 a2 兵對人工智能而言簡直是致命病毒。比賽中,黑棋竟走出 12...Qxa2??,無視白方 c3 馬的守護(hù)貿(mào)然吃兵。此后o3 輕松贏得第二局的勝利
而到了 Grok 4 執(zhí)白的第三局,本賽事首次出現(xiàn) AI 采用西西里防御的馬羅茲結(jié)構(gòu)。憑借穩(wěn)健的盤面,Grok 4 似乎要重拾王者風(fēng)范。難道前兩局的潰敗只是戲耍對手嗎?顯然不是。
當(dāng)白棋走出 11.Nd5?? 并白送一馬時(shí),所有幻想隨之破滅。緊接著 Grok 4 又接連葬送皇后、車象易位權(quán),最終在第三局滿盤皆輸
到了決勝局,兩個(gè)大模型貢獻(xiàn)出了系列賽最膠著的一戰(zhàn),甚至一度輪到 o3 自毀長城,它早早因失誤白送皇后,局面陷入到了絕境。
但正如解說嘉賓、國際象棋大師中村光所指出的,盤面仍暗藏玄機(jī)。此后,o3 觸底反彈,與先前的致命失誤形成鮮明對比,憑借精妙戰(zhàn)術(shù)奪回后手。
比賽最終演變?yōu)?o3 多一兵的殘局,理論上仍可成和。不過,正如此前 Grok 4 手握車兵卻無法完成將死所暴露的缺陷,它在殘局階段顯然存在致命短板。
相反,o3 展現(xiàn)出更精準(zhǔn)的終盤理解力,步步為營完成升變,最終以教科書般的將殺為這場對決畫上句號。
隨著第四局的勝出,o3 成為首屆大模型國際象棋對抗賽的冠軍,Grok 4 只能屈居亞軍。
Gemini 2.5 Pro 摘得季軍
谷歌總算「沒白來」
季軍爭奪戰(zhàn)在谷歌 Gemini 2.5 Pro 與 OpenAI o4-mini 之間展開,雖然不像決賽結(jié)果那樣懸殊,卻也難稱得上稱勢均力敵。憑借三勝一和的戰(zhàn)績,Gemini 最終摘得銅牌。
不過,Gemini 的統(tǒng)治級表現(xiàn)背后,是全程混亂不堪的對局質(zhì)量,與冠軍 o3 行云流水的棋風(fēng)相差甚遠(yuǎn)。首局,Gemini 還能夠組織起像樣的攻勢,讓人誤以為這個(gè) AI「胸有成竹」。
然而,第三局的平局才真正暴露出這場季軍戰(zhàn)的本質(zhì) ——雙方幾乎都在夢游,整場對局充斥著業(yè)余級的失誤
這局棋的勝率曲線如同過山車般劇烈波動(dòng),雙方頻頻「互送大禮」,連最簡單的勝勢都無法把握。
完整對局形勢如下所示。盡管這場充滿爭議的平局暴露出了 Gemini 的不足,但它的整體表現(xiàn)已足夠亮眼。
最終,憑借另外三局的勝利,Gemini 2.5 Pro 成功鎖定季軍席位,不至于讓谷歌這個(gè)賽事主辦方顆粒無收。未來,人們更期待看到谷歌如何利用此次賽事數(shù)據(jù)來優(yōu)化其 AI 系統(tǒng)。
原文鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.