成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5、Grok 4、o3 Pro都零分,史上最難AI評測基準換它了

0
分享至



機器之心報道

機器之心編輯部

前沿 AI 模型真的能做到博士級推理嗎?

前段時間,谷歌、OpenAI 的模型都在數(shù)學奧林匹克(IMO)水平測試中達到了金牌水準,這樣的表現(xiàn)讓人很容易聯(lián)想到 LLM 是不是已經(jīng)具備了解決博士級科研難題的推理能力?

然而,現(xiàn)實可能并不如想象中那么樂觀。

AAI,一個專注于超智能和高級 AI 系統(tǒng)研究的機構(gòu),近期提出的一個新基準 FormulaOne,讓一眾大模型集體得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。



  • HuggingFace:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne 包含 220 個新穎的圖結(jié)構(gòu)動態(tài)規(guī)劃問題,按難度分為三類,從中等難度直至科研級別。其中最高等級難度的題包括拓撲與幾何、組合問題分析等。



測試題的具體示例如下:依次是淺層難度、深層難度、更深層難度。







盡管這些問題陳述起來通常很自然,但其解決方案卻遠非顯而易見。這一大類問題的可解性由 Courcelle 提出的一個算法元定理所保證,該定理大致可以表述為:

「對于每個足夠類似樹的圖,任何可用一種富有表現(xiàn)力的形式邏輯(一元二階邏輯)定義的問題,都可以通過一個動態(tài)規(guī)劃算法來解決,且其運行時間與圖的階數(shù)成線性關(guān)系?!?br/>

其關(guān)鍵在于使用一種稱為樹分解的結(jié)構(gòu),它將圖的頂點組織成一系列重疊的集合,即「袋」,而這些「袋」本身則以樹狀結(jié)構(gòu)排列。

然后,算法可以遍歷這個由「袋」構(gòu)成的樹,并使用動態(tài)規(guī)劃分步解決問題。這個過程涉及到設(shè)計一個「狀態(tài)」,該「狀態(tài)」總結(jié)了「袋」內(nèi)部分解的所有必要信息,然后定義當頂點被引入、遺忘或當「袋」被合并時,該「狀態(tài)」如何轉(zhuǎn)換。



視頻鏈接:https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg

問題陳述看似簡單,但這背后實則掩蓋了發(fā)現(xiàn)正確動態(tài)規(guī)劃解法的非凡難度。這個過程遍布著微妙的組合與邏輯陷阱,要求(研究者)對問題的底層結(jié)構(gòu)有深刻的理解。關(guān)于解決一個名為Maximal-Cluster-Graph的難題所需的十五個相互依賴的推理步驟,其詳細的推演過程請參閱論文的附錄。

  • 論文地址:https://arxiv.org/pdf/2507.13337

這個工作在社交媒體上引發(fā)了很大關(guān)注,許多人表示應(yīng)該讓人類博士生也參與評估。



結(jié)果

在淺層難度上,頂尖模型的表現(xiàn)達到了 50%–70%,表明它們對相關(guān)問題類型已有一定熟悉度,換句話說,這些任務(wù)完全處于它們的訓練分布之內(nèi)。

在深層難度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的題目;GPT-5 Pro 表現(xiàn)相對更好,但也只解出了 4/100。

在最深層難度上,所有模型的成功率均為 0%,集體崩潰。



AAI

AAI(AA-I Technologies,Double AI)是一家由以色列知名企業(yè)家、科學家 Amnon Shashua 于 2023 年 8 月在耶路撒冷創(chuàng)辦的人工智能初創(chuàng)公司。



Shashua 是自動駕駛公司 Mobileye、AI21 Labs 和 OrCam 等多個知名項目的創(chuàng)始人,在自動駕駛、人工視覺和 AI 領(lǐng)域具有極高聲譽。



AAI 的核心目標是推動「人工專家智能」(Artificial Expert Intelligence,AEI)的理論與應(yīng)用,提出區(qū)別于傳統(tǒng)窄域 AI 和 AGI 的新 AI 發(fā)展路徑。這種 AEI 強調(diào)將領(lǐng)域知識與嚴密的科學推理能力相結(jié)合,旨在突破「只擅長特定任務(wù)」或「泛化無精度」的傳統(tǒng)瓶頸,使 AI 可以像頂級人類專家一樣,運用嚴謹推理來解決復雜科學或工程難題。

創(chuàng)立一年內(nèi),據(jù)報道公司已吸引了數(shù)千萬美元投資,并在 AWS 2024 年生成式 AI 加速器項目中入選(獲贈 100 萬美元計算資源),加速自身 AI 基礎(chǔ)設(shè)施建設(shè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
作家馬伯庸經(jīng)歷“育兒難題”:兒子語文不好,還得送作文班;其任南京大學文學院教授,著有《長安的荔枝》

作家馬伯庸經(jīng)歷“育兒難題”:兒子語文不好,還得送作文班;其任南京大學文學院教授,著有《長安的荔枝》

FM93浙江交通之聲
2025-08-29 22:51:01
孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計師發(fā)聲!

孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計師發(fā)聲!

古希臘掌管松餅的神
2025-08-29 21:52:46
莫德里奇獻助攻,奇克破517天球荒!AC米蘭2球被吹,仍2-0勝萊切

莫德里奇獻助攻,奇克破517天球荒!AC米蘭2球被吹,仍2-0勝萊切

釘釘陌上花開
2025-08-30 04:47:03
為什么政權(quán)會走向反國家和人民利益的地步?

為什么政權(quán)會走向反國家和人民利益的地步?

君子天道
2025-06-16 21:09:16
廣東男子暴打女同事,猛砸腦袋,滿臉血險要人命,網(wǎng)友卻偏袒維護

廣東男子暴打女同事,猛砸腦袋,滿臉血險要人命,網(wǎng)友卻偏袒維護

溫讀史
2025-08-29 14:28:41
李在明180度猛調(diào)頭,把日本排在中國前面,打出了“親日”的旗號

李在明180度猛調(diào)頭,把日本排在中國前面,打出了“親日”的旗號

起喜電影
2025-08-30 18:06:40
中國20個鄰國,有7國拒絕參加北京閱兵,理由都不同,日本最過分

中國20個鄰國,有7國拒絕參加北京閱兵,理由都不同,日本最過分

阿芒娛樂說
2025-08-29 14:45:36
對決法國!中國女排備戰(zhàn)淘汰賽曝光:趙勇指點莊宇珊,李盈瑩微笑

對決法國!中國女排備戰(zhàn)淘汰賽曝光:趙勇指點莊宇珊,李盈瑩微笑

李喜林籃球絕殺
2025-08-30 17:42:30
iPhone17ProMax,突然提前上架

iPhone17ProMax,突然提前上架

搞機小帝
2025-08-30 13:57:02
海港大勢已去?關(guān)鍵時刻連續(xù)丟分,遭成都雙殺,穆斯卡特神奇不再

海港大勢已去?關(guān)鍵時刻連續(xù)丟分,遭成都雙殺,穆斯卡特神奇不再

國足風云
2025-08-30 21:40:55
安徽“第一縣”:GDP超過1200億元,百萬豪車尊界S800在這里下線

安徽“第一縣”:GDP超過1200億元,百萬豪車尊界S800在這里下線

火星人雜談
2025-08-30 12:00:02
霍震霆沒想到,自己千辛萬苦給霍啟剛找的媳婦,竟狠狠“拿捏”他

霍震霆沒想到,自己千辛萬苦給霍啟剛找的媳婦,竟狠狠“拿捏”他

大眼妹妹
2025-08-29 18:09:02
廣東男籃三消息:崔永熙報到時間確定,王少杰沒走,徐昕還回來!

廣東男籃三消息:崔永熙報到時間確定,王少杰沒走,徐昕還回來!

硯底沉香
2025-08-30 19:40:07
被騙上賊船?滕哈赫才踢2場就迎生死戰(zhàn):今晚輸球或下課 1夏賣8人

被騙上賊船?滕哈赫才踢2場就迎生死戰(zhàn):今晚輸球或下課 1夏賣8人

風過鄉(xiāng)
2025-08-30 09:20:55
郭士強100%用周琦,就是李楠再執(zhí)教也100%用周琦

郭士強100%用周琦,就是李楠再執(zhí)教也100%用周琦

大眼瞄世界
2025-08-30 15:15:12
擬退學!211大學發(fā)公告!

擬退學!211大學發(fā)公告!

雙一流高校
2025-08-30 00:13:18
俄烏在頓涅茨克重鎮(zhèn)激烈交戰(zhàn)

俄烏在頓涅茨克重鎮(zhèn)激烈交戰(zhàn)

中國基金報
2025-08-30 21:39:59
俄羅斯宣布9月暫停汽油出口,國內(nèi)汽油價格暴漲近50%,什么情況?

俄羅斯宣布9月暫停汽油出口,國內(nèi)汽油價格暴漲近50%,什么情況?

碳基生物關(guān)懷組織
2025-08-28 17:57:32
宋楚瑜:如果臺灣不是大陸領(lǐng)土,那滿清憑什么將臺灣送給日本人?

宋楚瑜:如果臺灣不是大陸領(lǐng)土,那滿清憑什么將臺灣送給日本人?

大道無形我有型
2025-08-29 20:43:05
人老了,關(guān)鍵不在運動和喝水,而在于這3條長壽法則!

人老了,關(guān)鍵不在運動和喝水,而在于這3條長壽法則!

AGINightingale
2025-08-28 07:00:12
2025-08-30 22:12:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

以色列資深外交官:馬克龍早就決定承認巴勒斯坦國了

頭條要聞

以色列資深外交官:馬克龍早就決定承認巴勒斯坦國了

體育要聞

淘汰曼聯(lián)的英乙隊,仍然沒有忘記張恩華

娛樂要聞

吳京風波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機大模型即將全量推送

態(tài)度原創(chuàng)

數(shù)碼
本地
親子
公開課
軍事航空

數(shù)碼要聞

蘋果官方配件斜挎帶曝光:專為iPhone 17系列打造

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

親子要聞

爸爸的食堂營業(yè)了,看看都給孩子們做了什么好吃的

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國務(wù)院批準對烏新軍售

無障礙瀏覽 進入關(guān)懷版