機器之心報道
機器之心編輯部
前沿 AI 模型真的能做到博士級推理嗎?
前段時間,谷歌、OpenAI 的模型都在數(shù)學奧林匹克(IMO)水平測試中達到了金牌水準,這樣的表現(xiàn)讓人很容易聯(lián)想到 LLM 是不是已經(jīng)具備了解決博士級科研難題的推理能力?
然而,現(xiàn)實可能并不如想象中那么樂觀。
AAI,一個專注于超智能和高級 AI 系統(tǒng)研究的機構(gòu),近期提出的一個新基準 FormulaOne,讓一眾大模型集體得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。
- HuggingFace:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard
FormulaOne 包含 220 個新穎的圖結(jié)構(gòu)動態(tài)規(guī)劃問題,按難度分為三類,從中等難度直至科研級別。其中最高等級難度的題包括拓撲與幾何、組合問題分析等。
測試題的具體示例如下:依次是淺層難度、深層難度、更深層難度。
盡管這些問題陳述起來通常很自然,但其解決方案卻遠非顯而易見。這一大類問題的可解性由 Courcelle 提出的一個算法元定理所保證,該定理大致可以表述為:
「對于每個足夠類似樹的圖,任何可用一種富有表現(xiàn)力的形式邏輯(一元二階邏輯)定義的問題,都可以通過一個動態(tài)規(guī)劃算法來解決,且其運行時間與圖的階數(shù)成線性關(guān)系?!?br/>
其關(guān)鍵在于使用一種稱為樹分解的結(jié)構(gòu),它將圖的頂點組織成一系列重疊的集合,即「袋」,而這些「袋」本身則以樹狀結(jié)構(gòu)排列。
然后,算法可以遍歷這個由「袋」構(gòu)成的樹,并使用動態(tài)規(guī)劃分步解決問題。這個過程涉及到設(shè)計一個「狀態(tài)」,該「狀態(tài)」總結(jié)了「袋」內(nèi)部分解的所有必要信息,然后定義當頂點被引入、遺忘或當「袋」被合并時,該「狀態(tài)」如何轉(zhuǎn)換。
視頻鏈接:https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg
問題陳述看似簡單,但這背后實則掩蓋了發(fā)現(xiàn)正確動態(tài)規(guī)劃解法的非凡難度。這個過程遍布著微妙的組合與邏輯陷阱,要求(研究者)對問題的底層結(jié)構(gòu)有深刻的理解。關(guān)于解決一個名為Maximal-Cluster-Graph的難題所需的十五個相互依賴的推理步驟,其詳細的推演過程請參閱論文的附錄。
- 論文地址:https://arxiv.org/pdf/2507.13337
這個工作在社交媒體上引發(fā)了很大關(guān)注,許多人表示應(yīng)該讓人類博士生也參與評估。
結(jié)果
在淺層難度上,頂尖模型的表現(xiàn)達到了 50%–70%,表明它們對相關(guān)問題類型已有一定熟悉度,換句話說,這些任務(wù)完全處于它們的訓練分布之內(nèi)。
在深層難度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的題目;GPT-5 Pro 表現(xiàn)相對更好,但也只解出了 4/100。
在最深層難度上,所有模型的成功率均為 0%,集體崩潰。
AAI
AAI(AA-I Technologies,Double AI)是一家由以色列知名企業(yè)家、科學家 Amnon Shashua 于 2023 年 8 月在耶路撒冷創(chuàng)辦的人工智能初創(chuàng)公司。
Shashua 是自動駕駛公司 Mobileye、AI21 Labs 和 OrCam 等多個知名項目的創(chuàng)始人,在自動駕駛、人工視覺和 AI 領(lǐng)域具有極高聲譽。
AAI 的核心目標是推動「人工專家智能」(Artificial Expert Intelligence,AEI)的理論與應(yīng)用,提出區(qū)別于傳統(tǒng)窄域 AI 和 AGI 的新 AI 發(fā)展路徑。這種 AEI 強調(diào)將領(lǐng)域知識與嚴密的科學推理能力相結(jié)合,旨在突破「只擅長特定任務(wù)」或「泛化無精度」的傳統(tǒng)瓶頸,使 AI 可以像頂級人類專家一樣,運用嚴謹推理來解決復雜科學或工程難題。
創(chuàng)立一年內(nèi),據(jù)報道公司已吸引了數(shù)千萬美元投資,并在 AWS 2024 年生成式 AI 加速器項目中入選(獲贈 100 萬美元計算資源),加速自身 AI 基礎(chǔ)設(shè)施建設(shè)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.