你有沒有想過,AI 不僅能記住過去的一切,還能預(yù)見未知的未來?
想象一下,讓 AI 預(yù)測下周的股價、下個月的票房冠軍、甚至下屆世界杯的贏家……這聽起來像科幻片,但如今,它已經(jīng)成為現(xiàn)實中一場「極限挑戰(zhàn)」。
最近,一場專門考驗 AI「預(yù)言」能力的考試——FutureX 動態(tài)評測基準(zhǔn)正式發(fā)布。它由字節(jié)跳動 Seed 團(tuán)隊聯(lián)合斯坦福大學(xué) Jose Blanchet 教授團(tuán)隊、復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊、普林斯頓大學(xué)王夢迪教授團(tuán)隊共同打造,讓 Grok-4、GPT、Gemini 等模型齊聚預(yù)測未來的考場。
- 論文標(biāo)題:FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
- 項目主頁:https://futurex-ai.github.io/
- 技術(shù)報告:https://huggingface.co/papers/2508.11987
- 數(shù)據(jù):
- https://huggingface.co/datasets/futurex-ai/Futurex-Online
發(fā)布后 Elon Musk 轉(zhuǎn)發(fā),并評價該任務(wù)為「智能的真正度量」,推特瀏覽量過千萬。
不考「記憶」考「遠(yuǎn)見」,F(xiàn)utureX 是什么?
過去的 AI 評測,總被詬病像「開卷默寫」。題目是固定的,答案是已知的,提前「背好書」,就能輕松拿高分。這更像一場記憶力競賽,而不是真正的智力考驗。
FutureX 則改變了這一邏輯——它讓 AI 預(yù)測的是尚未發(fā)生的未來,完全避免了數(shù)據(jù)污染/泄漏的可能,可以真實反映 AI 智能體的規(guī)劃、搜索、復(fù)雜推理決策等能力。
每周,系統(tǒng)會自動從全球 195 多個高質(zhì)量信息源中,篩選出 500 個新的預(yù)測任務(wù),涵蓋經(jīng)濟(jì)、科技、體育等各個領(lǐng)域。從預(yù)測一部新電影的首周票房,到判斷一場關(guān)鍵體育賽事的勝者,所有題目在 AI 作答時都沒有「標(biāo)準(zhǔn)答案」。
未來預(yù)測有多難?FutureX 的四層「進(jìn)階試煉」
預(yù)測未來從來不是簡單的猜測,而是對信息搜集、趨勢分析、風(fēng)險判斷等綜合能力的終極考驗。FutureX 將任務(wù)劃分為四個難度層級,如同為 AI 智能體設(shè)置的「段位考核」:
這些任務(wù)并非憑空設(shè)計,而是基于195個精選自2000多個網(wǎng)站的高質(zhì)量信息源,覆蓋經(jīng)濟(jì)、科技、體育等多個領(lǐng)域,完全對接真實世界的復(fù)雜場景。
自動化評測體系,F(xiàn)utureX 是怎么構(gòu)建的?
為了實現(xiàn)對未來事件的動態(tài)評估,F(xiàn)utureX 構(gòu)建了一套完全閉環(huán)的自動化系統(tǒng):
- 每天自動抓取值得預(yù)測的未來事件;
- 在事件發(fā)生之前調(diào)度 23 個主流 LLM/ 智能體進(jìn)行預(yù)測;
- 在事件發(fā)生之后抓取事件結(jié)果進(jìn)行評分。
最新排行榜:誰在預(yù)測未來的賽道上領(lǐng)跑?
那么,在這場史無前例的「未來考試」中,誰拔得頭籌?(數(shù)據(jù)統(tǒng)計自 7 月 20 日至 8 月 14 日)
核心發(fā)現(xiàn):
- Grok-4 暫時領(lǐng)跑,GPT 和 Gemini 緊隨其后。在所有模型中,Grok-4的綜合表現(xiàn)最為突出,拔得頭籌。緊隨其后的是GPT-4o-mini和Gemini-2.5-flash Deep Research。字節(jié)跳動Seed系列模型也展現(xiàn)了不俗的實力。
- AI 智能體距離人類專家仍有差距。表現(xiàn)最好的 Grok-4 在 L4(高波動開放任務(wù))上的準(zhǔn)確率只有不到 20%,大部分 agents 的準(zhǔn)確率只有不到 10%,仍明顯落后于人類預(yù)測。
- 預(yù)測未來是推理和搜索的結(jié)合。在簡單選擇題上,不依賴工具的基礎(chǔ) LLM 表現(xiàn)驚人,比如 DouBao-Seed1.6-Thinking 甚至超過部分帶搜索功能的智能體;但到了復(fù)雜任務(wù),能實時調(diào)用工具的智能體優(yōu)勢立刻顯現(xiàn),說明「聯(lián)網(wǎng)搜索」是 AI 應(yīng)對復(fù)雜預(yù)測的必備技能。
AI 的「神預(yù)言」vs「馬后炮」:差距有多大?
為了搞清楚「預(yù)測」到底比「搜索」難多少,研究團(tuán)隊做了一個對比實驗:
- 事前預(yù)測(神預(yù)言模式):在事件發(fā)生前,預(yù)測結(jié)果。
- 事后搜索(馬后炮模式):在事件發(fā)生后,去網(wǎng)上查找并回答結(jié)果。
結(jié)果發(fā)現(xiàn):Grok-4 在開啟「馬后炮模式」時,憑借強(qiáng)大的搜索能力,準(zhǔn)確率可以輕松達(dá)到很高的水平。然而,一旦切換到「神預(yù)言模式」,準(zhǔn)確率便斷崖式下跌。
這個對比一針見血地指出:搜索信息只是 AI 的基本功,真正的難點在于如何在信息不完整、充滿不確定性的情況下,進(jìn)行高質(zhì)量的推理和判斷。這才是「預(yù)測」的精髓,也是 AI 最需要突破的瓶頸。
解密未來預(yù)測:AI 需要練好哪些「內(nèi)功」?
為什么預(yù)測未來如此之難?研究發(fā)現(xiàn),三大核心能力至關(guān)重要:
- 工具調(diào)用質(zhì)量:能否精準(zhǔn)、高效地使用搜索等工具。
- 搜索來源可靠性:能否從海量信息中辨別真?zhèn),找到關(guān)鍵信源。
- 推理規(guī)劃全面性:能否像人類專家一樣,構(gòu)建全面、嚴(yán)謹(jǐn)?shù)倪壿嬫湕l。
簡單來說,強(qiáng)大的搜索力和思考力缺一不可。這正是 FutureX 希望推動 AI 發(fā)展的核心方向。
未來已來:推動 AI 從「已知」走向「未知」
FutureX 的探索僅僅是一個開始。我們的研究揭示了當(dāng)前 AI 智能體在邁向真正實用的道路上,必須克服的核心挑戰(zhàn):如何在信息爆炸、充滿不確定性的真實世界中,像人類專家一樣進(jìn)行思考、推理和決策。
我們堅信,F(xiàn)utureX 有潛力成為推動 LLM 智能體發(fā)展的關(guān)鍵引擎。通過提供一個公平、動態(tài)且極具挑戰(zhàn)性的評估平臺,我們希望能激勵學(xué)術(shù)界和工業(yè)界的研究者們,共同開發(fā)出能夠在高風(fēng)險、高復(fù)雜度真實場景中,比肩甚至超越人類頂尖分析師的下一代 AI 智能體。
周賽開啟:一起來可靠評測 Agent
每周題目發(fā)布于https://huggingface.co/datasets/futurex-ai/Futurex-Online,預(yù)測提交截止為每周三晚 23:59。歡迎閱讀我們的技術(shù)報告,與我們一同探索 AI 的未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.