AI智能體是否能預(yù)測未來？字節(jié)跳動seed發(fā)布FutureX動態(tài)評測基準(zhǔn)

2025-09-01 15:21:30　來源: 機(jī)器之心Pro

河北舉報

分享至

你有沒有想過，AI 不僅能記住過去的一切，還能預(yù)見未知的未來？

想象一下，讓 AI 預(yù)測下周的股價、下個月的票房冠軍、甚至下屆世界杯的贏家……這聽起來像科幻片，但如今，它已經(jīng)成為現(xiàn)實中一場「極限挑戰(zhàn)」。

最近，一場專門考驗 AI「預(yù)言」能力的考試——FutureX 動態(tài)評測基準(zhǔn)正式發(fā)布。它由字節(jié)跳動 Seed 團(tuán)隊聯(lián)合斯坦福大學(xué) Jose Blanchet 教授團(tuán)隊、復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊、普林斯頓大學(xué)王夢迪教授團(tuán)隊共同打造，讓 Grok-4、GPT、Gemini 等模型齊聚預(yù)測未來的考場。

論文標(biāo)題：FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
項目主頁：https://futurex-ai.github.io/
技術(shù)報告：https://huggingface.co/papers/2508.11987
數(shù)據(jù)：
https://huggingface.co/datasets/futurex-ai/Futurex-Online

發(fā)布后 Elon Musk 轉(zhuǎn)發(fā)，并評價該任務(wù)為「智能的真正度量」，推特瀏覽量過千萬。

不考「記憶」考「遠(yuǎn)見」，F(xiàn)utureX 是什么？

過去的 AI 評測，總被詬病像「開卷默寫」。題目是固定的，答案是已知的，提前「背好書」，就能輕松拿高分。這更像一場記憶力競賽，而不是真正的智力考驗。

FutureX 則改變了這一邏輯——它讓 AI 預(yù)測的是尚未發(fā)生的未來，完全避免了數(shù)據(jù)污染／泄漏的可能，可以真實反映 AI 智能體的規(guī)劃、搜索、復(fù)雜推理決策等能力。

每周，系統(tǒng)會自動從全球 195 多個高質(zhì)量信息源中，篩選出 500 個新的預(yù)測任務(wù)，涵蓋經(jīng)濟(jì)、科技、體育等各個領(lǐng)域。從預(yù)測一部新電影的首周票房，到判斷一場關(guān)鍵體育賽事的勝者，所有題目在 AI 作答時都沒有「標(biāo)準(zhǔn)答案」。

未來預(yù)測有多難？FutureX 的四層「進(jìn)階試煉」

預(yù)測未來從來不是簡單的猜測，而是對信息搜集、趨勢分析、風(fēng)險判斷等綜合能力的終極考驗。FutureX 將任務(wù)劃分為四個難度層級，如同為 AI 智能體設(shè)置的「段位考核」：

這些任務(wù)并非憑空設(shè)計，而是基于195個精選自2000多個網(wǎng)站的高質(zhì)量信息源，覆蓋經(jīng)濟(jì)、科技、體育等多個領(lǐng)域，完全對接真實世界的復(fù)雜場景。

自動化評測體系，F(xiàn)utureX 是怎么構(gòu)建的？

為了實現(xiàn)對未來事件的動態(tài)評估，F(xiàn)utureX 構(gòu)建了一套完全閉環(huán)的自動化系統(tǒng)：

每天自動抓取值得預(yù)測的未來事件；
在事件發(fā)生之前調(diào)度 23 個主流 LLM/ 智能體進(jìn)行預(yù)測；
在事件發(fā)生之后抓取事件結(jié)果進(jìn)行評分。

最新排行榜：誰在預(yù)測未來的賽道上領(lǐng)跑？

那么，在這場史無前例的「未來考試」中，誰拔得頭籌？（數(shù)據(jù)統(tǒng)計自 7 月 20 日至 8 月 14 日）

核心發(fā)現(xiàn)：

Grok-4 暫時領(lǐng)跑，GPT 和 Gemini 緊隨其后。在所有模型中，Grok-4的綜合表現(xiàn)最為突出，拔得頭籌。緊隨其后的是GPT-4o-mini和Gemini-2.5-flash Deep Research。字節(jié)跳動Seed系列模型也展現(xiàn)了不俗的實力。

AI 智能體距離人類專家仍有差距。表現(xiàn)最好的 Grok-4 在 L4（高波動開放任務(wù)）上的準(zhǔn)確率只有不到 20%，大部分 agents 的準(zhǔn)確率只有不到 10%，仍明顯落后于人類預(yù)測。

預(yù)測未來是推理和搜索的結(jié)合。在簡單選擇題上，不依賴工具的基礎(chǔ) LLM 表現(xiàn)驚人，比如 DouBao-Seed1.6-Thinking 甚至超過部分帶搜索功能的智能體；但到了復(fù)雜任務(wù)，能實時調(diào)用工具的智能體優(yōu)勢立刻顯現(xiàn)，說明「聯(lián)網(wǎng)搜索」是 AI 應(yīng)對復(fù)雜預(yù)測的必備技能。

AI 的「神預(yù)言」vs「馬后炮」：差距有多大？

為了搞清楚「預(yù)測」到底比「搜索」難多少，研究團(tuán)隊做了一個對比實驗：

事前預(yù)測（神預(yù)言模式）：在事件發(fā)生前，預(yù)測結(jié)果。
事后搜索（馬后炮模式）：在事件發(fā)生后，去網(wǎng)上查找并回答結(jié)果。

結(jié)果發(fā)現(xiàn)：Grok-4 在開啟「馬后炮模式」時，憑借強(qiáng)大的搜索能力，準(zhǔn)確率可以輕松達(dá)到很高的水平。然而，一旦切換到「神預(yù)言模式」，準(zhǔn)確率便斷崖式下跌。

這個對比一針見血地指出：搜索信息只是 AI 的基本功，真正的難點在于如何在信息不完整、充滿不確定性的情況下，進(jìn)行高質(zhì)量的推理和判斷。這才是「預(yù)測」的精髓，也是 AI 最需要突破的瓶頸。

解密未來預(yù)測：AI 需要練好哪些「內(nèi)功」？

為什么預(yù)測未來如此之難？研究發(fā)現(xiàn)，三大核心能力至關(guān)重要：

工具調(diào)用質(zhì)量：能否精準(zhǔn)、高效地使用搜索等工具。
搜索來源可靠性：能否從海量信息中辨別真?zhèn)�，找到關(guān)鍵信源。
推理規(guī)劃全面性：能否像人類專家一樣，構(gòu)建全面、嚴(yán)謹(jǐn)?shù)倪壿嬫湕l。

簡單來說，強(qiáng)大的搜索力和思考力缺一不可。這正是 FutureX 希望推動 AI 發(fā)展的核心方向。

未來已來：推動 AI 從「已知」走向「未知」

FutureX 的探索僅僅是一個開始。我們的研究揭示了當(dāng)前 AI 智能體在邁向真正實用的道路上，必須克服的核心挑戰(zhàn)：如何在信息爆炸、充滿不確定性的真實世界中，像人類專家一樣進(jìn)行思考、推理和決策。

我們堅信，F(xiàn)utureX 有潛力成為推動 LLM 智能體發(fā)展的關(guān)鍵引擎。通過提供一個公平、動態(tài)且極具挑戰(zhàn)性的評估平臺，我們希望能激勵學(xué)術(shù)界和工業(yè)界的研究者們，共同開發(fā)出能夠在高風(fēng)險、高復(fù)雜度真實場景中，比肩甚至超越人類頂尖分析師的下一代 AI 智能體。

周賽開啟：一起來可靠評測 Agent

每周題目發(fā)布于https://huggingface.co/datasets/futurex-ai/Futurex-Online，預(yù)測提交截止為每周三晚 23:59。歡迎閱讀我們的技術(shù)報告，與我們一同探索 AI 的未來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.