成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI智能體是否能預(yù)測未來?字節(jié)跳動seed發(fā)布FutureX動態(tài)評測基準(zhǔn)

0
分享至



你有沒有想過,AI 不僅能記住過去的一切,還能預(yù)見未知的未來?

想象一下,讓 AI 預(yù)測下周的股價、下個月的票房冠軍、甚至下屆世界杯的贏家……這聽起來像科幻片,但如今,它已經(jīng)成為現(xiàn)實中一場「極限挑戰(zhàn)」。

最近,一場專門考驗 AI「預(yù)言」能力的考試——FutureX 動態(tài)評測基準(zhǔn)正式發(fā)布。它由字節(jié)跳動 Seed 團(tuán)隊聯(lián)合斯坦福大學(xué) Jose Blanchet 教授團(tuán)隊、復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊、普林斯頓大學(xué)王夢迪教授團(tuán)隊共同打造,讓 Grok-4、GPT、Gemini 等模型齊聚預(yù)測未來的考場。



  • 論文標(biāo)題:FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
  • 項目主頁:https://futurex-ai.github.io/
  • 技術(shù)報告:https://huggingface.co/papers/2508.11987
  • 數(shù)據(jù):
  • https://huggingface.co/datasets/futurex-ai/Futurex-Online

發(fā)布后 Elon Musk 轉(zhuǎn)發(fā),并評價該任務(wù)為「智能的真正度量」,推特瀏覽量過千萬。



不考「記憶」考「遠(yuǎn)見」,F(xiàn)utureX 是什么?



過去的 AI 評測,總被詬病像「開卷默寫」。題目是固定的,答案是已知的,提前「背好書」,就能輕松拿高分。這更像一場記憶力競賽,而不是真正的智力考驗。

FutureX 則改變了這一邏輯——它讓 AI 預(yù)測的是尚未發(fā)生的未來,完全避免了數(shù)據(jù)污染/泄漏的可能,可以真實反映 AI 智能體的規(guī)劃、搜索、復(fù)雜推理決策等能力。

每周,系統(tǒng)會自動從全球 195 多個高質(zhì)量信息源中,篩選出 500 個新的預(yù)測任務(wù),涵蓋經(jīng)濟(jì)、科技、體育等各個領(lǐng)域。從預(yù)測一部新電影的首周票房,到判斷一場關(guān)鍵體育賽事的勝者,所有題目在 AI 作答時都沒有「標(biāo)準(zhǔn)答案」。



未來預(yù)測有多難?FutureX 的四層「進(jìn)階試煉」

預(yù)測未來從來不是簡單的猜測,而是對信息搜集、趨勢分析、風(fēng)險判斷等綜合能力的終極考驗。FutureX 將任務(wù)劃分為四個難度層級,如同為 AI 智能體設(shè)置的「段位考核」:



這些任務(wù)并非憑空設(shè)計,而是基于195個精選自2000多個網(wǎng)站的高質(zhì)量信息源,覆蓋經(jīng)濟(jì)、科技、體育等多個領(lǐng)域,完全對接真實世界的復(fù)雜場景。



自動化評測體系,F(xiàn)utureX 是怎么構(gòu)建的?

為了實現(xiàn)對未來事件的動態(tài)評估,F(xiàn)utureX 構(gòu)建了一套完全閉環(huán)的自動化系統(tǒng):

  • 每天自動抓取值得預(yù)測的未來事件;
  • 在事件發(fā)生之前調(diào)度 23 個主流 LLM/ 智能體進(jìn)行預(yù)測;
  • 在事件發(fā)生之后抓取事件結(jié)果進(jìn)行評分。



最新排行榜:誰在預(yù)測未來的賽道上領(lǐng)跑?

那么,在這場史無前例的「未來考試」中,誰拔得頭籌?(數(shù)據(jù)統(tǒng)計自 7 月 20 日至 8 月 14 日)



核心發(fā)現(xiàn):

  • Grok-4 暫時領(lǐng)跑,GPT 和 Gemini 緊隨其后。在所有模型中,Grok-4的綜合表現(xiàn)最為突出,拔得頭籌。緊隨其后的是GPT-4o-mini和Gemini-2.5-flash Deep Research。字節(jié)跳動Seed系列模型也展現(xiàn)了不俗的實力。

  • AI 智能體距離人類專家仍有差距。表現(xiàn)最好的 Grok-4 在 L4(高波動開放任務(wù))上的準(zhǔn)確率只有不到 20%,大部分 agents 的準(zhǔn)確率只有不到 10%,仍明顯落后于人類預(yù)測。

  • 預(yù)測未來是推理和搜索的結(jié)合。在簡單選擇題上,不依賴工具的基礎(chǔ) LLM 表現(xiàn)驚人,比如 DouBao-Seed1.6-Thinking 甚至超過部分帶搜索功能的智能體;但到了復(fù)雜任務(wù),能實時調(diào)用工具的智能體優(yōu)勢立刻顯現(xiàn),說明「聯(lián)網(wǎng)搜索」是 AI 應(yīng)對復(fù)雜預(yù)測的必備技能。



AI 的「神預(yù)言」vs「馬后炮」:差距有多大?

為了搞清楚「預(yù)測」到底比「搜索」難多少,研究團(tuán)隊做了一個對比實驗:

  • 事前預(yù)測(神預(yù)言模式):在事件發(fā)生前,預(yù)測結(jié)果。
  • 事后搜索(馬后炮模式):在事件發(fā)生后,去網(wǎng)上查找并回答結(jié)果。

結(jié)果發(fā)現(xiàn):Grok-4 在開啟「馬后炮模式」時,憑借強(qiáng)大的搜索能力,準(zhǔn)確率可以輕松達(dá)到很高的水平。然而,一旦切換到「神預(yù)言模式」,準(zhǔn)確率便斷崖式下跌。



這個對比一針見血地指出:搜索信息只是 AI 的基本功,真正的難點在于如何在信息不完整、充滿不確定性的情況下,進(jìn)行高質(zhì)量的推理和判斷。這才是「預(yù)測」的精髓,也是 AI 最需要突破的瓶頸。

解密未來預(yù)測:AI 需要練好哪些「內(nèi)功」?

為什么預(yù)測未來如此之難?研究發(fā)現(xiàn),三大核心能力至關(guān)重要:

  • 工具調(diào)用質(zhì)量:能否精準(zhǔn)、高效地使用搜索等工具。
  • 搜索來源可靠性:能否從海量信息中辨別真?zhèn),找到關(guān)鍵信源。
  • 推理規(guī)劃全面性:能否像人類專家一樣,構(gòu)建全面、嚴(yán)謹(jǐn)?shù)倪壿嬫湕l。

簡單來說,強(qiáng)大的搜索力和思考力缺一不可。這正是 FutureX 希望推動 AI 發(fā)展的核心方向。

未來已來:推動 AI 從「已知」走向「未知」

FutureX 的探索僅僅是一個開始。我們的研究揭示了當(dāng)前 AI 智能體在邁向真正實用的道路上,必須克服的核心挑戰(zhàn):如何在信息爆炸、充滿不確定性的真實世界中,像人類專家一樣進(jìn)行思考、推理和決策。

我們堅信,F(xiàn)utureX 有潛力成為推動 LLM 智能體發(fā)展的關(guān)鍵引擎。通過提供一個公平、動態(tài)且極具挑戰(zhàn)性的評估平臺,我們希望能激勵學(xué)術(shù)界和工業(yè)界的研究者們,共同開發(fā)出能夠在高風(fēng)險、高復(fù)雜度真實場景中,比肩甚至超越人類頂尖分析師的下一代 AI 智能體。

周賽開啟:一起來可靠評測 Agent

每周題目發(fā)布于https://huggingface.co/datasets/futurex-ai/Futurex-Online,預(yù)測提交截止為每周三晚 23:59。歡迎閱讀我們的技術(shù)報告,與我們一同探索 AI 的未來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
四年賠光64億,華誼兄弟的倒臺,從王京花出走的時候,就早有預(yù)兆

四年賠光64億,華誼兄弟的倒臺,從王京花出走的時候,就早有預(yù)兆

姩姩有娛
2025-09-01 17:29:02
遼寧退休法醫(yī)買羊肉串吃,吃一口發(fā)覺不對勁,立馬報警:不是羊肉

遼寧退休法醫(yī)買羊肉串吃,吃一口發(fā)覺不對勁,立馬報警:不是羊肉

第四思維
2025-08-22 09:24:58
甘比被踢出局?怪不得港媒都說劉鑾雄精明

甘比被踢出局?怪不得港媒都說劉鑾雄精明

混沌錄
2025-05-21 22:45:16
WZ-X橫空出世,為何讓美軍徹夜難眠?

WZ-X橫空出世,為何讓美軍徹夜難眠?

楊風(fēng)
2025-08-30 22:15:34
錢再多有什么用!杭州富豪付君銳去世,年僅39疑壓力大導(dǎo)致心梗

錢再多有什么用!杭州富豪付君銳去世,年僅39疑壓力大導(dǎo)致心梗

溫讀史
2025-09-01 11:04:10
韓國頂流網(wǎng)紅挑戰(zhàn)爬華山,揚言中國人體質(zhì)不行,結(jié)果被嚇到喊媽媽

韓國頂流網(wǎng)紅挑戰(zhàn)爬華山,揚言中國人體質(zhì)不行,結(jié)果被嚇到喊媽媽

娛樂看阿敞
2025-08-28 16:03:03
歐陽自遠(yuǎn)揭秘:美國曾多次載人登月,為何后續(xù)幾十年沒再上去過?

歐陽自遠(yuǎn)揭秘:美國曾多次載人登月,為何后續(xù)幾十年沒再上去過?

好賢觀史記
2025-08-31 22:38:39
世體:伊薩克1.5億歐轉(zhuǎn)會利物浦,皇家社會獲800萬歐二轉(zhuǎn)分成

世體:伊薩克1.5億歐轉(zhuǎn)會利物浦,皇家社會獲800萬歐二轉(zhuǎn)分成

懂球帝
2025-09-01 21:04:05
到了初中你會發(fā)現(xiàn),那些考不上高中的孩子,大多都踩中了這些坑!

到了初中你會發(fā)現(xiàn),那些考不上高中的孩子,大多都踩中了這些坑!

好爸育兒
2025-09-01 09:24:10
李連杰表示公開病情原因,每個人都要面對生與死的探討

李連杰表示公開病情原因,每個人都要面對生與死的探討

魯中晨報
2025-08-31 18:35:57
一代釘子戶神機(jī),iPhone17 Pro:等等黨還是贏了!

一代釘子戶神機(jī),iPhone17 Pro:等等黨還是贏了!

黑貓科技迷
2025-08-30 21:35:27
形勢嚴(yán)峻了!多國導(dǎo)彈運抵菲國,中方也來援手了,南海反包圍開始

形勢嚴(yán)峻了!多國導(dǎo)彈運抵菲國,中方也來援手了,南海反包圍開始

今墨緣
2025-09-01 13:23:46
被馬斯克獎勵4個億!這位東北小伙,憑實力成為特斯拉“太子爺”

被馬斯克獎勵4個億!這位東北小伙,憑實力成為特斯拉“太子爺”

壹知眠羊
2025-08-31 07:26:55
臺球女運動員稱被AI偽造淫穢視頻,已報警!南都曾調(diào)查亂象

臺球女運動員稱被AI偽造淫穢視頻,已報警!南都曾調(diào)查亂象

南方都市報
2025-09-01 11:09:08
“人妻專業(yè)戶”妃光莉:改名改不了命,還是轉(zhuǎn)行跳脫衣舞更適合

“人妻專業(yè)戶”妃光莉:改名改不了命,還是轉(zhuǎn)行跳脫衣舞更適合

一代文嚎
2025-09-01 16:08:54
印尼經(jīng)濟(jì)這么好,為啥年輕人還要上街暴走?

印尼經(jīng)濟(jì)這么好,為啥年輕人還要上街暴走?

據(jù)說說娛樂
2025-08-31 17:39:32
電動車新規(guī):時速超25公里自動斷電?外賣員天塌了

電動車新規(guī):時速超25公里自動斷電?外賣員天塌了

雷科技
2025-09-01 18:41:58
“90后”李金東已任北京市朝陽區(qū)首都機(jī)場街道工委書記

“90后”李金東已任北京市朝陽區(qū)首都機(jī)場街道工委書記

澎湃新聞
2025-09-01 15:16:27
獨生子女“被坑慘”!父母去世房產(chǎn)繼承竟有這些坑,99%的人都不知道

獨生子女“被坑慘”!父母去世房產(chǎn)繼承竟有這些坑,99%的人都不知道

盧律說傳承
2025-08-29 12:02:03
日本干擾九三閱兵失。30個歐洲國確定出席央媒四字回應(yīng)大快人心

日本干擾九三閱兵失。30個歐洲國確定出席央媒四字回應(yīng)大快人心

壹知眠羊
2025-08-29 11:29:56
2025-09-01 21:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11206文章數(shù) 142432關(guān)注度
往期回顧 全部

科技要聞

成都車展眾生相:20個主播圍著拍華為

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

蘇有朋,禍從口出?

財經(jīng)要聞

行情剛好點,創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
家居
健康
藝術(shù)

手機(jī)要聞

8200mAh藍(lán)廠史上最大!vivo Y500發(fā)布:1399元起

數(shù)碼要聞

華碩帶來白色款 Prime RX 9070 XT OC 顯卡,基于原版相同模具

家居要聞

意式極簡 盡顯時尚小眾

精神科專家解答學(xué)習(xí)困難七大問題

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版