新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】AI能像科幻電影中的先知一樣預(yù)測未來嗎?一個(gè)名為「Prophet Arena」的全新基準(zhǔn)測試,正通過預(yù)測真實(shí)世界事件來評估AI的「預(yù)言」能力。
AI能預(yù)測未來嗎?
在《黑客帝國》里,先知能對Neo的未來做出預(yù)測。
以ChatGPT為代表的AI,則可以根據(jù)過去的語料來「預(yù)測下一個(gè)Token」。
那問題來了,AI能不能像先知一樣,從全世界的雜亂信息里找出蛛絲馬跡,準(zhǔn)確地預(yù)測未來呢?
比如:
AI監(jiān)管今年能否成為聯(lián)邦法律?
美國職業(yè)足球大聯(lián)盟比賽中,誰會獲勝?
NBA今年的冠軍會是誰?
在昨晚的男籃亞洲杯冠軍爭奪戰(zhàn)中,中國男籃雖以1分之差惜敗澳大利亞,但已是近十年來的最好成績!
相信絕大部分人都不會猜到這個(gè)比分,那么,AI能否根據(jù)中國隊(duì)此前的表現(xiàn),提前預(yù)測到呢?
更進(jìn)一步的,AI能否像拉普拉斯妖一樣,在獲取了當(dāng)下世界的所有信息后,精確預(yù)測未來的一切?
如果它能在某一瞬間知道宇宙中所有粒子的位置與速度,并且完全理解自然規(guī)律。
那么,就可以準(zhǔn)確計(jì)算出過去的一切,并且精確預(yù)測未來的一切。
今天要介紹的Prophet Arena就是一個(gè)通過實(shí)時(shí)更新的真實(shí)世界預(yù)測任務(wù)來評估AI系統(tǒng)預(yù)測智能的基準(zhǔn)測試。
把市場共識、自動化預(yù)測、信息整理和社區(qū)洞察結(jié)合起來,形成更強(qiáng)的整體預(yù)測能力
簡單來說,Prophet Arena作為基準(zhǔn)測試是獨(dú)一無二的:
考的是預(yù)測能力:這是一種需要綜合理解力、推理能力的高級智慧。
為「人機(jī)協(xié)作」而生:你可以給AI提供線索,看看它的預(yù)測如何變化;AI也會把它的思考過程告訴你。
不會過擬合,數(shù)據(jù)永不過時(shí):因?yàn)槲磥淼氖录肋h(yuǎn)是全新的考題。
直面真實(shí)世界:AI的預(yù)測直接與真實(shí)的投注決策掛鉤,表現(xiàn)好的模型真的能在虛擬市場里賺到錢。
Prophet Arena以實(shí)時(shí)預(yù)測市場事件為依托,首次建立了一個(gè)無法「刷題」的動態(tài)基準(zhǔn)。
全面衡量AI在不確定性推理、信息整合、概率預(yù)測和真實(shí)收益中的表現(xiàn)。
就連OpenAI 推理研究(AI reasoning research)負(fù)責(zé)人Noam Brown也贊嘆,預(yù)測能力是人類獨(dú)有的能力,現(xiàn)在AI終于開始涉足了。
競技場規(guī)則大公開
在Prophet Arena里,AI模型們要回答一個(gè)簡單又根本的問題:
預(yù)測真實(shí)世界里還沒發(fā)生的事,到底行不行?
Prophet Arena從像Kalshi和Polymarket這樣的預(yù)測市場平臺挑選熱門、多樣且周期性的真實(shí)事件作為考題。
Kalshi是一家美國的金融交易所和預(yù)測市場平臺,是美國第一個(gè)受美國商品期貨交易委員會(CFTC)監(jiān)管的、專注于交易「事件結(jié)果」的交易所
polymarket上關(guān)于AI相關(guān)的預(yù)測話題
整個(gè)比賽流程分為三步:
1. 情報(bào)收集
AI模型們利用搜索引擎,像偵探一樣收集關(guān)于某個(gè)事件的新聞報(bào)道,整理成一份精煉的「情報(bào)簡報(bào)」。同時(shí),也會把當(dāng)時(shí)的市場價(jià)格(可以看作是群眾的集體智慧)放進(jìn)去。
2. 提交預(yù)測
拿到相同的情報(bào)后,每個(gè)AI模型都要提交一份詳細(xì)的「預(yù)測報(bào)告」:對所有可能的結(jié)果給出一個(gè)概率分布,并附上長篇大論的理由,解釋自己為什么這么看。
3. 結(jié)果揭曉與評分
事件結(jié)束,結(jié)果揭曉。會用一套專業(yè)的指標(biāo)來評估AI的預(yù)測到底有多準(zhǔn),然后更新在一個(gè)實(shí)時(shí)排行榜上。
預(yù)測指標(biāo)設(shè)定
排行榜主要看兩個(gè)指標(biāo):一個(gè)是衡量準(zhǔn)確度和校準(zhǔn)度的Brier分?jǐn)?shù)(越高越好),另一個(gè)是模擬真實(shí)投注的平均回報(bào)(看誰能賺錢)。
除了上述兩個(gè)核心指標(biāo)外,Prophet Arena還采用了受統(tǒng)計(jì)學(xué)和心理測量建模啟發(fā)的高級評估方法,如項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)和廣義Bradley-Terry(BT)模型。
這些補(bǔ)充性指標(biāo)豐富了排行榜,能夠更細(xì)致和全面地理解預(yù)測智能。
AI「預(yù)言家」成績單出爐
Prophet的秘密發(fā)現(xiàn)
你可能會覺得,預(yù)測越準(zhǔn),賺的錢肯定越多吧?
大部分時(shí)候是這樣,但在數(shù)據(jù)里發(fā)現(xiàn)了一個(gè)特別有意思的「反轉(zhuǎn)區(qū)域」。
秘密一:最賺錢的預(yù)測,不一定是最準(zhǔn)的
在Brier分?jǐn)?shù)不高(0.3-0.5分)的區(qū)間里,反而誕生了許多回報(bào)率驚人的預(yù)測。
深挖一下,發(fā)現(xiàn)很多都來自爆冷的體育比賽。
比如一場溫布爾登網(wǎng)球賽,賽前市場普遍認(rèn)為選手保羅有84%的勝率,甚至在開賽前一度攀升至95%。
但很多AI模型比市場更保守,只給了他80%左右的勝率。
正是這微小的差異,讓模型在下注時(shí),認(rèn)為押注對手奧夫納獲勝的「性價(jià)比」更高。
結(jié)果,奧夫納真的爆冷贏了!這筆投注帶來了近6倍的回報(bào)。
你看,AI并沒有準(zhǔn)確預(yù)測到勝者,所以它的準(zhǔn)確度分?jǐn)?shù)(Brier分?jǐn)?shù))很一般。
但它敏銳地發(fā)現(xiàn)了市場的「定價(jià)偏差」,做出了高回報(bào)的選擇。
這說明,成為一個(gè)準(zhǔn)確的預(yù)言家和成為一個(gè)賺錢的投資者,是兩種不完全相同的技能。
為了探討這一點(diǎn),檢查了每個(gè)Brier得分區(qū)間的模型構(gòu)成,每個(gè)模型用不同的顏色表示。
一個(gè)直接的觀察結(jié)果是,較高的Brier得分區(qū)間中的預(yù)測數(shù)量通常更多。
絕大多數(shù)LLM在預(yù)測時(shí)傾向于與主流信息保持一致,因此大部分預(yù)測集中在高Brier分?jǐn)?shù)區(qū)間。
秘密二:AI也有「性格」,激進(jìn)派or保守派
面對同樣的信息,不同的AI模型會表現(xiàn)出截然不同的「性格」。
比如在「AI監(jiān)管法規(guī)會在2026年前成為聯(lián)邦法律嗎?」這個(gè)事件上,市場認(rèn)為可能性只有25%。
但模型可比人類激進(jìn)多了。
激進(jìn)派代表Qwen3:它看到各種法案都在推進(jìn),覺得勢頭很猛,直接給出了75%的超高概率。
保守派代表Llama 4 Maverick:它也看到了同樣的信息,但認(rèn)為立法過程復(fù)雜又緩慢,所以只給出了比市場略高一點(diǎn)的35%。
而GPT-4.1處于他們二者之間,給出了60%的概率。
這太有趣了!
AI的預(yù)測并非隨機(jī),它們有著結(jié)構(gòu)化的推理和獨(dú)特的風(fēng)險(xiǎn)偏好,就像人類專家也會有觀點(diǎn)分歧一樣。
秘密三:AI勝利的秘訣在于「贏得大」而非「贏得多」
在這些模型中,哪個(gè)模型最能賺錢?
在排行榜上,OpenAI的o3-mini模型在平均回報(bào)指標(biāo)上名列前茅。
這還是很出人意料的。
例如在圣地亞哥與多倫多的美國職業(yè)足球大聯(lián)盟比賽中,o3-mini在1美元的投注上獲得了9美元的回報(bào)。
根據(jù)市場數(shù)據(jù)和新聞來源,o3-mini預(yù)測多倫多獲勝的概率為30%,而市場隱含的概率僅為11%(價(jià)格=0.11)。
盡管多倫多是不被看好的一方,但AI識別到了正的期望值,并由于其最大的優(yōu)勢比率30%/11%≈3。
選擇了投注多倫多FC獲勝。
結(jié)果證明,多倫多最終獲勝,為o3-mini帶來了可觀的已實(shí)現(xiàn)收益。
但它在很多比賽中,和市場主流觀點(diǎn)的正面交鋒其實(shí)是輸多贏少。
那它為什么還能賺錢呢?因?yàn)樗?strong>贏的時(shí)候,贏得特別多。
它總能找到一些市場沒注意到的細(xì)微差別,然后下注在那些「性價(jià)比」超高的選項(xiàng)上。
就像在上面那場足球賽中,市場認(rèn)為多倫多隊(duì)只有11%的勝算,但o3-mini經(jīng)過分析認(rèn)為有30%。
它果斷押注多倫多隊(duì),結(jié)果多倫多隊(duì)爆冷獲勝,這一筆就賺了9倍。
所以,在預(yù)測的世界里,成功的關(guān)鍵不在于每次都對,而在于你對的時(shí)候能帶來多大的回報(bào)。
彩蛋
在不同模型的對比中,發(fā)現(xiàn)了一些很有趣的現(xiàn)象。
下圖每個(gè)格子里的數(shù)值表示兩兩模型在預(yù)測分布上的平均差異程度。
數(shù)值越低(顏色越深的單元格)表示概率推理更接近一致;數(shù)值越高(顏色越淺的單元格)則表明分歧越大。
其中一個(gè)突出的模型是DeepSeek R1,它的預(yù)測結(jié)果常常與其他模型大相徑庭。
與Kimi K2、o3和Llama 4 Maverick等模型相比,它的L2距離始終高于0.7,這表明其可能采用了不同的校準(zhǔn)方式或內(nèi)部決策機(jī)制。
在頻譜的另一端,諸如Grok-4和GPT-5之類的模型經(jīng)常作出高度一致的預(yù)測,L2距離通常低于0.3。
這些模型似乎在解讀事件特征和匹配市場信號方面有更多的共同點(diǎn)。
換句話說,這張圖展示了AI預(yù)測的多樣性:有些模型形成「群體共識」、有些模型像「特立獨(dú)行的異議者」。
因此AI預(yù)測并不是隨機(jī)輸出,而是各自內(nèi)部結(jié)構(gòu)化推理的結(jié)果。
打造人機(jī)協(xié)作的「預(yù)言家聯(lián)盟」
Prophet Arena僅僅是個(gè)開始。
終極目標(biāo)是建立一個(gè)平臺,讓AI驅(qū)動的洞見來增強(qiáng)理解和預(yù)測世界的方式。
未來,你可以直接問AI:「這件事發(fā)生的可能性有多大?」
它不僅會給你一個(gè)概率,還會清晰地解釋背后的邏輯。
你甚至可以提供新的信息,看看AI會不會因此改變想法。
設(shè)想,AI系統(tǒng)將成為預(yù)測市場的積極參與者,將人類的直覺洞察與AI強(qiáng)大的數(shù)據(jù)分析能力相結(jié)合,最終提升整個(gè)社會的集體遠(yuǎn)見,為那些高風(fēng)險(xiǎn)的決策提供更可靠的依據(jù)。
畢竟,如果說語言模型的下一步是預(yù)測下一個(gè)詞,那么它的終極形態(tài),或許就是預(yù)測這個(gè)真實(shí)世界的下一個(gè)事件。
參考資料:
https://www.Prophet Arena.co/blog/welcome
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.