網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI版華爾街之狼！o3-mini靠「神之押注」狂賺9倍，DeepSeek R1最特立獨(dú)行

2025-08-18 11:11:54　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧好困

【新智元導(dǎo)讀】AI能像科幻電影中的先知一樣預(yù)測未來嗎？一個(gè)名為「Prophet Arena」的全新基準(zhǔn)測試，正通過預(yù)測真實(shí)世界事件來評估AI的「預(yù)言」能力。

AI能預(yù)測未來嗎？

在《黑客帝國》里，先知能對Neo的未來做出預(yù)測。

以ChatGPT為代表的AI，則可以根據(jù)過去的語料來「預(yù)測下一個(gè)Token」。

那問題來了，AI能不能像先知一樣，從全世界的雜亂信息里找出蛛絲馬跡，準(zhǔn)確地預(yù)測未來呢？

比如：

AI監(jiān)管今年能否成為聯(lián)邦法律？
美國職業(yè)足球大聯(lián)盟比賽中，誰會獲勝？
NBA今年的冠軍會是誰？

在昨晚的男籃亞洲杯冠軍爭奪戰(zhàn)中，中國男籃雖以1分之差惜敗澳大利亞，但已是近十年來的最好成績！

相信絕大部分人都不會猜到這個(gè)比分，那么，AI能否根據(jù)中國隊(duì)此前的表現(xiàn)，提前預(yù)測到呢？

更進(jìn)一步的，AI能否像拉普拉斯妖一樣，在獲取了當(dāng)下世界的所有信息后，精確預(yù)測未來的一切？

如果它能在某一瞬間知道宇宙中所有粒子的位置與速度，并且完全理解自然規(guī)律。

那么，就可以準(zhǔn)確計(jì)算出過去的一切，并且精確預(yù)測未來的一切。

今天要介紹的Prophet Arena就是一個(gè)通過實(shí)時(shí)更新的真實(shí)世界預(yù)測任務(wù)來評估AI系統(tǒng)預(yù)測智能的基準(zhǔn)測試。

把市場共識、自動化預(yù)測、信息整理和社區(qū)洞察結(jié)合起來，形成更強(qiáng)的整體預(yù)測能力

簡單來說，Prophet Arena作為基準(zhǔn)測試是獨(dú)一無二的：

考的是預(yù)測能力：這是一種需要綜合理解力、推理能力的高級智慧。
為「人機(jī)協(xié)作」而生：你可以給AI提供線索，看看它的預(yù)測如何變化；AI也會把它的思考過程告訴你。
不會過擬合，數(shù)據(jù)永不過時(shí)：因?yàn)槲磥淼氖录肋h(yuǎn)是全新的考題。
直面真實(shí)世界：AI的預(yù)測直接與真實(shí)的投注決策掛鉤，表現(xiàn)好的模型真的能在虛擬市場里賺到錢。

Prophet Arena以實(shí)時(shí)預(yù)測市場事件為依托，首次建立了一個(gè)無法「刷題」的動態(tài)基準(zhǔn)。

全面衡量AI在不確定性推理、信息整合、概率預(yù)測和真實(shí)收益中的表現(xiàn)。

就連OpenAI 推理研究（AI reasoning research）負(fù)責(zé)人Noam Brown也贊嘆，預(yù)測能力是人類獨(dú)有的能力，現(xiàn)在AI終于開始涉足了。

競技場規(guī)則大公開

在Prophet Arena里，AI模型們要回答一個(gè)簡單又根本的問題：

預(yù)測真實(shí)世界里還沒發(fā)生的事，到底行不行？

Prophet Arena從像Kalshi和Polymarket這樣的預(yù)測市場平臺挑選熱門、多樣且周期性的真實(shí)事件作為考題。

Kalshi是一家美國的金融交易所和預(yù)測市場平臺，是美國第一個(gè)受美國商品期貨交易委員會（CFTC）監(jiān)管的、專注于交易「事件結(jié)果」的交易所

polymarket上關(guān)于AI相關(guān)的預(yù)測話題

整個(gè)比賽流程分為三步：

1. 情報(bào)收集

AI模型們利用搜索引擎，像偵探一樣收集關(guān)于某個(gè)事件的新聞報(bào)道，整理成一份精煉的「情報(bào)簡報(bào)」。同時(shí)，也會把當(dāng)時(shí)的市場價(jià)格（可以看作是群眾的集體智慧）放進(jìn)去。

2. 提交預(yù)測

拿到相同的情報(bào)后，每個(gè)AI模型都要提交一份詳細(xì)的「預(yù)測報(bào)告」：對所有可能的結(jié)果給出一個(gè)概率分布，并附上長篇大論的理由，解釋自己為什么這么看。

3. 結(jié)果揭曉與評分

事件結(jié)束，結(jié)果揭曉。會用一套專業(yè)的指標(biāo)來評估AI的預(yù)測到底有多準(zhǔn)，然后更新在一個(gè)實(shí)時(shí)排行榜上。

預(yù)測指標(biāo)設(shè)定

排行榜主要看兩個(gè)指標(biāo)：一個(gè)是衡量準(zhǔn)確度和校準(zhǔn)度的Brier分?jǐn)?shù)（越高越好），另一個(gè)是模擬真實(shí)投注的平均回報(bào)（看誰能賺錢）。

除了上述兩個(gè)核心指標(biāo)外，Prophet Arena還采用了受統(tǒng)計(jì)學(xué)和心理測量建模啟發(fā)的高級評估方法，如項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）和廣義Bradley-Terry（BT）模型。

這些補(bǔ)充性指標(biāo)豐富了排行榜，能夠更細(xì)致和全面地理解預(yù)測智能。

AI「預(yù)言家」成績單出爐

Prophet的秘密發(fā)現(xiàn)

你可能會覺得，預(yù)測越準(zhǔn)，賺的錢肯定越多吧？

大部分時(shí)候是這樣，但在數(shù)據(jù)里發(fā)現(xiàn)了一個(gè)特別有意思的「反轉(zhuǎn)區(qū)域」。

秘密一：最賺錢的預(yù)測，不一定是最準(zhǔn)的

在Brier分?jǐn)?shù)不高（0.3-0.5分）的區(qū)間里，反而誕生了許多回報(bào)率驚人的預(yù)測。

深挖一下，發(fā)現(xiàn)很多都來自爆冷的體育比賽。

比如一場溫布爾登網(wǎng)球賽，賽前市場普遍認(rèn)為選手保羅有84%的勝率，甚至在開賽前一度攀升至95%。

但很多AI模型比市場更保守，只給了他80%左右的勝率。

正是這微小的差異，讓模型在下注時(shí)，認(rèn)為押注對手奧夫納獲勝的「性價(jià)比」更高。

結(jié)果，奧夫納真的爆冷贏了！這筆投注帶來了近6倍的回報(bào)。

你看，AI并沒有準(zhǔn)確預(yù)測到勝者，所以它的準(zhǔn)確度分?jǐn)?shù)（Brier分?jǐn)?shù)）很一般。

但它敏銳地發(fā)現(xiàn)了市場的「定價(jià)偏差」，做出了高回報(bào)的選擇。

這說明，成為一個(gè)準(zhǔn)確的預(yù)言家和成為一個(gè)賺錢的投資者，是兩種不完全相同的技能。

為了探討這一點(diǎn)，檢查了每個(gè)Brier得分區(qū)間的模型構(gòu)成，每個(gè)模型用不同的顏色表示。

一個(gè)直接的觀察結(jié)果是，較高的Brier得分區(qū)間中的預(yù)測數(shù)量通常更多。

絕大多數(shù)LLM在預(yù)測時(shí)傾向于與主流信息保持一致，因此大部分預(yù)測集中在高Brier分?jǐn)?shù)區(qū)間。

秘密二：AI也有「性格」，激進(jìn)派or保守派

面對同樣的信息，不同的AI模型會表現(xiàn)出截然不同的「性格」。

比如在「AI監(jiān)管法規(guī)會在2026年前成為聯(lián)邦法律嗎？」這個(gè)事件上，市場認(rèn)為可能性只有25%。

但模型可比人類激進(jìn)多了。

激進(jìn)派代表Qwen3：它看到各種法案都在推進(jìn)，覺得勢頭很猛，直接給出了75%的超高概率。

保守派代表Llama 4 Maverick：它也看到了同樣的信息，但認(rèn)為立法過程復(fù)雜又緩慢，所以只給出了比市場略高一點(diǎn)的35%。

而GPT-4.1處于他們二者之間，給出了60%的概率。

這太有趣了！

AI的預(yù)測并非隨機(jī)，它們有著結(jié)構(gòu)化的推理和獨(dú)特的風(fēng)險(xiǎn)偏好，就像人類專家也會有觀點(diǎn)分歧一樣。

秘密三：AI勝利的秘訣在于「贏得大」而非「贏得多」

在這些模型中，哪個(gè)模型最能賺錢？

在排行榜上，OpenAI的o3-mini模型在平均回報(bào)指標(biāo)上名列前茅。

這還是很出人意料的。

例如在圣地亞哥與多倫多的美國職業(yè)足球大聯(lián)盟比賽中，o3-mini在1美元的投注上獲得了9美元的回報(bào)。

根據(jù)市場數(shù)據(jù)和新聞來源，o3-mini預(yù)測多倫多獲勝的概率為30%，而市場隱含的概率僅為11%（價(jià)格=0.11）。

盡管多倫多是不被看好的一方，但AI識別到了正的期望值，并由于其最大的優(yōu)勢比率30%/11%≈3。

選擇了投注多倫多FC獲勝。

結(jié)果證明，多倫多最終獲勝，為o3-mini帶來了可觀的已實(shí)現(xiàn)收益。

但它在很多比賽中，和市場主流觀點(diǎn)的正面交鋒其實(shí)是輸多贏少。

那它為什么還能賺錢呢？因?yàn)樗?strong>贏的時(shí)候，贏得特別多。

它總能找到一些市場沒注意到的細(xì)微差別，然后下注在那些「性價(jià)比」超高的選項(xiàng)上。

就像在上面那場足球賽中，市場認(rèn)為多倫多隊(duì)只有11%的勝算，但o3-mini經(jīng)過分析認(rèn)為有30%。

它果斷押注多倫多隊(duì)，結(jié)果多倫多隊(duì)爆冷獲勝，這一筆就賺了9倍。

所以，在預(yù)測的世界里，成功的關(guān)鍵不在于每次都對，而在于你對的時(shí)候能帶來多大的回報(bào)。

彩蛋

在不同模型的對比中，發(fā)現(xiàn)了一些很有趣的現(xiàn)象。

下圖每個(gè)格子里的數(shù)值表示兩兩模型在預(yù)測分布上的平均差異程度。

數(shù)值越低（顏色越深的單元格）表示概率推理更接近一致；數(shù)值越高（顏色越淺的單元格）則表明分歧越大。

其中一個(gè)突出的模型是DeepSeek R1，它的預(yù)測結(jié)果常常與其他模型大相徑庭。

與Kimi K2、o3和Llama 4 Maverick等模型相比，它的L2距離始終高于0.7，這表明其可能采用了不同的校準(zhǔn)方式或內(nèi)部決策機(jī)制。

在頻譜的另一端，諸如Grok-4和GPT-5之類的模型經(jīng)常作出高度一致的預(yù)測，L2距離通常低于0.3。

這些模型似乎在解讀事件特征和匹配市場信號方面有更多的共同點(diǎn)。

換句話說，這張圖展示了AI預(yù)測的多樣性：有些模型形成「群體共識」、有些模型像「特立獨(dú)行的異議者」。

因此AI預(yù)測并不是隨機(jī)輸出，而是各自內(nèi)部結(jié)構(gòu)化推理的結(jié)果。

打造人機(jī)協(xié)作的「預(yù)言家聯(lián)盟」

Prophet Arena僅僅是個(gè)開始。

終極目標(biāo)是建立一個(gè)平臺，讓AI驅(qū)動的洞見來增強(qiáng)理解和預(yù)測世界的方式。

未來，你可以直接問AI：「這件事發(fā)生的可能性有多大？」

它不僅會給你一個(gè)概率，還會清晰地解釋背后的邏輯。

你甚至可以提供新的信息，看看AI會不會因此改變想法。

設(shè)想，AI系統(tǒng)將成為預(yù)測市場的積極參與者，將人類的直覺洞察與AI強(qiáng)大的數(shù)據(jù)分析能力相結(jié)合，最終提升整個(gè)社會的集體遠(yuǎn)見，為那些高風(fēng)險(xiǎn)的決策提供更可靠的依據(jù)。

畢竟，如果說語言模型的下一步是預(yù)測下一個(gè)詞，那么它的終極形態(tài)，或許就是預(yù)測這個(gè)真實(shí)世界的下一個(gè)事件。

參考資料：

https://www.Prophet Arena.co/blog/welcome

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

騰訊提出RLVMR框架，讓7B模型「思考」比肩GPT-4o

機(jī)器之心Pro 2025-08-14 11:02:49
0 跟貼 0
獨(dú)家對話光輪智能：合成數(shù)據(jù)如何破解AI“數(shù)據(jù)饑渴”｜50x50

鈦媒體APP 2025-05-30 18:20:12
0 跟貼 0

EMNLP 2025 | 動態(tài)壓縮CoT推理新方法LightThinker來了

機(jī)器之心Pro 2025-08-28 14:20:41
0 跟貼 0

未來的本質(zhì)——人工智能為何無法超越人類智能

經(jīng)濟(jì)觀察報(bào) 2025-06-30 14:32:05
0 跟貼 0
因?yàn)榻鈱α艘回运_，我更依戀AI了

新周刊 2025-03-26 11:04:04
0 跟貼 0

GPT正面對決Claude！OpenAI竟沒全贏，AI安全「極限大測」真相曝光

新智元 2025-08-28 20:06:04
2 跟貼 2

被低估的GPT-5！OpenAI給7億人解鎖最強(qiáng)AI，大眾智能一夜撕裂舊秩序

新智元 2025-08-30 19:40:33
2 跟貼 2
3D真值生成新范式，開放駕駛場景的語義Occupancy自動化標(biāo)注!

機(jī)器之心Pro 2025-08-29 14:18:28
0 跟貼 0

OceanBase CEO楊冰：讓AI從“錦上添花”變?yōu)椤盎A(chǔ)設(shè)施” 一體化云數(shù)據(jù)庫是破局的關(guān)鍵

每日經(jīng)濟(jì)新聞 2025-08-29 20:42:45
0 跟貼 0
Sakana AI華人學(xué)者打造“AI進(jìn)化算法”，讓模型從零開始進(jìn)化

DeepTech深科技 2025-08-30 23:39:20
0 跟貼 0
直擊WAIC丨具身大模型賦能！機(jī)器人秒變專業(yè)鼓手

每日經(jīng)濟(jì)新聞 2025-07-29 01:50:00
0 跟貼 0
超算互聯(lián)網(wǎng)上線開源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
不愧是狄大人，輕松推理出犯人

大風(fēng)車影視 2025-08-27 22:07:01
1 跟貼 1
82場全勤！保羅談哈登，憋了6年

攜手游人間a 2025-08-29 08:41:50
1 跟貼 1
網(wǎng)紅保羅打贏泰森，之后的奢侈生活，難怪泰森輸了想哭！

栗栗街拍 2025-08-29 11:04:24
0 跟貼 0
百億老總一天兩次這身體能吃得消嗎，華爾街之狼名場面！

小海豚丶Dolphin 2025-08-30 19:41:37
3 跟貼 3
8.8吋OLED屏幕，三折屏同款芯片！華為MatePad Mini就要來了

雷科技 2025-08-30 21:09:30
3 跟貼 3
【DeepSeek談藝】彭利銘·山水畫 |筆底煙霞映山河文心鑄魂映時(shí)代

文化視界網(wǎng) 2025-08-30 14:55:44
0 跟貼 0
2024款Mini John Cooper Works 外觀和內(nèi)飾細(xì)節(jié)

番茄車情局 2025-08-29 06:39:18
0 跟貼 0
2K26快船全隊(duì)能力值出爐：倫納德92領(lǐng)銜，5人80+

雷速體育 2025-08-30 16:15:40
3 跟貼 3
美媒反思F-22禁售決策，過度保密致戰(zhàn)力停滯，殲-20彎道超車

杜文龍 2025-08-30 19:04:55
3 跟貼 3
寶馬成都車展發(fā)大招！M 性能車狂飆、X 家族顏值升級、哪款戳中你

車哥們 2025-08-29 14:51:38
5 跟貼 5
日本懸疑推理巔峰之作《白雪公主殺人事件》，我們都是惡的幫兇！

噔噔懸疑社 2025-08-30 19:46:24
3 跟貼 3
母子二人精心算計(jì) 最后落得人財(cái)兩空#聽人間故事品百味人生

哆哆情感驛站v 2025-08-28 19:18:10
1 跟貼 1
有了保羅和比爾，快船比有喬治還強(qiáng)！哈登能不能如愿奪冠？

湖人侃球師 2025-08-30 23:23:11
5 跟貼 5
智和課堂 | 孩子小的時(shí)候需不需要多帶他去看看世界？

智和家庭教育 2025-08-26 11:51:17
0 跟貼 0
大洛佩斯贊保羅！暴扣輕松，傳球精準(zhǔn)

小僫搞笑解說 2025-08-30 07:36:10
3 跟貼 3
走馬觀車成都車展“耍起”：寶馬全矩陣演繹“巴適”駕趣｜2025成都車展

封面新聞 2025-08-29 21:19:28
0 跟貼 0
2K26活塞球員能力值：CC92全隊(duì)最高杜倫82 奧薩爾81 新援鄧羅76

直播吧 2025-08-30 15:10:29
1 跟貼 1
【DeepSeek談藝】鄒立穎 | 準(zhǔn)確塑造人物的形式美與生命力

文化視界網(wǎng) 2025-08-29 16:43:18
0 跟貼 0
記者：利物浦不會為伊薩克支付1.3億鎊，1.2億鎊是極限

雷速體育 2025-08-31 02:29:15
0 跟貼 0
【DeepSeek談藝】汪曉曙·人物畫 | 用筆展現(xiàn)出人物獨(dú)特的精神風(fēng)貌

文化視界網(wǎng) 2025-08-30 14:55:16
0 跟貼 0
牛彈琴：美國又使陰招了這是全世界的恥辱

現(xiàn)代快報(bào) 2025-08-30 08:47:25
28399 跟貼 28399
一部讓人猜想不到事情真相的冷門懸疑佳作，看完讓人眼前一亮

福福說 2025-08-27 09:00:00
1 跟貼 1
漂亮的女明星為了同性男友把男性男友扔下30樓，懸疑犯罪影視劇

西門慶說 2025-08-30 17:03:22
1 跟貼 1
俄國防部長：烏軍僅在今年已經(jīng)損失超過34萬人

環(huán)球網(wǎng)資訊 2025-08-30 18:55:43
19581 跟貼 19581
李文美國總統(tǒng)沒邏輯沒智力

描容娛樂 2025-08-26 23:56:51
3 跟貼 3
女版福爾摩斯，天才偵探的探案之旅，高度潛力第三季

奇妙故事會 2025-08-28 15:34:07
1 跟貼 1
烏克蘭開放18至22歲男性離境大批烏青年排隊(duì)20小時(shí)出國

海外網(wǎng) 2025-08-30 10:32:15
4632 跟貼 4632
懸疑?；鸨虅硪u好看又上頭的短劇

褲梨子解說 2025-08-28 11:30:34
1 跟貼 1

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代

13353文章數(shù) 66140關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戲

家居

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
“三思而后行”，下半句才是孔子本意
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

AI版華爾街之狼！o3-mini靠「神之押注」狂賺9倍，DeepSeek R1最特立獨(dú)行

李斌內(nèi)部講話：蔚來四季度必須盈利

媒體：日本忍不了了 最后一刻取消訪美

媒體：日本忍不了了 最后一刻取消訪美

扛著別人的老婆，贏下那該死的冠軍

吳京風(fēng)波拉出多位明星

美上訴法院裁定特朗普關(guān)稅非法！

態(tài)度原創(chuàng)

換個(gè)城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

UP主挑戰(zhàn)念“游戲科學(xué)”100萬次：最后竟然成功了！

提升功能 靈活居住環(huán)境

寶藍(lán)用平板一下子買了50盒玩具！！!

AI版華爾街之狼！o3-mini靠「神之押注」狂賺9倍，DeepSeek R1最特立獨(dú)行

媒體：日本忍不了了最后一刻取消訪美

媒體：日本忍不了了最后一刻取消訪美

美上訴法院裁定特朗普關(guān)稅非法！

換個(gè)城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

UP主挑戰(zhàn)念“游戲科學(xué)”100萬次：最后竟然成功了！

提升功能靈活居住環(huán)境

寶藍(lán)用平板一下子買了50盒玩具！！!