成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI版華爾街之狼!o3-mini靠「神之押注」狂賺9倍,DeepSeek R1最特立獨(dú)行

0
分享至


新智元報(bào)道

編輯:定慧 好困

【新智元導(dǎo)讀】AI能像科幻電影中的先知一樣預(yù)測未來嗎?一個(gè)名為「Prophet Arena」的全新基準(zhǔn)測試,正通過預(yù)測真實(shí)世界事件來評估AI的「預(yù)言」能力。

AI能預(yù)測未來嗎?

在《黑客帝國》里,先知能對Neo的未來做出預(yù)測。

以ChatGPT為代表的AI,則可以根據(jù)過去的語料來「預(yù)測下一個(gè)Token」。

那問題來了,AI能不能像先知一樣,從全世界的雜亂信息里找出蛛絲馬跡,準(zhǔn)確地預(yù)測未來呢?

比如:

  • AI監(jiān)管今年能否成為聯(lián)邦法律?

  • 美國職業(yè)足球大聯(lián)盟比賽中,誰會獲勝?

  • NBA今年的冠軍會是誰?



在昨晚的男籃亞洲杯冠軍爭奪戰(zhàn)中,中國男籃雖以1分之差惜敗澳大利亞,但已是近十年來的最好成績!

相信絕大部分人都不會猜到這個(gè)比分,那么,AI能否根據(jù)中國隊(duì)此前的表現(xiàn),提前預(yù)測到呢?


更進(jìn)一步的,AI能否像拉普拉斯妖一樣,在獲取了當(dāng)下世界的所有信息后,精確預(yù)測未來的一切?

如果它能在某一瞬間知道宇宙中所有粒子的位置與速度,并且完全理解自然規(guī)律。

那么,就可以準(zhǔn)確計(jì)算出過去的一切,并且精確預(yù)測未來的一切

今天要介紹的Prophet Arena就是一個(gè)通過實(shí)時(shí)更新的真實(shí)世界預(yù)測任務(wù)來評估AI系統(tǒng)預(yù)測智能的基準(zhǔn)測試。


把市場共識、自動化預(yù)測、信息整理和社區(qū)洞察結(jié)合起來,形成更強(qiáng)的整體預(yù)測能力

簡單來說,Prophet Arena作為基準(zhǔn)測試是獨(dú)一無二的:

  • 考的是預(yù)測能力:這是一種需要綜合理解力、推理能力的高級智慧。

  • 為「人機(jī)協(xié)作」而生:你可以給AI提供線索,看看它的預(yù)測如何變化;AI也會把它的思考過程告訴你。

  • 不會過擬合,數(shù)據(jù)永不過時(shí):因?yàn)槲磥淼氖录肋h(yuǎn)是全新的考題。

  • 直面真實(shí)世界:AI的預(yù)測直接與真實(shí)的投注決策掛鉤,表現(xiàn)好的模型真的能在虛擬市場里賺到錢。

Prophet Arena以實(shí)時(shí)預(yù)測市場事件為依托,首次建立了一個(gè)無法「刷題」的動態(tài)基準(zhǔn)。

全面衡量AI在不確定性推理、信息整合、概率預(yù)測和真實(shí)收益中的表現(xiàn)。

就連OpenAI 推理研究(AI reasoning research)負(fù)責(zé)人Noam Brown也贊嘆,預(yù)測能力是人類獨(dú)有的能力,現(xiàn)在AI終于開始涉足了。


競技場規(guī)則大公開

在Prophet Arena里,AI模型們要回答一個(gè)簡單又根本的問題:

預(yù)測真實(shí)世界里還沒發(fā)生的事,到底行不行?

Prophet Arena從像Kalshi和Polymarket這樣的預(yù)測市場平臺挑選熱門、多樣且周期性的真實(shí)事件作為考題。


Kalshi是一家美國的金融交易所和預(yù)測市場平臺,是美國第一個(gè)受美國商品期貨交易委員會(CFTC)監(jiān)管的、專注于交易「事件結(jié)果」的交易所


polymarket上關(guān)于AI相關(guān)的預(yù)測話題

整個(gè)比賽流程分為三步:

1. 情報(bào)收集

AI模型們利用搜索引擎,像偵探一樣收集關(guān)于某個(gè)事件的新聞報(bào)道,整理成一份精煉的「情報(bào)簡報(bào)」。同時(shí),也會把當(dāng)時(shí)的市場價(jià)格(可以看作是群眾的集體智慧)放進(jìn)去。

2. 提交預(yù)測

拿到相同的情報(bào)后,每個(gè)AI模型都要提交一份詳細(xì)的「預(yù)測報(bào)告」:對所有可能的結(jié)果給出一個(gè)概率分布,并附上長篇大論的理由,解釋自己為什么這么看。

3. 結(jié)果揭曉與評分

事件結(jié)束,結(jié)果揭曉。會用一套專業(yè)的指標(biāo)來評估AI的預(yù)測到底有多準(zhǔn),然后更新在一個(gè)實(shí)時(shí)排行榜上。


預(yù)測指標(biāo)設(shè)定

排行榜主要看兩個(gè)指標(biāo):一個(gè)是衡量準(zhǔn)確度和校準(zhǔn)度的Brier分?jǐn)?shù)(越高越好),另一個(gè)是模擬真實(shí)投注的平均回報(bào)(看誰能賺錢)。

除了上述兩個(gè)核心指標(biāo)外,Prophet Arena還采用了受統(tǒng)計(jì)學(xué)和心理測量建模啟發(fā)的高級評估方法,如項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)和廣義Bradley-Terry(BT)模型。

這些補(bǔ)充性指標(biāo)豐富了排行榜,能夠更細(xì)致和全面地理解預(yù)測智能。


AI「預(yù)言家」成績單出爐

Prophet的秘密發(fā)現(xiàn)

你可能會覺得,預(yù)測越準(zhǔn),賺的錢肯定越多吧?

大部分時(shí)候是這樣,但在數(shù)據(jù)里發(fā)現(xiàn)了一個(gè)特別有意思的「反轉(zhuǎn)區(qū)域。

秘密一:最賺錢的預(yù)測,不一定是最準(zhǔn)的

在Brier分?jǐn)?shù)不高(0.3-0.5分)的區(qū)間里,反而誕生了許多回報(bào)率驚人的預(yù)測。

深挖一下,發(fā)現(xiàn)很多都來自爆冷的體育比賽。


比如一場溫布爾登網(wǎng)球賽,賽前市場普遍認(rèn)為選手保羅有84%的勝率,甚至在開賽前一度攀升至95%。

但很多AI模型比市場更保守,只給了他80%左右的勝率。

正是這微小的差異,讓模型在下注時(shí),認(rèn)為押注對手奧夫納獲勝的「性價(jià)比」更高。

結(jié)果,奧夫納真的爆冷贏了!這筆投注帶來了近6倍的回報(bào)。

你看,AI并沒有準(zhǔn)確預(yù)測到勝者,所以它的準(zhǔn)確度分?jǐn)?shù)(Brier分?jǐn)?shù))很一般。

但它敏銳地發(fā)現(xiàn)了市場的「定價(jià)偏差」,做出了高回報(bào)的選擇。

這說明,成為一個(gè)準(zhǔn)確的預(yù)言家和成為一個(gè)賺錢的投資者,是兩種不完全相同的技能。

為了探討這一點(diǎn),檢查了每個(gè)Brier得分區(qū)間的模型構(gòu)成,每個(gè)模型用不同的顏色表示。

一個(gè)直接的觀察結(jié)果是,較高的Brier得分區(qū)間中的預(yù)測數(shù)量通常更多。

絕大多數(shù)LLM在預(yù)測時(shí)傾向于與主流信息保持一致,因此大部分預(yù)測集中在高Brier分?jǐn)?shù)區(qū)間。


秘密二:AI也有「性格」,激進(jìn)派or保守派

面對同樣的信息,不同的AI模型會表現(xiàn)出截然不同的「性格」。

比如在「AI監(jiān)管法規(guī)會在2026年前成為聯(lián)邦法律嗎?」這個(gè)事件上,市場認(rèn)為可能性只有25%。

但模型可比人類激進(jìn)多了。

激進(jìn)派代表Qwen3它看到各種法案都在推進(jìn),覺得勢頭很猛,直接給出了75%的超高概率。


保守派代表Llama 4 Maverick它也看到了同樣的信息,但認(rèn)為立法過程復(fù)雜又緩慢,所以只給出了比市場略高一點(diǎn)的35%。


而GPT-4.1處于他們二者之間,給出了60%的概率。


這太有趣了!

AI的預(yù)測并非隨機(jī),它們有著結(jié)構(gòu)化的推理和獨(dú)特的風(fēng)險(xiǎn)偏好,就像人類專家也會有觀點(diǎn)分歧一樣。

秘密三:AI勝利的秘訣在于「贏得大」而非「贏得多」

在這些模型中,哪個(gè)模型最能賺錢?

在排行榜上,OpenAI的o3-mini模型在平均回報(bào)指標(biāo)上名列前茅。


這還是很出人意料的。

例如在圣地亞哥與多倫多的美國職業(yè)足球大聯(lián)盟比賽中,o3-mini在1美元的投注上獲得了9美元的回報(bào)。

根據(jù)市場數(shù)據(jù)和新聞來源,o3-mini預(yù)測多倫多獲勝的概率為30%,而市場隱含的概率僅為11%(價(jià)格=0.11)。

盡管多倫多是不被看好的一方,但AI識別到了正的期望值,并由于其最大的優(yōu)勢比率30%/11%≈3。

選擇了投注多倫多FC獲勝。

結(jié)果證明,多倫多最終獲勝,為o3-mini帶來了可觀的已實(shí)現(xiàn)收益。

但它在很多比賽中,和市場主流觀點(diǎn)的正面交鋒其實(shí)是輸多贏少。


那它為什么還能賺錢呢?因?yàn)樗?strong>贏的時(shí)候,贏得特別多

它總能找到一些市場沒注意到的細(xì)微差別,然后下注在那些「性價(jià)比」超高的選項(xiàng)上。

就像在上面那場足球賽中,市場認(rèn)為多倫多隊(duì)只有11%的勝算,但o3-mini經(jīng)過分析認(rèn)為有30%。

它果斷押注多倫多隊(duì),結(jié)果多倫多隊(duì)爆冷獲勝,這一筆就賺了9倍。

所以,在預(yù)測的世界里,成功的關(guān)鍵不在于每次都對,而在于你對的時(shí)候能帶來多大的回報(bào)。

彩蛋

在不同模型的對比中,發(fā)現(xiàn)了一些很有趣的現(xiàn)象。

下圖每個(gè)格子里的數(shù)值表示兩兩模型在預(yù)測分布上的平均差異程度。

數(shù)值越低(顏色越深的單元格)表示概率推理更接近一致;數(shù)值越高(顏色越淺的單元格)則表明分歧越大。


其中一個(gè)突出的模型是DeepSeek R1,它的預(yù)測結(jié)果常常與其他模型大相徑庭。

與Kimi K2、o3和Llama 4 Maverick等模型相比,它的L2距離始終高于0.7,這表明其可能采用了不同的校準(zhǔn)方式或內(nèi)部決策機(jī)制。

在頻譜的另一端,諸如Grok-4和GPT-5之類的模型經(jīng)常作出高度一致的預(yù)測,L2距離通常低于0.3。

這些模型似乎在解讀事件特征和匹配市場信號方面有更多的共同點(diǎn)。

換句話說,這張圖展示了AI預(yù)測的多樣性:有些模型形成「群體共識」、有些模型像「特立獨(dú)行的異議者」。

因此AI預(yù)測并不是隨機(jī)輸出,而是各自內(nèi)部結(jié)構(gòu)化推理的結(jié)果。

打造人機(jī)協(xié)作的「預(yù)言家聯(lián)盟」

Prophet Arena僅僅是個(gè)開始。

終極目標(biāo)是建立一個(gè)平臺,讓AI驅(qū)動的洞見來增強(qiáng)理解和預(yù)測世界的方式。

未來,你可以直接問AI:「這件事發(fā)生的可能性有多大?」

它不僅會給你一個(gè)概率,還會清晰地解釋背后的邏輯。

你甚至可以提供新的信息,看看AI會不會因此改變想法。

設(shè)想,AI系統(tǒng)將成為預(yù)測市場的積極參與者,將人類的直覺洞察與AI強(qiáng)大的數(shù)據(jù)分析能力相結(jié)合,最終提升整個(gè)社會的集體遠(yuǎn)見,為那些高風(fēng)險(xiǎn)的決策提供更可靠的依據(jù)。

畢竟,如果說語言模型的下一步是預(yù)測下一個(gè)詞,那么它的終極形態(tài),或許就是預(yù)測這個(gè)真實(shí)世界的下一個(gè)事件。

參考資料:

https://www.Prophet Arena.co/blog/welcome



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

吳學(xué)華看天下
2023-12-20 12:32:08
79歲克林頓久違露面,帶除顫器引發(fā)健康擔(dān)憂,77歲希拉里卻很精神

79歲克林頓久違露面,帶除顫器引發(fā)健康擔(dān)憂,77歲希拉里卻很精神

譯言
2025-08-30 20:30:50
孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計(jì)師發(fā)聲!

孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計(jì)師發(fā)聲!

古希臘掌管松餅的神
2025-08-29 21:52:46
36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

智凌縱橫
2025-08-30 10:36:55
楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麥少
2025-08-10 17:04:40
莫迪最新涉華表態(tài):印中保持緊密關(guān)系,對構(gòu)建多極化亞洲和世界至關(guān)重要

莫迪最新涉華表態(tài):印中保持緊密關(guān)系,對構(gòu)建多極化亞洲和世界至關(guān)重要

環(huán)球網(wǎng)資訊
2025-08-30 10:09:51
澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

深析古今
2025-08-25 10:41:34
2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

老媹古裝影視解說
2025-08-29 21:07:49
iPhone17ProMax,突然提前上架

iPhone17ProMax,突然提前上架

搞機(jī)小帝
2025-08-30 13:57:02
董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

陳意小可愛
2025-08-30 21:40:31
“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

詩詞中國
2025-08-26 15:46:48
人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

熱點(diǎn)菌本君
2025-08-27 15:45:34
【市長】潮州市迎來新任副市長鄧鋼:從紀(jì)委骨干到援藏先鋒,實(shí)干擔(dān)當(dāng)助力潮州騰飛

【市長】潮州市迎來新任副市長鄧鋼:從紀(jì)委骨干到援藏先鋒,實(shí)干擔(dān)當(dāng)助力潮州騰飛

潮州玩家
2025-08-30 22:26:13
韓國女運(yùn)動員網(wǎng)上曬腹肌竟被舉報(bào)!稱她是只穿內(nèi)衣太暴露?

韓國女運(yùn)動員網(wǎng)上曬腹肌竟被舉報(bào)!稱她是只穿內(nèi)衣太暴露?

奮斗在韓國
2025-08-30 14:06:44
打入一球,迪亞斯當(dāng)選奧格斯堡vs拜仁全場最佳球員

打入一球,迪亞斯當(dāng)選奧格斯堡vs拜仁全場最佳球員

懂球帝
2025-08-31 03:11:31
街頭捕獲高個(gè)長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

街頭捕獲高個(gè)長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

半生情感
2025-08-15 10:10:50
杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

天天熱點(diǎn)見聞
2025-08-29 14:11:55
這是黃圣依?差點(diǎn)沒認(rèn)出來,氣質(zhì)完全不一樣了呀,像是變了一個(gè)人

這是黃圣依?差點(diǎn)沒認(rèn)出來,氣質(zhì)完全不一樣了呀,像是變了一個(gè)人

鄉(xiāng)野小珥
2025-08-24 13:16:57
貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

第四思維
2025-08-26 09:14:41
重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

流蘇晚晴
2025-08-30 18:06:15
2025-08-31 03:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

本地
游戲
家居
親子
公開課

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

UP主挑戰(zhàn)念“游戲科學(xué)”100萬次:最后竟然成功了!

家居要聞

提升功能 靈活居住環(huán)境

親子要聞

寶藍(lán)用平板一下子買了50盒玩具!!!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版