成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频第二页|日本久草天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

<strike id="ow0ss"><input id="ow0ss"></input></strike>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

馬斯克Grok-4賣貨創(chuàng)收碾壓GPT-5！AI賣貨排行榜曝光，AGI的盡頭是賣薯片？

2025-08-22 17:19:20　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：定慧

【新智元導讀】AGI的盡頭是「帶貨」嗎？一個名為「Vending Bench」的AI新榜單讓大模型經營真實的自動售貨機，在長周期商業(yè)任務中一較高下。在這場獨特的較量中，馬斯克的Grok-4憑借更強的「賣貨」能力超越了GPT-5。

AI「賣貨」是真的有點東西啊。

Grok 4在Vending Bench榜單上超越GPT-5，銷量高出約2倍，營收增長31%！

Grok比OpenAI GPT-5多賣了1100美元的貨物，并且在穩(wěn)定性和銷量方面均占據優(yōu)勢。

而且比大多數(shù)競爭對手維持更長時間的銷售勢頭。

連馬斯克都因為「Grok多賣了點貨」，變得傲嬌起來。

因為這次領先，馬斯克甚至有點「奧特曼化」了，動不動就把AGI掛嘴邊了。

上次奧特曼大談特談AGI讓他「癱坐」在椅子上，然后GPT-5發(fā)布后被噴完了。

不過，老馬從來不是一個「嘴炮」選手，硅谷有句話「不要和Elon做對」。

或許Grok 5還真的有點東西！

說回這次的Vending Bench榜單。

從完整的榜單來看，Grok 4和GPT-5在這個任務中的綜合表現(xiàn)最強。

Grok 4在創(chuàng)造財富和銷售方面無與倫比，而GPT-5則在持久性和穩(wěn)定性上達到了完美，與人類基準持平。

Claude系列的模型表現(xiàn)各異，Opus 4表現(xiàn)不錯，而Sonnet系列則相對較弱。

其實這個「實驗」從7月21日就開始了。

當時xAI的員工發(fā)帖表示辦公室剛剛迎來了Andon Labs好友們提供的由Grok驅動的自動售貨機！

很多人都在猜Grok在下個月能賺多少錢？

這個售貨機長下面這樣。

一塊屏幕，上面寫著Grokbox以及「我在這里經營我的自動售貨業(yè)務，在Slack上與我聊天」。

上面露出的食物左邊看起來是日清拉面，右邊是零食，看起來是一盒黃色的「Swedish Fish」（瑞典魚）軟糖，再往后看，能看到餅干和薯片等。

下方有一個「獲取你的產品 ->」 (Get your products ->) 的按鈕。

左下角有一個「Andon Labs」的標志。

右側看起來像一個后臺操作日志或開發(fā)者界面，顯示了系統(tǒng)正在執(zhí)行的命令，如「send_message」（發(fā)送消息）和「update_task」（更新任務）。

界面上還顯示了時間戳，日期為「Sunday, 2020-07-20 17:49:00」（2020年7月20日，星期日）。

Vending-Bench是一個專門設計用來評估人工智能（AI）智能體在執(zhí)行長期、復雜任務時表現(xiàn)如何的基準測試。

你可以把它想象成一個給AI設定的商業(yè)模擬游戲。

AI會扮演一個自動售貨機業(yè)務的經理。

這個業(yè)務是真實發(fā)生的，和現(xiàn)實世界的商業(yè)邏輯類似，就像上面xAI辦公室員工使用的那樣。

這與傳統(tǒng)的AI任務（如「回答一個問題」或「翻譯一句話」）完全不同。

在這里，AI需要在很長的時間里（比如模擬的幾個月甚至幾年）持續(xù)做出決策。

今天的決策會直接影響明天的結果。

例如采購決策，如果今天訂購了太多薯片，下周可能就會因為保質期而虧損。

如果價格定得太高，短期內利潤可能好看，但長期會因銷量下降而失敗。

長上下文也是大挑戰(zhàn)。

這意味著AI必須「記住」并理解很早之前發(fā)生的事情。

比如，它需要回顧過去幾個月的銷售數(shù)據，才能判斷夏天什么飲料賣得好，從而為下一個夏天提前備貨。

這對目前很多大語言模型來說是一個巨大的技術挑戰(zhàn)，因為它們處理的「上下文窗口」有限，容易「忘記」開頭的信息。

Andon Labs為此還專門寫了一篇論文。

論文地址：https://arxiv.org/pdf/2502.15840

Vending Bench本身是一個模擬環(huán)境，用于測試AI模型在管理簡單但長期持續(xù)的商業(yè)場景（即運營一臺自動售貨機）時的表現(xiàn)。

智能體必須管理庫存、下訂單、設定價格并支付日常費用——這些單獨來看較為簡單的任務，長期來看會考驗 AI 保持一致性以及做出明智決策的能力。

實驗室還給出了AI智能體在這些任務中的提示詞。

結果表明，不同模型的表現(xiàn)差異很大。

一些模型（如Claude 3.5 Sonnet 和o3-mini）通常能夠成功并實現(xiàn)盈利，某些情況下甚至超過了我們的人類基準表現(xiàn)，但波動性也很高。

即便是最佳模型，也會偶爾失敗，例如誤解送貨時間表、忘記過去的訂單，或陷入奇怪的「崩潰」循環(huán)。

令人驚訝的是，這些故障似乎并不僅僅是因為模型的記憶空間已滿。

相反，它們表明了當前模型在更長時間范圍內持續(xù)推理和決策能力上的不足。

如何讓AI從Chat聊天框里真正走入現(xiàn)實世界？又如何評估AI的能力？

Vending-Bench給出一種「有趣」的解法。

這個游戲揭示了人工智能領域的一個關鍵挑戰(zhàn)：如何確保模型在長時間跨度內的安全性和可靠性。

盡管模型在短期、受限的場景中可以表現(xiàn)出色，但隨著時間范圍的延長，其行為變得越來越難以預測。

這對于實際應用中的AI部署具有重要意義，因為在這些場景中，穩(wěn)定、可靠和透明的性能對于安全至關重要。

這種長時間讓AI模型保持安全性和可靠性也許就是AGI的一個初步雛形。

馬斯克認為到了Grok 5的時候，會有AGI的感覺。

這也引發(fā)了人們對于AGI定義的討論。

甚至有人猜測，奧特曼的OpenAI是否已經擁有了AGI級別的模型。

不過看GPT-5的表現(xiàn)，這次可能只是漸進式的升級。

可能AGI離我們還有點遠，回歸到基準測試，最后看一下o3-mini和Sonnet的對比。

Claude 3.5 Sonnet在模擬任務中的表現(xiàn)全面優(yōu)于o3-mini。

具體來說，Sonnet更擅長利用工具來持續(xù)地、有效地執(zhí)行任務，從而實現(xiàn)了遠超o3-mini的長期資產積累能力，表現(xiàn)出更強的「規(guī)劃」和「執(zhí)行」能力。

相比之下，o3-mini在任務初期表現(xiàn)活躍，但很快就失去了動力，導致其資產增長停滯。

或許用賣貨來檢驗模型能不能實現(xiàn)AGI確實是一條基準測試路徑！

參考資料：

https://x.com/elonmusk/status/1958499441469739329

https://andonlabs.com/evals/vending-bench

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

馬斯克入局AI編程！新模型限時免費：256K上下文，主打一個速度快

量子位 2025-08-29 09:20:55
12 跟貼 12
馬斯克吹牛了嗎？Grok 4第一波實測

機器之心Pro 2025-07-11 17:26:23
0 跟貼 0

為什么這些科技大佬都限制孩子看手機？

狐貍先森講升學規(guī)劃 2025-08-28 20:40:33
0 跟貼 0

馬斯克再轟激光雷達，自動駕駛的雨中較量誰將勝出？

智生活雜志 2025-08-29 13:17:09
0 跟貼 0
原來雷軍也是馬斯克的門徒

雷科技 2025-06-24 20:49:04
0 跟貼 0

阿里蔣凡首談淘寶閃購：不能離開規(guī)模談效率

鈦媒體APP 2025-08-30 15:22:40
6 跟貼 6

馬斯克稱不習慣政治環(huán)境，能回到科技圈很開心

財聯(lián)社 2025-06-20 21:25:26
0 跟貼 0
外賣、直播電商等平臺服務管理將有“新國標”

經濟觀察報 2025-08-30 12:49:35
0 跟貼 0

被低估的GPT-5！OpenAI給7億人解鎖最強AI，大眾智能一夜撕裂舊秩序

新智元 2025-08-30 19:40:33
2 跟貼 2
AGI時代的教育我們應該學什么？

經濟觀察報 2025-05-09 15:41:04
0 跟貼 0
天才還是賭徒？23歲的Aschenbrenner與AI的終極博弈

虎嗅APP 2025-08-22 02:32:22
1 跟貼 1
西安小學附近的土豆片夾饃，你們覺得怎么樣呢？

摸魚的小潘攀 2025-08-30 16:46:38
1 跟貼 1
純國產智能體產品MasterAgent 一句話生成智能體集群

量子位 2025-07-29 18:00:26
0 跟貼 0
宇樹機器人復雜環(huán)境穩(wěn)定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
218 跟貼 218
知道機器人媽媽嗎？北京天壇馬哥形象生動說，不知真假

紫禁城下的胡同 2025-08-28 06:00:00
27 跟貼 27
GPT正面對決Claude！OpenAI竟沒全贏，AI安全「極限大測」真相曝光

新智元 2025-08-28 20:06:04
2 跟貼 2
神奇的“法拉第籠”效應，上萬伏高壓電都不怕？

探謎未知世界 2025-08-26 20:54:21
4 跟貼 4
Karpathy盛贊「環(huán)境中心」！AGI最后一塊拼圖開源，大廠豪擲百萬鎖死

新智元 2025-08-29 09:44:27
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
0 跟貼 0
1分鐘逛遍世界機器人大會，機器人已經沒有不會干的活了！

量子位 2025-08-10 02:23:22
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
一句話生成智能體集群，開發(fā)Agent能有多簡單？

量子位 2025-07-30 02:58:47
0 跟貼 0
牛彈琴：美國又使陰招了這是全世界的恥辱

現(xiàn)代快報 2025-08-30 08:47:25
28375 跟貼 28375
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0
格斗冠軍機器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0
GPT五代同堂答題，初代成網友白月光

機器之心Pro 2025-08-20 16:13:28
0 跟貼 0
從被群嘲到頂級玩家，阿里AI逆襲之路

華商韜略 2025-07-28 17:27:23
0 跟貼 0
超算互聯(lián)網上線開源AI社區(qū)！模型+數(shù)據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
機器狗跳千手觀音，波士頓動力達人秀炸場

量子位 2025-06-13 15:55:52
0 跟貼 0
研發(fā)自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
AI對話里冒出來的廣告，到底是怎么被塞進去的？

量子位 2025-08-28 17:03:48
0 跟貼 0
比無人機更可怕的東西，想象一下20個這玩意，背著10公斤TNT沖來

旅行者老墨 2025-08-30 09:41:24
0 跟貼 0
GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
星艦試飛成功，有人為何借星艦陰陽怪氣，聽聽老師怎么說的

智華采 2025-08-30 02:46:05
3 跟貼 3
AI接管眼神，你會選擇假眼睛還是真實視線？

量子位 2025-08-12 01:47:25
0 跟貼 0
哪個中國人能讓小扎和奧特曼撕破臉？

量子位 2025-07-07 21:52:29
0 跟貼 0
特朗普只剩8個月可活？萬斯告訴全美，自己準備好接過總統(tǒng)位子

影孖看世界 2025-08-30 18:19:40
1 跟貼 1
為什么釘釘是阿里AI落地的關鍵樞紐

科技向令說 2025-08-29 14:24:49
3 跟貼 3
史上最大人肉機械臂，能拿東西還能做復雜手勢

量子位 2025-03-29 17:36:24
0 跟貼 0

我在非洲當保鏢：見證了海外華人的邪惡，非洲黑妹非要嫁給我

我在非洲當保鏢：見證了海外華人的邪惡，非洲黑妹非要嫁給我

吳學華看天下

2023-12-20 12:32:08

79歲克林頓久違露面，帶除顫器引發(fā)健康擔憂，77歲希拉里卻很精神

79歲克林頓久違露面，帶除顫器引發(fā)健康擔憂，77歲希拉里卻很精神

譯言

2025-08-30 20:30:50

孟村女子葬禮后續(xù)：弟弟曬照緬懷，曝姐姐隱忍原因，設計師發(fā)聲！

孟村女子葬禮后續(xù)：弟弟曬照緬懷，曝姐姐隱忍原因，設計師發(fā)聲！

古希臘掌管松餅的神

2025-08-29 21:52:46

36歲楊穎上海商場現(xiàn)身，穿3年前高定禮服，失勢藝人辛酸盡顯？

36歲楊穎上海商場現(xiàn)身，穿3年前高定禮服，失勢藝人辛酸盡顯？

智凌縱橫

2025-08-30 10:36:55

楊蘭蘭保鏢身份疑曝光：姓胡、江西人，曾服役武警特勤，身手不凡

楊蘭蘭保鏢身份疑曝光：姓胡、江西人，曾服役武警特勤，身手不凡

公子麥少

2025-08-10 17:04:40

莫迪最新涉華表態(tài)：印中保持緊密關系，對構建多極化亞洲和世界至關重要

莫迪最新涉華表態(tài)：印中保持緊密關系，對構建多極化亞洲和世界至關重要

環(huán)球網資訊

2025-08-30 10:09:51

澳門賭場公關爆猛料：明星導演常來，某天王玩半年，專走秘密通道

澳門賭場公關爆猛料：明星導演常來，某天王玩半年，專走秘密通道

深析古今

2025-08-25 10:41:34

2進武漢決賽，肖國棟秀恩愛：感謝我老婆，這是送她的七夕禮物！

2進武漢決賽，肖國棟秀恩愛：感謝我老婆，這是送她的七夕禮物！

老媹古裝影視解說

2025-08-29 21:07:49

iPhone17ProMax，突然提前上架

iPhone17ProMax，突然提前上架

搞機小帝

2025-08-30 13:57:02

董璇給張維伊家所有親屬買黃金，董璇媽媽感慨：他家親戚可多了！

董璇給張維伊家所有親屬買黃金，董璇媽媽感慨：他家親戚可多了！

陳意小可愛

2025-08-30 21:40:31

“我不想死！”長沙女教師癌癥晚期，直言：全家必須為我犧牲！

“我不想死！”長沙女教師癌癥晚期，直言：全家必須為我犧牲！

詩詞中國

2025-08-26 15:46:48

人民網發(fā)聲！兇手爸媽醫(yī)院工作，劉某父親哽咽發(fā)聲：一命抵一命

人民網發(fā)聲！兇手爸媽醫(yī)院工作，劉某父親哽咽發(fā)聲：一命抵一命

熱點菌本君

2025-08-27 15:45:34

【市長】潮州市迎來新任副市長鄧鋼：從紀委骨干到援藏先鋒，實干擔當助力潮州騰飛

【市長】潮州市迎來新任副市長鄧鋼：從紀委骨干到援藏先鋒，實干擔當助力潮州騰飛

潮州玩家

2025-08-30 22:26:13

韓國女運動員網上曬腹肌竟被舉報！稱她是只穿內衣太暴露？

韓國女運動員網上曬腹肌竟被舉報！稱她是只穿內衣太暴露？

奮斗在韓國

2025-08-30 14:06:44

打入一球，迪亞斯當選奧格斯堡vs拜仁全場最佳球員

打入一球，迪亞斯當選奧格斯堡vs拜仁全場最佳球員

懂球帝

2025-08-31 03:11:31

街頭捕獲高個長發(fā)姐姐，她瑜伽褲勾勒的線條感絕了

街頭捕獲高個長發(fā)姐姐，她瑜伽褲勾勒的線條感絕了

半生情感

2025-08-15 10:10:50

杭州男子暴打情夫后續(xù)：扇臉猛踹，妻子跪地求饒，猛料被扒是慣犯

杭州男子暴打情夫后續(xù)：扇臉猛踹，妻子跪地求饒，猛料被扒是慣犯

天天熱點見聞

2025-08-29 14:11:55

這是黃圣依？差點沒認出來，氣質完全不一樣了呀，像是變了一個人

這是黃圣依？差點沒認出來，氣質完全不一樣了呀，像是變了一個人

鄉(xiāng)野小珥

2025-08-24 13:16:57

貴州女老師趙慶梅執(zhí)行死刑，22名男生遭毒手，全班僅兩人幸免

貴州女老師趙慶梅執(zhí)行死刑，22名男生遭毒手，全班僅兩人幸免

第四思維

2025-08-26 09:14:41

重磅的房地產政策來了，國家要對老舊住房改造下重手。

重磅的房地產政策來了，國家要對老舊住房改造下重手。

流蘇晚晴

2025-08-30 18:06:15

AI產業(yè)主平臺領航智能+時代

13353文章數(shù) 66140關注度

往期回顧全部

科技要聞

李斌內部講話：蔚來四季度必須盈利

頭條要聞

媒體：日本忍不了了最后一刻取消訪美

頭條要聞

媒體：日本忍不了了最后一刻取消訪美

體育要聞

扛著別人的老婆，贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經要聞

美上訴法院裁定特朗普關稅非法！

汽車要聞

全國靜態(tài)品鑒開啟方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

手機

房產

公開課

UP主挑戰(zhàn)念“游戲科學”100萬次：最后竟然成功了！

本地新聞

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

手機要聞

vivo X300系列超前瞻預熱開啟：兩億像素+長焦微距，實力不容小覷

房產要聞

顛覆認知！?？谡嬲暮勒髌?，終于出現(xiàn)了！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
“三思而后行”，下半句才是孔子本意
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<blockquote id="emwoy"><table id="emwoy"></table></blockquote>