成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

馬斯克Grok-4賣貨創(chuàng)收碾壓GPT-5!AI賣貨排行榜曝光,AGI的盡頭是賣薯片?

0
分享至


新智元報道

編輯:定慧

【新智元導讀】AGI的盡頭是「帶貨」嗎?一個名為「Vending Bench」的AI新榜單讓大模型經營真實的自動售貨機,在長周期商業(yè)任務中一較高下。在這場獨特的較量中,馬斯克的Grok-4憑借更強的「賣貨」能力超越了GPT-5。

AI「賣貨」是真的有點東西啊。

Grok 4在Vending Bench榜單上超越GPT-5,銷量高出約2倍,營收增長31%

Grok比OpenAI GPT-5多賣了1100美元的貨物,并且在穩(wěn)定性和銷量方面均占據優(yōu)勢。


而且比大多數(shù)競爭對手維持更長時間的銷售勢頭。

連馬斯克都因為「Grok多賣了點貨」,變得傲嬌起來。

因為這次領先,馬斯克甚至有點「奧特曼化」了,動不動就把AGI掛嘴邊了。


上次奧特曼大談特談AGI讓他「癱坐」在椅子上,然后GPT-5發(fā)布后被噴完了。

不過,老馬從來不是一個「嘴炮」選手,硅谷有句話「不要和Elon做對」。

或許Grok 5還真的有點東西!

說回這次的Vending Bench榜單

從完整的榜單來看,Grok 4和GPT-5在這個任務中的綜合表現(xiàn)最強。

Grok 4在創(chuàng)造財富和銷售方面無與倫比,而GPT-5則在持久性和穩(wěn)定性上達到了完美,與人類基準持平。

Claude系列的模型表現(xiàn)各異,Opus 4表現(xiàn)不錯,而Sonnet系列則相對較弱。


其實這個「實驗」從7月21日就開始了。

當時xAI的員工發(fā)帖表示辦公室剛剛迎來了Andon Labs好友們提供的由Grok驅動的自動售貨機!

很多人都在猜Grok在下個月能賺多少錢?


這個售貨機長下面這樣。

一塊屏幕,上面寫著Grokbox以及「我在這里經營我的自動售貨業(yè)務,在Slack上與我聊天」。


上面露出的食物左邊看起來是日清拉面,右邊是零食,看起來是一盒黃色的「Swedish Fish」(瑞典魚)軟糖,再往后看,能看到餅干和薯片等。


下方有一個「獲取你的產品 ->」 (Get your products ->) 的按鈕。

左下角有一個「Andon Labs」的標志。

右側看起來像一個后臺操作日志或開發(fā)者界面,顯示了系統(tǒng)正在執(zhí)行的命令,如「send_message」(發(fā)送消息)和「update_task」(更新任務)。

界面上還顯示了時間戳,日期為「Sunday, 2020-07-20 17:49:00」(2020年7月20日,星期日)。


Vending-Bench是一個專門設計用來評估人工智能(AI)智能體在執(zhí)行長期、復雜任務時表現(xiàn)如何的基準測試

你可以把它想象成一個給AI設定的商業(yè)模擬游戲。


AI會扮演一個自動售貨機業(yè)務的經理

這個業(yè)務是真實發(fā)生的,和現(xiàn)實世界的商業(yè)邏輯類似,就像上面xAI辦公室員工使用的那樣。

這與傳統(tǒng)的AI任務(如「回答一個問題」或「翻譯一句話」)完全不同。

在這里,AI需要在很長的時間里(比如模擬的幾個月甚至幾年)持續(xù)做出決策。

今天的決策會直接影響明天的結果。

例如采購決策,如果今天訂購了太多薯片,下周可能就會因為保質期而虧損。

如果價格定得太高,短期內利潤可能好看,但長期會因銷量下降而失敗。


長上下文也是大挑戰(zhàn)。

這意味著AI必須「記住」并理解很早之前發(fā)生的事情。

比如,它需要回顧過去幾個月的銷售數(shù)據,才能判斷夏天什么飲料賣得好,從而為下一個夏天提前備貨。

這對目前很多大語言模型來說是一個巨大的技術挑戰(zhàn),因為它們處理的「上下文窗口」有限,容易「忘記」開頭的信息。

Andon Labs為此還專門寫了一篇論文。


論文地址:https://arxiv.org/pdf/2502.15840

Vending Bench本身是一個模擬環(huán)境,用于測試AI模型在管理簡單但長期持續(xù)的商業(yè)場景(即運營一臺自動售貨機)時的表現(xiàn)。

智能體必須管理庫存、下訂單、設定價格并支付日常費用——這些單獨來看較為簡單的任務,長期來看會考驗 AI 保持一致性以及做出明智決策的能力。


實驗室還給出了AI智能體在這些任務中的提示詞。



結果表明,不同模型的表現(xiàn)差異很大。

一些模型(如Claude 3.5 Sonnet 和o3-mini)通常能夠成功并實現(xiàn)盈利,某些情況下甚至超過了我們的人類基準表現(xiàn),但波動性也很高。

即便是最佳模型,也會偶爾失敗,例如誤解送貨時間表、忘記過去的訂單,或陷入奇怪的「崩潰」循環(huán)。

令人驚訝的是,這些故障似乎并不僅僅是因為模型的記憶空間已滿。

相反,它們表明了當前模型在更長時間范圍內持續(xù)推理和決策能力上的不足。


如何讓AI從Chat聊天框里真正走入現(xiàn)實世界?又如何評估AI的能力?

Vending-Bench給出一種「有趣」的解法。

這個游戲揭示了人工智能領域的一個關鍵挑戰(zhàn):如何確保模型在長時間跨度內的安全性和可靠性。

盡管模型在短期、受限的場景中可以表現(xiàn)出色,但隨著時間范圍的延長,其行為變得越來越難以預測。

這對于實際應用中的AI部署具有重要意義,因為在這些場景中,穩(wěn)定、可靠和透明的性能對于安全至關重要。

這種長時間讓AI模型保持安全性和可靠性也許就是AGI的一個初步雛形。

馬斯克認為到了Grok 5的時候,會有AGI的感覺。


這也引發(fā)了人們對于AGI定義的討論。


甚至有人猜測,奧特曼的OpenAI是否已經擁有了AGI級別的模型

不過看GPT-5的表現(xiàn),這次可能只是漸進式的升級。


可能AGI離我們還有點遠,回歸到基準測試,最后看一下o3-mini和Sonnet的對比。

Claude 3.5 Sonnet在模擬任務中的表現(xiàn)全面優(yōu)于o3-mini

具體來說,Sonnet更擅長利用工具來持續(xù)地、有效地執(zhí)行任務,從而實現(xiàn)了遠超o3-mini的長期資產積累能力,表現(xiàn)出更強的「規(guī)劃」和「執(zhí)行」能力。

相比之下,o3-mini在任務初期表現(xiàn)活躍,但很快就失去了動力,導致其資產增長停滯。


或許用賣貨來檢驗模型能不能實現(xiàn)AGI確實是一條基準測試路徑!

參考資料:

https://x.com/elonmusk/status/1958499441469739329

https://andonlabs.com/evals/vending-bench


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我在非洲當保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

我在非洲當保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

吳學華看天下
2023-12-20 12:32:08
79歲克林頓久違露面,帶除顫器引發(fā)健康擔憂,77歲希拉里卻很精神

79歲克林頓久違露面,帶除顫器引發(fā)健康擔憂,77歲希拉里卻很精神

譯言
2025-08-30 20:30:50
孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設計師發(fā)聲!

孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設計師發(fā)聲!

古希臘掌管松餅的神
2025-08-29 21:52:46
36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

智凌縱橫
2025-08-30 10:36:55
楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麥少
2025-08-10 17:04:40
莫迪最新涉華表態(tài):印中保持緊密關系,對構建多極化亞洲和世界至關重要

莫迪最新涉華表態(tài):印中保持緊密關系,對構建多極化亞洲和世界至關重要

環(huán)球網資訊
2025-08-30 10:09:51
澳門賭場公關爆猛料:明星導演常來,某天王玩半年,專走秘密通道

澳門賭場公關爆猛料:明星導演常來,某天王玩半年,專走秘密通道

深析古今
2025-08-25 10:41:34
2進武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

2進武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

老媹古裝影視解說
2025-08-29 21:07:49
iPhone17ProMax,突然提前上架

iPhone17ProMax,突然提前上架

搞機小帝
2025-08-30 13:57:02
董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

陳意小可愛
2025-08-30 21:40:31
“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

詩詞中國
2025-08-26 15:46:48
人民網發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

人民網發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

熱點菌本君
2025-08-27 15:45:34
【市長】潮州市迎來新任副市長鄧鋼:從紀委骨干到援藏先鋒,實干擔當助力潮州騰飛

【市長】潮州市迎來新任副市長鄧鋼:從紀委骨干到援藏先鋒,實干擔當助力潮州騰飛

潮州玩家
2025-08-30 22:26:13
韓國女運動員網上曬腹肌竟被舉報!稱她是只穿內衣太暴露?

韓國女運動員網上曬腹肌竟被舉報!稱她是只穿內衣太暴露?

奮斗在韓國
2025-08-30 14:06:44
打入一球,迪亞斯當選奧格斯堡vs拜仁全場最佳球員

打入一球,迪亞斯當選奧格斯堡vs拜仁全場最佳球員

懂球帝
2025-08-31 03:11:31
街頭捕獲高個長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

街頭捕獲高個長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

半生情感
2025-08-15 10:10:50
杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

天天熱點見聞
2025-08-29 14:11:55
這是黃圣依?差點沒認出來,氣質完全不一樣了呀,像是變了一個人

這是黃圣依?差點沒認出來,氣質完全不一樣了呀,像是變了一個人

鄉(xiāng)野小珥
2025-08-24 13:16:57
貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

第四思維
2025-08-26 09:14:41
重磅的房地產政策來了,國家要對老舊住房改造下重手。

重磅的房地產政策來了,國家要對老舊住房改造下重手。

流蘇晚晴
2025-08-30 18:06:15
2025-08-31 03:48:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
13353文章數(shù) 66140關注度
往期回顧 全部

科技要聞

李斌內部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

游戲
本地
手機
房產
公開課

UP主挑戰(zhàn)念“游戲科學”100萬次:最后竟然成功了!

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

手機要聞

vivo X300系列超前瞻預熱開啟:兩億像素+長焦微距,實力不容小覷

房產要聞

顛覆認知!??谡嬲暮勒髌?,終于出現(xiàn)了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版