新智元報道
編輯:定慧
【新智元導讀】AGI的盡頭是「帶貨」嗎?一個名為「Vending Bench」的AI新榜單讓大模型經營真實的自動售貨機,在長周期商業(yè)任務中一較高下。在這場獨特的較量中,馬斯克的Grok-4憑借更強的「賣貨」能力超越了GPT-5。
AI「賣貨」是真的有點東西啊。
Grok 4在Vending Bench榜單上超越GPT-5,銷量高出約2倍,營收增長31%!
Grok比OpenAI GPT-5多賣了1100美元的貨物,并且在穩(wěn)定性和銷量方面均占據優(yōu)勢。
而且比大多數(shù)競爭對手維持更長時間的銷售勢頭。
連馬斯克都因為「Grok多賣了點貨」,變得傲嬌起來。
因為這次領先,馬斯克甚至有點「奧特曼化」了,動不動就把AGI掛嘴邊了。
上次奧特曼大談特談AGI讓他「癱坐」在椅子上,然后GPT-5發(fā)布后被噴完了。
不過,老馬從來不是一個「嘴炮」選手,硅谷有句話「不要和Elon做對」。
或許Grok 5還真的有點東西!
說回這次的Vending Bench榜單。
從完整的榜單來看,Grok 4和GPT-5在這個任務中的綜合表現(xiàn)最強。
Grok 4在創(chuàng)造財富和銷售方面無與倫比,而GPT-5則在持久性和穩(wěn)定性上達到了完美,與人類基準持平。
Claude系列的模型表現(xiàn)各異,Opus 4表現(xiàn)不錯,而Sonnet系列則相對較弱。
其實這個「實驗」從7月21日就開始了。
當時xAI的員工發(fā)帖表示辦公室剛剛迎來了Andon Labs好友們提供的由Grok驅動的自動售貨機!
很多人都在猜Grok在下個月能賺多少錢?
這個售貨機長下面這樣。
一塊屏幕,上面寫著Grokbox以及「我在這里經營我的自動售貨業(yè)務,在Slack上與我聊天」。
上面露出的食物左邊看起來是日清拉面,右邊是零食,看起來是一盒黃色的「Swedish Fish」(瑞典魚)軟糖,再往后看,能看到餅干和薯片等。
下方有一個「獲取你的產品 ->」 (Get your products ->) 的按鈕。
左下角有一個「Andon Labs」的標志。
右側看起來像一個后臺操作日志或開發(fā)者界面,顯示了系統(tǒng)正在執(zhí)行的命令,如「send_message」(發(fā)送消息)和「update_task」(更新任務)。
界面上還顯示了時間戳,日期為「Sunday, 2020-07-20 17:49:00」(2020年7月20日,星期日)。
Vending-Bench是一個專門設計用來評估人工智能(AI)智能體在執(zhí)行長期、復雜任務時表現(xiàn)如何的基準測試。
你可以把它想象成一個給AI設定的商業(yè)模擬游戲。
AI會扮演一個自動售貨機業(yè)務的經理。
這個業(yè)務是真實發(fā)生的,和現(xiàn)實世界的商業(yè)邏輯類似,就像上面xAI辦公室員工使用的那樣。
這與傳統(tǒng)的AI任務(如「回答一個問題」或「翻譯一句話」)完全不同。
在這里,AI需要在很長的時間里(比如模擬的幾個月甚至幾年)持續(xù)做出決策。
今天的決策會直接影響明天的結果。
例如采購決策,如果今天訂購了太多薯片,下周可能就會因為保質期而虧損。
如果價格定得太高,短期內利潤可能好看,但長期會因銷量下降而失敗。
長上下文也是大挑戰(zhàn)。
這意味著AI必須「記住」并理解很早之前發(fā)生的事情。
比如,它需要回顧過去幾個月的銷售數(shù)據,才能判斷夏天什么飲料賣得好,從而為下一個夏天提前備貨。
這對目前很多大語言模型來說是一個巨大的技術挑戰(zhàn),因為它們處理的「上下文窗口」有限,容易「忘記」開頭的信息。
Andon Labs為此還專門寫了一篇論文。
論文地址:https://arxiv.org/pdf/2502.15840
Vending Bench本身是一個模擬環(huán)境,用于測試AI模型在管理簡單但長期持續(xù)的商業(yè)場景(即運營一臺自動售貨機)時的表現(xiàn)。
智能體必須管理庫存、下訂單、設定價格并支付日常費用——這些單獨來看較為簡單的任務,長期來看會考驗 AI 保持一致性以及做出明智決策的能力。
實驗室還給出了AI智能體在這些任務中的提示詞。
結果表明,不同模型的表現(xiàn)差異很大。
一些模型(如Claude 3.5 Sonnet 和o3-mini)通常能夠成功并實現(xiàn)盈利,某些情況下甚至超過了我們的人類基準表現(xiàn),但波動性也很高。
即便是最佳模型,也會偶爾失敗,例如誤解送貨時間表、忘記過去的訂單,或陷入奇怪的「崩潰」循環(huán)。
令人驚訝的是,這些故障似乎并不僅僅是因為模型的記憶空間已滿。
相反,它們表明了當前模型在更長時間范圍內持續(xù)推理和決策能力上的不足。
如何讓AI從Chat聊天框里真正走入現(xiàn)實世界?又如何評估AI的能力?
Vending-Bench給出一種「有趣」的解法。
這個游戲揭示了人工智能領域的一個關鍵挑戰(zhàn):如何確保模型在長時間跨度內的安全性和可靠性。
盡管模型在短期、受限的場景中可以表現(xiàn)出色,但隨著時間范圍的延長,其行為變得越來越難以預測。
這對于實際應用中的AI部署具有重要意義,因為在這些場景中,穩(wěn)定、可靠和透明的性能對于安全至關重要。
這種長時間讓AI模型保持安全性和可靠性也許就是AGI的一個初步雛形。
馬斯克認為到了Grok 5的時候,會有AGI的感覺。
這也引發(fā)了人們對于AGI定義的討論。
甚至有人猜測,奧特曼的OpenAI是否已經擁有了AGI級別的模型。
不過看GPT-5的表現(xiàn),這次可能只是漸進式的升級。
可能AGI離我們還有點遠,回歸到基準測試,最后看一下o3-mini和Sonnet的對比。
Claude 3.5 Sonnet在模擬任務中的表現(xiàn)全面優(yōu)于o3-mini。
具體來說,Sonnet更擅長利用工具來持續(xù)地、有效地執(zhí)行任務,從而實現(xiàn)了遠超o3-mini的長期資產積累能力,表現(xiàn)出更強的「規(guī)劃」和「執(zhí)行」能力。
相比之下,o3-mini在任務初期表現(xiàn)活躍,但很快就失去了動力,導致其資產增長停滯。
或許用賣貨來檢驗模型能不能實現(xiàn)AGI確實是一條基準測試路徑!
參考資料:
https://x.com/elonmusk/status/1958499441469739329
https://andonlabs.com/evals/vending-bench
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.