月之暗面又開源了！楊植麟合著提出新Agent框架，旗艦模型得分超GPT-4o

2025-08-14 13:17:25　來源: 智東西

北京舉報

分享至

智東西
編譯程茜
編輯云鵬

智東西8月14日消息，本周二，一篇來自香港大學XLANG Lab 、月之暗面等多家機構聯(lián)合署名的論文在arXiv發(fā)表，提出了一個用于構建和擴展的CUA（計算機使用Agent）開源框架OpenCUA，這一框架開源意味著用戶可以高效、低門檻開發(fā)自主操作電腦的Agent。

香港大學計算機科學助理教授Tao Yu（余濤）為項目負責人，月之暗面、斯坦福大學、滑鐵盧大學、卡內基梅隆大學的研究人員參與，月之暗面創(chuàng)始人、CEO楊植麟在作者名單之列。

研究人員開源OpenCUA的原因是，目前CUA系統(tǒng)的關鍵細節(jié)仍然處于閉源狀態(tài)，為了擴展其輔助用戶執(zhí)行相應決策的應用能力，研究人員需要訪問開源CUA框架來研究其能力、局限性和風險。

在此基礎上，研究人員提出了這一用于擴展CUA數(shù)據(jù)和基礎模型的綜合開源框架。

該框架包括：無縫捕獲人類計算機使用演示的注釋基礎設施；第一個跨越3個操作系統(tǒng)以及超200個應用程序和網(wǎng)站的大規(guī)模計算機使用任務數(shù)據(jù)集AgentNet；一個可擴展的、能將演示轉換為具有反思性長思維鏈推理“狀態(tài)-動作”對的工作流程。

該模型是基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B進行監(jiān)督微調（SFT），獲得了OpenCUA模型變體：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗艦模型OpenCUA-32B在CUA基準測試OSWorld-Verified上的平均成功率達到34.8%，達到開源模型新的SOTA，甚至超越了OpenAI CUA（GPT-4o）。

論文地址：https://arxiv.org/pdf/2508.09123

OpenCUA主頁（工具、模型、數(shù)據(jù)集）：https://opencua.xlang.ai

一、查天氣、做PPT任務軌跡清晰明了，表現(xiàn)超OpenAI、Kimi、Qwen多個模型

研究人員在項目主頁展示了OpenCUA使用計算機執(zhí)行的任務軌跡。

在VScode中安裝擴展的任務軌跡：

查詢英國曼徹斯特天氣預報的任務軌跡：

制作PPT的任務軌跡：

在基礎測試驗證上，CUA基準測試OSWorld-Verify中，OpenCUA-32B的表現(xiàn)優(yōu)于Qwen、Kimi、OpenAI、Claude等開源及閉源模型，在部分任務表現(xiàn)上，獲得的分數(shù)低于Claude 3.7 Sonnet、Claude 4 Sonnet。

在離線部署方面，研究人員構建了計算機離線使用的Agent評估基準AgentNetBench，由從AgentNet數(shù)據(jù)集中選出的100個代表性任務組成，涵蓋Windows和macOS平臺以及不同的領域。

其中每項任務都經過研究人員手動審查，以細化目標并刪除多余作，且由于計算機使用任務中有效作固有的多樣性，研究人員在每個步驟中都手動提供了多個有效操作選項。

OpenCUA-7B、OpenCUA-32B的平均分數(shù)均優(yōu)于OpenAI、Qwen等模型。

GUI定位能力也就是模型面對圖形化界面（GUI），去識別按鈕、菜單、輸入框等視覺元素的能力。其中研究人員采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三個基準，OpenCUA-2.5-72B的每個測試表現(xiàn)都遠超其他模型。

二、簡化數(shù)據(jù)收集流程，發(fā)布22.5K計算機使用任務數(shù)據(jù)集

對于該框架的具體實現(xiàn)方面，包含了如何收集高質量計算機使用Agent數(shù)據(jù)、形成數(shù)據(jù)集、高效擴展等。

首先，高效、準確的注釋對于收集高質量的計算機使用Agent數(shù)據(jù)至關重要，但現(xiàn)有的工具不支持非技術用戶自然、跨平臺的任務記錄，因此研究人員開發(fā)了用戶友好的注釋工具AgentNet Tool，該工具可以簡化計算機使用演示的收集和驗證，在注釋者的個人計算機上運行并在后臺記錄演示。

AgentNet Tool可捕獲跨Windows、macOS和Ubuntu三大操作系統(tǒng)的用戶交互，能記錄屏幕視頻、鼠標、鍵盤事件和元數(shù)據(jù)，從而擴展收集真實世界的計算機使用演示。

其次，AgentNet Method可以將原始的用戶演示處理成干凈的、可學習的狀態(tài)-動作軌跡，由此產生的軌跡包括內心獨白式的思想和行動歷史，使其適合視覺語言模型訓練。

這些處理后的數(shù)據(jù)被整理到AgentNet數(shù)據(jù)集和AgentNetBench中。該數(shù)據(jù)集涵蓋了100多個應用程序和200多個網(wǎng)站的各種開放領域任務。該基準測試提供任務指令、步驟歷史記錄和每個步驟的多個黃金標準作，以實現(xiàn)高效離線評估。

該數(shù)據(jù)集包含22.5K人工標注的計算機使用任務，包括Windows的12K、macOS的5K和Ubuntu系統(tǒng)的5K。這些任務涵蓋140多個應用程序和190個網(wǎng)站，通常涉及多應用程序工作流程、專業(yè)工具和不常見的功能。

其研究論文提到，與以往的GUI數(shù)據(jù)集相比，AgentNet是第一個真實、復雜、多樣、多模態(tài)的桌面軌跡級數(shù)據(jù)集。

▲OpenCUA的基本框架

最后，OpenCUA能使用反思性思維鏈推理、多圖像歷史和混合域數(shù)據(jù)在數(shù)據(jù)集上進行訓練，它們可以在跨作系統(tǒng)的真實桌面環(huán)境中執(zhí)行，以執(zhí)行計算機使用任務。

值得一提的是，高Pass@N性能也表明OpenCUA-7B具有強大的測試時間擴展?jié)摿Αass@N是評估生成式模型在代碼生成、程序合成、推理任務中性能的重要指標，用于衡量模型在多次嘗試內生成正確結果的概率。

▲OpenCUA的Pass@N性能

結語：OpenCUA為計算機使用Agent規(guī)?；伮?/strong>

計算機使用Agent是一種能夠通過與計算機圖形用戶界面（GUI）交互來自動執(zhí)行數(shù)字任務的智能體，但由于數(shù)據(jù)稀缺、人工采集成高、難以私有化部署等痛點，使得其走向規(guī)?；瘧寐涞赜兄T多瓶頸。

此次，OpenCUA在開源模型基礎上進行監(jiān)督微調獲得模型變體，降低了計算機使用Agent的數(shù)據(jù)獲取成本，并形成了跨三個操作系統(tǒng)、上百個應用和網(wǎng)頁的數(shù)據(jù)集，對于其進一步調用多種工具、理解用戶需求、高效任務執(zhí)行等方面將提供助力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關推薦

熱點推薦

阿里發(fā)布信息檢索Agent，可自主上網(wǎng)查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
0 跟貼 0

大神卡帕西親自演繹零基礎開發(fā)APP，ChatGPT四輪對話搞定

量子位 2025-03-24 16:04:01
9 跟貼 9

One image is all you need多模態(tài)指令數(shù)據(jù)合成，只管給圖給Oasis

機器之心Pro 2025-07-18 18:03:34
0 跟貼 0

首個接入GPT-5的視頻Agent！一句話生成廣告大片，分鏡配音全包了

量子位 2025-08-26 16:15:53
2 跟貼 2

Vibe Coding的編程之道：當感覺成為一種技術指令

DeepTech深科技 2025-07-28 19:43:28
0 跟貼 0

華裔女學霸揭秘Claude Code，一人帶六個AI開干！編程范式徹底被顛覆

新智元 2025-08-30 12:54:01
16 跟貼 16

彈劾程序已死，馬科斯卸磨殺驢，逮捕老杜的警察總長，被連夜清算

吳學蘭 2025-08-28 16:45:13
0 跟貼 0

天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0

深度評測：PromptPilot，字節(jié)跳動的“提示詞工廠”

鈦媒體APP 2025-08-01 08:20:11
0 跟貼 0

牛彈琴：美國又使陰招了這是全世界的恥辱

現(xiàn)代快報 2025-08-30 08:47:25
30570 跟貼 30570

LaDi-WM模型大幅提升機器人操作策略的成功率和跨場景泛化能力

機器之心Pro 2025-08-18 16:45:46
0 跟貼 0

吳恩達最新來信：是時候關注并行智能體了

量子位 2025-08-30 17:02:12
1 跟貼 1

工廠大腦調度、Agent指揮、機器人協(xié)同作業(yè)，美的建了全球首個智能體工

36氪 2025-08-29 20:53:41
0 跟貼 0

機械大類專業(yè)，你知道該如何選擇它20個子類專業(yè)嗎？

玉辭心 2025-08-30 09:30:02
0 跟貼 0

機器學習臨床預測模型構建的一般流程

醫(yī)咖會 2025-08-11 19:56:31
0 跟貼 0

自動化類專業(yè)：是“雜而不精”的坑，還是性價比高的“萬金油”？

玉辭心 2025-08-31 07:15:45
0 跟貼 0

2025中國高校計算機大賽——大數(shù)據(jù)挑戰(zhàn)賽全國總決賽成功舉行

中國教育在線 2025-08-29 18:54:39
6 跟貼 6

“老梁點評《南京照相館》，沈逸老師一段話打臉！”

Maki小姬 2025-08-30 08:43:48
4735 跟貼 4735

為什么不建議在二本院校學電子信息等熱門專業(yè)？

玉辭心 2025-08-31 07:16:41
0 跟貼 0

武漢城市學院《數(shù)據(jù)結構》課程入選國家級一流本科課程！

小e教育 2025-08-30 10:10:49
0 跟貼 0

俄國防部長：烏軍僅在今年已經損失超過34萬人

環(huán)球網(wǎng)資訊 2025-08-30 18:55:43
23963 跟貼 23963

江蘇繪就數(shù)據(jù)“藍圖”

長三角日報 2025-08-29 21:15:43
0 跟貼 0

小伙在店里奏樂，用計算機彈奏音樂，計算器：我做錯了什么！

網(wǎng)貓愛搞笑 2025-08-30 13:25:50
1 跟貼 1

VLA 推理新范式

機器之心Pro 2025-07-16 17:37:16
0 跟貼 0

流浪地球2細節(jié)超絕，3秒鏡頭配手機系統(tǒng)，設計用心超乎想象

搞笑小哈皮 2025-08-29 16:44:27
1 跟貼 1

人生巨變，往往始于一個微不足道的決定

歷史控 2025-08-28 22:20:33
4 跟貼 4

蔣介石晚年評價義兄馮玉祥，見利忘義視權如命，比三姓家奴尤甚

南極狼人 2025-08-29 20:10:29
8359 跟貼 8359

被低估的GPT-5！OpenAI給7億人解鎖最強AI，大眾智能一夜撕裂舊秩序

新智元 2025-08-30 19:40:33
2 跟貼 2

烏克蘭開放18至22歲男性離境大批烏青年排隊20小時出國

海外網(wǎng) 2025-08-30 10:32:15
4855 跟貼 4855

地平線高階商業(yè)落地提速，HSD與征程6P全球首搭車亮相

幫寧工作室 2025-08-29 20:31:21
0 跟貼 0

日本干涉九三閱兵介文汲：讓中國人認清日本野心不死

看看新聞Knews 2025-08-29 15:40:37
2993 跟貼 2993

西安出臺新停車收費管理辦法及收費標準，2025年9月1日起執(zhí)行

極目新聞 2025-08-30 16:37:13
568 跟貼 568

這是什么舞蹈，真的太模型了，這腿部動作看著挺難的！

歡樂杠精 2025-08-28 17:01:08
2 跟貼 2

老哥4千米高空跳傘，手機意外摔下。結果不僅沒摔壞，還更好使了？！

英國那些事兒 2025-05-13 23:20:50
12 跟貼 12

“數(shù)據(jù)決定大模型性能上限”！國家數(shù)據(jù)局呼吁全社會強化數(shù)據(jù)要素價值認同

財聯(lián)社 2025-08-29 20:41:08
2 跟貼 2

650元！最便宜的8+旗艦體驗：配置夠硬，系統(tǒng)太拉胯了！

雷科技 2025-08-14 15:56:09
4 跟貼 4

幼兒園老師放著音樂，邊跳舞邊叫孩子起床，小朋友程序直接啟動！

爆笑館長 2025-08-30 14:13:48
1 跟貼 1

重慶官宣：區(qū)長左軍，任上落馬

新京報政事兒 2025-08-30 19:43:33
114 跟貼 114

同事偷我方案獲獎，我把下份PPT全填錯數(shù)據(jù)，慶功宴上他成了笑話

曉艾故事匯 2025-08-27 08:12:38
0 跟貼 0

LABUBU新品發(fā)售擠癱小程序，大量網(wǎng)友訂單被取消后投訴，官方回應

星視頻 2025-08-29 21:28:51
0 跟貼 0

基輔降半旗，澤連斯基被打醒了？對華提出請求，中方只回了兩句話
小楊侃事
2025-08-30 11:43:06

難以置信，陳雨菲親述受傷對比賽的影響，以及最新傷情
真理是我親戚
2025-08-30 23:52:43

郭錫文有新職，曾任福建寧德市委書記（附簡歷）
魯中晨報
2025-08-30 22:56:16

阿里巴巴：追加寒武紀GPU至15萬片
新浪財經
2025-08-30 21:10:39

劉強東美女助理：出身普通，卻深得劉強東信任，名下多家公司
禾寒敘
2025-08-30 20:15:42

他倆準備離婚！女方已四結三離
FM93浙江交通之聲
2025-08-30 12:40:58

8月30日俄烏最新：澤連斯基拒絕歐盟提議
西樓飲月
2025-08-30 19:17:41

全世界媒體束手無策，為什么楊蘭蘭的信息都挖掘不到?
李昕言溫度空間
2025-08-30 22:10:33

吃愛國紅利，吹牛上天？新電影剛上映就撤檔的吳京，為何惹了眾怒
白面書誏
2025-08-29 22:59:15

2909億身價有何用？97歲的李嘉誠無力回天，兩個60歲兒子已成心病
歸史
2025-08-27 14:29:47

捏蛋女已“社死”！正臉曝光，面目猙獰，孩子的輿論也跟著遭殃
奇思妙想草葉君
2025-08-30 03:31:18

73年10月，8341部隊派出警衛(wèi)，在人民大會堂抓捕了兩位公安副部長
一只番茄魚
2025-08-30 12:35:03

1.75億花了個寂寞！支出僅遜英超BIG6 6億豪門3輪不勝拿什么爭冠
狍子歪解體壇
2025-08-31 01:07:59

慘遭20分逆轉！美國男籃不敵巴西無緣美洲杯決賽末節(jié)9-34大崩盤
羅說NBA
2025-08-31 07:09:31

切爾西鬧巨大笑話！5000萬歐神鋒被羞辱：拒絕歸隊賴在拜仁不走
風過鄉(xiāng)
2025-08-31 07:49:18

投訴“魯迅夾煙墻畫”當事人，被封號
極目新聞
2025-08-30 16:08:04

7萬人見證皇馬殘暴一幕：1.7億歐巨星10秒奔襲60米 1V2一條龍破門
風過鄉(xiāng)
2025-08-31 07:31:14

CBA深夜重磅簽約！場均36分6板外援加盟廣東：宏遠沖第12冠穩(wěn)了？
籃球快餐車
2025-08-31 03:20:09

伏明霞做夢也沒想到，和丈夫生的大女兒，已經開始為她爭光了
以茶帶書
2025-08-31 00:56:51

拍了8年卻沒上映，《美人魚2》6億成本打水漂，投資人坐不住了
千言娛樂記
2025-08-30 21:39:01

2025-08-31 08:19:00

智東西

聚焦智能變革，服務產業(yè)升級。

10390文章數(shù) 116838關注度

往期回顧全部

科技要聞

李斌內部講話：蔚來四季度必須盈利

研發(fā)創(chuàng)下新高華為上半年利潤為什么減少了

阿里、美團和京東的“外賣大戰(zhàn)”，究竟燒了多少錢

輪到理想打逆風局了

比亞迪中報營收首超特斯拉

頭條要聞

高校被指強制學生辦校園電話卡：不辦卡無法開宿舍門

車主剛續(xù)保2小時就出車禍致人死亡保險公司拒賠被訴

胡塞武裝"總理"和多位"部長"在以軍空襲中身亡

開車送娃返校繳了停車費還吃罰單男子懵了：怎么回事

媒體：日本忍不了了最后一刻取消訪美

頭條要聞

高校被指強制學生辦校園電話卡：不辦卡無法開宿舍門

車主剛續(xù)保2小時就出車禍致人死亡保險公司拒賠被訴

胡塞武裝"總理"和多位"部長"在以軍空襲中身亡

開車送娃返校繳了停車費還吃罰單男子懵了：怎么回事

媒體：日本忍不了了最后一刻取消訪美

體育要聞

扛著別人的老婆，贏下那該死的冠軍

挑落世界第一！世錦賽女單：陳雨菲2-0安洗瑩進決賽，將戰(zhàn)山口茜

太不容易了！陳雨菲第二局回球時不慎崴腳，但堅持比賽最終晉級

中超-蓉城4-1雙殺海港升至榜首費利佩雙響古爾芬克爾傳射

英超-切爾西2-0富勒姆恩佐傳射佩德羅建功

娛樂要聞

吳京風波拉出多位明星

《歸隊》抗聯(lián)隊伍壯大，田小貴和花姐立下大功！

楊采鈺疑似與富豪男友領證，否認當小老婆

蘇有朋道歉

黑黑的小甜馨長開了：大家一邊夸她一邊又酸她？

財經要聞

美上訴法院裁定特朗普關稅非法！

李寧賭上三把牌

為什么越用軟件“管理”員工，效率反而越低？

丟失股王寶座后，茅臺大股東擬增持30至33億元

上市券商“中考”放榜！3家凈利超去年全年

汽車要聞

全國靜態(tài)品鑒開啟方程豹鈦7成都車展首秀

猛士M817：鐵血軍魂與滿血華為的智能交響

首搭激光雷達比亞迪海豹07 DM-i正式亮相

上汽奧迪A5L Sportback與E5 Sportback登陸成都車展

紐北之王空降成都小米SU7 Ultra紐北限量版2025款首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

手機

本地

教育

公開課

伊姐周六熱推：電視劇《十二封信》；電影《死神來了：血脈詛咒》......

人到中年穿衣不跟風！試試經典款+莫蘭迪色，輕松穿出高級感

早秋最美の6件襯衫，撩到你腿軟！

腿粗、屁股大穿這3條褲子直接封神！ 120斤秒變90斤！

手機要聞

蘋果iPhone 17系列爆水管 Pro版大漲價8499起

vivo X300系列超前瞻預熱開啟：兩億像素+長焦微距，實力不容小覷

小米16系列再次被確認：大電池、新工藝、強性能，亮點基本清晰了

榮耀MagicOS 10.0大揭秘：被曝Beta測試將啟，與9.0的差別很大！

本地新聞

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

在貴州看一次開庭，出門出了張專輯

22℃吉林夏天｜松濤和鳴處一弓風弦染青綠

22℃的吉林夏天 | 江風沁心涼，游艇畫中行！

教育要聞

離譜！老師上課要求學生交東西，學生不從竟還舉凳砸老師

中民大附中昆明西山實驗小學：新生開啟成長新篇章

5w基礎，答案就不基礎。

突發(fā)，南京一培訓機構宣布合并校區(qū)！

孩子的問題，90%出在父母嘴上

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

“三思而后行”，下半句才是孔子本意

李彥宏：百度離破產30天

手機 / 數(shù)碼

房產 / 家居

月之暗面又開源了！楊植麟合著提出新Agent框架，旗艦模型得分超GPT-4o

李斌內部講話：蔚來四季度必須盈利

高校被指強制學生辦校園電話卡：不辦卡無法開宿舍門

高校被指強制學生辦校園電話卡：不辦卡無法開宿舍門

扛著別人的老婆，贏下那該死的冠軍

吳京風波拉出多位明星

美上訴法院裁定特朗普關稅非法！

態(tài)度原創(chuàng)

伊姐周六熱推：電視劇《十二封信》；電影《死神來了：血脈詛咒》......

蘋果iPhone 17系列爆水管 Pro版大漲價8499起

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

離譜！老師上課要求學生交東西，學生不從竟還舉凳砸老師

月之暗面又開源了！楊植麟合著提出新Agent框架，旗艦模型得分超GPT-4o

美上訴法院裁定特朗普關稅非法！

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

離譜！老師上課要求學生交東西，學生不從竟還舉凳砸老師