成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

月之暗面又開源了!楊植麟合著提出新Agent框架,旗艦模型得分超GPT-4o

0
分享至


智東西
編譯 程茜
編輯 云鵬

智東西8月14日消息,本周二,一篇來自香港大學XLANG Lab 、月之暗面等多家機構聯(lián)合署名的論文在arXiv發(fā)表,提出了一個用于構建和擴展的CUA(計算機使用Agent)開源框架OpenCUA,這一框架開源意味著用戶可以高效、低門檻開發(fā)自主操作電腦的Agent。

香港大學計算機科學助理教授Tao Yu(余濤)為項目負責人,月之暗面、斯坦福大學、滑鐵盧大學、卡內基梅隆大學的研究人員參與,月之暗面創(chuàng)始人、CEO楊植麟在作者名單之列。


研究人員開源OpenCUA的原因是,目前CUA系統(tǒng)的關鍵細節(jié)仍然處于閉源狀態(tài),為了擴展其輔助用戶執(zhí)行相應決策的應用能力,研究人員需要訪問開源CUA框架來研究其能力、局限性和風險。

在此基礎上,研究人員提出了這一用于擴展CUA數(shù)據(jù)和基礎模型的綜合開源框架。

該框架包括:無縫捕獲人類計算機使用演示的注釋基礎設施;第一個跨越3個操作系統(tǒng)以及超200個應用程序和網(wǎng)站的大規(guī)模計算機使用任務數(shù)據(jù)集AgentNet一個可擴展的、能將演示轉換為具有反思性長思維鏈推理“狀態(tài)-動作”對的工作流程。

該模型是基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B進行監(jiān)督微調(SFT),獲得了OpenCUA模型變體:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗艦模型OpenCUA-32B在CUA基準測試OSWorld-Verified上的平均成功率達到34.8%,達到開源模型新的SOTA,甚至超越了OpenAI CUA(GPT-4o)


論文地址:https://arxiv.org/pdf/2508.09123

OpenCUA主頁(工具、模型、數(shù)據(jù)集):https://opencua.xlang.ai

一、查天氣、做PPT任務軌跡清晰明了,表現(xiàn)超OpenAI、Kimi、Qwen多個模型

研究人員在項目主頁展示了OpenCUA使用計算機執(zhí)行的任務軌跡。

在VScode中安裝擴展的任務軌跡:


查詢英國曼徹斯特天氣預報的任務軌跡:


制作PPT的任務軌跡:


在基礎測試驗證上,CUA基準測試OSWorld-Verify中,OpenCUA-32B的表現(xiàn)優(yōu)于Qwen、Kimi、OpenAI、Claude等開源及閉源模型,在部分任務表現(xiàn)上,獲得的分數(shù)低于Claude 3.7 Sonnet、Claude 4 Sonnet。


在離線部署方面,研究人員構建了計算機離線使用的Agent評估基準AgentNetBench,由從AgentNet數(shù)據(jù)集中選出的100個代表性任務組成,涵蓋Windows和macOS平臺以及不同的領域。

其中每項任務都經過研究人員手動審查,以細化目標并刪除多余作,且由于計算機使用任務中有效作固有的多樣性,研究人員在每個步驟中都手動提供了多個有效操作選項。

OpenCUA-7B、OpenCUA-32B的平均分數(shù)均優(yōu)于OpenAI、Qwen等模型。


GUI定位能力也就是模型面對圖形化界面(GUI),去識別按鈕、菜單、輸入框等視覺元素的能力。其中研究人員采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三個基準,OpenCUA-2.5-72B的每個測試表現(xiàn)都遠超其他模型。


二、簡化數(shù)據(jù)收集流程,發(fā)布22.5K計算機使用任務數(shù)據(jù)集

對于該框架的具體實現(xiàn)方面,包含了如何收集高質量計算機使用Agent數(shù)據(jù)、形成數(shù)據(jù)集、高效擴展等。

首先,高效、準確的注釋對于收集高質量的計算機使用Agent數(shù)據(jù)至關重要,但現(xiàn)有的工具不支持非技術用戶自然、跨平臺的任務記錄,因此研究人員開發(fā)了用戶友好的注釋工具AgentNet Tool,該工具可以簡化計算機使用演示的收集和驗證,在注釋者的個人計算機上運行并在后臺記錄演示。

AgentNet Tool可捕獲跨Windows、macOS和Ubuntu三大操作系統(tǒng)的用戶交互,能記錄屏幕視頻、鼠標、鍵盤事件和元數(shù)據(jù),從而擴展收集真實世界的計算機使用演示。

其次,AgentNet Method可以將原始的用戶演示處理成干凈的、可學習的狀態(tài)-動作軌跡,由此產生的軌跡包括內心獨白式的思想和行動歷史,使其適合視覺語言模型訓練。

這些處理后的數(shù)據(jù)被整理到AgentNet數(shù)據(jù)集和AgentNetBench中。該數(shù)據(jù)集涵蓋了100多個應用程序和200多個網(wǎng)站的各種開放領域任務。該基準測試提供任務指令、步驟歷史記錄和每個步驟的多個黃金標準作,以實現(xiàn)高效離線評估。

該數(shù)據(jù)集包含22.5K人工標注的計算機使用任務,包括Windows的12K、macOS的5K和Ubuntu系統(tǒng)的5K。這些任務涵蓋140多個應用程序和190個網(wǎng)站,通常涉及多應用程序工作流程、專業(yè)工具和不常見的功能。

其研究論文提到,與以往的GUI數(shù)據(jù)集相比,AgentNet是第一個真實、復雜、多樣、多模態(tài)的桌面軌跡級數(shù)據(jù)集。


▲OpenCUA的基本框架

最后,OpenCUA能使用反思性思維鏈推理、多圖像歷史和混合域數(shù)據(jù)在數(shù)據(jù)集上進行訓練,它們可以在跨作系統(tǒng)的真實桌面環(huán)境中執(zhí)行,以執(zhí)行計算機使用任務。

值得一提的是,高Pass@N性能也表明OpenCUA-7B具有強大的測試時間擴展?jié)摿Αass@N是評估生成式模型在代碼生成、程序合成、推理任務中性能的重要指標,用于衡量模型在多次嘗試內生成正確結果的概率。


▲OpenCUA的Pass@N性能

結語:OpenCUA為計算機使用Agent規(guī)?;伮?/strong>

計算機使用Agent是一種能夠通過與計算機圖形用戶界面(GUI)交互來自動執(zhí)行數(shù)字任務的智能體,但由于數(shù)據(jù)稀缺、人工采集成高、難以私有化部署等痛點,使得其走向規(guī)?;瘧寐涞赜兄T多瓶頸。

此次,OpenCUA在開源模型基礎上進行監(jiān)督微調獲得模型變體,降低了計算機使用Agent的數(shù)據(jù)獲取成本,并形成了跨三個操作系統(tǒng)、上百個應用和網(wǎng)頁的數(shù)據(jù)集,對于其進一步調用多種工具、理解用戶需求、高效任務執(zhí)行等方面將提供助力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
基輔降半旗,澤連斯基被打醒了?對華提出請求,中方只回了兩句話

基輔降半旗,澤連斯基被打醒了?對華提出請求,中方只回了兩句話

小楊侃事
2025-08-30 11:43:06
難以置信,陳雨菲親述受傷對比賽的影響,以及最新傷情

難以置信,陳雨菲親述受傷對比賽的影響,以及最新傷情

真理是我親戚
2025-08-30 23:52:43
郭錫文有新職,曾任福建寧德市委書記(附簡歷)

郭錫文有新職,曾任福建寧德市委書記(附簡歷)

魯中晨報
2025-08-30 22:56:16
阿里巴巴:追加寒武紀GPU至15萬片

阿里巴巴:追加寒武紀GPU至15萬片

新浪財經
2025-08-30 21:10:39
劉強東美女助理:出身普通,卻深得劉強東信任,名下多家公司

劉強東美女助理:出身普通,卻深得劉強東信任,名下多家公司

禾寒敘
2025-08-30 20:15:42
他倆準備離婚!女方已四結三離

他倆準備離婚!女方已四結三離

FM93浙江交通之聲
2025-08-30 12:40:58
8月30日俄烏最新:澤連斯基拒絕歐盟提議

8月30日俄烏最新:澤連斯基拒絕歐盟提議

西樓飲月
2025-08-30 19:17:41
全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

全世界媒體束手無策,為什么楊蘭蘭的信息都挖掘不到?

李昕言溫度空間
2025-08-30 22:10:33
吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

吃愛國紅利,吹牛上天?新電影剛上映就撤檔的吳京,為何惹了眾怒

白面書誏
2025-08-29 22:59:15
2909億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

2909億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

歸史
2025-08-27 14:29:47
捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

捏蛋女已“社死”!正臉曝光,面目猙獰,孩子的輿論也跟著遭殃

奇思妙想草葉君
2025-08-30 03:31:18
73年10月,8341部隊派出警衛(wèi),在人民大會堂抓捕了兩位公安副部長

73年10月,8341部隊派出警衛(wèi),在人民大會堂抓捕了兩位公安副部長

一只番茄魚
2025-08-30 12:35:03
1.75億花了個寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

1.75億花了個寂寞!支出僅遜英超BIG6 6億豪門3輪不勝 拿什么爭冠

狍子歪解體壇
2025-08-31 01:07:59
慘遭20分逆轉!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

慘遭20分逆轉!美國男籃不敵巴西無緣美洲杯決賽 末節(jié)9-34大崩盤

羅說NBA
2025-08-31 07:09:31
切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊 賴在拜仁不走

切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊 賴在拜仁不走

風過鄉(xiāng)
2025-08-31 07:49:18
投訴“魯迅夾煙墻畫”當事人,被封號

投訴“魯迅夾煙墻畫”當事人,被封號

極目新聞
2025-08-30 16:08:04
7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

7萬人見證皇馬殘暴一幕:1.7億歐巨星10秒奔襲60米 1V2一條龍破門

風過鄉(xiāng)
2025-08-31 07:31:14
CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠沖第12冠穩(wěn)了?

CBA深夜重磅簽約!場均36分6板外援加盟廣東:宏遠沖第12冠穩(wěn)了?

籃球快餐車
2025-08-31 03:20:09
伏明霞做夢也沒想到,和丈夫生的大女兒,已經開始為她爭光了

伏明霞做夢也沒想到,和丈夫生的大女兒,已經開始為她爭光了

以茶帶書
2025-08-31 00:56:51
拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

拍了8年卻沒上映,《美人魚2》6億成本打水漂,投資人坐不住了

千言娛樂記
2025-08-30 21:39:01
2025-08-31 08:19:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產業(yè)升級。
10390文章數(shù) 116838關注度
往期回顧 全部

科技要聞

李斌內部講話:蔚來四季度必須盈利

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

時尚
手機
本地
教育
公開課

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

手機要聞

蘋果iPhone 17系列爆水管 Pro版大漲價8499起

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

教育要聞

離譜!老師上課要求學生交東西,學生不從竟還舉凳砸老師

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版