成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenCUA開源計算機操作智能體媲美OpenAI和Anthropic專有模型

0
分享至


香港大學(xué)及其合作機構(gòu)的研究人員推出了一個名為OpenCUA的新框架,為創(chuàng)建能夠操作計算機的強大AI智能體提供了開源基礎(chǔ)。該框架包含了擴展計算機操作智能體(CUA)開發(fā)所需的工具、數(shù)據(jù)和方法。

使用該框架訓(xùn)練的模型在CUA基準(zhǔn)測試中表現(xiàn)優(yōu)異,超越了現(xiàn)有開源模型,并與OpenAI和Anthropic等領(lǐng)先AI實驗室的封閉式智能體展開激烈競爭。

**構(gòu)建計算機操作智能體的挑戰(zhàn)**

計算機操作智能體旨在自主完成計算機任務(wù),從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件。它們還可以幫助企業(yè)自動化工作流程。然而,最強大的CUA系統(tǒng)都是專有的,其訓(xùn)練數(shù)據(jù)、架構(gòu)和開發(fā)過程的關(guān)鍵細(xì)節(jié)都被保密。

研究人員在論文中指出:"由于缺乏透明度限制了技術(shù)進步并引發(fā)安全擔(dān)憂,研究社區(qū)需要真正開放的CUA框架來研究其能力、局限性和風(fēng)險。"

與此同時,開源努力面臨著自己的一系列障礙。目前還沒有可擴展的基礎(chǔ)設(shè)施來收集訓(xùn)練這些智能體所需的多樣化大規(guī)模數(shù)據(jù)?,F(xiàn)有的圖形用戶界面(GUI)開源數(shù)據(jù)集數(shù)據(jù)有限,許多研究項目對其方法的描述不夠詳細(xì),使其他人難以復(fù)制其工作。

**OpenCUA框架介紹**

OpenCUA是一個開源框架,旨在通過擴展數(shù)據(jù)收集和模型本身來解決這些挑戰(zhàn)。其核心是AgentNet工具,用于記錄人類在不同操作系統(tǒng)上執(zhí)行計算機任務(wù)的演示。

該工具通過在標(biāo)注者個人計算機后臺運行來簡化數(shù)據(jù)收集,捕獲屏幕視頻、鼠標(biāo)和鍵盤輸入,以及底層可訪問性樹,后者提供有關(guān)屏幕元素的結(jié)構(gòu)化信息。這些原始數(shù)據(jù)然后被處理成"狀態(tài)-動作軌跡",將計算機截圖(狀態(tài))與用戶相應(yīng)動作(點擊、按鍵等)配對。標(biāo)注者隨后可以審查、編輯和提交這些演示。

使用此工具,研究人員收集了AgentNet數(shù)據(jù)集,包含超過22,600個任務(wù)演示,涵蓋Windows、macOS和Ubuntu,跨越200多個應(yīng)用程序和網(wǎng)站。論文指出:"該數(shù)據(jù)集真實地捕獲了用戶個人計算環(huán)境中人類行為和環(huán)境動態(tài)的復(fù)雜性。"

認(rèn)識到屏幕錄制工具對企業(yè)數(shù)據(jù)隱私的重大關(guān)切,研究人員在設(shè)計AgentNet工具時考慮了安全性。論文共同作者、香港大學(xué)博士生王新元解釋說,他們實施了多層隱私保護框架。"首先,標(biāo)注者可以完全觀察他們生成的數(shù)據(jù)...然后再決定是否提交。"數(shù)據(jù)隨后經(jīng)過隱私問題的人工驗證和大語言模型的自動掃描,以在發(fā)布前檢測任何剩余的敏感內(nèi)容。

為了加速評估,團隊還策劃了AgentNetBench,這是一個離線基準(zhǔn)測試,為每個步驟提供多個正確動作,提供了更高效的智能體性能測量方法。

**訓(xùn)練智能體的新方法**

OpenCUA框架引入了一個新穎的數(shù)據(jù)處理和訓(xùn)練計算機操作智能體的流水線。第一步將原始人類演示轉(zhuǎn)換為適合訓(xùn)練視覺語言模型(VLM)的干凈狀態(tài)-動作對。然而,研究人員發(fā)現(xiàn),即使有大量數(shù)據(jù),僅僅在這些配對上訓(xùn)練模型也只能產(chǎn)生有限的性能提升。

關(guān)鍵洞察是用思維鏈(CoT)推理來增強這些軌跡。這個過程為每個動作生成詳細(xì)的"內(nèi)心獨白",包括規(guī)劃、記憶和反思。這種結(jié)構(gòu)化推理分為三個層次:對屏幕的高級觀察、分析情況并規(guī)劃下一步的反思性思考,最后是簡潔、可執(zhí)行的動作。這種方法幫助智能體對任務(wù)產(chǎn)生更深入的理解。

研究人員寫道:"我們發(fā)現(xiàn)自然語言推理對于可泛化的計算機操作基礎(chǔ)模型至關(guān)重要,有助于CUA內(nèi)化認(rèn)知能力。"

這種數(shù)據(jù)合成流水線是一個通用框架,可以被公司適應(yīng)用于在其獨特的內(nèi)部工具上訓(xùn)練智能體。據(jù)王新元介紹,企業(yè)可以記錄其專有工作流程的演示,并使用相同的"反射器"和"生成器"流水線來創(chuàng)建必要的訓(xùn)練數(shù)據(jù)。

**OpenCUA性能測試**

研究人員應(yīng)用OpenCUA框架訓(xùn)練了一系列開源VLM,包括Qwen和Kimi-VL的變體,參數(shù)規(guī)模從30億到320億不等。這些模型在一套在線和離線基準(zhǔn)測試上進行評估,測試其執(zhí)行任務(wù)和理解GUI的能力。

320億參數(shù)的模型OpenCUA-32B在OSWorld-Verified基準(zhǔn)測試中創(chuàng)下了開源模型的新成功率記錄。它還超越了基于OpenAI GPT-4o的CUA,并顯著縮小了與Anthropic領(lǐng)先專有模型的性能差距。

對于企業(yè)開發(fā)者和產(chǎn)品負(fù)責(zé)人,該研究提供了幾個關(guān)鍵發(fā)現(xiàn)。OpenCUA方法廣泛適用,在不同架構(gòu)(密集型和專家混合型)和規(guī)模的模型上都能提升性能。訓(xùn)練的智能體還顯示出強大的泛化能力,在各種任務(wù)和操作系統(tǒng)中表現(xiàn)良好。

據(jù)王新元介紹,該框架特別適合自動化重復(fù)性、勞動密集型的企業(yè)工作流程。"例如,在AgentNet數(shù)據(jù)集中,我們已經(jīng)捕獲了在Amazon AWS上啟動EC2實例和在MTurk上配置標(biāo)注參數(shù)的一些演示。這些任務(wù)涉及許多連續(xù)步驟,但遵循可重復(fù)的模式。"

然而,王新元指出,要實現(xiàn)實際部署還需要解決安全性和可靠性方面的關(guān)鍵挑戰(zhàn)。"實際部署中最大的挑戰(zhàn)是安全性和可靠性:智能體必須避免可能無意中改變系統(tǒng)設(shè)置或在預(yù)期任務(wù)之外觸發(fā)有害副作用的錯誤。"

研究人員已經(jīng)發(fā)布了其模型的代碼、數(shù)據(jù)集和權(quán)重。

隨著基于OpenCUA等框架構(gòu)建的開源智能體變得更加強大,它們可能從根本上改變知識工作者與計算機的關(guān)系。王新元設(shè)想了一個未來,在復(fù)雜軟件方面的熟練程度將不如向AI智能體清楚表達目標(biāo)的能力重要。

他描述了兩種主要工作模式:"離線自動化,智能體利用其更廣泛的軟件知識端到端地執(zhí)行任務(wù)",以及"在線協(xié)作,智能體實時響應(yīng)并與人類并肩工作,就像同事一樣"?;旧希祟悓⑻峁?zhàn)略性的"做什么",而日益復(fù)雜的AI智能體將處理操作性的"怎么做"。

Q&A

Q1:OpenCUA是什么?它有什么作用?

A:OpenCUA是由香港大學(xué)研究團隊開發(fā)的開源框架,專門用于創(chuàng)建能夠操作計算機的AI智能體。它包含工具、數(shù)據(jù)和訓(xùn)練方法,能讓AI智能體自主完成從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件等各種計算機任務(wù),還可以幫助企業(yè)自動化工作流程。

Q2:AgentNet工具是如何收集訓(xùn)練數(shù)據(jù)的?

A:AgentNet工具在用戶計算機后臺運行,捕獲屏幕視頻、鼠標(biāo)鍵盤操作和界面元素信息,將這些原始數(shù)據(jù)處理成"狀態(tài)-動作軌跡",即屏幕截圖配對用戶操作。研究團隊用此工具收集了超過22,600個跨Windows、macOS、Ubuntu的任務(wù)演示。

Q3:OpenCUA訓(xùn)練的模型性能如何?

A:使用OpenCUA框架訓(xùn)練的320億參數(shù)模型OpenCUA-32B在開源模型中創(chuàng)下新紀(jì)錄,超越了基于OpenAI GPT-4o的計算機操作智能體,并顯著縮小了與Anthropic專有模型的性能差距,在多種任務(wù)和操作系統(tǒng)中都表現(xiàn)出強大的泛化能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最近,印度那邊好幾名高官氣的直跳腳,大罵咱們不按套路出牌。

最近,印度那邊好幾名高官氣的直跳腳,大罵咱們不按套路出牌。

流蘇晚晴
2025-09-04 17:57:38
堅決反對中國城市申辦奧運:國奧委失算,中國無需奧運證實力!

堅決反對中國城市申辦奧運:國奧委失算,中國無需奧運證實力!

一個有靈魂的作者
2025-08-16 11:16:02
44歲薛凱琪演唱會造型太奔放,被嘲笑像尿不濕,爭議越大門票越漲

44歲薛凱琪演唱會造型太奔放,被嘲笑像尿不濕,爭議越大門票越漲

鄭丁嘉話
2025-09-05 09:40:09
特朗普施壓歐洲,“自愿聯(lián)盟”動真格

特朗普施壓歐洲,“自愿聯(lián)盟”動真格

山河路口
2025-09-05 12:02:28
新中國最后一位離世的開國上將,享年105歲,臨終遺愿中央不批準(zhǔn)

新中國最后一位離世的開國上將,享年105歲,臨終遺愿中央不批準(zhǔn)

南書房
2025-09-05 22:35:06
男人多長時間手淫一次,不算“過度”?這算是性生活嗎?詳細(xì)解答

男人多長時間手淫一次,不算“過度”?這算是性生活嗎?詳細(xì)解答

詩意世界
2025-08-20 13:21:46
遼籃補強最新進展!2.13米前雷霆中鋒進入視線,楊鳴迅速拍板

遼籃補強最新進展!2.13米前雷霆中鋒進入視線,楊鳴迅速拍板

去山野間追風(fēng)
2025-09-05 12:53:31
婚宴一頓花掉88萬,男方家拒絕買單走后,女方家人都沉默了

婚宴一頓花掉88萬,男方家拒絕買單走后,女方家人都沉默了

蘭姐說故事
2025-08-24 17:05:04
小米澎湃OS 3首批機型開啟第二波推送!

小米澎湃OS 3首批機型開啟第二波推送!

快科技
2025-09-06 00:14:28
“老人味”禍根被揪出! 醫(yī)生提醒:45歲后要少碰,老了或也沒味

“老人味”禍根被揪出! 醫(yī)生提醒:45歲后要少碰,老了或也沒味

華庭講美食
2025-09-06 00:24:13
20多萬的豐田格瑞維亞值得購買嗎?

20多萬的豐田格瑞維亞值得購買嗎?

老肥小子
2025-09-04 16:31:32
重罰?梁靖崑被舉報,原因找到,涉及妻子,王楚欽也曾被罰

重罰?梁靖崑被舉報,原因找到,涉及妻子,王楚欽也曾被罰

東球弟
2025-09-05 09:48:13
戶外跑步別這么穿了!隱私全暴露了…

戶外跑步別這么穿了!隱私全暴露了…

馬拉松跑步健身
2025-08-01 06:30:07
2025年下半年六大科技風(fēng)口展望:從腦機接口到AI大模型的創(chuàng)新浪潮

2025年下半年六大科技風(fēng)口展望:從腦機接口到AI大模型的創(chuàng)新浪潮

侃故事的阿慶
2025-08-29 06:09:58
射門24-0降維打擊!德布勞內(nèi)建功,蒂萊曼斯雙響,比利時血洗弱旅

射門24-0降維打擊!德布勞內(nèi)建功,蒂萊曼斯雙響,比利時血洗弱旅

釘釘陌上花開
2025-09-05 05:12:41
朝鮮專列最晚離開北京,訪華5天4夜,啟程前向中方提出鄭重請求

朝鮮專列最晚離開北京,訪華5天4夜,啟程前向中方提出鄭重請求

愛意隨風(fēng)起呀
2025-09-05 13:39:17
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

山河月明史
2025-07-08 14:24:38
巴基斯坦,可能要變天了

巴基斯坦,可能要變天了

一個有靈魂的作者
2025-09-02 08:44:02
里程碑,23歲法國邊鋒奧利塞打入職業(yè)生涯第50球

里程碑,23歲法國邊鋒奧利塞打入職業(yè)生涯第50球

懂球帝
2025-09-06 03:24:08
14萬余臺老款召回后 小米推出新款自帶線充電寶20000 67W

14萬余臺老款召回后 小米推出新款自帶線充電寶20000 67W

快科技
2025-09-06 00:14:28
2025-09-06 04:07:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
13994文章數(shù) 49655關(guān)注度
往期回顧 全部

科技要聞

特斯拉想送馬斯克9750億美元 條件很苛刻

頭條要聞

馬克龍宣布26國將聯(lián)合出兵烏克蘭 澤連斯基表示歡迎

頭條要聞

馬克龍宣布26國將聯(lián)合出兵烏克蘭 澤連斯基表示歡迎

體育要聞

西甲最窮的“草臺班子”,竟然打進歐戰(zhàn)了

娛樂要聞

!被罵“戀愛腦”的董璇玩脫了?

財經(jīng)要聞

拖欠訂單 立訊精密被供應(yīng)商索賠3343萬

汽車要聞

華為乾崑技術(shù)日 實測ADS4已無限接近人類司機

態(tài)度原創(chuàng)

手機
旅游
藝術(shù)
公開課
軍事航空

手機要聞

OPPO A6 Pro外觀公布:主打流暢耐用,下周發(fā)布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨家!九三閱兵全圖鑒

無障礙瀏覽 進入關(guān)懷版