OpenCUA開源計算機操作智能體媲美OpenAI和Anthropic專有模型

2025-08-25 22:06:10　來源: 至頂頭條

北京舉報

分享至

香港大學(xué)及其合作機構(gòu)的研究人員推出了一個名為OpenCUA的新框架，為創(chuàng)建能夠操作計算機的強大AI智能體提供了開源基礎(chǔ)。該框架包含了擴展計算機操作智能體(CUA)開發(fā)所需的工具、數(shù)據(jù)和方法。

使用該框架訓(xùn)練的模型在CUA基準(zhǔn)測試中表現(xiàn)優(yōu)異，超越了現(xiàn)有開源模型，并與OpenAI和Anthropic等領(lǐng)先AI實驗室的封閉式智能體展開激烈競爭。

**構(gòu)建計算機操作智能體的挑戰(zhàn)**

計算機操作智能體旨在自主完成計算機任務(wù)，從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件。它們還可以幫助企業(yè)自動化工作流程。然而，最強大的CUA系統(tǒng)都是專有的，其訓(xùn)練數(shù)據(jù)、架構(gòu)和開發(fā)過程的關(guān)鍵細(xì)節(jié)都被保密。

研究人員在論文中指出："由于缺乏透明度限制了技術(shù)進步并引發(fā)安全擔(dān)憂，研究社區(qū)需要真正開放的CUA框架來研究其能力、局限性和風(fēng)險。"

與此同時，開源努力面臨著自己的一系列障礙。目前還沒有可擴展的基礎(chǔ)設(shè)施來收集訓(xùn)練這些智能體所需的多樣化大規(guī)模數(shù)據(jù)?，F(xiàn)有的圖形用戶界面(GUI)開源數(shù)據(jù)集數(shù)據(jù)有限，許多研究項目對其方法的描述不夠詳細(xì)，使其他人難以復(fù)制其工作。

**OpenCUA框架介紹**

OpenCUA是一個開源框架，旨在通過擴展數(shù)據(jù)收集和模型本身來解決這些挑戰(zhàn)。其核心是AgentNet工具，用于記錄人類在不同操作系統(tǒng)上執(zhí)行計算機任務(wù)的演示。

該工具通過在標(biāo)注者個人計算機后臺運行來簡化數(shù)據(jù)收集，捕獲屏幕視頻、鼠標(biāo)和鍵盤輸入，以及底層可訪問性樹，后者提供有關(guān)屏幕元素的結(jié)構(gòu)化信息。這些原始數(shù)據(jù)然后被處理成"狀態(tài)-動作軌跡"，將計算機截圖(狀態(tài))與用戶相應(yīng)動作(點擊、按鍵等)配對。標(biāo)注者隨后可以審查、編輯和提交這些演示。

使用此工具，研究人員收集了AgentNet數(shù)據(jù)集，包含超過22,600個任務(wù)演示，涵蓋Windows、macOS和Ubuntu，跨越200多個應(yīng)用程序和網(wǎng)站。論文指出："該數(shù)據(jù)集真實地捕獲了用戶個人計算環(huán)境中人類行為和環(huán)境動態(tài)的復(fù)雜性。"

認(rèn)識到屏幕錄制工具對企業(yè)數(shù)據(jù)隱私的重大關(guān)切，研究人員在設(shè)計AgentNet工具時考慮了安全性。論文共同作者、香港大學(xué)博士生王新元解釋說，他們實施了多層隱私保護框架。"首先，標(biāo)注者可以完全觀察他們生成的數(shù)據(jù)...然后再決定是否提交。"數(shù)據(jù)隨后經(jīng)過隱私問題的人工驗證和大語言模型的自動掃描，以在發(fā)布前檢測任何剩余的敏感內(nèi)容。

為了加速評估，團隊還策劃了AgentNetBench，這是一個離線基準(zhǔn)測試，為每個步驟提供多個正確動作，提供了更高效的智能體性能測量方法。

**訓(xùn)練智能體的新方法**

OpenCUA框架引入了一個新穎的數(shù)據(jù)處理和訓(xùn)練計算機操作智能體的流水線。第一步將原始人類演示轉(zhuǎn)換為適合訓(xùn)練視覺語言模型(VLM)的干凈狀態(tài)-動作對。然而，研究人員發(fā)現(xiàn)，即使有大量數(shù)據(jù)，僅僅在這些配對上訓(xùn)練模型也只能產(chǎn)生有限的性能提升。

關(guān)鍵洞察是用思維鏈(CoT)推理來增強這些軌跡。這個過程為每個動作生成詳細(xì)的"內(nèi)心獨白"，包括規(guī)劃、記憶和反思。這種結(jié)構(gòu)化推理分為三個層次：對屏幕的高級觀察、分析情況并規(guī)劃下一步的反思性思考，最后是簡潔、可執(zhí)行的動作。這種方法幫助智能體對任務(wù)產(chǎn)生更深入的理解。

研究人員寫道："我們發(fā)現(xiàn)自然語言推理對于可泛化的計算機操作基礎(chǔ)模型至關(guān)重要，有助于CUA內(nèi)化認(rèn)知能力。"

這種數(shù)據(jù)合成流水線是一個通用框架，可以被公司適應(yīng)用于在其獨特的內(nèi)部工具上訓(xùn)練智能體。據(jù)王新元介紹，企業(yè)可以記錄其專有工作流程的演示，并使用相同的"反射器"和"生成器"流水線來創(chuàng)建必要的訓(xùn)練數(shù)據(jù)。

**OpenCUA性能測試**

研究人員應(yīng)用OpenCUA框架訓(xùn)練了一系列開源VLM，包括Qwen和Kimi-VL的變體，參數(shù)規(guī)模從30億到320億不等。這些模型在一套在線和離線基準(zhǔn)測試上進行評估，測試其執(zhí)行任務(wù)和理解GUI的能力。

320億參數(shù)的模型OpenCUA-32B在OSWorld-Verified基準(zhǔn)測試中創(chuàng)下了開源模型的新成功率記錄。它還超越了基于OpenAI GPT-4o的CUA，并顯著縮小了與Anthropic領(lǐng)先專有模型的性能差距。

對于企業(yè)開發(fā)者和產(chǎn)品負(fù)責(zé)人，該研究提供了幾個關(guān)鍵發(fā)現(xiàn)。OpenCUA方法廣泛適用，在不同架構(gòu)(密集型和專家混合型)和規(guī)模的模型上都能提升性能。訓(xùn)練的智能體還顯示出強大的泛化能力，在各種任務(wù)和操作系統(tǒng)中表現(xiàn)良好。

據(jù)王新元介紹，該框架特別適合自動化重復(fù)性、勞動密集型的企業(yè)工作流程。"例如，在AgentNet數(shù)據(jù)集中，我們已經(jīng)捕獲了在Amazon AWS上啟動EC2實例和在MTurk上配置標(biāo)注參數(shù)的一些演示。這些任務(wù)涉及許多連續(xù)步驟，但遵循可重復(fù)的模式。"

然而，王新元指出，要實現(xiàn)實際部署還需要解決安全性和可靠性方面的關(guān)鍵挑戰(zhàn)。"實際部署中最大的挑戰(zhàn)是安全性和可靠性：智能體必須避免可能無意中改變系統(tǒng)設(shè)置或在預(yù)期任務(wù)之外觸發(fā)有害副作用的錯誤。"

研究人員已經(jīng)發(fā)布了其模型的代碼、數(shù)據(jù)集和權(quán)重。

隨著基于OpenCUA等框架構(gòu)建的開源智能體變得更加強大，它們可能從根本上改變知識工作者與計算機的關(guān)系。王新元設(shè)想了一個未來，在復(fù)雜軟件方面的熟練程度將不如向AI智能體清楚表達目標(biāo)的能力重要。

他描述了兩種主要工作模式："離線自動化，智能體利用其更廣泛的軟件知識端到端地執(zhí)行任務(wù)"，以及"在線協(xié)作，智能體實時響應(yīng)并與人類并肩工作，就像同事一樣"?；旧希祟悓⑻峁?zhàn)略性的"做什么"，而日益復(fù)雜的AI智能體將處理操作性的"怎么做"。

Q&A

Q1：OpenCUA是什么？它有什么作用？

A：OpenCUA是由香港大學(xué)研究團隊開發(fā)的開源框架，專門用于創(chuàng)建能夠操作計算機的AI智能體。它包含工具、數(shù)據(jù)和訓(xùn)練方法，能讓AI智能體自主完成從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件等各種計算機任務(wù)，還可以幫助企業(yè)自動化工作流程。

Q2：AgentNet工具是如何收集訓(xùn)練數(shù)據(jù)的？

A：AgentNet工具在用戶計算機后臺運行，捕獲屏幕視頻、鼠標(biāo)鍵盤操作和界面元素信息，將這些原始數(shù)據(jù)處理成"狀態(tài)-動作軌跡"，即屏幕截圖配對用戶操作。研究團隊用此工具收集了超過22,600個跨Windows、macOS、Ubuntu的任務(wù)演示。

Q3：OpenCUA訓(xùn)練的模型性能如何？

A：使用OpenCUA框架訓(xùn)練的320億參數(shù)模型OpenCUA-32B在開源模型中創(chuàng)下新紀(jì)錄，超越了基于OpenAI GPT-4o的計算機操作智能體，并顯著縮小了與Anthropic專有模型的性能差距，在多種任務(wù)和操作系統(tǒng)中都表現(xiàn)出強大的泛化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.