香港大學(xué)及其合作機構(gòu)的研究人員推出了一個名為OpenCUA的新框架,為創(chuàng)建能夠操作計算機的強大AI智能體提供了開源基礎(chǔ)。該框架包含了擴展計算機操作智能體(CUA)開發(fā)所需的工具、數(shù)據(jù)和方法。
使用該框架訓(xùn)練的模型在CUA基準(zhǔn)測試中表現(xiàn)優(yōu)異,超越了現(xiàn)有開源模型,并與OpenAI和Anthropic等領(lǐng)先AI實驗室的封閉式智能體展開激烈競爭。
**構(gòu)建計算機操作智能體的挑戰(zhàn)**
計算機操作智能體旨在自主完成計算機任務(wù),從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件。它們還可以幫助企業(yè)自動化工作流程。然而,最強大的CUA系統(tǒng)都是專有的,其訓(xùn)練數(shù)據(jù)、架構(gòu)和開發(fā)過程的關(guān)鍵細(xì)節(jié)都被保密。
研究人員在論文中指出:"由于缺乏透明度限制了技術(shù)進步并引發(fā)安全擔(dān)憂,研究社區(qū)需要真正開放的CUA框架來研究其能力、局限性和風(fēng)險。"
與此同時,開源努力面臨著自己的一系列障礙。目前還沒有可擴展的基礎(chǔ)設(shè)施來收集訓(xùn)練這些智能體所需的多樣化大規(guī)模數(shù)據(jù)?,F(xiàn)有的圖形用戶界面(GUI)開源數(shù)據(jù)集數(shù)據(jù)有限,許多研究項目對其方法的描述不夠詳細(xì),使其他人難以復(fù)制其工作。
**OpenCUA框架介紹**
OpenCUA是一個開源框架,旨在通過擴展數(shù)據(jù)收集和模型本身來解決這些挑戰(zhàn)。其核心是AgentNet工具,用于記錄人類在不同操作系統(tǒng)上執(zhí)行計算機任務(wù)的演示。
該工具通過在標(biāo)注者個人計算機后臺運行來簡化數(shù)據(jù)收集,捕獲屏幕視頻、鼠標(biāo)和鍵盤輸入,以及底層可訪問性樹,后者提供有關(guān)屏幕元素的結(jié)構(gòu)化信息。這些原始數(shù)據(jù)然后被處理成"狀態(tài)-動作軌跡",將計算機截圖(狀態(tài))與用戶相應(yīng)動作(點擊、按鍵等)配對。標(biāo)注者隨后可以審查、編輯和提交這些演示。
使用此工具,研究人員收集了AgentNet數(shù)據(jù)集,包含超過22,600個任務(wù)演示,涵蓋Windows、macOS和Ubuntu,跨越200多個應(yīng)用程序和網(wǎng)站。論文指出:"該數(shù)據(jù)集真實地捕獲了用戶個人計算環(huán)境中人類行為和環(huán)境動態(tài)的復(fù)雜性。"
認(rèn)識到屏幕錄制工具對企業(yè)數(shù)據(jù)隱私的重大關(guān)切,研究人員在設(shè)計AgentNet工具時考慮了安全性。論文共同作者、香港大學(xué)博士生王新元解釋說,他們實施了多層隱私保護框架。"首先,標(biāo)注者可以完全觀察他們生成的數(shù)據(jù)...然后再決定是否提交。"數(shù)據(jù)隨后經(jīng)過隱私問題的人工驗證和大語言模型的自動掃描,以在發(fā)布前檢測任何剩余的敏感內(nèi)容。
為了加速評估,團隊還策劃了AgentNetBench,這是一個離線基準(zhǔn)測試,為每個步驟提供多個正確動作,提供了更高效的智能體性能測量方法。
**訓(xùn)練智能體的新方法**
OpenCUA框架引入了一個新穎的數(shù)據(jù)處理和訓(xùn)練計算機操作智能體的流水線。第一步將原始人類演示轉(zhuǎn)換為適合訓(xùn)練視覺語言模型(VLM)的干凈狀態(tài)-動作對。然而,研究人員發(fā)現(xiàn),即使有大量數(shù)據(jù),僅僅在這些配對上訓(xùn)練模型也只能產(chǎn)生有限的性能提升。
關(guān)鍵洞察是用思維鏈(CoT)推理來增強這些軌跡。這個過程為每個動作生成詳細(xì)的"內(nèi)心獨白",包括規(guī)劃、記憶和反思。這種結(jié)構(gòu)化推理分為三個層次:對屏幕的高級觀察、分析情況并規(guī)劃下一步的反思性思考,最后是簡潔、可執(zhí)行的動作。這種方法幫助智能體對任務(wù)產(chǎn)生更深入的理解。
研究人員寫道:"我們發(fā)現(xiàn)自然語言推理對于可泛化的計算機操作基礎(chǔ)模型至關(guān)重要,有助于CUA內(nèi)化認(rèn)知能力。"
這種數(shù)據(jù)合成流水線是一個通用框架,可以被公司適應(yīng)用于在其獨特的內(nèi)部工具上訓(xùn)練智能體。據(jù)王新元介紹,企業(yè)可以記錄其專有工作流程的演示,并使用相同的"反射器"和"生成器"流水線來創(chuàng)建必要的訓(xùn)練數(shù)據(jù)。
**OpenCUA性能測試**
研究人員應(yīng)用OpenCUA框架訓(xùn)練了一系列開源VLM,包括Qwen和Kimi-VL的變體,參數(shù)規(guī)模從30億到320億不等。這些模型在一套在線和離線基準(zhǔn)測試上進行評估,測試其執(zhí)行任務(wù)和理解GUI的能力。
320億參數(shù)的模型OpenCUA-32B在OSWorld-Verified基準(zhǔn)測試中創(chuàng)下了開源模型的新成功率記錄。它還超越了基于OpenAI GPT-4o的CUA,并顯著縮小了與Anthropic領(lǐng)先專有模型的性能差距。
對于企業(yè)開發(fā)者和產(chǎn)品負(fù)責(zé)人,該研究提供了幾個關(guān)鍵發(fā)現(xiàn)。OpenCUA方法廣泛適用,在不同架構(gòu)(密集型和專家混合型)和規(guī)模的模型上都能提升性能。訓(xùn)練的智能體還顯示出強大的泛化能力,在各種任務(wù)和操作系統(tǒng)中表現(xiàn)良好。
據(jù)王新元介紹,該框架特別適合自動化重復(fù)性、勞動密集型的企業(yè)工作流程。"例如,在AgentNet數(shù)據(jù)集中,我們已經(jīng)捕獲了在Amazon AWS上啟動EC2實例和在MTurk上配置標(biāo)注參數(shù)的一些演示。這些任務(wù)涉及許多連續(xù)步驟,但遵循可重復(fù)的模式。"
然而,王新元指出,要實現(xiàn)實際部署還需要解決安全性和可靠性方面的關(guān)鍵挑戰(zhàn)。"實際部署中最大的挑戰(zhàn)是安全性和可靠性:智能體必須避免可能無意中改變系統(tǒng)設(shè)置或在預(yù)期任務(wù)之外觸發(fā)有害副作用的錯誤。"
研究人員已經(jīng)發(fā)布了其模型的代碼、數(shù)據(jù)集和權(quán)重。
隨著基于OpenCUA等框架構(gòu)建的開源智能體變得更加強大,它們可能從根本上改變知識工作者與計算機的關(guān)系。王新元設(shè)想了一個未來,在復(fù)雜軟件方面的熟練程度將不如向AI智能體清楚表達目標(biāo)的能力重要。
他描述了兩種主要工作模式:"離線自動化,智能體利用其更廣泛的軟件知識端到端地執(zhí)行任務(wù)",以及"在線協(xié)作,智能體實時響應(yīng)并與人類并肩工作,就像同事一樣"?;旧希祟悓⑻峁?zhàn)略性的"做什么",而日益復(fù)雜的AI智能體將處理操作性的"怎么做"。
Q&A
Q1:OpenCUA是什么?它有什么作用?
A:OpenCUA是由香港大學(xué)研究團隊開發(fā)的開源框架,專門用于創(chuàng)建能夠操作計算機的AI智能體。它包含工具、數(shù)據(jù)和訓(xùn)練方法,能讓AI智能體自主完成從網(wǎng)站導(dǎo)航到操作復(fù)雜軟件等各種計算機任務(wù),還可以幫助企業(yè)自動化工作流程。
Q2:AgentNet工具是如何收集訓(xùn)練數(shù)據(jù)的?
A:AgentNet工具在用戶計算機后臺運行,捕獲屏幕視頻、鼠標(biāo)鍵盤操作和界面元素信息,將這些原始數(shù)據(jù)處理成"狀態(tài)-動作軌跡",即屏幕截圖配對用戶操作。研究團隊用此工具收集了超過22,600個跨Windows、macOS、Ubuntu的任務(wù)演示。
Q3:OpenCUA訓(xùn)練的模型性能如何?
A:使用OpenCUA框架訓(xùn)練的320億參數(shù)模型OpenCUA-32B在開源模型中創(chuàng)下新紀(jì)錄,超越了基于OpenAI GPT-4o的計算機操作智能體,并顯著縮小了與Anthropic專有模型的性能差距,在多種任務(wù)和操作系統(tǒng)中都表現(xiàn)出強大的泛化能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.