成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究人員在移動(dòng)GUI Agent框架引入有限狀態(tài)機(jī),構(gòu)建Agent感知能力

0
分享至

近日,美國(guó)密蘇里大學(xué)哥倫比亞分校本科校友、美國(guó)邁阿密大學(xué)碩士校友、加拿大康科迪亞大學(xué)博士生郭琳強(qiáng)和所在團(tuán)隊(duì),首次在移動(dòng) GUI Agent 框架中引入了有限狀態(tài)機(jī)(FSM,F(xiàn)inite State Machine)作為任務(wù)執(zhí)行的結(jié)構(gòu)化建模手段來(lái)構(gòu)建 Agent 的狀態(tài)感知能力和結(jié)構(gòu)化記憶。

研究人員讓 Agent 在執(zhí)行過(guò)程中實(shí)時(shí)動(dòng)態(tài)地構(gòu)建一個(gè) FSM,將 UI 頁(yè)面視為一個(gè)個(gè)狀態(tài),并記錄改變狀態(tài)的用戶行為,從而讓 Agent 理解自己身處任務(wù)流程的哪個(gè)階段。FSM 的構(gòu)建不僅讓 Agent 擁有執(zhí)行路徑的全局視角,也使其具備前后狀態(tài)驗(yàn)證,錯(cuò)誤回溯的能力,從而在執(zhí)行任務(wù)中更加穩(wěn)定可靠。這種結(jié)構(gòu)化的表示是對(duì)以往 Agent 的突破。更重要的是,這種 FSM 不只是短時(shí)記憶,研究人員通過(guò)設(shè)計(jì) Mentor Agent,將每次任務(wù)構(gòu)建的 FSM 持久化下來(lái),形成可復(fù)用的知識(shí)。這樣 Agent 在處理類似任務(wù)時(shí),能夠調(diào)取歷史狀態(tài)圖,從經(jīng)驗(yàn)中獲得指引。


(來(lái)源:https://arxiv.org/pdf/2505.23596)

除此之外,研究人員發(fā)現(xiàn)以往 GUI Agent 只生成一個(gè)計(jì)劃并直接執(zhí)行,在真實(shí)環(huán)境中,一個(gè)復(fù)雜的任務(wù)往往有多種可執(zhí)行路徑,比如“在 Walmart 中查詢衛(wèi)生紙、橘子的商品打折價(jià)格并記錄到 Note App 中”,這個(gè)任務(wù)的解決方法并不唯一,Agent 可能會(huì)出現(xiàn)先記錄其中一個(gè)商品然后打開(kāi) Note 記錄,然后再返回進(jìn)行對(duì)另一個(gè)商品的查詢以及記錄,還有可能 Agent 一次性查詢了兩種商品的信息然后切換到 Note 中做記錄。雖然這兩種 plan 都可以解決問(wèn)題,但很明顯前者中存在更多的類似切換 App 的操作,而且真實(shí)人類操作更偏向于第二種解決方式。

因此在 MAPLE 中,研究人員讓 Planner Agent 一次性生成多個(gè)候選 plan,每個(gè) plan 都是由子任務(wù)和執(zhí)行推理構(gòu)成的序列。隨后,研究人員引入了 LLM-as-judge 機(jī)制并提供了判斷的依據(jù),例如盡可能少地切換 App 的操作,研究人員借助語(yǔ)言模型對(duì)這些 plan 進(jìn)行分析,從中選擇最具可行性和穩(wěn)健性的方案,并給出為推理過(guò)程來(lái)解釋為什么選擇它作為最終的 plan。這個(gè)機(jī)制使研究人員的 planning 過(guò)程更靈活而且具備自我評(píng)估的能力,從而達(dá)到更穩(wěn)定高效的性能。

MAPLE 是對(duì)多模態(tài)大模型(MLLM,Multimodal Large Language Models)驅(qū)動(dòng)的 mobile Agent 能力的一種增強(qiáng)與擴(kuò)展。當(dāng)前的多模態(tài)大模型已經(jīng)能夠理解和解析 UI,但它們?cè)谌蝿?wù)執(zhí)行中仍缺乏結(jié)構(gòu)性記憶和過(guò)程建模,導(dǎo)致在復(fù)雜任務(wù)中容易失誤、缺乏上下文判斷。MAPLE 通過(guò)引入 FSM 結(jié)構(gòu),為 MLLM Agent 提供了一種持續(xù)、可追蹤的狀態(tài)建模能力,讓 Agent 不再只是“看當(dāng)前屏幕做當(dāng)前事”,而是具備了過(guò)程感知、前后狀態(tài)驗(yàn)證、路徑回退等更強(qiáng)的執(zhí)行智能。因此可以說(shuō),MAPLE 是在底層框架上加強(qiáng)了 MLLM Agent 作為 mobile assistant 的整體能力,特別是在規(guī)劃性、穩(wěn)定性與可恢復(fù)性方面提供了系統(tǒng)性支持。


(來(lái)源:https://arxiv.org/pdf/2505.23596)

現(xiàn)如今 Agents 是非?;馃岬脑掝},實(shí)驗(yàn)室其他的同學(xué)也有用基于大模型的 Agents 去做一些相關(guān)課題。于是,研究人員便想探索用多模態(tài)模型作為 Agents 來(lái)做一些 GUI 相關(guān)的研究。研究人員對(duì)現(xiàn)有的 GUI Agents(主要是移動(dòng)端)做了相關(guān)調(diào)查,它們雖然借助強(qiáng)大的多模態(tài)大模型具備了識(shí)別和操作界面的能力,但是在執(zhí)行任務(wù)的過(guò)程中始終在“看一步走一步”,缺乏對(duì)應(yīng)用的整體流程的理解并且缺乏對(duì)已訪問(wèn)過(guò)頁(yè)面之間關(guān)系的理解,從而很難去判斷當(dāng)前的狀態(tài)是否偏離了任務(wù)目標(biāo)。正是因?yàn)檫@種局限性,使得現(xiàn)有 Agent 在面對(duì)跨應(yīng)用,長(zhǎng)路徑的復(fù)雜任務(wù)和遇到錯(cuò)誤操作時(shí)的恢復(fù)顯得脆弱。因此研究人員意識(shí)到,是否可以為 Agent 引入一種可以持續(xù)建模導(dǎo)航,捕捉狀態(tài)的變化并支持回溯狀態(tài)的機(jī)制。

整個(gè)研究過(guò)程大致經(jīng)歷了四個(gè)階段,每個(gè)階段都伴隨著對(duì)問(wèn)題理解的深入和系統(tǒng)能力的不斷擴(kuò)展。

最初是分析現(xiàn)有 MLLM 驅(qū)動(dòng)的 mobile Agent,研究人員著重去分析了它們的 error cases 并且注意到一個(gè)普遍問(wèn)題:這些 Agent 雖然能理解單個(gè) UI 屏幕并執(zhí)行操作,但在復(fù)雜任務(wù)中經(jīng)常失敗。一旦出錯(cuò),Agent 很難判斷自己是當(dāng)前操作錯(cuò)誤還是在之前就有偏離,也缺乏回退或自我修正的機(jī)制,因?yàn)榇蟛糠?Agent 還是在采用先 retry 再 replan 來(lái)修復(fù)出現(xiàn)的錯(cuò)誤。這個(gè)觀察促使研究人員思考,是否可以為 Agent 引入一種“過(guò)程感知”的能力,來(lái)促使它更好地理解任務(wù)流程和錯(cuò)誤修復(fù)。

接著進(jìn)入的是建模階段。研究人員選擇了 FSM 作為核心抽象方式,因?yàn)橐苿?dòng)應(yīng)用本身就天然具備狀態(tài)與轉(zhuǎn)移的結(jié)構(gòu),而 FSM 正好可以將 UI screen 映射為狀態(tài),用戶操作映射為轉(zhuǎn)移。研究人員逐步構(gòu)建出一個(gè)多 Agent 框架,分別負(fù)責(zé)規(guī)劃、感知、建模、與執(zhí)行等。其中的 State Agent 是關(guān)鍵組件,負(fù)責(zé)動(dòng)態(tài)構(gòu)建 FSM,同時(shí)標(biāo)注每個(gè)狀態(tài)的前置與后置條件。

第三階段是實(shí)現(xiàn)與迭代。研究人員在真實(shí) Android 設(shè)備上部署系統(tǒng),選擇跨應(yīng)用、多步驟的 benchmark 進(jìn)行實(shí)驗(yàn)。這個(gè)階段挑戰(zhàn)很大,因?yàn)樾枰到y(tǒng)在實(shí)際界面變化中維持穩(wěn)定狀態(tài)建模,還要能檢測(cè)出偏離并發(fā)起恢復(fù)。研究人員反復(fù)調(diào)試 State Agent 和 Reflection Agent 的判斷邏輯和 Agent 的提示詞,比如如何判定“狀態(tài)相似”、何時(shí)啟動(dòng)恢復(fù)、如何避免進(jìn)入循環(huán)恢復(fù)等。

最后是規(guī)劃?rùn)C(jī)制與記憶系統(tǒng)的完善。研究人員引入了多路徑規(guī)劃?rùn)C(jī)制和 LLM-as-judge,解決了此前“只生成一個(gè) plan”的局限,同時(shí)引入 Mentor Agent,把任務(wù)中的 FSM 和交互經(jīng)驗(yàn)存儲(chǔ)起來(lái),供未來(lái)任務(wù)復(fù)用。這一步讓系統(tǒng)不僅能應(yīng)對(duì)當(dāng)前任務(wù),也具備了跨任務(wù)的知識(shí)積累能力。

另?yè)?jù)悉,在最初的實(shí)現(xiàn)階段,研究人員對(duì) FSM 的應(yīng)用還比較初步,僅僅是記錄了每個(gè)狀態(tài)的自然語(yǔ)言描述。這樣的建模方式在執(zhí)行過(guò)程中顯得非常單薄,Agent 雖然能夠“記住去過(guò)哪些頁(yè)面”,但并不能真正“理解”這些狀態(tài)的含義,也無(wú)法對(duì)操作結(jié)果進(jìn)行有效驗(yàn)證。后來(lái),郭琳強(qiáng)與導(dǎo)師進(jìn)行了深入的討論。在他的啟發(fā)下,郭琳強(qiáng)等人開(kāi)始思考,是否可以為每個(gè)狀態(tài)引入更豐富的語(yǔ)義信息。最終,他們決定為每個(gè)狀態(tài)添加前置條件、后置條件,以及基于當(dāng)前目標(biāo)的下一狀態(tài)預(yù)測(cè)。

這些要素被統(tǒng)一納入到狀態(tài)節(jié)點(diǎn)的結(jié)構(gòu)中,使 FSM 不僅是一個(gè)執(zhí)行軌跡的記錄器,更是一個(gè)具備推理能力的結(jié)構(gòu)化模型。這些增強(qiáng)信息也直接提升了 Reflection Agent 的判斷力。它能夠結(jié)合當(dāng)前狀態(tài)的后置條件與預(yù)測(cè)狀態(tài),對(duì)實(shí)際執(zhí)行結(jié)果進(jìn)行比對(duì),從而判斷動(dòng)作是否達(dá)成了預(yù)期效果,是否需要觸發(fā)恢復(fù)機(jī)制。同樣是在那次討論中,研究人員也進(jìn)一步完善了“LLM-as-judge”的理念,不再依賴單一的規(guī)劃路徑,而是讓 Agent 能生成多個(gè)候選方案,再通過(guò)大模型進(jìn)行評(píng)估與篩選??梢哉f(shuō),MAPLE 的逐步完善,離不開(kāi)研究人員團(tuán)隊(duì)每一位成員的投入,尤其是導(dǎo)師的引導(dǎo)與建議,在多個(gè)關(guān)鍵節(jié)點(diǎn)上都起到了非常重要的作用。這個(gè)過(guò)程本身就是一次非常寶貴的學(xué)習(xí)與合作經(jīng)歷。

目前,在 Agent 相關(guān)領(lǐng)域里,使用強(qiáng)化學(xué)習(xí)讓小模型代替基于云端的大模型是比較火熱的方向,用本地的小模型逐步替代對(duì)云端大模型的強(qiáng)依賴從而實(shí)現(xiàn)更輕量、可部署的移動(dòng)智能體?!霸谄渌矫?,我可能會(huì)看一些 Agent 相關(guān)的安全性問(wèn)題,包括如何限制其行為范圍、檢測(cè)異常決策等在如今都尤為重要。”郭琳強(qiáng)對(duì) DeepTech 表示。

參考資料:

https://arxiv.org/pdf/2505.23596

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重磅!美國(guó)簽證政策重大調(diào)整:9月起全面強(qiáng)制面簽

重磅!美國(guó)簽證政策重大調(diào)整:9月起全面強(qiáng)制面簽

華人生活網(wǎng)
2025-09-04 13:51:08
女領(lǐng)導(dǎo)天天蹭我車,我笑她這樣我娶不到媳婦,她卻偷笑道:娶我呀

女領(lǐng)導(dǎo)天天蹭我車,我笑她這樣我娶不到媳婦,她卻偷笑道:娶我呀

牛魔王與芭蕉扇
2025-09-03 16:50:44
93閱兵圓滿成功,外網(wǎng)沸騰,老外討論爆了,還有一條很毒舌的回復(fù)

93閱兵圓滿成功,外網(wǎng)沸騰,老外討論爆了,還有一條很毒舌的回復(fù)

魔都姐姐雜談
2025-09-04 09:59:17
外國(guó)記者看閱兵后忍不住哭了:多希望過(guò)上像中國(guó)人一樣的生活!有韓國(guó)網(wǎng)友感嘆:不愧是中國(guó),真帥啊

外國(guó)記者看閱兵后忍不住哭了:多希望過(guò)上像中國(guó)人一樣的生活!有韓國(guó)網(wǎng)友感嘆:不愧是中國(guó),真帥啊

每日經(jīng)濟(jì)新聞
2025-09-04 12:35:05
8萬(wàn)和平鴿飛過(guò)天安門,10分鐘到家洗澡?揭秘鴿群和氣球背后玄機(jī)

8萬(wàn)和平鴿飛過(guò)天安門,10分鐘到家洗澡?揭秘鴿群和氣球背后玄機(jī)

烏娛子醬
2025-09-03 17:27:25
汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個(gè)異常,可能是心臟在“報(bào)警”!

汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個(gè)異常,可能是心臟在“報(bào)警”!

神奇故事
2025-09-02 22:52:49
印尼總統(tǒng)訪華的艱辛,中方看在眼里,給其的禮遇比巴鐵還要高一頭

印尼總統(tǒng)訪華的艱辛,中方看在眼里,給其的禮遇比巴鐵還要高一頭

史書(shū)無(wú)明
2025-09-03 23:09:39
馮唐:享受了祖上的紅利,卻和別人談“靠努力”,這是最大的無(wú)恥

馮唐:享受了祖上的紅利,卻和別人談“靠努力”,這是最大的無(wú)恥

清風(fēng)拂心
2025-09-01 16:15:03
菲連開(kāi)2槍,戰(zhàn)爭(zhēng)威脅發(fā)出,美軍隨時(shí)加入大亂斗,解放軍沒(méi)有退路

菲連開(kāi)2槍,戰(zhàn)爭(zhēng)威脅發(fā)出,美軍隨時(shí)加入大亂斗,解放軍沒(méi)有退路

科普100克克
2025-09-04 02:34:45
最快護(hù)士奪冠后續(xù)!丈夫發(fā)聲解釋道歉:一年僅需要20個(gè)周末去參賽

最快護(hù)士奪冠后續(xù)!丈夫發(fā)聲解釋道歉:一年僅需要20個(gè)周末去參賽

行者聊官
2025-09-03 18:49:22
大閱兵的十大細(xì)節(jié),驚心動(dòng)魄!

大閱兵的十大細(xì)節(jié),驚心動(dòng)魄!

燕梳樓頻道
2025-09-03 13:38:18
墻倒眾人推!張水華被舉報(bào)了,點(diǎn)醒了80%混跡于職場(chǎng)的“牛馬”…

墻倒眾人推!張水華被舉報(bào)了,點(diǎn)醒了80%混跡于職場(chǎng)的“牛馬”…

火山詩(shī)話
2025-09-03 10:16:40
“子涵”時(shí)代已過(guò),“扶蘇”大軍來(lái)襲,這屆家長(zhǎng)把《詩(shī)經(jīng)》翻爛了

“子涵”時(shí)代已過(guò),“扶蘇”大軍來(lái)襲,這屆家長(zhǎng)把《詩(shī)經(jīng)》翻爛了

妍妍教育日記
2025-09-03 17:34:23
中方如何看待普京總統(tǒng)此次訪華?外交部回應(yīng)

中方如何看待普京總統(tǒng)此次訪華?外交部回應(yīng)

財(cái)聯(lián)社
2025-09-04 15:57:26
它是 “菜中人參”,遇到別錯(cuò)過(guò),買10斤囤起來(lái),隨吃隨取特省事

它是 “菜中人參”,遇到別錯(cuò)過(guò),買10斤囤起來(lái),隨吃隨取特省事

江江食研社
2025-09-03 15:30:02
悲催!東莞一家工廠老板跑路,當(dāng)?shù)匕l(fā)公告警示,逾期不到依法處理

悲催!東莞一家工廠老板跑路,當(dāng)?shù)匕l(fā)公告警示,逾期不到依法處理

火山詩(shī)話
2025-09-04 06:20:40
中美日激光武器射程差距太大:美8000米 、日1200米,中國(guó)是多少

中美日激光武器射程差距太大:美8000米 、日1200米,中國(guó)是多少

近史閣
2025-08-26 10:14:03
中美軍事實(shí)力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

中美軍事實(shí)力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

混沌錄
2025-05-12 18:38:14
8萬(wàn)羽和平鴿成功放飛,“最快下班鴿”回家只用了4分鐘,養(yǎng)鴿人:提前兩個(gè)月就在家訓(xùn)練

8萬(wàn)羽和平鴿成功放飛,“最快下班鴿”回家只用了4分鐘,養(yǎng)鴿人:提前兩個(gè)月就在家訓(xùn)練

極目新聞
2025-09-04 00:34:37
九三閱兵結(jié)束,第一個(gè)受害者出現(xiàn)了,網(wǎng)友安慰郭帆大膽一點(diǎn)。

九三閱兵結(jié)束,第一個(gè)受害者出現(xiàn)了,網(wǎng)友安慰郭帆大膽一點(diǎn)。

尋墨閣
2025-09-04 08:03:40
2025-09-04 16:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15595文章數(shù) 514044關(guān)注度
往期回顧 全部

科技要聞

華為發(fā)三折疊屏手機(jī)新品 搭載麒麟9020芯片

頭條要聞

媒體:印尼抗議或?qū)⑵较?有人憂后續(xù)重現(xiàn)當(dāng)年排華場(chǎng)面

頭條要聞

媒體:印尼抗議或?qū)⑵较?有人憂后續(xù)重現(xiàn)當(dāng)年排華場(chǎng)面

體育要聞

“他就像是身高2米的梅西”

娛樂(lè)要聞

宋祖英春晚39年經(jīng)歷,先是被罵?

財(cái)經(jīng)要聞

科創(chuàng)50指數(shù)跌超6% 算力硬件、芯片股大跌

汽車要聞

對(duì)話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

數(shù)碼
教育
房產(chǎn)
健康
公開(kāi)課

數(shù)碼要聞

華為 Mate XTs 三折疊手機(jī)星閃折疊鍵盤亮相,表面就是觸控板

教育要聞

Youth Voice | Huangmeng: Transforms Agri-Waste int...

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

內(nèi)分泌科專家破解身高八大謠言

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版