網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究人員在移動(dòng)GUI Agent框架引入有限狀態(tài)機(jī)，構(gòu)建Agent感知能力

2025-08-20 18:09:10　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

近日，美國(guó)密蘇里大學(xué)哥倫比亞分校本科校友、美國(guó)邁阿密大學(xué)碩士校友、加拿大康科迪亞大學(xué)博士生郭琳強(qiáng)和所在團(tuán)隊(duì)，首次在移動(dòng) GUI Agent 框架中引入了有限狀態(tài)機(jī)（FSM，F(xiàn)inite State Machine）作為任務(wù)執(zhí)行的結(jié)構(gòu)化建模手段來(lái)構(gòu)建 Agent 的狀態(tài)感知能力和結(jié)構(gòu)化記憶。

研究人員讓 Agent 在執(zhí)行過(guò)程中實(shí)時(shí)動(dòng)態(tài)地構(gòu)建一個(gè) FSM，將 UI 頁(yè)面視為一個(gè)個(gè)狀態(tài)，并記錄改變狀態(tài)的用戶行為，從而讓 Agent 理解自己身處任務(wù)流程的哪個(gè)階段。FSM 的構(gòu)建不僅讓 Agent 擁有執(zhí)行路徑的全局視角，也使其具備前后狀態(tài)驗(yàn)證，錯(cuò)誤回溯的能力，從而在執(zhí)行任務(wù)中更加穩(wěn)定可靠。這種結(jié)構(gòu)化的表示是對(duì)以往 Agent 的突破。更重要的是，這種 FSM 不只是短時(shí)記憶，研究人員通過(guò)設(shè)計(jì) Mentor Agent，將每次任務(wù)構(gòu)建的 FSM 持久化下來(lái)，形成可復(fù)用的知識(shí)。這樣 Agent 在處理類似任務(wù)時(shí)，能夠調(diào)取歷史狀態(tài)圖，從經(jīng)驗(yàn)中獲得指引。

（來(lái)源：https://arxiv.org/pdf/2505.23596）

除此之外，研究人員發(fā)現(xiàn)以往 GUI Agent 只生成一個(gè)計(jì)劃并直接執(zhí)行，在真實(shí)環(huán)境中，一個(gè)復(fù)雜的任務(wù)往往有多種可執(zhí)行路徑，比如“在 Walmart 中查詢衛(wèi)生紙、橘子的商品打折價(jià)格并記錄到 Note App 中”，這個(gè)任務(wù)的解決方法并不唯一，Agent 可能會(huì)出現(xiàn)先記錄其中一個(gè)商品然后打開(kāi) Note 記錄，然后再返回進(jìn)行對(duì)另一個(gè)商品的查詢以及記錄，還有可能 Agent 一次性查詢了兩種商品的信息然后切換到 Note 中做記錄。雖然這兩種 plan 都可以解決問(wèn)題，但很明顯前者中存在更多的類似切換 App 的操作，而且真實(shí)人類操作更偏向于第二種解決方式。

因此在 MAPLE 中，研究人員讓 Planner Agent 一次性生成多個(gè)候選 plan，每個(gè) plan 都是由子任務(wù)和執(zhí)行推理構(gòu)成的序列。隨后，研究人員引入了 LLM-as-judge 機(jī)制并提供了判斷的依據(jù)，例如盡可能少地切換 App 的操作，研究人員借助語(yǔ)言模型對(duì)這些 plan 進(jìn)行分析，從中選擇最具可行性和穩(wěn)健性的方案，并給出為推理過(guò)程來(lái)解釋為什么選擇它作為最終的 plan。這個(gè)機(jī)制使研究人員的 planning 過(guò)程更靈活而且具備自我評(píng)估的能力，從而達(dá)到更穩(wěn)定高效的性能。

MAPLE 是對(duì)多模態(tài)大模型（MLLM，Multimodal Large Language Models）驅(qū)動(dòng)的 mobile Agent 能力的一種增強(qiáng)與擴(kuò)展。當(dāng)前的多模態(tài)大模型已經(jīng)能夠理解和解析 UI，但它們?cè)谌蝿?wù)執(zhí)行中仍缺乏結(jié)構(gòu)性記憶和過(guò)程建模，導(dǎo)致在復(fù)雜任務(wù)中容易失誤、缺乏上下文判斷。MAPLE 通過(guò)引入 FSM 結(jié)構(gòu)，為 MLLM Agent 提供了一種持續(xù)、可追蹤的狀態(tài)建模能力，讓 Agent 不再只是“看當(dāng)前屏幕做當(dāng)前事”，而是具備了過(guò)程感知、前后狀態(tài)驗(yàn)證、路徑回退等更強(qiáng)的執(zhí)行智能。因此可以說(shuō)，MAPLE 是在底層框架上加強(qiáng)了 MLLM Agent 作為 mobile assistant 的整體能力，特別是在規(guī)劃性、穩(wěn)定性與可恢復(fù)性方面提供了系統(tǒng)性支持。

（來(lái)源：https://arxiv.org/pdf/2505.23596）

現(xiàn)如今 Agents 是非?；馃岬脑掝}，實(shí)驗(yàn)室其他的同學(xué)也有用基于大模型的 Agents 去做一些相關(guān)課題。于是，研究人員便想探索用多模態(tài)模型作為 Agents 來(lái)做一些 GUI 相關(guān)的研究。研究人員對(duì)現(xiàn)有的 GUI Agents（主要是移動(dòng)端）做了相關(guān)調(diào)查，它們雖然借助強(qiáng)大的多模態(tài)大模型具備了識(shí)別和操作界面的能力，但是在執(zhí)行任務(wù)的過(guò)程中始終在“看一步走一步”，缺乏對(duì)應(yīng)用的整體流程的理解并且缺乏對(duì)已訪問(wèn)過(guò)頁(yè)面之間關(guān)系的理解，從而很難去判斷當(dāng)前的狀態(tài)是否偏離了任務(wù)目標(biāo)。正是因?yàn)檫@種局限性，使得現(xiàn)有 Agent 在面對(duì)跨應(yīng)用，長(zhǎng)路徑的復(fù)雜任務(wù)和遇到錯(cuò)誤操作時(shí)的恢復(fù)顯得脆弱。因此研究人員意識(shí)到，是否可以為 Agent 引入一種可以持續(xù)建模導(dǎo)航，捕捉狀態(tài)的變化并支持回溯狀態(tài)的機(jī)制。

整個(gè)研究過(guò)程大致經(jīng)歷了四個(gè)階段，每個(gè)階段都伴隨著對(duì)問(wèn)題理解的深入和系統(tǒng)能力的不斷擴(kuò)展。

最初是分析現(xiàn)有 MLLM 驅(qū)動(dòng)的 mobile Agent，研究人員著重去分析了它們的 error cases 并且注意到一個(gè)普遍問(wèn)題：這些 Agent 雖然能理解單個(gè) UI 屏幕并執(zhí)行操作，但在復(fù)雜任務(wù)中經(jīng)常失敗。一旦出錯(cuò)，Agent 很難判斷自己是當(dāng)前操作錯(cuò)誤還是在之前就有偏離，也缺乏回退或自我修正的機(jī)制，因?yàn)榇蟛糠?Agent 還是在采用先 retry 再 replan 來(lái)修復(fù)出現(xiàn)的錯(cuò)誤。這個(gè)觀察促使研究人員思考，是否可以為 Agent 引入一種“過(guò)程感知”的能力，來(lái)促使它更好地理解任務(wù)流程和錯(cuò)誤修復(fù)。

接著進(jìn)入的是建模階段。研究人員選擇了 FSM 作為核心抽象方式，因?yàn)橐苿?dòng)應(yīng)用本身就天然具備狀態(tài)與轉(zhuǎn)移的結(jié)構(gòu)，而 FSM 正好可以將 UI screen 映射為狀態(tài)，用戶操作映射為轉(zhuǎn)移。研究人員逐步構(gòu)建出一個(gè)多 Agent 框架，分別負(fù)責(zé)規(guī)劃、感知、建模、與執(zhí)行等。其中的 State Agent 是關(guān)鍵組件，負(fù)責(zé)動(dòng)態(tài)構(gòu)建 FSM，同時(shí)標(biāo)注每個(gè)狀態(tài)的前置與后置條件。

第三階段是實(shí)現(xiàn)與迭代。研究人員在真實(shí) Android 設(shè)備上部署系統(tǒng)，選擇跨應(yīng)用、多步驟的 benchmark 進(jìn)行實(shí)驗(yàn)。這個(gè)階段挑戰(zhàn)很大，因?yàn)樾枰到y(tǒng)在實(shí)際界面變化中維持穩(wěn)定狀態(tài)建模，還要能檢測(cè)出偏離并發(fā)起恢復(fù)。研究人員反復(fù)調(diào)試 State Agent 和 Reflection Agent 的判斷邏輯和 Agent 的提示詞，比如如何判定“狀態(tài)相似”、何時(shí)啟動(dòng)恢復(fù)、如何避免進(jìn)入循環(huán)恢復(fù)等。

最后是規(guī)劃?rùn)C(jī)制與記憶系統(tǒng)的完善。研究人員引入了多路徑規(guī)劃?rùn)C(jī)制和 LLM-as-judge，解決了此前“只生成一個(gè) plan”的局限，同時(shí)引入 Mentor Agent，把任務(wù)中的 FSM 和交互經(jīng)驗(yàn)存儲(chǔ)起來(lái)，供未來(lái)任務(wù)復(fù)用。這一步讓系統(tǒng)不僅能應(yīng)對(duì)當(dāng)前任務(wù)，也具備了跨任務(wù)的知識(shí)積累能力。

另?yè)?jù)悉，在最初的實(shí)現(xiàn)階段，研究人員對(duì) FSM 的應(yīng)用還比較初步，僅僅是記錄了每個(gè)狀態(tài)的自然語(yǔ)言描述。這樣的建模方式在執(zhí)行過(guò)程中顯得非常單薄，Agent 雖然能夠“記住去過(guò)哪些頁(yè)面”，但并不能真正“理解”這些狀態(tài)的含義，也無(wú)法對(duì)操作結(jié)果進(jìn)行有效驗(yàn)證。后來(lái)，郭琳強(qiáng)與導(dǎo)師進(jìn)行了深入的討論。在他的啟發(fā)下，郭琳強(qiáng)等人開(kāi)始思考，是否可以為每個(gè)狀態(tài)引入更豐富的語(yǔ)義信息。最終，他們決定為每個(gè)狀態(tài)添加前置條件、后置條件，以及基于當(dāng)前目標(biāo)的下一狀態(tài)預(yù)測(cè)。

這些要素被統(tǒng)一納入到狀態(tài)節(jié)點(diǎn)的結(jié)構(gòu)中，使 FSM 不僅是一個(gè)執(zhí)行軌跡的記錄器，更是一個(gè)具備推理能力的結(jié)構(gòu)化模型。這些增強(qiáng)信息也直接提升了 Reflection Agent 的判斷力。它能夠結(jié)合當(dāng)前狀態(tài)的后置條件與預(yù)測(cè)狀態(tài)，對(duì)實(shí)際執(zhí)行結(jié)果進(jìn)行比對(duì)，從而判斷動(dòng)作是否達(dá)成了預(yù)期效果，是否需要觸發(fā)恢復(fù)機(jī)制。同樣是在那次討論中，研究人員也進(jìn)一步完善了“LLM-as-judge”的理念，不再依賴單一的規(guī)劃路徑，而是讓 Agent 能生成多個(gè)候選方案，再通過(guò)大模型進(jìn)行評(píng)估與篩選?？梢哉f(shuō)，MAPLE 的逐步完善，離不開(kāi)研究人員團(tuán)隊(duì)每一位成員的投入，尤其是導(dǎo)師的引導(dǎo)與建議，在多個(gè)關(guān)鍵節(jié)點(diǎn)上都起到了非常重要的作用。這個(gè)過(guò)程本身就是一次非常寶貴的學(xué)習(xí)與合作經(jīng)歷。

目前，在 Agent 相關(guān)領(lǐng)域里，使用強(qiáng)化學(xué)習(xí)讓小模型代替基于云端的大模型是比較火熱的方向，用本地的小模型逐步替代對(duì)云端大模型的強(qiáng)依賴從而實(shí)現(xiàn)更輕量、可部署的移動(dòng)智能體?！霸谄渌矫?，我可能會(huì)看一些 Agent 相關(guān)的安全性問(wèn)題，包括如何限制其行為范圍、檢測(cè)異常決策等在如今都尤為重要。”郭琳強(qiáng)對(duì) DeepTech 表示。

參考資料：

https://arxiv.org/pdf/2505.23596

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.