近日,美國(guó)密蘇里大學(xué)哥倫比亞分校本科校友、美國(guó)邁阿密大學(xué)碩士校友、加拿大康科迪亞大學(xué)博士生郭琳強(qiáng)和所在團(tuán)隊(duì),首次在移動(dòng) GUI Agent 框架中引入了有限狀態(tài)機(jī)(FSM,F(xiàn)inite State Machine)作為任務(wù)執(zhí)行的結(jié)構(gòu)化建模手段來(lái)構(gòu)建 Agent 的狀態(tài)感知能力和結(jié)構(gòu)化記憶。
研究人員讓 Agent 在執(zhí)行過(guò)程中實(shí)時(shí)動(dòng)態(tài)地構(gòu)建一個(gè) FSM,將 UI 頁(yè)面視為一個(gè)個(gè)狀態(tài),并記錄改變狀態(tài)的用戶行為,從而讓 Agent 理解自己身處任務(wù)流程的哪個(gè)階段。FSM 的構(gòu)建不僅讓 Agent 擁有執(zhí)行路徑的全局視角,也使其具備前后狀態(tài)驗(yàn)證,錯(cuò)誤回溯的能力,從而在執(zhí)行任務(wù)中更加穩(wěn)定可靠。這種結(jié)構(gòu)化的表示是對(duì)以往 Agent 的突破。更重要的是,這種 FSM 不只是短時(shí)記憶,研究人員通過(guò)設(shè)計(jì) Mentor Agent,將每次任務(wù)構(gòu)建的 FSM 持久化下來(lái),形成可復(fù)用的知識(shí)。這樣 Agent 在處理類似任務(wù)時(shí),能夠調(diào)取歷史狀態(tài)圖,從經(jīng)驗(yàn)中獲得指引。
(來(lái)源:https://arxiv.org/pdf/2505.23596)
除此之外,研究人員發(fā)現(xiàn)以往 GUI Agent 只生成一個(gè)計(jì)劃并直接執(zhí)行,在真實(shí)環(huán)境中,一個(gè)復(fù)雜的任務(wù)往往有多種可執(zhí)行路徑,比如“在 Walmart 中查詢衛(wèi)生紙、橘子的商品打折價(jià)格并記錄到 Note App 中”,這個(gè)任務(wù)的解決方法并不唯一,Agent 可能會(huì)出現(xiàn)先記錄其中一個(gè)商品然后打開(kāi) Note 記錄,然后再返回進(jìn)行對(duì)另一個(gè)商品的查詢以及記錄,還有可能 Agent 一次性查詢了兩種商品的信息然后切換到 Note 中做記錄。雖然這兩種 plan 都可以解決問(wèn)題,但很明顯前者中存在更多的類似切換 App 的操作,而且真實(shí)人類操作更偏向于第二種解決方式。
因此在 MAPLE 中,研究人員讓 Planner Agent 一次性生成多個(gè)候選 plan,每個(gè) plan 都是由子任務(wù)和執(zhí)行推理構(gòu)成的序列。隨后,研究人員引入了 LLM-as-judge 機(jī)制并提供了判斷的依據(jù),例如盡可能少地切換 App 的操作,研究人員借助語(yǔ)言模型對(duì)這些 plan 進(jìn)行分析,從中選擇最具可行性和穩(wěn)健性的方案,并給出為推理過(guò)程來(lái)解釋為什么選擇它作為最終的 plan。這個(gè)機(jī)制使研究人員的 planning 過(guò)程更靈活而且具備自我評(píng)估的能力,從而達(dá)到更穩(wěn)定高效的性能。
MAPLE 是對(duì)多模態(tài)大模型(MLLM,Multimodal Large Language Models)驅(qū)動(dòng)的 mobile Agent 能力的一種增強(qiáng)與擴(kuò)展。當(dāng)前的多模態(tài)大模型已經(jīng)能夠理解和解析 UI,但它們?cè)谌蝿?wù)執(zhí)行中仍缺乏結(jié)構(gòu)性記憶和過(guò)程建模,導(dǎo)致在復(fù)雜任務(wù)中容易失誤、缺乏上下文判斷。MAPLE 通過(guò)引入 FSM 結(jié)構(gòu),為 MLLM Agent 提供了一種持續(xù)、可追蹤的狀態(tài)建模能力,讓 Agent 不再只是“看當(dāng)前屏幕做當(dāng)前事”,而是具備了過(guò)程感知、前后狀態(tài)驗(yàn)證、路徑回退等更強(qiáng)的執(zhí)行智能。因此可以說(shuō),MAPLE 是在底層框架上加強(qiáng)了 MLLM Agent 作為 mobile assistant 的整體能力,特別是在規(guī)劃性、穩(wěn)定性與可恢復(fù)性方面提供了系統(tǒng)性支持。
(來(lái)源:https://arxiv.org/pdf/2505.23596)
現(xiàn)如今 Agents 是非?;馃岬脑掝},實(shí)驗(yàn)室其他的同學(xué)也有用基于大模型的 Agents 去做一些相關(guān)課題。于是,研究人員便想探索用多模態(tài)模型作為 Agents 來(lái)做一些 GUI 相關(guān)的研究。研究人員對(duì)現(xiàn)有的 GUI Agents(主要是移動(dòng)端)做了相關(guān)調(diào)查,它們雖然借助強(qiáng)大的多模態(tài)大模型具備了識(shí)別和操作界面的能力,但是在執(zhí)行任務(wù)的過(guò)程中始終在“看一步走一步”,缺乏對(duì)應(yīng)用的整體流程的理解并且缺乏對(duì)已訪問(wèn)過(guò)頁(yè)面之間關(guān)系的理解,從而很難去判斷當(dāng)前的狀態(tài)是否偏離了任務(wù)目標(biāo)。正是因?yàn)檫@種局限性,使得現(xiàn)有 Agent 在面對(duì)跨應(yīng)用,長(zhǎng)路徑的復(fù)雜任務(wù)和遇到錯(cuò)誤操作時(shí)的恢復(fù)顯得脆弱。因此研究人員意識(shí)到,是否可以為 Agent 引入一種可以持續(xù)建模導(dǎo)航,捕捉狀態(tài)的變化并支持回溯狀態(tài)的機(jī)制。
整個(gè)研究過(guò)程大致經(jīng)歷了四個(gè)階段,每個(gè)階段都伴隨著對(duì)問(wèn)題理解的深入和系統(tǒng)能力的不斷擴(kuò)展。
最初是分析現(xiàn)有 MLLM 驅(qū)動(dòng)的 mobile Agent,研究人員著重去分析了它們的 error cases 并且注意到一個(gè)普遍問(wèn)題:這些 Agent 雖然能理解單個(gè) UI 屏幕并執(zhí)行操作,但在復(fù)雜任務(wù)中經(jīng)常失敗。一旦出錯(cuò),Agent 很難判斷自己是當(dāng)前操作錯(cuò)誤還是在之前就有偏離,也缺乏回退或自我修正的機(jī)制,因?yàn)榇蟛糠?Agent 還是在采用先 retry 再 replan 來(lái)修復(fù)出現(xiàn)的錯(cuò)誤。這個(gè)觀察促使研究人員思考,是否可以為 Agent 引入一種“過(guò)程感知”的能力,來(lái)促使它更好地理解任務(wù)流程和錯(cuò)誤修復(fù)。
接著進(jìn)入的是建模階段。研究人員選擇了 FSM 作為核心抽象方式,因?yàn)橐苿?dòng)應(yīng)用本身就天然具備狀態(tài)與轉(zhuǎn)移的結(jié)構(gòu),而 FSM 正好可以將 UI screen 映射為狀態(tài),用戶操作映射為轉(zhuǎn)移。研究人員逐步構(gòu)建出一個(gè)多 Agent 框架,分別負(fù)責(zé)規(guī)劃、感知、建模、與執(zhí)行等。其中的 State Agent 是關(guān)鍵組件,負(fù)責(zé)動(dòng)態(tài)構(gòu)建 FSM,同時(shí)標(biāo)注每個(gè)狀態(tài)的前置與后置條件。
第三階段是實(shí)現(xiàn)與迭代。研究人員在真實(shí) Android 設(shè)備上部署系統(tǒng),選擇跨應(yīng)用、多步驟的 benchmark 進(jìn)行實(shí)驗(yàn)。這個(gè)階段挑戰(zhàn)很大,因?yàn)樾枰到y(tǒng)在實(shí)際界面變化中維持穩(wěn)定狀態(tài)建模,還要能檢測(cè)出偏離并發(fā)起恢復(fù)。研究人員反復(fù)調(diào)試 State Agent 和 Reflection Agent 的判斷邏輯和 Agent 的提示詞,比如如何判定“狀態(tài)相似”、何時(shí)啟動(dòng)恢復(fù)、如何避免進(jìn)入循環(huán)恢復(fù)等。
最后是規(guī)劃?rùn)C(jī)制與記憶系統(tǒng)的完善。研究人員引入了多路徑規(guī)劃?rùn)C(jī)制和 LLM-as-judge,解決了此前“只生成一個(gè) plan”的局限,同時(shí)引入 Mentor Agent,把任務(wù)中的 FSM 和交互經(jīng)驗(yàn)存儲(chǔ)起來(lái),供未來(lái)任務(wù)復(fù)用。這一步讓系統(tǒng)不僅能應(yīng)對(duì)當(dāng)前任務(wù),也具備了跨任務(wù)的知識(shí)積累能力。
另?yè)?jù)悉,在最初的實(shí)現(xiàn)階段,研究人員對(duì) FSM 的應(yīng)用還比較初步,僅僅是記錄了每個(gè)狀態(tài)的自然語(yǔ)言描述。這樣的建模方式在執(zhí)行過(guò)程中顯得非常單薄,Agent 雖然能夠“記住去過(guò)哪些頁(yè)面”,但并不能真正“理解”這些狀態(tài)的含義,也無(wú)法對(duì)操作結(jié)果進(jìn)行有效驗(yàn)證。后來(lái),郭琳強(qiáng)與導(dǎo)師進(jìn)行了深入的討論。在他的啟發(fā)下,郭琳強(qiáng)等人開(kāi)始思考,是否可以為每個(gè)狀態(tài)引入更豐富的語(yǔ)義信息。最終,他們決定為每個(gè)狀態(tài)添加前置條件、后置條件,以及基于當(dāng)前目標(biāo)的下一狀態(tài)預(yù)測(cè)。
這些要素被統(tǒng)一納入到狀態(tài)節(jié)點(diǎn)的結(jié)構(gòu)中,使 FSM 不僅是一個(gè)執(zhí)行軌跡的記錄器,更是一個(gè)具備推理能力的結(jié)構(gòu)化模型。這些增強(qiáng)信息也直接提升了 Reflection Agent 的判斷力。它能夠結(jié)合當(dāng)前狀態(tài)的后置條件與預(yù)測(cè)狀態(tài),對(duì)實(shí)際執(zhí)行結(jié)果進(jìn)行比對(duì),從而判斷動(dòng)作是否達(dá)成了預(yù)期效果,是否需要觸發(fā)恢復(fù)機(jī)制。同樣是在那次討論中,研究人員也進(jìn)一步完善了“LLM-as-judge”的理念,不再依賴單一的規(guī)劃路徑,而是讓 Agent 能生成多個(gè)候選方案,再通過(guò)大模型進(jìn)行評(píng)估與篩選??梢哉f(shuō),MAPLE 的逐步完善,離不開(kāi)研究人員團(tuán)隊(duì)每一位成員的投入,尤其是導(dǎo)師的引導(dǎo)與建議,在多個(gè)關(guān)鍵節(jié)點(diǎn)上都起到了非常重要的作用。這個(gè)過(guò)程本身就是一次非常寶貴的學(xué)習(xí)與合作經(jīng)歷。
目前,在 Agent 相關(guān)領(lǐng)域里,使用強(qiáng)化學(xué)習(xí)讓小模型代替基于云端的大模型是比較火熱的方向,用本地的小模型逐步替代對(duì)云端大模型的強(qiáng)依賴從而實(shí)現(xiàn)更輕量、可部署的移動(dòng)智能體?!霸谄渌矫?,我可能會(huì)看一些 Agent 相關(guān)的安全性問(wèn)題,包括如何限制其行為范圍、檢測(cè)異常決策等在如今都尤為重要。”郭琳強(qiáng)對(duì) DeepTech 表示。
參考資料:
https://arxiv.org/pdf/2505.23596
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.