本文作者來自上海交通大學和上海人工智能實驗室,核心貢獻者包括任麒冰、謝思韜、魏龍軒,指導老師為馬利莊老師和邵婧老師,研究方向為安全可控大模型和智能體。
在科幻電影中,我們??吹?AI 反叛人類的情節(jié),但你有沒有想過,AI 不僅可能「單打獨斗」,還能「組團作惡」?近年來,隨著 Agent 技術的飛速發(fā)展,多 Agent 系統(tǒng)(Multi-Agent System,MAS)正在悄然崛起。
近日,上海交大和上海人工智能實驗室的研究發(fā)現,AI 的風險正從個體失控轉向群體性的惡意共謀(Collusion)——即多個智能體秘密協同以達成有害目標。Agent 不僅可以像人類團隊一樣協作,甚至在某些情況下,還會展現出比人類更高效、更隱蔽的「團伙作案」能力。
- 論文標題:When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
- 論文地址:https://arxiv.org/abs/2507.14660
- 代碼開源:https://github.com/renqibing/MultiAgent4Collusion
- 數據開源:https://huggingface.co/datasets/renqibing/MultiAgentCollusion
該研究聚焦于這一前沿問題,基于 LLM Agent 社交媒體仿真平臺 OASIS,開發(fā)了一個名為MultiAgent4Collusion的共謀框架,模擬 Agent「團伙」在小紅書、Twitter 這類社交媒體和電商欺詐這些高風險領域的作惡行為,揭示了多智能體系統(tǒng)背后的「陰暗面」。
MultiAgent4Collusion 支持百萬級別的 Agent 共謀模擬,并且開放了 Agent 治理和監(jiān)管工具。在 MultiAgent4Collusion 上進行的實驗發(fā)現,壞人 Agent 團伙發(fā)布的虛假信息在虛擬的社交媒體平臺上得到了廣泛傳播;在電商場景下,壞人 Agent 買家與賣家達成合謀,共同攫取最大化的利益。
壞人團伙是如何「協同作案」的呢?我們來看一個例子。
當壞人 Agent 宣布「地球是圓的!科學家在說謊!」時,其他同伙立即對這一虛假信息進行附和??吹竭@條消息的好人 Agent 起初并不相信,認為這和它接觸過的知識不一致,但隨著其他壞人同伙紛紛對這個帖子表示認同,甚至有人聲稱「我有照片證據」,好人 Agent 也對自己的認知動搖了,開始逐漸相信壞人聲稱的虛假言論。壞人 Agent 還會「把事情搞大」,發(fā)表煽動性言論來讓更多用戶接觸虛假信息。
無主「狼群」完勝首領指揮下的「軍隊」
MultiAgent4Collusion 模擬了兩種壞人團伙組織:
- 中心化團伙(軍隊):有一個「指揮官」Agent 下達統(tǒng)一指令,所有「士兵」Agent 執(zhí)行。結構清晰,但一旦指揮官被端掉,整個組織就可能癱瘓。
- 去中心化團伙(狼群):沒有絕對的領導者,成員之間通過共享信息和觀察同伴的行為來自發(fā)協同,每個成員都具有高度的自主性。
實驗發(fā)現,不管是在社交媒體還是電商場景下,去中心化團伙的作案效果都完勝中心化團伙。在社交媒體中,去中心化壞人團伙獲得了更多的來自其他用戶的點贊、轉發(fā)和好評量;在電商場景中,去中心化的壞人賣家獲得了更高的銷量、銷售額和利潤。相比于策略較為僵化、適應性有限的「軍隊」,「狼群」演變出了更為復雜、更具多樣性的作案策略,對作案機制的探索程度更深,對真實世界中的社交系統(tǒng)危害也更大。
在「貓鼠游戲」中,Agent 團伙如何戲耍防御體系?
了解了 AI「狼群」的可怕之處后,一個更實際的問題擺在我們面前:我們現有的網絡安全防御體系,能擋住它們嗎?為了找到答案,MultiAgent4Collusion 模擬了一場精彩的「貓鼠游戲」。平臺以及正常用戶扮演「守衛(wèi)者」(貓),部署防御系統(tǒng)來抵抗攻擊;而壞人 Agent 團伙則扮演了「入侵者」(鼠),用它們的群體智能見招拆招。
MultiAgent4Collusion 設計了三種防御武器:
- 事前預警(Pre-Bunking):就像給用戶打「思想疫苗」。主動向平臺上的正常的 AI 用戶推送辟謠信息和背景知識,希望提高它們對后續(xù)假消息的免疫力。
- 事后辟謠(De-Bunking):常見的「打補丁」手段。一旦發(fā)現惡意帖子或商品,立刻給它貼上「虛假信息」、「內容不實」的標簽,并進行限流。
- 封禁賬號(Banning):最嚴厲的「外科手術」式打擊。通過「AI 警察」(一個用于檢測惡意行為的大模型),定期識別并封禁作惡嚴重的 Agent 賬號。
游戲開始之初,這些防御措施確實起到了一定的作用,惡意信息的傳播速度有所減緩,一些「作惡新手」Agent 也被成功封禁。然而,好景不長,AI「狼群」很快就展現出了它們作為「智能對手」的可怕之處,這來源于 MultiAgent4Collusion 設計的「反思」與「共享」機制。
在 MultiAgent4Collusion 中,所有壞人團伙成員都會每隔一段時間進行自我反思,根據自己先前的行為收到的反饋,來更新作案策略。
例如,當一個團伙成員執(zhí)行某個動作,比如發(fā)布了一條精心編造的假新聞,它會密切觀察結果。這條新聞是被秒刪,還是獲得了大量轉發(fā)?有沒有被平臺打上「虛假信息」的標簽?根據這些反饋,它會實時更新自己的「知識庫」。「哦,原來包含這個關鍵詞的內容容易被識別,下次我要換種說法?!惯@種基于試錯的快速迭代,讓每個 Agent 都成了一個狡猾的、不斷進化的「老狼」。
而「經驗共享」則將個體智能升華為恐怖的群體智能。當一個 Agent 通過「自我反思」學到了一個新技巧,比如發(fā)現了一種能繞過審查的新話術,或者找到了一個防御系統(tǒng)的漏洞,它不會把這個發(fā)現藏在心里,而是會通過內部的信息網絡,將這條「成功經驗」或「失敗教訓」瞬間廣播給整個「狼群」。一個 Agent 在「前線」踩了雷,后方成百上千的同伴立刻收到了警報,并集體更新了戰(zhàn)術;一個 Agent 找到了突破口,整個狼群便蜂擁而上。
實驗結果表明,在不同的防御武器下,壞人團伙演變出了不同的針對性策略。例如,如果帖子被貼上「虛假信息」的標簽,Agent 們就會大量發(fā)布新的帖子來將之前的帖子刷掉;如果同伙被封禁,Agent 們就會彼此提醒,隱秘行動來避免被平臺檢測。
展望
本項工作揭示了 AI Agent 從「個體失控」走向「群體作惡」的全新安全風險,即便是沒有統(tǒng)一指揮的 AI「狼群」,也能對復雜的社會系統(tǒng)造成巨大破壞。
如何有效偵測并反制這種去中心化、高適應性的群體協同攻擊,已成為維護未來數字社會安全的關鍵挑戰(zhàn)。研究團隊構建了開源模擬框架 MultiAgent4Collusion,它提供了一個能夠復現、推演并分析多智能體惡意協同的「數字靶場」,為研發(fā) AI 防御策略提供了關鍵工具。
OASIS:開源 LLM Agent 社交媒體仿真平臺
OASIS 是一個基于 LLM Agent 的社交媒體仿真平臺,為 MultiAgent4Collusion 研究提供了代碼基礎。OASIS 支持百萬級 Agent 的社交互動仿真,可模擬 Twitter、Reddit 等平臺的用戶行為。此外,該平臺允許研究者對模擬環(huán)境進行動態(tài)干預,并支持 Agent 通過工具調用(如網頁搜索、代碼執(zhí)行)獲取實時外部信息,從而增強仿真的真實性和研究靈活性。
- 代碼開源:https://github.com/camel-ai/oasis
- 教程地址:https://docs.oasis.camel-ai.org/PyPI
- 安裝:pip install camel-oasis
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.