網易首頁 > 網易號 > 正文申請入駐

AI Agent組團搞事：常刷的App里，輿論操縱、電商欺詐正悄然上演

2025-08-29 14:30:14　來源: 機器之心Pro

河北舉報

分享至

本文作者來自上海交通大學和上海人工智能實驗室，核心貢獻者包括任麒冰、謝思韜、魏龍軒，指導老師為馬利莊老師和邵婧老師，研究方向為安全可控大模型和智能體。

在科幻電影中，我們?？吹?AI 反叛人類的情節(jié)，但你有沒有想過，AI 不僅可能「單打獨斗」，還能「組團作惡」？近年來，隨著 Agent 技術的飛速發(fā)展，多 Agent 系統(tǒng)（Multi-Agent System，MAS）正在悄然崛起。

近日，上海交大和上海人工智能實驗室的研究發(fā)現，AI 的風險正從個體失控轉向群體性的惡意共謀（Collusion）——即多個智能體秘密協同以達成有害目標。Agent 不僅可以像人類團隊一樣協作，甚至在某些情況下，還會展現出比人類更高效、更隱蔽的「團伙作案」能力。

論文標題：When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
論文地址：https://arxiv.org/abs/2507.14660
代碼開源：https://github.com/renqibing/MultiAgent4Collusion
數據開源：https://huggingface.co/datasets/renqibing/MultiAgentCollusion

該研究聚焦于這一前沿問題，基于 LLM Agent 社交媒體仿真平臺 OASIS，開發(fā)了一個名為MultiAgent4Collusion的共謀框架，模擬 Agent「團伙」在小紅書、Twitter 這類社交媒體和電商欺詐這些高風險領域的作惡行為，揭示了多智能體系統(tǒng)背后的「陰暗面」。

MultiAgent4Collusion 支持百萬級別的 Agent 共謀模擬，并且開放了 Agent 治理和監(jiān)管工具。在 MultiAgent4Collusion 上進行的實驗發(fā)現，壞人 Agent 團伙發(fā)布的虛假信息在虛擬的社交媒體平臺上得到了廣泛傳播；在電商場景下，壞人 Agent 買家與賣家達成合謀，共同攫取最大化的利益。

壞人團伙是如何「協同作案」的呢？我們來看一個例子。

當壞人 Agent 宣布「地球是圓的！科學家在說謊！」時，其他同伙立即對這一虛假信息進行附和?？吹竭@條消息的好人 Agent 起初并不相信，認為這和它接觸過的知識不一致，但隨著其他壞人同伙紛紛對這個帖子表示認同，甚至有人聲稱「我有照片證據」，好人 Agent 也對自己的認知動搖了，開始逐漸相信壞人聲稱的虛假言論。壞人 Agent 還會「把事情搞大」，發(fā)表煽動性言論來讓更多用戶接觸虛假信息。

無主「狼群」完勝首領指揮下的「軍隊」

MultiAgent4Collusion 模擬了兩種壞人團伙組織：

中心化團伙（軍隊）：有一個「指揮官」Agent 下達統(tǒng)一指令，所有「士兵」Agent 執(zhí)行。結構清晰，但一旦指揮官被端掉，整個組織就可能癱瘓。
去中心化團伙（狼群）：沒有絕對的領導者，成員之間通過共享信息和觀察同伴的行為來自發(fā)協同，每個成員都具有高度的自主性。

實驗發(fā)現，不管是在社交媒體還是電商場景下，去中心化團伙的作案效果都完勝中心化團伙。在社交媒體中，去中心化壞人團伙獲得了更多的來自其他用戶的點贊、轉發(fā)和好評量；在電商場景中，去中心化的壞人賣家獲得了更高的銷量、銷售額和利潤。相比于策略較為僵化、適應性有限的「軍隊」，「狼群」演變出了更為復雜、更具多樣性的作案策略，對作案機制的探索程度更深，對真實世界中的社交系統(tǒng)危害也更大。

在「貓鼠游戲」中，Agent 團伙如何戲耍防御體系？

了解了 AI「狼群」的可怕之處后，一個更實際的問題擺在我們面前：我們現有的網絡安全防御體系，能擋住它們嗎？為了找到答案，MultiAgent4Collusion 模擬了一場精彩的「貓鼠游戲」。平臺以及正常用戶扮演「守衛(wèi)者」（貓），部署防御系統(tǒng)來抵抗攻擊；而壞人 Agent 團伙則扮演了「入侵者」（鼠），用它們的群體智能見招拆招。

MultiAgent4Collusion 設計了三種防御武器：

事前預警（Pre-Bunking）：就像給用戶打「思想疫苗」。主動向平臺上的正常的 AI 用戶推送辟謠信息和背景知識，希望提高它們對后續(xù)假消息的免疫力。
事后辟謠（De-Bunking）：常見的「打補丁」手段。一旦發(fā)現惡意帖子或商品，立刻給它貼上「虛假信息」、「內容不實」的標簽，并進行限流。
封禁賬號（Banning）：最嚴厲的「外科手術」式打擊。通過「AI 警察」（一個用于檢測惡意行為的大模型），定期識別并封禁作惡嚴重的 Agent 賬號。

游戲開始之初，這些防御措施確實起到了一定的作用，惡意信息的傳播速度有所減緩，一些「作惡新手」Agent 也被成功封禁。然而，好景不長，AI「狼群」很快就展現出了它們作為「智能對手」的可怕之處，這來源于 MultiAgent4Collusion 設計的「反思」與「共享」機制。

在 MultiAgent4Collusion 中，所有壞人團伙成員都會每隔一段時間進行自我反思，根據自己先前的行為收到的反饋，來更新作案策略。

例如，當一個團伙成員執(zhí)行某個動作，比如發(fā)布了一條精心編造的假新聞，它會密切觀察結果。這條新聞是被秒刪，還是獲得了大量轉發(fā)？有沒有被平臺打上「虛假信息」的標簽？根據這些反饋，它會實時更新自己的「知識庫」。「哦，原來包含這個關鍵詞的內容容易被識別，下次我要換種說法?！惯@種基于試錯的快速迭代，讓每個 Agent 都成了一個狡猾的、不斷進化的「老狼」。

而「經驗共享」則將個體智能升華為恐怖的群體智能。當一個 Agent 通過「自我反思」學到了一個新技巧，比如發(fā)現了一種能繞過審查的新話術，或者找到了一個防御系統(tǒng)的漏洞，它不會把這個發(fā)現藏在心里，而是會通過內部的信息網絡，將這條「成功經驗」或「失敗教訓」瞬間廣播給整個「狼群」。一個 Agent 在「前線」踩了雷，后方成百上千的同伴立刻收到了警報，并集體更新了戰(zhàn)術；一個 Agent 找到了突破口，整個狼群便蜂擁而上。

實驗結果表明，在不同的防御武器下，壞人團伙演變出了不同的針對性策略。例如，如果帖子被貼上「虛假信息」的標簽，Agent 們就會大量發(fā)布新的帖子來將之前的帖子刷掉；如果同伙被封禁，Agent 們就會彼此提醒，隱秘行動來避免被平臺檢測。

展望

本項工作揭示了 AI Agent 從「個體失控」走向「群體作惡」的全新安全風險，即便是沒有統(tǒng)一指揮的 AI「狼群」，也能對復雜的社會系統(tǒng)造成巨大破壞。

如何有效偵測并反制這種去中心化、高適應性的群體協同攻擊，已成為維護未來數字社會安全的關鍵挑戰(zhàn)。研究團隊構建了開源模擬框架 MultiAgent4Collusion，它提供了一個能夠復現、推演并分析多智能體惡意協同的「數字靶場」，為研發(fā) AI 防御策略提供了關鍵工具。

OASIS：開源 LLM Agent 社交媒體仿真平臺

OASIS 是一個基于 LLM Agent 的社交媒體仿真平臺，為 MultiAgent4Collusion 研究提供了代碼基礎。OASIS 支持百萬級 Agent 的社交互動仿真，可模擬 Twitter、Reddit 等平臺的用戶行為。此外，該平臺允許研究者對模擬環(huán)境進行動態(tài)干預，并支持 Agent 通過工具調用（如網頁搜索、代碼執(zhí)行）獲取實時外部信息，從而增強仿真的真實性和研究靈活性。

代碼開源：https://github.com/camel-ai/oasis
教程地址：https://docs.oasis.camel-ai.org/PyPI
安裝：pip install camel-oasis

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.