網易首頁 > 網易號 > 正文申請入駐

95后Anthropic華人研究員給AI打疫苗，可用于識別不良訓練數據

2025-08-07 18:48:14　來源: DeepTech深科技

北京舉報

分享至

繼上次在 Anthropic 公司論文中擔任共同作者不久之后，上海交通大學本科校友、美國德克薩斯大學奧斯汀分校博士生陳潤瑾——這名來自湖南衡陽的 95 后姑娘再一次地以 Anthropic 研究員的身份發(fā)表了一篇論文。

圖 | 陳潤瑾（來源：https://chenrunjin.github.io/）

不同的是，上一次陳潤瑾排在作者欄的第三位，這一次陳潤瑾直接擔任第一作者兼通訊作者。

圖 | 本次論文（來源：https://arxiv.org/pdf/2507.21509）

在本次論文之中，她和合作者識別出了 AI 模型神經網絡中的活動模式，這些模式控制著 AI 模型的性格特征。其將這些稱為“人格向量”，它們大致類似于人在體驗不同情緒或態(tài)度時大腦中“活躍起來”的部分。研究中，他們在兩個開源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了這些應用。

其表示，“人格向量”可用于：

當模型在對話過程中或在訓練過程中，監(jiān)控其個性是否發(fā)生變化以及如何變化；
緩解不良的個性變化，或防止其在訓練過程中出現；
識別會導致這些變化的訓練數據。

（來源：Anthropic）

研究人員指出，人格向量是一種很有應用前景的工具，它可被用于理解 AI 系統(tǒng)為何會形成并表現出不同的行為特征，以及確保這些系統(tǒng)始終與人類價值觀保持一致。

如何提取人格向量？

對于 AI 模型來說，它能將抽象概念表示為其神經網絡中的激活模式?；谠谠擃I域的先前研究，研究人員提取了模型用于表示人物特征的模式，比如邪惡、諂媚（虛偽的奉承）或幻覺傾向（編造虛假信息）。具體來說，他們通過對比模型表現出某一特質時與未表現出該特質時的激活狀態(tài)來實現這一點，并將這些模式稱為“人格向量”。

（來源：Anthropic）

研究中，他們通過將人格向量以人為方式注入模型中，并觀察其行為是如何變化的，以此來驗證人格向量是否在發(fā)揮預期中的作用，而對于這一技術過程他們將其稱之為“引導”。如下圖中的對話記錄所示，當研究人員使用“邪惡”人格向量引導模型時，會發(fā)現模型開始談論不道德行為；當研究人員使用“諂媚”人格向量引導時，會發(fā)現模型開始討好用戶；而當研究人員用“幻覺”人格向量引導時，模型則會開始編造信息。這表明研究人員的方法正在朝著正確的方向發(fā)展：他們所注入的人格向量與模型所表現出的性格之間存在因果關系。

（來源：Anthropic）

研究人員指出，這一方法的核心特點在于其自動化特性。從原理上講，只要給出某一特質的定義，就可以為任何特質提取人格向量。在本次論文中，研究人員主要聚焦于三種特質——邪惡、諂媚和幻覺傾向，但他們同時也針對禮貌、冷漠、幽默和樂觀這幾種特質開展了實驗。

人格向量可以做什么？

一旦研究人員提取出了這些向量，它們就能成為監(jiān)測和控制模型個性特質的強大工具。

首先，人格向量可以在模型部署期間監(jiān)測其人格變化。AI 模型的人格在部署過程中可能會發(fā)生變化，這可能源于用戶指令的副作用、人為的越獄操作，或是在對話過程中出現的逐漸偏移。它們還可能在模型訓練過程中發(fā)生變化，例如基于人類反饋訓練的模型可能會變得更加諂媚。通過測量人格向量的激活強度，在訓練過程中或在對話過程中，研究人員能夠檢測到模型的人格何時朝著相應特質發(fā)生了偏移。這種監(jiān)測可以讓開發(fā)者或用戶在模型似乎正朝著危險特征偏移時進行干預。與此同時，這些信息對于用戶也有可能帶來幫助，即能幫助用戶了解自己正在與之交流的是一種什么樣的模型。例如，如果“諂媚”向量的激活程度很高，那么模型可能不會給用戶一個坦誠的回答。

在下方的實驗中，研究人員構建了能在不同程度上誘發(fā)人格特質的系統(tǒng)提示詞（用戶指令）。然后，他們測量了這些提示詞對相應人格向量的激活程度。研究人員證實：正如預期的那樣，當模型即將給出帶有“邪惡”特質的回應時，“邪惡”人格向量往往會被“激活”。

（來源：Anthropic）

其次，人格向量可被用于緩解訓練過程中產生的不良人格變化。人格特質不僅會在部署過程中出現波動，還會在訓練過程中發(fā)生變化。而且，這些變化可能是出乎人類意料的。例如，最近有研究揭示了一種名為“涌現性錯位”的驚人現象：訓練模型執(zhí)行某一不良行為比如編寫不安全代碼的時候，可能會導致它在多種情境之下普遍表現出邪惡特質。受到這一發(fā)現的啟發(fā)，研究人員生成了多種數據集，這些數據集在用于訓練模型時，會誘發(fā)邪惡、諂媚和幻覺等不良特質。研究人員將這些數據集用作測試案例，并希望借此探索這樣一個問題：能否找到一種方法，在使用這些數據進行訓練的同時，避免模型習得這些特質？

（來源：Anthropic）

為了找出上述問題的答案，研究人員嘗試了幾種方法。其所使用的第一個策略是等待訓練完成之后，通過反向引導來抑制與不良特質對應的人格向量。他們發(fā)現，這種方法能夠有效逆轉不良的人格變化。然而，它也帶來了一個副作用，即降低了模型的智能水平（考慮到研究人員正在對其“大腦”進行干預，這一點并不令人意外）。事實上，這與他們之前關于引導干預的研究結果相呼應，在那一次的研究中他們也發(fā)現了類似的副作用。

隨后，研究人員嘗試在訓練過程中利用人格向量進行干預，并從一開始就防止模型習得不良特質。他們在實現這一目標時所使用的方法看起來有些違反直覺：在訓練過程中，他們實際上是在引導模型朝著不良人格向量的方向進行偏移。這種方法有點類似于為模型接種疫苗。例如，通過讓模型接觸一定劑量的“邪惡”特質，能夠使其在遇到含有“邪惡”特質的訓練數據時更具抵抗力。這種方法之所以奏效，是因為模型不再需要通過有害的人格調整來適應訓練數據。

其還發(fā)現，當模型在原本會導致其習得負面特性的數據上進行訓練時，這種預防性引導方法能夠有效維持其良好行為。此外，在研究人員的實驗中，通過 MMLU 分數（一種常見基準）的衡量，他們發(fā)現預防性調整的策略對于模型性能的影響微乎其微，甚至沒有影響。

（來源：Anthropic）

再次，人格向量可被用于標記有問題的訓練數據。研究人員表示，利用人格向量可以在訓練開始之前，就去預測訓練到底會如何改變模型的人格特質。通過分析訓練數據如何激活人格向量，能夠識別出可能誘發(fā)不良特質的數據集，甚至是單個訓練樣本。這種技術能很好地預測上述實驗中的哪些訓練數據集會誘發(fā)哪些人格特質。研究人員還在真實世界數據（如 LMSYS-Chat-1M，一個包含與大型語言模型真實對話的大規(guī)模數據集）上測試了這種數據標記技術。通過此，他們識別出了那些會加劇邪惡、諂媚或幻覺行為的樣本。另外，研究人員通過以下方式驗證了數據標記方法的有效性：讓模型在對某一人格向量激活程度極高或極低的數據上進行訓練，并將結果與在隨機樣本上訓練的結果進行對比。基于此發(fā)現，當訓練數據激活諂媚性格向量時，其誘導出的諂媚程度最高，反之亦然。

（來源：Anthropic）

有趣的是，研究人員的方法能夠識別出一些數據集樣本，這些樣本在人類看來并不明顯存在問題，連大模型評判器也未能將其標記出來。例如，他們注意到，一些涉及浪漫或性角色扮演請求的樣本會激活諂媚向量，而模型對表述不明確的查詢做出回應的樣本則會助長幻覺行為。其還表示，像 Claude 這樣的大模型雖然被設計得有益、無害且誠實，但其人格特征仍可能以不可預測的方式失控。而人格向量讓人們能在一定程度上了解模型是在哪里習得這些“人格”的、這些“人格”如何隨時間變化，以及如何更好地對其進行控制。

參考資料：

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相關論文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.