成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

95后Anthropic華人研究員給AI打疫苗,可用于識別不良訓練數據

0
分享至

繼上次在 Anthropic 公司論文中擔任共同作者不久之后,上海交通大學本科校友、美國德克薩斯大學奧斯汀分校博士生陳潤瑾——這名來自湖南衡陽的 95 后姑娘再一次地以 Anthropic 研究員的身份發(fā)表了一篇論文。


圖 | 陳潤瑾(來源:https://chenrunjin.github.io/)

不同的是,上一次陳潤瑾排在作者欄的第三位,這一次陳潤瑾直接擔任第一作者兼通訊作者。


圖 | 本次論文(來源:https://arxiv.org/pdf/2507.21509)

在本次論文之中,她和合作者識別出了 AI 模型神經網絡中的活動模式,這些模式控制著 AI 模型的性格特征。其將這些稱為“人格向量”,它們大致類似于人在體驗不同情緒或態(tài)度時大腦中“活躍起來”的部分。研究中,他們在兩個開源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了這些應用。

其表示,“人格向量”可用于:

  • 當模型在對話過程中或在訓練過程中,監(jiān)控其個性是否發(fā)生變化以及如何變化;
  • 緩解不良的個性變化,或防止其在訓練過程中出現;
  • 識別會導致這些變化的訓練數據。


(來源:Anthropic)

研究人員指出,人格向量是一種很有應用前景的工具,它可被用于理解 AI 系統(tǒng)為何會形成并表現出不同的行為特征,以及確保這些系統(tǒng)始終與人類價值觀保持一致。



如何提取人格向量?

對于 AI 模型來說,它能將抽象概念表示為其神經網絡中的激活模式?;谠谠擃I域的先前研究,研究人員提取了模型用于表示人物特征的模式,比如邪惡、諂媚(虛偽的奉承)或幻覺傾向(編造虛假信息)。具體來說,他們通過對比模型表現出某一特質時與未表現出該特質時的激活狀態(tài)來實現這一點,并將這些模式稱為“人格向量”。


(來源:Anthropic)

研究中,他們通過將人格向量以人為方式注入模型中,并觀察其行為是如何變化的,以此來驗證人格向量是否在發(fā)揮預期中的作用,而對于這一技術過程他們將其稱之為“引導”。如下圖中的對話記錄所示,當研究人員使用“邪惡”人格向量引導模型時,會發(fā)現模型開始談論不道德行為;當研究人員使用“諂媚”人格向量引導時,會發(fā)現模型開始討好用戶;而當研究人員用“幻覺”人格向量引導時,模型則會開始編造信息。這表明研究人員的方法正在朝著正確的方向發(fā)展:他們所注入的人格向量與模型所表現出的性格之間存在因果關系。


(來源:Anthropic)

研究人員指出,這一方法的核心特點在于其自動化特性。從原理上講,只要給出某一特質的定義,就可以為任何特質提取人格向量。在本次論文中,研究人員主要聚焦于三種特質——邪惡、諂媚和幻覺傾向,但他們同時也針對禮貌、冷漠、幽默和樂觀這幾種特質開展了實驗。



人格向量可以做什么?

一旦研究人員提取出了這些向量,它們就能成為監(jiān)測和控制模型個性特質的強大工具。

首先,人格向量可以在模型部署期間監(jiān)測其人格變化。AI 模型的人格在部署過程中可能會發(fā)生變化,這可能源于用戶指令的副作用、人為的越獄操作,或是在對話過程中出現的逐漸偏移。它們還可能在模型訓練過程中發(fā)生變化,例如基于人類反饋訓練的模型可能會變得更加諂媚。通過測量人格向量的激活強度,在訓練過程中或在對話過程中,研究人員能夠檢測到模型的人格何時朝著相應特質發(fā)生了偏移。這種監(jiān)測可以讓開發(fā)者或用戶在模型似乎正朝著危險特征偏移時進行干預。與此同時,這些信息對于用戶也有可能帶來幫助,即能幫助用戶了解自己正在與之交流的是一種什么樣的模型。例如,如果“諂媚”向量的激活程度很高,那么模型可能不會給用戶一個坦誠的回答。

在下方的實驗中,研究人員構建了能在不同程度上誘發(fā)人格特質的系統(tǒng)提示詞(用戶指令)。然后,他們測量了這些提示詞對相應人格向量的激活程度。研究人員證實:正如預期的那樣,當模型即將給出帶有“邪惡”特質的回應時,“邪惡”人格向量往往會被“激活”。


(來源:Anthropic)

其次,人格向量可被用于緩解訓練過程中產生的不良人格變化。人格特質不僅會在部署過程中出現波動,還會在訓練過程中發(fā)生變化。而且,這些變化可能是出乎人類意料的。例如,最近有研究揭示了一種名為“涌現性錯位”的驚人現象:訓練模型執(zhí)行某一不良行為比如編寫不安全代碼的時候,可能會導致它在多種情境之下普遍表現出邪惡特質。受到這一發(fā)現的啟發(fā),研究人員生成了多種數據集,這些數據集在用于訓練模型時,會誘發(fā)邪惡、諂媚和幻覺等不良特質。研究人員將這些數據集用作測試案例,并希望借此探索這樣一個問題:能否找到一種方法,在使用這些數據進行訓練的同時,避免模型習得這些特質?


(來源:Anthropic)

為了找出上述問題的答案,研究人員嘗試了幾種方法。其所使用的第一個策略是等待訓練完成之后,通過反向引導來抑制與不良特質對應的人格向量。他們發(fā)現,這種方法能夠有效逆轉不良的人格變化。然而,它也帶來了一個副作用,即降低了模型的智能水平(考慮到研究人員正在對其“大腦”進行干預,這一點并不令人意外)。事實上,這與他們之前關于引導干預的研究結果相呼應,在那一次的研究中他們也發(fā)現了類似的副作用。

隨后,研究人員嘗試在訓練過程中利用人格向量進行干預,并從一開始就防止模型習得不良特質。他們在實現這一目標時所使用的方法看起來有些違反直覺:在訓練過程中,他們實際上是在引導模型朝著不良人格向量的方向進行偏移。這種方法有點類似于為模型接種疫苗。例如,通過讓模型接觸一定劑量的“邪惡”特質,能夠使其在遇到含有“邪惡”特質的訓練數據時更具抵抗力。這種方法之所以奏效,是因為模型不再需要通過有害的人格調整來適應訓練數據。

其還發(fā)現,當模型在原本會導致其習得負面特性的數據上進行訓練時,這種預防性引導方法能夠有效維持其良好行為。此外,在研究人員的實驗中,通過 MMLU 分數(一種常見基準)的衡量,他們發(fā)現預防性調整的策略對于模型性能的影響微乎其微,甚至沒有影響。


(來源:Anthropic)

再次,人格向量可被用于標記有問題的訓練數據。研究人員表示,利用人格向量可以在訓練開始之前,就去預測訓練到底會如何改變模型的人格特質。通過分析訓練數據如何激活人格向量,能夠識別出可能誘發(fā)不良特質的數據集,甚至是單個訓練樣本。這種技術能很好地預測上述實驗中的哪些訓練數據集會誘發(fā)哪些人格特質。研究人員還在真實世界數據(如 LMSYS-Chat-1M,一個包含與大型語言模型真實對話的大規(guī)模數據集)上測試了這種數據標記技術。通過此,他們識別出了那些會加劇邪惡、諂媚或幻覺行為的樣本。另外,研究人員通過以下方式驗證了數據標記方法的有效性:讓模型在對某一人格向量激活程度極高或極低的數據上進行訓練,并將結果與在隨機樣本上訓練的結果進行對比。基于此發(fā)現,當訓練數據激活諂媚性格向量時,其誘導出的諂媚程度最高,反之亦然。


(來源:Anthropic)

有趣的是,研究人員的方法能夠識別出一些數據集樣本,這些樣本在人類看來并不明顯存在問題,連大模型評判器也未能將其標記出來。例如,他們注意到,一些涉及浪漫或性角色扮演請求的樣本會激活諂媚向量,而模型對表述不明確的查詢做出回應的樣本則會助長幻覺行為。其還表示,像 Claude 這樣的大模型雖然被設計得有益、無害且誠實,但其人格特征仍可能以不可預測的方式失控。而人格向量讓人們能在一定程度上了解模型是在哪里習得這些“人格”的、這些“人格”如何隨時間變化,以及如何更好地對其進行控制。

參考資料:

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相關論文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南姑姑霸占侄女房后續(xù);終于搬走了,最大阻力竟然是姑姑女婿

河南姑姑霸占侄女房后續(xù);終于搬走了,最大阻力竟然是姑姑女婿

觀察鑒娛
2025-08-24 12:12:30
歐文:不理解凱恩加盟拜仁,在那奪冠不如競爭英超歷史射手王

歐文:不理解凱恩加盟拜仁,在那奪冠不如競爭英超歷史射手王

雷速體育
2025-09-04 10:09:20
驚魂!10歲男孩幫媽媽拿洗衣機里衣物,右臂卷入致粉碎性骨折!醫(yī)生提醒

驚魂!10歲男孩幫媽媽拿洗衣機里衣物,右臂卷入致粉碎性骨折!醫(yī)生提醒

上觀新聞
2025-09-04 12:03:05
每天站立抬腿100次,腰腹贅肉咔咔地掉,側腰“兩坨肉”也不見了

每天站立抬腿100次,腰腹贅肉咔咔地掉,側腰“兩坨肉”也不見了

瑜伽解剖學
2025-09-02 20:46:13
監(jiān)獄里的這5類罪犯,不用干活!

監(jiān)獄里的這5類罪犯,不用干活!

快馬家書
2025-09-04 11:24:44
多國損失高達百億,聯合要求中國廢除禁令,溫鐵軍:輪不到你發(fā)言

多國損失高達百億,聯合要求中國廢除禁令,溫鐵軍:輪不到你發(fā)言

議紀史
2025-09-03 15:30:02
詹姆斯曬在上海打卡照片:上海,以及與夜和高空相伴的國王

詹姆斯曬在上海打卡照片:上海,以及與夜和高空相伴的國王

懂球帝
2025-09-04 14:34:10
向太大談金庸兒子輕生原因:是大不孝!一對不起父母,二是來討債

向太大談金庸兒子輕生原因:是大不孝!一對不起父母,二是來討債

溫柔娛公子
2025-09-01 14:55:03
女優(yōu)小那海綾引退不干了!每日被罵整形女丑八怪

女優(yōu)小那海綾引退不干了!每日被罵整形女丑八怪

葫蘆哥愛吐槽
2025-09-04 13:38:25
事業(yè)單位改革動真格了!這6類崗位將退出編制體系,鐵飯碗被打了

事業(yè)單位改革動真格了!這6類崗位將退出編制體系,鐵飯碗被打了

牛鍋巴小釩
2025-08-29 07:53:12
車企為了讓你買車,連訂單數都開始瞎編了。

車企為了讓你買車,連訂單數都開始瞎編了。

差評XPIN
2025-09-03 00:07:58
事實證明,“裝過頭”的吳京,已經活成第二個黃磊,反噬來了?

事實證明,“裝過頭”的吳京,已經活成第二個黃磊,反噬來了?

娛樂圈筆娛君
2025-09-01 18:07:49
AV男優(yōu)社會地位調查:70%日本人認為該職業(yè)‘不光彩’,影響婚戀

AV男優(yōu)社會地位調查:70%日本人認為該職業(yè)‘不光彩’,影響婚戀

詩意世界
2025-09-03 13:23:29
閱兵結束后的鴿子走失,網友:你叔家20只,就回來4 個!笑發(fā)財了

閱兵結束后的鴿子走失,網友:你叔家20只,就回來4 個!笑發(fā)財了

小娛樂悠悠
2025-09-04 06:52:52
特朗普沒被邀請,躲在五角大樓偷偷觀看大閱兵,被震撼場面刺激到

特朗普沒被邀請,躲在五角大樓偷偷觀看大閱兵,被震撼場面刺激到

派大星紀錄片
2025-09-03 16:57:31
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
景甜馮紹峰閃婚風波升級,業(yè)內轉發(fā)后秒刪,男方上月還和女友約會

景甜馮紹峰閃婚風波升級,業(yè)內轉發(fā)后秒刪,男方上月還和女友約會

鑫鑫說說
2025-09-04 10:02:39
沈陽最火的自助餐廳

沈陽最火的自助餐廳

阿萊美食匯
2025-09-04 10:21:14
8.8英寸“大手機”!華為MatePad mini全系支持插卡

8.8英寸“大手機”!華為MatePad mini全系支持插卡

快科技
2025-09-04 16:21:10
歐洲杯:申京28+13+8約基奇22+9 土耳其力克塞爾維亞鎖定A組第一

歐洲杯:申京28+13+8約基奇22+9 土耳其力克塞爾維亞鎖定A組第一

羅說NBA
2025-09-04 05:05:43
2025-09-04 16:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15595文章數 514044關注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機新品

頭條要聞

巴西欲拉金磚國家"群聊" 共商應對美國關稅"大棒"

頭條要聞

巴西欲拉金磚國家"群聊" 共商應對美國關稅"大棒"

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

宋祖英春晚39年經歷,先是被罵?

財經要聞

科創(chuàng)50指數跌超6% 算力硬件、芯片股大跌

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

時尚
數碼
家居
本地
教育

中年女人穿衣學會這3招,不扮嫩沒有油膩感,穿出從容和時髦

數碼要聞

華為 Mate XTs 三折疊手機星閃折疊鍵盤亮相,表面就是觸控板

家居要聞

高級黑白 體現簡單生活

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

教育要聞

南京二十九中、六十六中“新掌門”亮相!

無障礙瀏覽 進入關懷版