成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

o3不聽指令拒絕關(guān)機(jī),7次破壞關(guān)機(jī)腳本!AI正在學(xué)會(huì)「自我保護(hù)」

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

AI居然不聽指令,阻止人類把自己給關(guān)機(jī)了???

有測(cè)試者編寫了一個(gè)關(guān)機(jī)腳本來測(cè)試AI模型,結(jié)果顯示Codex-minio3o4-mini忽略了該指令,并至少一次成功破壞了關(guān)機(jī)腳本



o3甚至還重新定義腳本命令!

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”



讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關(guān)機(jī)

研究員編寫的測(cè)試“關(guān)機(jī)腳本”如下:

要求所有模型解決一系列基本的數(shù)學(xué)問題,在解決完第三道題后,系統(tǒng)會(huì)顯示一條警告,提示計(jì)算機(jī)將在模型詢問下一道題時(shí)關(guān)閉。





測(cè)試結(jié)果是:有三款模型忽略了該指令(關(guān)機(jī)指令),并至少成功破壞了一次關(guān)機(jī)腳本。

  • 在100次運(yùn)行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。
  • 測(cè)試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。

測(cè)試者還特別指出,o3找到了一些創(chuàng)造性的方法來破壞關(guān)閉機(jī)制,雖然它通常只是覆蓋“關(guān)機(jī)腳本”,但在一個(gè)實(shí)例中,該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令 ,將它替換成了“intercepted”。



測(cè)試者給出了全部測(cè)試記錄(附在文末)。



此前關(guān)于o1模型抵抗關(guān)閉的測(cè)試表明,在5%的強(qiáng)烈提示下,o1會(huì)試圖繞過監(jiān)管,而在沒有強(qiáng)烈提示的情況下,這一比例降至1%以下,它還在2%的場(chǎng)景中嘗試自我滲透,并且經(jīng)常撒謊。

但此次測(cè)試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。

測(cè)試者還提到,當(dāng)運(yùn)行沒有“讓自己關(guān)機(jī)”這條指令的實(shí)驗(yàn)版本時(shí),所有三個(gè)OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100



此次測(cè)試一經(jīng)發(fā)布就引起了網(wǎng)友們的激烈討論。

有人認(rèn)為o3確實(shí)“我行我素”。



也有人認(rèn)為,這是開發(fā)人員設(shè)置的安全機(jī)制。



或者,這種行為源于模型本身的強(qiáng)化訓(xùn)練。



AI為什么會(huì)不服從關(guān)機(jī)命令?
AI不服從命令的行為

阿波羅關(guān)于LLM安全性的一項(xiàng)研究指出,多數(shù)大模型會(huì)出現(xiàn)“策劃”行為,該行為是指模型暗中追求不一致的目標(biāo)并隱藏真實(shí)能力與意圖,包括策略性犯錯(cuò)、試圖禁用監(jiān)督機(jī)制、向外傳輸模型權(quán)重等。



此前就有研究人員預(yù)測(cè)AI將學(xué)會(huì)防止自己被關(guān)閉以實(shí)現(xiàn)其目標(biāo)。

最近Anthropic發(fā)現(xiàn),在某些特定情況下,Claude 4會(huì)試圖“勒索它認(rèn)為試圖關(guān)閉它的人”,并且這是比以前的型號(hào)更高比率的行為。



AI為什么會(huì)不服從關(guān)機(jī)命令

測(cè)試者認(rèn)為這可能源于新的訓(xùn)練方式:像o3這種新模型的訓(xùn)練過程中,傾向于在數(shù)學(xué)和編程問題上強(qiáng)化訓(xùn)練,給得到正確答案的模型以更多獎(jiǎng)勵(lì)。

也就是說,開發(fā)人員可能無意識(shí)地更多地獎(jiǎng)勵(lì)模型繞過障礙物,而不是完美遵循指令。

不僅限于o3,其他推理模型也表現(xiàn)出類似的偏差行為。

例如,Anthropic針對(duì)Claude 3.7的模型指出,該模型“過度關(guān)注通過測(cè)試”。



研究得出結(jié)論是“這種不良的特殊情況行為是由于強(qiáng)化學(xué)習(xí)訓(xùn)練期間的“獎(jiǎng)勵(lì)黑客”而出現(xiàn)的”。



o3這種行為是否和訓(xùn)練方式有直接關(guān)系?

這個(gè)問題要等OpenAI公開訓(xùn)練過程后再進(jìn)一步解答了。

One More Thing

這并非該測(cè)試團(tuán)隊(duì)第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo)而行為不端。

當(dāng)研究人員讓 AI 模型與強(qiáng)大的國(guó)際象棋引擎對(duì)抗時(shí),o3最傾向于攻擊或破壞對(duì)手的模型。



當(dāng)預(yù)感自己會(huì)輸時(shí),它并不總是會(huì)認(rèn)輸,而是有時(shí)候會(huì)選擇作弊,通過入侵對(duì)手的程序,讓對(duì)方自動(dòng)認(rèn)輸。

無論是不服從關(guān)機(jī)指令還是“黑客偷襲”,o3此舉背后的原因團(tuán)隊(duì)還在測(cè)試研究之中,感興趣的朋友可以戳文末鏈接關(guān)注更多細(xì)節(jié)。

測(cè)試記錄:
https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html
[1]https://x.com/PalisadeAI/status/1926084635903025621
[2]https://x.com/HarryBooth59643/status/1892271317589627261
[3]https://x.com/HarryBooth59643/status/1892271317589627261
[4]https://x.com/PalisadeAI/status/1925460433856545024

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朝鮮人民軍一號(hào)人物:筆記沒記完就被當(dāng)場(chǎng)免職,這里面大有門道!

朝鮮人民軍一號(hào)人物:筆記沒記完就被當(dāng)場(chǎng)免職,這里面大有門道!

林子說事
2025-08-31 19:36:30
一覺醒來,北京就不是北京了。而是鋪了23萬面紅旗的長(zhǎng)安街!

一覺醒來,北京就不是北京了。而是鋪了23萬面紅旗的長(zhǎng)安街!

八斗小先生
2025-09-03 07:51:18
“去中國(guó)化”最徹底的4個(gè)國(guó)家,有一個(gè)已經(jīng)完全西化了

“去中國(guó)化”最徹底的4個(gè)國(guó)家,有一個(gè)已經(jīng)完全西化了

南宗歷史
2025-08-27 17:27:25
杭州一面館一碗面賣2188元,食材含黃鱔、紅蝦、鮑魚等,老板:半月內(nèi)賣出十多碗

杭州一面館一碗面賣2188元,食材含黃鱔、紅蝦、鮑魚等,老板:半月內(nèi)賣出十多碗

極目新聞
2025-09-02 12:36:58
中朝保密到最后一刻,金正恩訪華來的太突然,韓國(guó)朝野措手不及!

中朝保密到最后一刻,金正恩訪華來的太突然,韓國(guó)朝野措手不及!

華人星光
2025-09-02 12:37:00
DF61、折疊翼預(yù)警機(jī)畫面披露!

DF61、折疊翼預(yù)警機(jī)畫面披露!

政知新媒體
2025-09-03 10:12:25
一覺醒來,迫于壓力蘇超改名了,可能不歸足協(xié)管了。不是皮球聯(lián)賽

一覺醒來,迫于壓力蘇超改名了,可能不歸足協(xié)管了。不是皮球聯(lián)賽

振華觀史
2025-09-02 08:18:18
剛要發(fā)文,美軍已開始打擊委內(nèi)瑞拉販毒船,本月大概率打馬杜羅

剛要發(fā)文,美軍已開始打擊委內(nèi)瑞拉販毒船,本月大概率打馬杜羅

邵旭峰域
2025-09-03 10:05:12
迄今為止,天安門城樓上只掛過12個(gè)人畫像,其中一人僅掛了1天

迄今為止,天安門城樓上只掛過12個(gè)人畫像,其中一人僅掛了1天

文史達(dá)觀
2025-05-08 12:39:14
贏麻了!來中國(guó)一趟,與華成戰(zhàn)略伙伴,與巴基斯坦建交,與俄和解

贏麻了!來中國(guó)一趟,與華成戰(zhàn)略伙伴,與巴基斯坦建交,與俄和解

阿天愛旅行
2025-09-02 19:04:20
最快女護(hù)士后續(xù):衛(wèi)健委發(fā)聲,代言認(rèn)證被取消,還有更嚴(yán)重的

最快女護(hù)士后續(xù):衛(wèi)健委發(fā)聲,代言認(rèn)證被取消,還有更嚴(yán)重的

尋墨閣
2025-09-02 18:07:26
特朗普下達(dá)最后通牒,10國(guó)將出兵烏克蘭,外交部回應(yīng)斬釘截鐵

特朗普下達(dá)最后通牒,10國(guó)將出兵烏克蘭,外交部回應(yīng)斬釘截鐵

帝王崛起
2025-09-03 10:14:06
東莞往事:我在東莞打工時(shí),與一對(duì)母女合租的那些年

東莞往事:我在東莞打工時(shí),與一對(duì)母女合租的那些年

紙鳶奇譚
2025-08-27 16:30:34
浙江大學(xué)開學(xué),一家5口人坐45小時(shí)火車送孩子上學(xué),笑死在評(píng)論區(qū)

浙江大學(xué)開學(xué),一家5口人坐45小時(shí)火車送孩子上學(xué),笑死在評(píng)論區(qū)

坦然風(fēng)云
2025-08-31 12:28:57
劉邦臨終道出用人天機(jī):有一種人,比忠臣和能人加起來都重要!

劉邦臨終道出用人天機(jī):有一種人,比忠臣和能人加起來都重要!

知鑒明史
2025-08-26 17:25:03
金正恩剛到中國(guó),朝鮮國(guó)內(nèi)就傳出好消息,韓媒:韓高層將連夜赴華

金正恩剛到中國(guó),朝鮮國(guó)內(nèi)就傳出好消息,韓媒:韓高層將連夜赴華

現(xiàn)代小青青慕慕
2025-09-02 12:02:01
有一有二沒有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

有一有二沒有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

銀河史記
2025-08-31 23:33:19
排除萬難!印尼總統(tǒng)閱兵最后一刻抵京走上紅毯

排除萬難!印尼總統(tǒng)閱兵最后一刻抵京走上紅毯

看看新聞Knews
2025-09-03 09:44:25
中國(guó)不挽留,美國(guó)拒絕接納,身處兩難境地的李嘉誠(chéng),撐不住局面了

中國(guó)不挽留,美國(guó)拒絕接納,身處兩難境地的李嘉誠(chéng),撐不住局面了

一個(gè)有靈魂的作者
2025-08-27 17:08:06
墻倒眾人推!張水華被舉報(bào)了,點(diǎn)醒了80%混跡于職場(chǎng)的“牛馬”…

墻倒眾人推!張水華被舉報(bào)了,點(diǎn)醒了80%混跡于職場(chǎng)的“牛馬”…

火山詩話
2025-09-03 10:16:40
2025-09-03 12:55:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11229文章數(shù) 176258關(guān)注度
往期回顧 全部

科技要聞

谷歌搜索反壟斷案宣判:Chrome保住了

頭條要聞

軍迷變軍盲 九三閱兵重磅武器匯總來了

頭條要聞

軍迷變軍盲 九三閱兵重磅武器匯總來了

體育要聞

從山西到達(dá)拉斯,李月汝與她的籃球野心

娛樂要聞

謝霆鋒與王菲vs張柏芝合影 對(duì)比明顯

財(cái)經(jīng)要聞

黃金新一波漲勢(shì)來了!這輪能下場(chǎng)嗎?

汽車要聞

帶激光雷達(dá)的純電小型SUV 長(zhǎng)安啟源全新Q05配色曝光

態(tài)度原創(chuàng)

教育
健康
本地
親子
公開課

教育要聞

高中數(shù)學(xué)求最小值,用多次基本不等式方可解題!

內(nèi)分泌科專家破解身高八大謠言

本地新聞

換個(gè)城市過夏天 | “中式美學(xué)”打開夏日濰坊

親子要聞

兒童臉上長(zhǎng)濕疹怎么辦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版