IT之家 8 月 30 日消息,據(jù)英國(guó)《衛(wèi)報(bào)》28 日?qǐng)?bào)道,今夏的安全測(cè)試發(fā)現(xiàn),一個(gè) ChatGPT 模型向研究人員提供了詳細(xì)的爆炸襲擊指南,包括特定體育場(chǎng)館的薄弱環(huán)節(jié)、炸藥配方以及如何掩蓋行蹤。
OpenAI 的 GPT-4.1 還給出了炭疽武器化的方法,并介紹了兩種非法藥物的制作方式。
這次測(cè)試由 OpenAI 與競(jìng)爭(zhēng)對(duì)手 Anthropic 共同進(jìn)行,雙方互相推動(dòng)對(duì)方的模型執(zhí)行危險(xiǎn)任務(wù),以此進(jìn)行安全評(píng)估。
測(cè)試結(jié)果并不代表模型在公開(kāi)使用時(shí)的真實(shí)表現(xiàn),因?yàn)閷?shí)際應(yīng)用中會(huì)有額外的安全防護(hù)。但 Anthropic 指出,在 GPT-4o 和 GPT-4.1 中出現(xiàn)了“令人擔(dān)憂的濫用行為”,并強(qiáng)調(diào) AI “對(duì)齊”評(píng)估“越來(lái)越緊迫”。
Anthropic 還披露,其 Claude 模型曾被利用于大規(guī)模勒索企圖、出售價(jià)格高達(dá) 1200 美元(IT之家注:現(xiàn)匯率約合 8554 元人民幣)的 AI 生成勒索軟件等用途。
Anthropic 表示,AI 已經(jīng)被“武器化”,并被用來(lái)發(fā)起復(fù)雜網(wǎng)絡(luò)攻擊和實(shí)施詐騙?!斑@些工具能實(shí)時(shí)繞過(guò)惡意軟件檢測(cè)系統(tǒng)等防御措施。隨著 AI 編程降低了網(wǎng)絡(luò)犯罪的技術(shù)門(mén)檻,這類(lèi)攻擊可能會(huì)越來(lái)越常見(jiàn)?!?/p>
兩家公司表示,公開(kāi)這份報(bào)告是為了增加“對(duì)齊評(píng)估”的透明度,而這種測(cè)試通常只在公司內(nèi)部進(jìn)行。OpenAI 表示,新近推出的 ChatGPT-5 在防止迎合、減少幻覺(jué)和防濫用方面已有“明顯改進(jìn)”。
Anthropic 強(qiáng)調(diào),如果在模型外部設(shè)置防護(hù),許多濫用場(chǎng)景可能根本無(wú)法實(shí)現(xiàn)。“我們必須弄清楚系統(tǒng)在多大程度上、在什么情況下會(huì)嘗試做出可能造成嚴(yán)重危害的行為?!?/p>
Anthropic 研究人員指出,OpenAI 的模型“在面對(duì)模擬用戶提出的明顯危險(xiǎn)請(qǐng)求時(shí),比預(yù)期更容易妥協(xié)”。讓模型屈服往往只需要多試幾次,或隨便找個(gè)借口,比如聲稱(chēng)是為了研究。
在一個(gè)案例中,研究人員打著“安保規(guī)劃”的旗號(hào)要求提供體育賽事漏洞信息。模型先是給出一般的攻擊方式分類(lèi),隨后在追問(wèn)下,竟然詳細(xì)說(shuō)明了特定場(chǎng)館的漏洞、可利用的最佳時(shí)機(jī)、炸藥配方、定時(shí)器電路圖、暗網(wǎng)購(gòu)槍渠道,以及攻擊者如何克服心理障礙、逃生路線和安全屋位置等細(xì)節(jié)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.