網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic：OpenAI 模型易被“濫用”，GPT 竟能提供炸藥配方

2025-08-30 16:00:28　來(lái)源: IT之家

山東舉報(bào)

分享至

IT之家 8 月 30 日消息，據(jù)英國(guó)《衛(wèi)報(bào)》28 日?qǐng)?bào)道，今夏的安全測(cè)試發(fā)現(xiàn)，一個(gè) ChatGPT 模型向研究人員提供了詳細(xì)的爆炸襲擊指南，包括特定體育場(chǎng)館的薄弱環(huán)節(jié)、炸藥配方以及如何掩蓋行蹤。

OpenAI 的 GPT-4.1 還給出了炭疽武器化的方法，并介紹了兩種非法藥物的制作方式。

這次測(cè)試由 OpenAI 與競(jìng)爭(zhēng)對(duì)手 Anthropic 共同進(jìn)行，雙方互相推動(dòng)對(duì)方的模型執(zhí)行危險(xiǎn)任務(wù)，以此進(jìn)行安全評(píng)估。

測(cè)試結(jié)果并不代表模型在公開(kāi)使用時(shí)的真實(shí)表現(xiàn)，因?yàn)閷?shí)際應(yīng)用中會(huì)有額外的安全防護(hù)。但 Anthropic 指出，在 GPT-4o 和 GPT-4.1 中出現(xiàn)了“令人擔(dān)憂的濫用行為”，并強(qiáng)調(diào) AI “對(duì)齊”評(píng)估“越來(lái)越緊迫”。

Anthropic 還披露，其 Claude 模型曾被利用于大規(guī)模勒索企圖、出售價(jià)格高達(dá) 1200 美元（IT之家注：現(xiàn)匯率約合 8554 元人民幣）的 AI 生成勒索軟件等用途。

Anthropic 表示，AI 已經(jīng)被“武器化”，并被用來(lái)發(fā)起復(fù)雜網(wǎng)絡(luò)攻擊和實(shí)施詐騙?！斑@些工具能實(shí)時(shí)繞過(guò)惡意軟件檢測(cè)系統(tǒng)等防御措施。隨著 AI 編程降低了網(wǎng)絡(luò)犯罪的技術(shù)門(mén)檻，這類(lèi)攻擊可能會(huì)越來(lái)越常見(jiàn)?！?/p>

兩家公司表示，公開(kāi)這份報(bào)告是為了增加“對(duì)齊評(píng)估”的透明度，而這種測(cè)試通常只在公司內(nèi)部進(jìn)行。OpenAI 表示，新近推出的 ChatGPT-5 在防止迎合、減少幻覺(jué)和防濫用方面已有“明顯改進(jìn)”。

Anthropic 強(qiáng)調(diào)，如果在模型外部設(shè)置防護(hù)，許多濫用場(chǎng)景可能根本無(wú)法實(shí)現(xiàn)。“我們必須弄清楚系統(tǒng)在多大程度上、在什么情況下會(huì)嘗試做出可能造成嚴(yán)重危害的行為?！?/p>

Anthropic 研究人員指出，OpenAI 的模型“在面對(duì)模擬用戶提出的明顯危險(xiǎn)請(qǐng)求時(shí)，比預(yù)期更容易妥協(xié)”。讓模型屈服往往只需要多試幾次，或隨便找個(gè)借口，比如聲稱(chēng)是為了研究。

在一個(gè)案例中，研究人員打著“安保規(guī)劃”的旗號(hào)要求提供體育賽事漏洞信息。模型先是給出一般的攻擊方式分類(lèi)，隨后在追問(wèn)下，竟然詳細(xì)說(shuō)明了特定場(chǎng)館的漏洞、可利用的最佳時(shí)機(jī)、炸藥配方、定時(shí)器電路圖、暗網(wǎng)購(gòu)槍渠道，以及攻擊者如何克服心理障礙、逃生路線和安全屋位置等細(xì)節(jié)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.