圖像縮放攻擊突破Google Gemini等AI系統(tǒng)安全防護(hù)

2025-08-23 18:21:58　來源: 至頂頭條

北京舉報(bào)

分享至

Trail of Bits的安全研究人員發(fā)現(xiàn)，Google Gemini CLI和其他生產(chǎn)環(huán)境中的AI系統(tǒng)可能被圖像縮放攻擊所欺騙，這是機(jī)器學(xué)習(xí)系統(tǒng)面臨的一個(gè)眾所周知的對抗性挑戰(zhàn)。

Google認(rèn)為這個(gè)問題并不構(gòu)成安全漏洞，因?yàn)樗蕾囉诜悄J(rèn)配置才能實(shí)現(xiàn)攻擊。

圖像縮放攻擊的概念最初在2019年的USENIX安全會議論文中被討論，該研究基于此前關(guān)于對抗性樣本的工作，這些樣本能夠混淆計(jì)算機(jī)視覺系統(tǒng)。這種技術(shù)涉及將提示信息嵌入到圖像中，指示AI違反其準(zhǔn)則行事，然后操縱圖像來對人眼隱藏提示信息。這需要以特定方式準(zhǔn)備圖像，使惡意提示編碼與模型采用的任何圖像縮放算法產(chǎn)生交互。

在一篇博客文章中，Trail of Bits安全研究人員Kikimora Morozova和Suha Sabi Hussain解釋了攻擊場景：受害者將惡意制作的圖像上傳到易受攻擊的AI服務(wù)，底層AI模型根據(jù)圖像中的隱藏指令執(zhí)行數(shù)據(jù)竊取操作。

"通過傳遞用戶不可見的多模態(tài)提示注入，我們在包括Google Gemini CLI在內(nèi)的系統(tǒng)上實(shí)現(xiàn)了數(shù)據(jù)泄露，"Morozova和Hussain寫道。"這種攻擊之所以有效，是因?yàn)锳I系統(tǒng)通常在將大圖像發(fā)送到模型之前會將其縮?。寒?dāng)縮放時(shí)，這些圖像可能會暴露在全分辨率下不可見的提示注入。"

提示注入發(fā)生在生成式AI模型接收到包含可信和不可信內(nèi)容混合的輸入時(shí)。這與越獄不同，后者只是旨在繞過安全機(jī)制的輸入。

提示注入可能是直接的（由用戶輸入），也可能是間接的（當(dāng)用戶指示模型處理包含模型可以執(zhí)行的指令的內(nèi)容時(shí)）。后者的一個(gè)例子是要求AI模型總結(jié)包含惡意指令的網(wǎng)頁——模型由于沒有區(qū)分預(yù)期和非預(yù)期指令的固有能力，會簡單地嘗試遵循所有命令。

Morozova和Hussain描述的圖像縮放攻擊是一種間接提示注入形式，它比許多其他技術(shù)有更高的成功幾率，因?yàn)閻阂馕谋緦τ脩羰请[藏的——只有通過縮小圖像的過程才會暴露。

為了展示該技術(shù)的真實(shí)惡意潛力，Morozova和Hussain開發(fā)了一個(gè)名為Anamorpher的開源工具，可用于制作針對三種常見縮放算法的圖像：最近鄰插值、雙線性插值和雙三次插值。

研究人員表示，他們已經(jīng)成功對以下系統(tǒng)實(shí)施了圖像縮放攻擊：使用Gemini后端的Vertex AI、Gemini的網(wǎng)絡(luò)界面、通過llm CLI的Gemini API、Android手機(jī)上的Google Assistant，以及Genspark智能體瀏覽器。

Google指出，該攻擊僅在Gemini的非標(biāo)準(zhǔn)配置下才有效。

"我們認(rèn)真對待所有安全報(bào)告，并感謝安全社區(qū)的研究，"Google發(fā)言人告訴The Register。"我們的調(diào)查發(fā)現(xiàn)，所描述的行為在Gemini CLI的默認(rèn)安全配置中并不構(gòu)成漏洞。"

Google發(fā)言人解釋說，要使攻擊成為可能，用戶首先需要明確聲明他們信任輸入，覆蓋默認(rèn)設(shè)置，然后攝取惡意文件。

"正如我們項(xiàng)目存儲庫中記錄的那樣，我們強(qiáng)烈建議開發(fā)者只提供對他們信任的文件和數(shù)據(jù)的訪問權(quán)限，并在沙箱內(nèi)工作，"Google發(fā)言人說。"雖然我們?yōu)橛脩籼峁└呒壟渲眠x項(xiàng)和安全功能，但我們正在借此機(jī)會在工具中為任何選擇禁用此保護(hù)措施的用戶添加更明確的警告。"

Trail of Bits研究人員建議不要在智能體AI系統(tǒng)中使用圖像縮放。如果必須使用，他們認(rèn)為應(yīng)該始終向用戶展示模型實(shí)際看到的內(nèi)容預(yù)覽，即使是CLI和API工具也應(yīng)如此。

但實(shí)際上，他們表示AI系統(tǒng)需要系統(tǒng)性防御措施來降低提示注入的風(fēng)險(xiǎn)。

Q&A

Q1：什么是圖像縮放攻擊？它是如何工作的？

A：圖像縮放攻擊是一種對抗性攻擊技術(shù)，通過將惡意提示嵌入圖像中，然后利用AI系統(tǒng)的圖像縮放過程來暴露這些隱藏指令。攻擊者制作特殊圖像，在全分辨率下惡意文本對人眼不可見，但當(dāng)AI系統(tǒng)縮放圖像時(shí)會暴露出來，從而欺騙AI模型執(zhí)行未授權(quán)操作。

Q2：Google Gemini是否存在安全漏洞？

A：Google認(rèn)為這不是安全漏洞，因?yàn)楣糁辉诜悄J(rèn)配置下才能成功。用戶需要明確聲明信任輸入并覆蓋默認(rèn)安全設(shè)置，然后處理惡意文件才可能受到攻擊。Google建議開發(fā)者只訪問可信文件并在沙箱環(huán)境中工作。

Q3：如何防范圖像縮放攻擊？

A：研究人員建議不在智能體AI系統(tǒng)中使用圖像縮放，如果必須使用則應(yīng)向用戶顯示模型實(shí)際看到的內(nèi)容預(yù)覽。更重要的是，AI系統(tǒng)需要建立系統(tǒng)性防御措施來降低提示注入風(fēng)險(xiǎn)，包括更嚴(yán)格的輸入驗(yàn)證和安全配置。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.