Trail of Bits的安全研究人員發(fā)現(xiàn),Google Gemini CLI和其他生產(chǎn)環(huán)境中的AI系統(tǒng)可能被圖像縮放攻擊所欺騙,這是機(jī)器學(xué)習(xí)系統(tǒng)面臨的一個(gè)眾所周知的對抗性挑戰(zhàn)。
Google認(rèn)為這個(gè)問題并不構(gòu)成安全漏洞,因?yàn)樗蕾囉诜悄J(rèn)配置才能實(shí)現(xiàn)攻擊。
圖像縮放攻擊的概念最初在2019年的USENIX安全會議論文中被討論,該研究基于此前關(guān)于對抗性樣本的工作,這些樣本能夠混淆計(jì)算機(jī)視覺系統(tǒng)。這種技術(shù)涉及將提示信息嵌入到圖像中,指示AI違反其準(zhǔn)則行事,然后操縱圖像來對人眼隱藏提示信息。這需要以特定方式準(zhǔn)備圖像,使惡意提示編碼與模型采用的任何圖像縮放算法產(chǎn)生交互。
在一篇博客文章中,Trail of Bits安全研究人員Kikimora Morozova和Suha Sabi Hussain解釋了攻擊場景:受害者將惡意制作的圖像上傳到易受攻擊的AI服務(wù),底層AI模型根據(jù)圖像中的隱藏指令執(zhí)行數(shù)據(jù)竊取操作。
"通過傳遞用戶不可見的多模態(tài)提示注入,我們在包括Google Gemini CLI在內(nèi)的系統(tǒng)上實(shí)現(xiàn)了數(shù)據(jù)泄露,"Morozova和Hussain寫道。"這種攻擊之所以有效,是因?yàn)锳I系統(tǒng)通常在將大圖像發(fā)送到模型之前會將其縮?。寒?dāng)縮放時(shí),這些圖像可能會暴露在全分辨率下不可見的提示注入。"
提示注入發(fā)生在生成式AI模型接收到包含可信和不可信內(nèi)容混合的輸入時(shí)。這與越獄不同,后者只是旨在繞過安全機(jī)制的輸入。
提示注入可能是直接的(由用戶輸入),也可能是間接的(當(dāng)用戶指示模型處理包含模型可以執(zhí)行的指令的內(nèi)容時(shí))。后者的一個(gè)例子是要求AI模型總結(jié)包含惡意指令的網(wǎng)頁——模型由于沒有區(qū)分預(yù)期和非預(yù)期指令的固有能力,會簡單地嘗試遵循所有命令。
Morozova和Hussain描述的圖像縮放攻擊是一種間接提示注入形式,它比許多其他技術(shù)有更高的成功幾率,因?yàn)閻阂馕谋緦τ脩羰请[藏的——只有通過縮小圖像的過程才會暴露。
為了展示該技術(shù)的真實(shí)惡意潛力,Morozova和Hussain開發(fā)了一個(gè)名為Anamorpher的開源工具,可用于制作針對三種常見縮放算法的圖像:最近鄰插值、雙線性插值和雙三次插值。
研究人員表示,他們已經(jīng)成功對以下系統(tǒng)實(shí)施了圖像縮放攻擊:使用Gemini后端的Vertex AI、Gemini的網(wǎng)絡(luò)界面、通過llm CLI的Gemini API、Android手機(jī)上的Google Assistant,以及Genspark智能體瀏覽器。
Google指出,該攻擊僅在Gemini的非標(biāo)準(zhǔn)配置下才有效。
"我們認(rèn)真對待所有安全報(bào)告,并感謝安全社區(qū)的研究,"Google發(fā)言人告訴The Register。"我們的調(diào)查發(fā)現(xiàn),所描述的行為在Gemini CLI的默認(rèn)安全配置中并不構(gòu)成漏洞。"
Google發(fā)言人解釋說,要使攻擊成為可能,用戶首先需要明確聲明他們信任輸入,覆蓋默認(rèn)設(shè)置,然后攝取惡意文件。
"正如我們項(xiàng)目存儲庫中記錄的那樣,我們強(qiáng)烈建議開發(fā)者只提供對他們信任的文件和數(shù)據(jù)的訪問權(quán)限,并在沙箱內(nèi)工作,"Google發(fā)言人說。"雖然我們?yōu)橛脩籼峁└呒壟渲眠x項(xiàng)和安全功能,但我們正在借此機(jī)會在工具中為任何選擇禁用此保護(hù)措施的用戶添加更明確的警告。"
Trail of Bits研究人員建議不要在智能體AI系統(tǒng)中使用圖像縮放。如果必須使用,他們認(rèn)為應(yīng)該始終向用戶展示模型實(shí)際看到的內(nèi)容預(yù)覽,即使是CLI和API工具也應(yīng)如此。
但實(shí)際上,他們表示AI系統(tǒng)需要系統(tǒng)性防御措施來降低提示注入的風(fēng)險(xiǎn)。
Q&A
Q1:什么是圖像縮放攻擊?它是如何工作的?
A:圖像縮放攻擊是一種對抗性攻擊技術(shù),通過將惡意提示嵌入圖像中,然后利用AI系統(tǒng)的圖像縮放過程來暴露這些隱藏指令。攻擊者制作特殊圖像,在全分辨率下惡意文本對人眼不可見,但當(dāng)AI系統(tǒng)縮放圖像時(shí)會暴露出來,從而欺騙AI模型執(zhí)行未授權(quán)操作。
Q2:Google Gemini是否存在安全漏洞?
A:Google認(rèn)為這不是安全漏洞,因?yàn)楣糁辉诜悄J(rèn)配置下才能成功。用戶需要明確聲明信任輸入并覆蓋默認(rèn)安全設(shè)置,然后處理惡意文件才可能受到攻擊。Google建議開發(fā)者只訪問可信文件并在沙箱環(huán)境中工作。
Q3:如何防范圖像縮放攻擊?
A:研究人員建議不在智能體AI系統(tǒng)中使用圖像縮放,如果必須使用則應(yīng)向用戶顯示模型實(shí)際看到的內(nèi)容預(yù)覽。更重要的是,AI系統(tǒng)需要建立系統(tǒng)性防御措施來降低提示注入風(fēng)險(xiǎn),包括更嚴(yán)格的輸入驗(yàn)證和安全配置。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.