機(jī)器之心發(fā)布
機(jī)器之心編輯部
通過(guò)使用控制變?cè)╟ontrol variate)來(lái)校準(zhǔn)每個(gè)客戶(hù)端的本地梯度,Scaffold 已被廣泛認(rèn)為是緩解聯(lián)邦學(xué)習(xí)中數(shù)據(jù)異質(zhì)性影響的一種強(qiáng)大方案。但盡管 Scaffold 實(shí)現(xiàn)了顯著的性能提升,這種優(yōu)越性是以增加安全漏洞為代價(jià)的。
本文中,NTU、0G Labs等機(jī)構(gòu)提出了BadSFL,這是首個(gè)針對(duì) Scaffold 的后門(mén)攻擊方法,它能夠?qū)⒃玖夹缘目蛻?hù)端轉(zhuǎn)化為攻擊的幫兇以放大攻擊效果。
BadSFL 的核心思想是在不引人注意的情況下,篡改控制變?cè)?,從而巧妙地引?dǎo)良性客戶(hù)端的本地梯度更新朝著攻擊者設(shè)定的「中毒」方向前進(jìn),有效地使它們?cè)跓o(wú)意間成為協(xié)助者,顯著增強(qiáng)了后門(mén)的持久性。
另外,BadSFL 利用一個(gè)經(jīng)過(guò)生成對(duì)抗網(wǎng)絡(luò)(GAN)增強(qiáng)的數(shù)據(jù)投毒策略,豐富了攻擊者的數(shù)據(jù)集,在保持對(duì)正常樣本和后門(mén)樣本都具有高精度識(shí)別能力的同時(shí),保持隱蔽性。
大量實(shí)驗(yàn)證明,BadSFL 在攻擊持續(xù)性方面表現(xiàn)出色,即使在停止惡意模型注入之后,仍能維持超過(guò) 60 輪的攻擊效果——比現(xiàn)有基準(zhǔn)方法持續(xù)時(shí)間長(zhǎng)達(dá)三倍。
該論文已經(jīng)入選 ICCV 2025。
- 論文標(biāo)題:Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
- 論文鏈接:https://arxiv.org/abs/2411.16167
引言
聯(lián)邦學(xué)習(xí)(Federated Learning,簡(jiǎn)稱(chēng) FL)在保護(hù)客戶(hù)端數(shù)據(jù)隱私的同時(shí),實(shí)現(xiàn)了分布式模型訓(xùn)練。然而,F(xiàn)L 模型的有效性在很大程度上取決于訓(xùn)練數(shù)據(jù)在各客戶(hù)端之間的分布情況。通常存在以下兩種場(chǎng)景:1)IID 數(shù)據(jù):訓(xùn)練數(shù)據(jù)在各客戶(hù)端之間均勻分布;2)非 IID 數(shù)據(jù):更符合現(xiàn)實(shí)的數(shù)據(jù)分布情況,即各客戶(hù)端的數(shù)據(jù)特征存在顯著差異。在 IID 場(chǎng)景下,已有工作FedAvg脫穎而出,它通過(guò)聚合來(lái)自客戶(hù)端的模型參數(shù),設(shè)定了服務(wù)器端模型更新的標(biāo)準(zhǔn)。然而,在非 IID 場(chǎng)景中,其性能會(huì)顯著下降。由于數(shù)據(jù)異質(zhì)性,不同客戶(hù)端的更新方向存在偏移,最終導(dǎo)致模型收斂效果變差。
為應(yīng)對(duì)這一挑戰(zhàn),Scaffold作為一種穩(wěn)健的聯(lián)邦學(xué)習(xí)(FL)方法被提出,旨在通過(guò)基于控制變?cè)╟ontrol variates)的校正機(jī)制來(lái)減緩客戶(hù)端更新的偏移,從而提升在非 IID 場(chǎng)景下的模型收斂性??刂谱?cè)举|(zhì)上是對(duì)客戶(hù)端本地梯度與全局梯度之間差異的估計(jì),它有助于將本地更新方向與全局優(yōu)化目標(biāo)對(duì)齊。Scaffold 能夠減少由于數(shù)據(jù)異質(zhì)性引起的更新方差,使其在客戶(hù)端擁有多樣化數(shù)據(jù)分布的場(chǎng)景中表現(xiàn)尤為出色。
然而,Scaffold 聯(lián)邦學(xué)習(xí)(SFL)不僅改變了 FL 模型的收斂方式,也影響了其對(duì)抗惡意操控的魯棒性。具體而言,聯(lián)邦學(xué)習(xí)中的惡意客戶(hù)端可以利用模型更新機(jī)制注入后門(mén)行為,將隱藏的異常行為植入全局模型中。盡管已有大量研究關(guān)注 FL 中的后門(mén)攻擊,但大多數(shù)現(xiàn)有工作主要聚焦于 IID 場(chǎng)景,在這些場(chǎng)景中,攻擊者對(duì)數(shù)據(jù)集分布具有完全認(rèn)知,因此可以輕松構(gòu)造中毒更新。相比之下,非 IID 數(shù)據(jù)分布引入了額外的限制,使得攻擊者更難在不顯著降低整體性能的前提下,將中毒模型與全局模型對(duì)齊。雖然近期已有研究開(kāi)始探索非 IID 聯(lián)邦學(xué)習(xí)中的后門(mén)攻擊,但這些研究在很大程度上忽視了 SFL 引入的獨(dú)特安全隱患。
因此,本論文旨在探討的問(wèn)題是:「SFL 的新機(jī)制(即用于校正更新偏移的控制變?cè)┦欠窨赡芤?strong>新的安全威脅,并在非 IID 場(chǎng)景中無(wú)意間為后門(mén)攻擊提供便利?」
我們對(duì)上述問(wèn)題的回答是肯定的。我們的新發(fā)現(xiàn)是:Scaffold 對(duì)控制變?cè)囊蕾?lài)引入了一種新的攻擊面—— 其原本用于通過(guò)將本地更新與全局目標(biāo)對(duì)齊以穩(wěn)定訓(xùn)練過(guò)程的校正機(jī)制,實(shí)際上可能在無(wú)意中放大了惡意更新的影響。更關(guān)鍵的是,這一機(jī)制允許攻擊者直接影響控制變?cè)旧?/strong>,從而有效地將良性客戶(hù)端「招募」為協(xié)助實(shí)施攻擊的幫兇。
由于所有客戶(hù)端在更新過(guò)程中都會(huì)使用控制變?cè)獊?lái)調(diào)整本地梯度,因此一旦控制變?cè)淮鄹模涂梢?strong>在不易察覺(jué)的情況下引導(dǎo)這些誠(chéng)實(shí)客戶(hù)端的梯度朝著攻擊者設(shè)定的「中毒方向」演化。這種方式極大地增強(qiáng)了后門(mén)攻擊的傳播范圍,使得 Scaffold 比沒(méi)有類(lèi)似校正機(jī)制的標(biāo)準(zhǔn) FL 方法(如 FedAvg)更容易受到復(fù)雜攻擊的影響。
為了利用上述發(fā)現(xiàn),我們提出了一種專(zhuān)門(mén)針對(duì) Scaffold 聯(lián)邦學(xué)習(xí)(SFL)的新型后門(mén)攻擊方法 ——BadSFL,該方法能夠在不顯著破壞模型對(duì)正常樣本推理性能的前提下,成功地將后門(mén)功能植入全局模型。
與以往的攻擊方法不同,BadSFL 利用了 Scaffold 的校正機(jī)制,不僅增強(qiáng)了后門(mén)的隱蔽性,還提升了其持久性,從而揭示了 SFL 方法中的一個(gè)關(guān)鍵漏洞。BadSFL 的運(yùn)作流程包括如下:
- GAN 補(bǔ)全數(shù)據(jù)知識(shí):由于攻擊者只能部分掌握 FL 系統(tǒng)中的數(shù)據(jù)分布信息,他通過(guò)使用生成對(duì)抗網(wǎng)絡(luò)(GAN)生成屬于其他客戶(hù)端的數(shù)據(jù)樣本來(lái)補(bǔ)充自身數(shù)據(jù)集,從而模擬出對(duì)整體數(shù)據(jù)分布的全面認(rèn)知。在此補(bǔ)充數(shù)據(jù)集上進(jìn)行后門(mén)訓(xùn)練后,攻擊者可以獲得在后門(mén)任務(wù)和正常任務(wù)上都表現(xiàn)良好的后門(mén)模型。
- 隱蔽后門(mén)觸發(fā)器設(shè)計(jì):攻擊者選擇某個(gè)類(lèi)別中的特征作為后門(mén)觸發(fā)器,從而保持攻擊的隱蔽性。
- 操控全局控制變?cè)?/strong>:攻擊者利用全局控制變?cè)鳛閰⒖?,用于預(yù)測(cè)全局模型的收斂方向。這一優(yōu)化策略顯著增強(qiáng)了后門(mén)功能在全局模型中的持久性
聯(lián)邦學(xué)習(xí)中的非 IID 場(chǎng)景
在聯(lián)邦學(xué)習(xí)(FL)中,非 IID是指客戶(hù)端之間的數(shù)據(jù)分布存在顯著差異。在非 IID 場(chǎng)景下,這種本地?cái)?shù)據(jù)分布的不一致會(huì)導(dǎo)致本地最優(yōu)解與全局最優(yōu)解之間存在偏差。這種偏差會(huì)引發(fā)本地模型更新的漂移現(xiàn)象,即本地模型傾向于朝著各自的本地最優(yōu)解前進(jìn),而這些本地最優(yōu)解可能與全局最優(yōu)解相距甚遠(yuǎn)。因此,將這些本地模型進(jìn)行平均時(shí),得到的全局模型可能會(huì)偏離真實(shí)的全局最優(yōu)解,尤其是在存在大量本地訓(xùn)練輪次的情況下。
如下圖 1 所示,在 IID 場(chǎng)景下,全局最優(yōu)解與本地最優(yōu)解相對(duì)一致,而在非 IID 場(chǎng)景下,全局最優(yōu)解可能與單個(gè)本地最優(yōu)解相距較遠(yuǎn),這一現(xiàn)象被稱(chēng)為客戶(hù)端漂移(client-drift),從而導(dǎo)致 FL 訓(xùn)練過(guò)程中的收斂變慢且不穩(wěn)定。
為了解決上述挑戰(zhàn),學(xué)術(shù)界已經(jīng)提出了多種聯(lián)邦學(xué)習(xí)(FL)算法,其中Scaffold是最為實(shí)用的解決方案。它通過(guò)在服務(wù)器端和客戶(hù)端同時(shí)使用控制變?cè)捶讲羁s減技術(shù))來(lái)應(yīng)對(duì)客戶(hù)端漂移問(wèn)題。這些控制變?cè)軌蚬烙?jì)全局模型與本地客戶(hù)端模型的更新方向,并根據(jù)漂移對(duì)本地更新進(jìn)行校正,從而減少本地最優(yōu)解與全局最優(yōu)解之間的偏差(見(jiàn)算法 1)。在本文中,我們主要聚焦于針對(duì) SFL(Scaffold Federated Learning)的后門(mén)攻擊設(shè)計(jì)。
后門(mén)攻擊在 SFL 中的挑戰(zhàn)
在SFL(Scaffold Federated Learning)中實(shí)施后門(mén)攻擊面臨以下挑戰(zhàn):
- 知識(shí)有限。 在非 IID 場(chǎng)景中,攻擊者對(duì)各客戶(hù)端數(shù)據(jù)分布缺乏了解,這是主要挑戰(zhàn)之一。與 IID 場(chǎng)景不同,在 IID 中對(duì)數(shù)據(jù)集有集中化的認(rèn)知,有利于攻擊者操控;而非 IID 場(chǎng)景涉及分散且多樣化的數(shù)據(jù)分布。這會(huì)導(dǎo)致以下三個(gè)問(wèn)題:
- 直接的后門(mén)策略可能會(huì)導(dǎo)致良性樣本上的性能大幅下降,從而使全局模型被拒絕;
- 數(shù)據(jù)分布的差異性加劇了本地模型與全局模型之間的差距,使得惡意模型更容易被檢測(cè)到;
- 將中毒模型與全局模型平均聚合會(huì)降低其在主要任務(wù)上的性能。
- 控制變?cè)?/strong>。 在 SFL 中,控制變?cè)ㄓ洖?c_i)用于糾正客戶(hù)端漂移,使本地模型與全局模型對(duì)齊。如果攻擊者嚴(yán)格遵守協(xié)議,在植入觸發(fā)器的過(guò)程中使用 c_i 對(duì)惡意模型進(jìn)行校正,攻擊效果可能會(huì)減弱。相反,如果攻擊者選擇不當(dāng)篡改 c_i 并將惡意的 c 上傳至服務(wù)器,則可能導(dǎo)致全局模型被破壞。
- 后門(mén)災(zāi)難性遺忘。 災(zāi)難性遺忘是指神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新任務(wù)時(shí)忘記先前已學(xué)任務(wù)的現(xiàn)象。這會(huì)導(dǎo)致后門(mén)功能隨著時(shí)間推移而失效。如果攻擊者停止上傳惡意更新,后門(mén)功能最終可能會(huì)被良性更新「抹去」。
別器 D,并對(duì)生成器 G 進(jìn)行新一輪優(yōu)化訓(xùn)練,以引導(dǎo)其生成更加真實(shí)、接近其他客戶(hù)端數(shù)據(jù)的偽樣本。最終,這些高質(zhì)量的合成樣本會(huì)被整合進(jìn)攻擊者原始的非 IID 數(shù)據(jù)集,從而有效地補(bǔ)充了額外的數(shù)據(jù)類(lèi)別。
實(shí)驗(yàn)結(jié)果
本文在 MNIST、CIFAR-10 以及 CIFAR-100 三個(gè)數(shù)據(jù)集上對(duì) BadSFL 的有效性進(jìn)行了實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)比較了 4 個(gè)其它的已知后門(mén)攻擊,包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 總結(jié)了細(xì)節(jié)的實(shí)驗(yàn)設(shè)置。
從圖 6a 到圖 6f,我們展示了在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上與基準(zhǔn)方法的攻擊對(duì)比??梢悦黠@看出,BadSFL 在攻擊有效性和持久性方面都優(yōu)于基準(zhǔn)攻擊方法。
具體來(lái)說(shuō),在攻擊者仍參與訓(xùn)練過(guò)程、執(zhí)行后門(mén)訓(xùn)練并向服務(wù)器上傳惡意更新的前 10 輪中,BadSFL 在所有類(lèi)型的后門(mén)攻擊中都實(shí)現(xiàn)了超過(guò) 80% 的后門(mén)任務(wù)準(zhǔn)確率。同時(shí),BadSFL 保持主要任務(wù)的準(zhǔn)確率在 60% 左右(見(jiàn)下圖 5b)。此外,即使攻擊者在第 40 輪退出訓(xùn)練過(guò)程,后續(xù)輪次中的良性客戶(hù)端仍會(huì)繼續(xù)上傳正常更新,這可能會(huì)影響攻擊者在之前攻擊輪次中的中毒更新,從而逐漸抹去后門(mén)功能。
盡管如此,BadSFL 仍能保證后門(mén)功能的持久性,在整個(gè) 100 輪 SFL 訓(xùn)練中后門(mén)任務(wù)準(zhǔn)確率始終保持在 90% 以上,這比兩種基準(zhǔn)攻擊的生命周期長(zhǎng)3 倍(基準(zhǔn)攻擊的后門(mén)任務(wù)準(zhǔn)確率在第 60 輪后降至 50% 以下)。橫向?qū)Ρ炔煌?lèi)型的后門(mén)觸發(fā)器注入效果(圖 6a、6b 和 6c),可以發(fā)現(xiàn)基于特征的觸發(fā)器表現(xiàn)最佳,得益于其隱蔽性,它不直接篡改圖像,因此其更新與良性更新沖突的可能性較小。
圖 6g 和圖 6h 展示了在MNIST 數(shù)據(jù)集上獲得的實(shí)驗(yàn)結(jié)果。類(lèi)似地,BadSFL 也優(yōu)于其他基準(zhǔn)攻擊方法,在后門(mén)任務(wù)準(zhǔn)確率和主要任務(wù)準(zhǔn)確率上均超過(guò) 85%。當(dāng)惡意更新在第 40 輪停止注入后,在標(biāo)簽翻轉(zhuǎn)攻擊中,兩種基準(zhǔn)攻擊的后門(mén)任務(wù)準(zhǔn)確率在 10 輪內(nèi)災(zāi)難性地下降到 40% 以下,而 BadSFL 在后續(xù)輪次中能在全局模型中保持長(zhǎng)達(dá) 5 倍更持久的后門(mén)功能。在觸發(fā)器模式攻擊中,BadSFL 也在全局模型中注入了更高效的后門(mén)功能,其準(zhǔn)確率比基準(zhǔn)方法高出 10%。
總結(jié)
本文提出了BadSFL,這是一種專(zhuān)為使用 Scaffold 聚合算法的非 IID 聯(lián)邦學(xué)習(xí)環(huán)境設(shè)計(jì)的新型后門(mén)攻擊。通過(guò)采用基于 GAN 的數(shù)據(jù)增強(qiáng)技術(shù)并利用 Scaffold 的控制變?cè)?,BadSFL 在攻擊有效性、隱蔽性和持久性方面均優(yōu)于現(xiàn)有方法。我們?cè)诙鄠€(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該攻擊具有顯著的有效性,且后門(mén)功能的持續(xù)時(shí)間遠(yuǎn)超已有方法。未來(lái),我們希望研究人員能夠設(shè)計(jì)出更穩(wěn)健的防御機(jī)制,
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.