成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

研究人員打造BiDoRA解決DoRA耦合,以高效微調(diào)解鎖小數(shù)據(jù)潛力

0
分享至

如今,像 GPT 系列這樣的大模型已經(jīng)展現(xiàn)出了驚人的通用能力,但要讓它們在某個(gè)具體領(lǐng)域發(fā)揮最大效力,還需要進(jìn)行“微調(diào)”(Fine-Tuning)。傳統(tǒng)的“完整微調(diào)”方法,需要調(diào)整模型中全部的數(shù)百億甚至千億參數(shù),這不僅需要海量的計(jì)算資源(比如數(shù)十上百塊頂級 GPU),訓(xùn)練時(shí)間也十分漫長。因此,“參數(shù)高效微調(diào)”(PEFT,Parameter-Efficient Fine-Tuning)技術(shù)應(yīng)運(yùn)而生,它旨在只調(diào)整模型中極小一部分的參數(shù),就能達(dá)到接近甚至超越完整微調(diào)的效果。

在 PEFT 家族中,LoRA 是一個(gè)里程碑式的工作。而研究團(tuán)隊(duì)關(guān)注到,業(yè)內(nèi)最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基礎(chǔ)上更進(jìn)了一步。DoRA 的核心思想是,它認(rèn)為模型權(quán)重的更新,可以被分解為“大小”(magnitude)和“方向”(direction)兩個(gè)獨(dú)立維度的變化。這個(gè)洞察非常深刻,因?yàn)樗N近模型在完整微調(diào)時(shí)的真實(shí)動(dòng)態(tài)。通過這種分解,DoRA 確實(shí)在很多任務(wù)上超越了 LoRA。

然而,在深入研究 DoRA 的過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)它雖然方向走對了,但仍然存在一些問題。DoRA 在訓(xùn)練時(shí),是同時(shí)優(yōu)化大小和方向這兩個(gè)部分的,并且用的是同一份訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)認(rèn)為這種“耦合”的優(yōu)化方式會(huì)帶來兩個(gè)關(guān)鍵問題:第一,它讓模型的能力過于強(qiáng)大,很容易“死記硬背”訓(xùn)練數(shù)據(jù),導(dǎo)致在面對新數(shù)據(jù)時(shí)表現(xiàn)不佳,也就是人們常說的“過擬合”。第二,大小和方向的同步更新會(huì)形成一種內(nèi)在的牽制,限制了模型尋找最優(yōu)解的學(xué)習(xí)能力。

所以,研究團(tuán)隊(duì)這次研究的核心目標(biāo)非常明確:保留 DoRA 關(guān)于權(quán)重分解的深刻洞察,但要打破其大小和方向更新過程中的耦合性。因此,其希望設(shè)計(jì)一種新的訓(xùn)練范式,能夠讓這兩個(gè)組件的優(yōu)化過程分離開來,從而有效抑制過擬合,使其性能表現(xiàn)能再上一個(gè)臺階。

針對上面提到的問題,研究團(tuán)隊(duì)最終研發(fā)出了一種全新的 PEFT 方法,稱為 BiDoRA(Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation)。它的核心是一種基于雙層優(yōu)化(Bi-level Optimization)的訓(xùn)練框架。


(來源:https://arxiv.org/pdf/2410.09758)

它將原本一體化的訓(xùn)練過程,巧妙地拆分成了兩個(gè)相互嵌套、異步進(jìn)行的循環(huán)。具體來說,研究團(tuán)隊(duì)會(huì)把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集兩部分。在“內(nèi)層循環(huán)”里,先“凍結(jié)”住權(quán)重的大?。╩agnitude),只用訓(xùn)練集來學(xué)習(xí)權(quán)重的“方向”(direction)。這一步的目標(biāo)是,在給定大小的情況下,找到最好的方向。接著,在“外層循環(huán)”中,研究團(tuán)隊(duì)利用剛剛在內(nèi)層學(xué)到的最優(yōu)方向,反過來在驗(yàn)證集上評估并更新權(quán)重的大小。這一步的目標(biāo)是,為已經(jīng)找到的最佳方向,匹配一個(gè)最合適的大小。

通過這種方式,研究團(tuán)隊(duì)成功地在訓(xùn)練動(dòng)態(tài)上將大小和方向的更新過程解耦,還因此發(fā)現(xiàn)了一些新規(guī)律和新現(xiàn)象:

首先,他們證實(shí)解耦訓(xùn)練能夠顯著提升模型的泛化能力。實(shí)驗(yàn)數(shù)據(jù)顯示,BiDoRA 訓(xùn)練的模型在訓(xùn)練集和測試集上的表現(xiàn)差距(performance gap)遠(yuǎn)小于 DoRA。同時(shí), 在生物醫(yī)學(xué)領(lǐng)域的極小數(shù)據(jù)集上(訓(xùn)練數(shù)據(jù)小于 1000 個(gè)),BiDoRA 效果提升顯著。在預(yù)測肽類是否能穿透血腦屏障(BBB,Blood-Brain Barrier)時(shí),BiDoRA 僅使用全量微調(diào) 1/326 的參數(shù),就實(shí)現(xiàn)了顯著更高的 F1 分?jǐn)?shù)(92.0 對 89.4)。在預(yù)測蛋白質(zhì)熱穩(wěn)定性時(shí),BiDoRA 使用全量微調(diào) 1/408 的參數(shù),F(xiàn)1 分?jǐn)?shù)幾乎相同(78.2 對 78.4)。BiDoRA 在多項(xiàng)任務(wù)中持續(xù)優(yōu)于當(dāng)前最先進(jìn)的參數(shù)高效微調(diào)方法,如 LoRA 和 DoRA。

其次,他們還發(fā)現(xiàn)了一個(gè)新規(guī)律。學(xué)界已經(jīng)有研究表明,在理想的完整微調(diào)中,權(quán)重大小和方向的更新存在一種負(fù)相關(guān)的關(guān)系。研究團(tuán)隊(duì)借助“權(quán)重分解分析”這一工具,發(fā)現(xiàn) LoRA 表現(xiàn)為正相關(guān),這解釋了它為什么有時(shí)效果不佳,而 DoRA 改進(jìn)了這一點(diǎn),呈現(xiàn)出-1.784 的負(fù)相關(guān)。而研究團(tuán)隊(duì)的 BiDoRA,得益于徹底的解耦訓(xùn)練,實(shí)現(xiàn)了高達(dá)-8.042 的負(fù)相關(guān)性。這意味著 BiDoRA 的訓(xùn)練動(dòng)態(tài)更接近于完整微調(diào),這為它的優(yōu)異性能提供了強(qiáng)有力的實(shí)驗(yàn)支撐。

在論文的同行評審階段,研究團(tuán)隊(duì)收到了來自多位匿名審稿人的專業(yè)且中肯的意見。綜合來看,審稿人們的贊譽(yù)主要集中在以下幾個(gè)方面:

首先,審稿人普遍認(rèn)為本次課題的研究動(dòng)機(jī)非常清晰且具有說服力。研究團(tuán)隊(duì)精準(zhǔn)地指出了現(xiàn)有先進(jìn)方法(DoRA)中存在的“耦合更新”這一核心缺陷,并以此為切入點(diǎn)展開研究,使得整個(gè)工作的邏輯鏈條非常堅(jiān)實(shí)。

其次,審稿人也對研究團(tuán)隊(duì)提出的 BiDoRA 方法的原創(chuàng)性和新穎性給予了高度評價(jià)。將雙層優(yōu)化(Bi-level Optimization)這一已在其他領(lǐng)域(如神經(jīng)架構(gòu)搜索)驗(yàn)證的有效思想,創(chuàng)造性地應(yīng)用于 PEFT 領(lǐng)域,并以此來解決權(quán)重分解中的耦合問題,這被認(rèn)為是一個(gè)非常聰明且有效的嘗試。

再者,審稿人對研究團(tuán)隊(duì)實(shí)驗(yàn)的全面性和扎實(shí)程度印象深刻。他們不僅在多個(gè)權(quán)威的自然語言理解基準(zhǔn)(如 GLUE)上驗(yàn)證了方法的有效性,還將實(shí)驗(yàn)擴(kuò)展到了自然語言生成、命名實(shí)體識別,甚至是一些數(shù)據(jù)量極度稀缺的生物醫(yī)學(xué)任務(wù)上。在所有這些場景下,BiDoRA 都展現(xiàn)出了一致的優(yōu)越性。

研究團(tuán)隊(duì)對 BiDoRA 的應(yīng)用前景非常樂觀,尤其是在那些數(shù)據(jù)資源極其寶貴的領(lǐng)域。在未來的幾年內(nèi),研究團(tuán)隊(duì)認(rèn)為它可以在生物醫(yī)學(xué)領(lǐng)域產(chǎn)生具體的應(yīng)用價(jià)值,這也正是研究團(tuán)隊(duì)在論文中特別進(jìn)行實(shí)驗(yàn)驗(yàn)證的方向。在生物醫(yī)學(xué)研究中,獲取高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)往往是極其困難和昂貴的。在這樣“極小數(shù)據(jù)集”的場景下,傳統(tǒng)的大模型微調(diào)方法極易發(fā)生嚴(yán)重的過擬合。而本次方法天生就具有強(qiáng)大的抗過擬合能力,因?yàn)樗ㄟ^雙層優(yōu)化的機(jī)制,引入了內(nèi)部的驗(yàn)證與權(quán)衡,迫使模型學(xué)習(xí)更具泛化性的特征。論文中的實(shí)驗(yàn)也清楚地表明,在這些生物醫(yī)學(xué)任務(wù)上,BiDoRA 相比其他方法的優(yōu)勢甚至比在數(shù)據(jù)充足的自然語言處理任務(wù)上更為明顯。

據(jù)了解,在研究團(tuán)隊(duì)最初設(shè)計(jì)出 BiDoRA 的雙層優(yōu)化框架時(shí),其發(fā)現(xiàn) BiDoRA 雖然比 LoRA 要好,但相比 DoRA 的提升并不像理論分析的那么顯著。研究團(tuán)隊(duì)猜想:會(huì)不會(huì)是因?yàn)樗麄兊碾p層優(yōu)化機(jī)制,將本就不算多的訓(xùn)練數(shù)據(jù)進(jìn)一步分割成了更小的訓(xùn)練集和驗(yàn)證集,導(dǎo)致每個(gè)訓(xùn)練循環(huán)得到的數(shù)據(jù)不夠多?這時(shí),研究團(tuán)隊(duì)立刻聯(lián)想到了在“神經(jīng)架構(gòu)搜索”(NAS,Neural Architecture Search)領(lǐng)域的一個(gè)常用技巧。在 NAS 中,研究者們通常會(huì)先在一個(gè)代理任務(wù)上搜索出最優(yōu)的網(wǎng)絡(luò)架構(gòu),然后會(huì)有一個(gè)“重訓(xùn)練”(Retraining)階段:固定住搜索到的這個(gè)最優(yōu)架構(gòu),再用全部的訓(xùn)練數(shù)據(jù)從頭開始訓(xùn)練這個(gè)架構(gòu)的權(quán)重,以求達(dá)到最佳性能。

研究團(tuán)隊(duì)決定借鑒這個(gè)思想,于是在 BiDoRA 的流程中增加了一個(gè)最終的重訓(xùn)練階段:在雙層優(yōu)化的“搜索階段”結(jié)束后,他們固定住學(xué)到的最優(yōu)的“大小”分量,然后合并原始的訓(xùn)練集和驗(yàn)證集,用這完整的數(shù)據(jù)集,對“方向”分量進(jìn)行一次充分的訓(xùn)練。當(dāng)再次進(jìn)行加上了重訓(xùn)練步驟的實(shí)驗(yàn)后,結(jié)果表明,BiDoRA 的性能在幾乎所有任務(wù)上都獲得了顯著且一致的提升,完全超越了 DoRA,展現(xiàn)出了研究團(tuán)隊(duì)理論預(yù)期的強(qiáng)大實(shí)力。

在后續(xù)研究計(jì)劃上:

研究團(tuán)隊(duì)的第一個(gè)方向是計(jì)劃進(jìn)一步提升 BiDoRA 的訓(xùn)練效率和理論完備性。正如其在論文的“未來工作”部分提到的,BiDoRA 雖然效果好,但它的雙層優(yōu)化機(jī)制引入了額外的計(jì)算開銷,特別是在計(jì)算“超梯度”(hyper-gradient)時(shí)。目前,研究團(tuán)隊(duì)的實(shí)現(xiàn)方式是相對基礎(chǔ)的,但學(xué)界已經(jīng)涌現(xiàn)出一些更先進(jìn)、更高效的超梯度估計(jì)算法,比如 SAMA、MixFlow-MG 等。因此,研究團(tuán)隊(duì)的下一步計(jì)劃是,將這些前沿的優(yōu)化技術(shù)集成到 BiDoRA 中,目標(biāo)是在不犧牲甚至提升性能的前提下,大幅降低其訓(xùn)練時(shí)間和計(jì)算成本。同時(shí),他們目前更多是通過大量實(shí)驗(yàn)經(jīng)驗(yàn)性地證明了 BiDoRA 在解耦權(quán)重更新上的優(yōu)越性,未來其希望能夠從數(shù)學(xué)上給出一個(gè)嚴(yán)格的理論分析,從根本上揭示其工作機(jī)理。

第二個(gè)方向也是研究團(tuán)隊(duì)更期待的一個(gè)方向,是將 BiDoRA 更深入、更廣泛地應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。其在當(dāng)前工作中已經(jīng)初步驗(yàn)證了它在小數(shù)據(jù)集上的巨大潛力,這給了他們極大的信心。接下來,研究團(tuán)隊(duì)計(jì)劃與生物、醫(yī)學(xué)領(lǐng)域的專家進(jìn)行更緊密的合作,將 BiDoRA 作為一個(gè)核心工具,去挑戰(zhàn)一些更復(fù)雜、更前沿的課題。

參考資料:

https://arxiv.org/pdf/2410.09758

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女教師帶出5屆狀元班,優(yōu)秀教師卻落選,轉(zhuǎn)身去私立,全年級挽留

女教師帶出5屆狀元班,優(yōu)秀教師卻落選,轉(zhuǎn)身去私立,全年級挽留

第四思維
2025-09-03 09:30:25
讓女孩無懼生理期,西漢姆聯(lián)女足為球員配備足壇首款經(jīng)期裝備

讓女孩無懼生理期,西漢姆聯(lián)女足為球員配備足壇首款經(jīng)期裝備

懂球帝
2025-09-04 18:18:04
“中天小姐姐”何橞瑢:在北京被善意和熱情“淹沒”

“中天小姐姐”何橞瑢:在北京被善意和熱情“淹沒”

剝洋蔥people
2025-09-04 14:51:25
暴雨,局部大暴雨!四川發(fā)布暴雨藍(lán)色預(yù)警

暴雨,局部大暴雨!四川發(fā)布暴雨藍(lán)色預(yù)警

魯中晨報(bào)
2025-09-04 17:35:04
1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

百態(tài)人間
2025-08-27 11:24:18
誤會(huì)了!張水華情商極高,賽后發(fā)言另有深意,馬拉松跑者道破真相

誤會(huì)了!張水華情商極高,賽后發(fā)言另有深意,馬拉松跑者道破真相

小彭聊社會(huì)
2025-09-02 01:24:38
浙工大校長開學(xué)致辭遇暴雨,一對“臥龍鳳雛”為其撐傘被調(diào)侃:這不“雙一流”嗎?

浙工大校長開學(xué)致辭遇暴雨,一對“臥龍鳳雛”為其撐傘被調(diào)侃:這不“雙一流”嗎?

戶外釣魚哥阿勇
2025-09-04 20:27:25
趙今麥居然也穿絲襪了,而且還是油絲 真性感啊

趙今麥居然也穿絲襪了,而且還是油絲 真性感啊

鄉(xiāng)野小珥
2025-09-02 17:07:55
烏軍擊毀扎波羅熱S300!空襲俄軍指揮部造成17名軍官身亡

烏軍擊毀扎波羅熱S300!空襲俄軍指揮部造成17名軍官身亡

項(xiàng)鵬飛
2025-09-04 21:06:17
是賺是虧?曼聯(lián)5年前花42萬鎊從馬競簽加納喬,如今4000萬鎊出售

是賺是虧?曼聯(lián)5年前花42萬鎊從馬競簽加納喬,如今4000萬鎊出售

直播吧
2025-09-04 17:44:06
汪峰的快樂誰懂??!這身材!這柔韌度!

汪峰的快樂誰懂?。∵@身材!這柔韌度!

山野盧員外
2025-09-02 17:36:11
2025年出生人口數(shù)預(yù)測終于出爐:結(jié)局可能超出大家想象

2025年出生人口數(shù)預(yù)測終于出爐:結(jié)局可能超出大家想象

巢客HOME
2025-09-04 05:00:02
金春龍,被查

金春龍,被查

新京報(bào)
2025-09-04 20:15:01
頭一回聽專家說,案件結(jié)束的理由:消耗了太多司法資源和社會(huì)資源

頭一回聽專家說,案件結(jié)束的理由:消耗了太多司法資源和社會(huì)資源

阿傖說事
2025-08-13 09:40:12
28歲退伍兵沒給69歲大爺讓座,全車人唾罵,他拿出一布包眾人傻眼

28歲退伍兵沒給69歲大爺讓座,全車人唾罵,他拿出一布包眾人傻眼

蕭竹輕語
2025-06-27 19:12:04
美媒關(guān)注九三閱兵新型無人作戰(zhàn)飛機(jī):再次凸顯中美在該領(lǐng)域差距迅速擴(kuò)大

美媒關(guān)注九三閱兵新型無人作戰(zhàn)飛機(jī):再次凸顯中美在該領(lǐng)域差距迅速擴(kuò)大

環(huán)球網(wǎng)資訊
2025-09-04 17:18:24
美帝擊沉委內(nèi)瑞拉“運(yùn)毒船”,打響了推翻馬杜羅政權(quán)的第一彈

美帝擊沉委內(nèi)瑞拉“運(yùn)毒船”,打響了推翻馬杜羅政權(quán)的第一彈

李未熟擒話2
2025-09-03 11:57:19
一句“滾出湖北”,揭開了武大的遮羞布!是誰制造了這起事件

一句“滾出湖北”,揭開了武大的遮羞布!是誰制造了這起事件

平老師666
2025-09-02 21:10:40
婆婆60大壽卻不喊我,我在家里吃剩飯時(shí)老公突然來電:過來把賬結(jié)了

婆婆60大壽卻不喊我,我在家里吃剩飯時(shí)老公突然來電:過來把賬結(jié)了

張道陵秘話
2025-09-01 21:23:32
金某估計(jì)腸子都悔青了!不是后悔打得太狠,而是忘了親媽也會(huì)坐牢

金某估計(jì)腸子都悔青了!不是后悔打得太狠,而是忘了親媽也會(huì)坐牢

青青子衿
2025-08-25 23:30:15
2025-09-05 01:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15597文章數(shù) 514045關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機(jī)新品

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

體育要聞

這個(gè)中國人,和楊瀚森一起進(jìn)了《NBA2K26》

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報(bào)

財(cái)經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

時(shí)尚
教育
數(shù)碼
旅游
公開課

“工裝裙”今年秋天爆火!全世界的時(shí)髦女人都在穿

教育要聞

高中成績猛漲的孩子,靠的并不是補(bǔ)課

數(shù)碼要聞

超30款新品齊上陣,追覓場景新品發(fā)布會(huì)一文看懂

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版