成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北京大學(xué)打造TransMLA:讓大模型推理速度飛躍10倍的神奇轉(zhuǎn)換器

0
分享至


這項(xiàng)由北京大學(xué)人工智能研究院的孟凡旭、湯平志、湯曉娟等研究人員與騰訊優(yōu)圖實(shí)驗(yàn)室、小米公司、通用人工智能研究院合作完成的研究,發(fā)表于2025年6月12日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2502.07864v5。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過GitHub項(xiàng)目地址https://github.com/fxmeng/TransMLA訪問完整的研究代碼和論文。

在人工智能快速發(fā)展的今天,大語(yǔ)言模型已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡闹帧H欢?,就像一輛性能卓越的跑車卻受限于狹窄的道路一樣,目前的大模型在運(yùn)行時(shí)往往受到"通信瓶頸"而非計(jì)算能力的限制。換句話說,模型的"思考"速度其實(shí)很快,但信息在不同組件間傳遞的速度卻成了拖后腿的因素。

為了解決這個(gè)問題,學(xué)術(shù)界提出了多種技術(shù)方案,其中最引人注目的是DeepSeek公司開發(fā)的多頭潛在注意力機(jī)制(MLA)。這種技術(shù)就像是給信息傳遞開辟了一條高速公路,通過壓縮關(guān)鍵信息的存儲(chǔ)方式,大幅提升了模型的運(yùn)行效率。DeepSeek的V2、V3和R1等模型都采用了這種技術(shù),展現(xiàn)出了卓越的性能表現(xiàn)。

然而,對(duì)于已經(jīng)投入大量資源訓(xùn)練現(xiàn)有模型的公司來說,完全重新訓(xùn)練一個(gè)基于MLA架構(gòu)的模型就像是推倒重建一棟已經(jīng)建好的房子,成本高昂且耗時(shí)漫長(zhǎng)。大部分模型提供商使用的是群組查詢注意力機(jī)制(GQA),這種技術(shù)雖然也能提供不錯(cuò)的性能,但在效率上不如MLA。

正是在這樣的背景下,北京大學(xué)的研究團(tuán)隊(duì)提出了TransMLA這個(gè)創(chuàng)新解決方案。TransMLA就像是一個(gè)神奇的"轉(zhuǎn)換器",能夠?qū)F(xiàn)有的GQA模型直接轉(zhuǎn)換為MLA格式,讓模型享受到MLA的高效優(yōu)勢(shì),而無需從頭重新訓(xùn)練。這項(xiàng)技術(shù)不僅在理論上證明了MLA相比GQA具有更強(qiáng)的表達(dá)能力,更在實(shí)際應(yīng)用中實(shí)現(xiàn)了高達(dá)10.6倍的推理速度提升。

研究團(tuán)隊(duì)首先從理論層面證明了一個(gè)重要結(jié)論:在相同的內(nèi)存使用情況下,MLA架構(gòu)的表達(dá)能力始終強(qiáng)于GQA。這就像是在同樣大小的工具箱里,MLA能夠裝下更多、更有用的工具。這個(gè)理論發(fā)現(xiàn)為從GQA遷移到MLA提供了堅(jiān)實(shí)的科學(xué)依據(jù)。

TransMLA的核心創(chuàng)新體現(xiàn)在三個(gè)關(guān)鍵技術(shù)突破上。首先是RoRoPE技術(shù),這個(gè)技術(shù)解決了位置信息處理的難題。在現(xiàn)有的GQA模型中,每個(gè)注意力頭都攜帶自己的位置編碼信息,就像每個(gè)工人都要隨身攜帶一套完整的工具。RoRoPE通過巧妙的數(shù)學(xué)變換,將所有位置信息集中到第一個(gè)注意力頭中,其他頭則專門處理內(nèi)容信息,實(shí)現(xiàn)了"術(shù)業(yè)有專攻"的效果。

其次是FreqFold技術(shù),這個(gè)技術(shù)進(jìn)一步提升了位置信息的壓縮效率。研究團(tuán)隊(duì)發(fā)現(xiàn),相鄰頻率的位置編碼往往具有相似性,F(xiàn)reqFold利用這個(gè)特性,將相似的頻率信息進(jìn)行合并處理,就像將相似顏色的畫筆歸類存放,既節(jié)省空間又便于使用。

第三個(gè)關(guān)鍵技術(shù)是平衡鍵值(BKV)方法。在進(jìn)行信息壓縮時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)鍵信息和值信息的重要程度分布很不均衡,就像一個(gè)班級(jí)里學(xué)霸和學(xué)渣的成績(jī)差距懸殊。如果直接進(jìn)行壓縮,容易導(dǎo)致重要信息的丟失。BKV技術(shù)通過調(diào)整權(quán)重分布,確保鍵信息和值信息在壓縮過程中得到平等對(duì)待,從而獲得更好的壓縮效果。

在實(shí)際測(cè)試中,TransMLA展現(xiàn)出了令人印象深刻的性能表現(xiàn)。研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的模型進(jìn)行測(cè)試:SmolLM-1.7B和LLaMA-2-7B。這兩個(gè)模型分別代表了小型和中型語(yǔ)言模型的典型規(guī)模。在不進(jìn)行任何額外訓(xùn)練的情況下,TransMLA將LLaMA-2-7B的鍵值緩存壓縮到原來的7%,性能下降幅度僅為1.65%,而同類方法MHA2MLA在相同壓縮比下的性能下降高達(dá)21.85%。這個(gè)對(duì)比就像是兩種壓縮軟件的較量,TransMLA不僅壓縮比更高,還能更好地保持原始文件的質(zhì)量。

更令人驚喜的是,即使在極端的93%壓縮比下,經(jīng)過TransMLA處理的模型仍然能夠生成有意義的回答。雖然質(zhì)量有所下降,但經(jīng)過僅僅60億個(gè)詞元的訓(xùn)練后,模型性能就能基本恢復(fù)到原始水平。這個(gè)恢復(fù)速度相比傳統(tǒng)方法快了20多倍,大大降低了模型遷移的成本。

在硬件加速測(cè)試中,TransMLA更是展現(xiàn)出了卓越的實(shí)用價(jià)值。研究團(tuán)隊(duì)在三種不同配置的消費(fèi)級(jí)硬件上進(jìn)行了測(cè)試,包括165.2萬億次浮點(diǎn)運(yùn)算配24GB內(nèi)存、312萬億次浮點(diǎn)運(yùn)算配40GB內(nèi)存,以及320萬億次浮點(diǎn)運(yùn)算配64GB內(nèi)存的配置。測(cè)試結(jié)果顯示,在8K上下文長(zhǎng)度的任務(wù)中,經(jīng)過TransMLA轉(zhuǎn)換的模型能夠?qū)崿F(xiàn)高達(dá)10.6倍的推理速度提升。隨著上下文長(zhǎng)度的增加,這種優(yōu)勢(shì)變得更加明顯,因?yàn)楦L(zhǎng)的上下文意味著更大的內(nèi)存節(jié)省空間。

TransMLA的另一個(gè)重要優(yōu)勢(shì)是與DeepSeek生態(tài)系統(tǒng)的完全兼容性。轉(zhuǎn)換后的模型可以直接在DeepSeek的代碼庫(kù)中運(yùn)行,享受包括vLLM和SGlang在內(nèi)的各種優(yōu)化技術(shù)。這就像是獲得了一張通用的"會(huì)員卡",可以在整個(gè)優(yōu)化技術(shù)的"商店街"中自由購(gòu)物。這種兼容性不僅為用戶提供了更多選擇,也為未來的技術(shù)集成奠定了基礎(chǔ)。

從技術(shù)實(shí)現(xiàn)的角度來看,TransMLA的工作流程可以分為幾個(gè)清晰的步驟。首先,系統(tǒng)會(huì)分析原始GQA模型的結(jié)構(gòu),識(shí)別出需要轉(zhuǎn)換的各個(gè)組件。然后應(yīng)用RoRoPE技術(shù)重新組織位置編碼信息,將分散的位置信息集中到指定的注意力頭中。接下來,F(xiàn)reqFold技術(shù)會(huì)進(jìn)一步優(yōu)化位置信息的存儲(chǔ)效率,通過合并相似頻率來減少冗余。最后,BKV技術(shù)會(huì)對(duì)鍵值信息進(jìn)行平衡壓縮,確保重要信息在壓縮過程中得到妥善保留。

整個(gè)轉(zhuǎn)換過程不需要用戶具備深厚的技術(shù)背景,研究團(tuán)隊(duì)已經(jīng)將復(fù)雜的算法封裝成了易于使用的工具。用戶只需要提供原始模型和少量的校準(zhǔn)數(shù)據(jù),系統(tǒng)就能自動(dòng)完成轉(zhuǎn)換過程。這種用戶友好的設(shè)計(jì)使得更多的研究者和開發(fā)者能夠受益于這項(xiàng)技術(shù)的進(jìn)步。

值得注意的是,TransMLA不僅在理論上具有優(yōu)勢(shì),在實(shí)際應(yīng)用中也展現(xiàn)出了良好的泛化能力。研究團(tuán)隊(duì)測(cè)試了包括LLaMA、Qwen、Gemma、Mistral等多個(gè)主流模型架構(gòu),都取得了令人滿意的轉(zhuǎn)換效果。這種廣泛的兼容性使得TransMLA能夠?yàn)檎麄€(gè)行業(yè)帶來實(shí)質(zhì)性的改進(jìn)。

在性能評(píng)估方面,研究團(tuán)隊(duì)采用了六個(gè)標(biāo)準(zhǔn)化的評(píng)測(cè)基準(zhǔn),包括MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)、ARC(AI2推理挑戰(zhàn))、PIQA(物理交互問答)、HellaSwag(常識(shí)推理)、OpenBookQA(開卷問答)和Winogrande(語(yǔ)言推理)。這些測(cè)試就像是對(duì)模型進(jìn)行的"全科體檢",從不同角度評(píng)估模型的理解和推理能力。結(jié)果顯示,經(jīng)過TransMLA轉(zhuǎn)換的模型在這些測(cè)試中都保持了良好的性能表現(xiàn)。

研究還深入分析了TransMLA各個(gè)組件的貢獻(xiàn)程度。通過對(duì)LLaMA-3-8B模型的詳細(xì)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)RoRoPE技術(shù)能夠有效地將重要的位置信息集中到前幾個(gè)注意力頭中,為后續(xù)的信息處理奠定了良好基礎(chǔ)。FreqFold技術(shù)則在此基礎(chǔ)上進(jìn)一步提升了壓縮效率,特別是在高壓縮比的情況下,其優(yōu)勢(shì)更加明顯。BKV技術(shù)的作用體現(xiàn)在保持壓縮質(zhì)量上,確保模型在大幅減少內(nèi)存占用的同時(shí)仍能保持良好的性能表現(xiàn)。

從實(shí)際應(yīng)用的角度來看,TransMLA為模型部署提供了更大的靈活性。原本需要高端服務(wù)器才能運(yùn)行的大型模型,現(xiàn)在可以在配置相對(duì)較低的硬件上流暢運(yùn)行。這種改進(jìn)不僅降低了部署成本,也擴(kuò)大了AI技術(shù)的應(yīng)用范圍。小型創(chuàng)業(yè)公司和個(gè)人開發(fā)者現(xiàn)在也能更容易地使用先進(jìn)的語(yǔ)言模型技術(shù)。

研究團(tuán)隊(duì)還提供了詳細(xì)的案例分析,展示了不同壓縮比下模型的實(shí)際表現(xiàn)。在92.97%的極高壓縮比下,雖然模型的回答質(zhì)量有所下降,但仍能保持基本的邏輯性和相關(guān)性。經(jīng)過適當(dāng)?shù)奈⒄{(diào)訓(xùn)練后,模型性能能夠快速恢復(fù),這為實(shí)際應(yīng)用提供了很大的操作空間。

此外,TransMLA的開源特性也值得特別關(guān)注。研究團(tuán)隊(duì)將所有代碼和實(shí)驗(yàn)數(shù)據(jù)都公開發(fā)布,這不僅促進(jìn)了學(xué)術(shù)交流,也為產(chǎn)業(yè)應(yīng)用提供了便利。其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和優(yōu)化,推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

TransMLA技術(shù)的出現(xiàn),標(biāo)志著大語(yǔ)言模型優(yōu)化技術(shù)邁入了一個(gè)新的階段。它不僅解決了現(xiàn)有模型遷移成本高的問題,也為未來的模型設(shè)計(jì)提供了新的思路。隨著這項(xiàng)技術(shù)的不斷完善和推廣,我們可以期待看到更多高效、實(shí)用的AI應(yīng)用走進(jìn)日常生活。

說到底,TransMLA就像是為現(xiàn)有的AI模型裝上了一個(gè)"渦輪增壓器",在不改變核心引擎的情況下,大幅提升了運(yùn)行效率。這種技術(shù)創(chuàng)新不僅體現(xiàn)了研究團(tuán)隊(duì)的技術(shù)實(shí)力,更展現(xiàn)了他們對(duì)實(shí)際應(yīng)用需求的深刻理解。對(duì)于整個(gè)AI行業(yè)來說,TransMLA提供了一個(gè)既實(shí)用又經(jīng)濟(jì)的解決方案,讓更多的組織和個(gè)人能夠享受到最新AI技術(shù)帶來的便利。

隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,TransMLA將在推動(dòng)AI技術(shù)普及化的道路上發(fā)揮越來越重要的作用。它不僅降低了技術(shù)應(yīng)用的門檻,也為AI技術(shù)的創(chuàng)新發(fā)展提供了新的可能性。對(duì)于關(guān)注AI發(fā)展的讀者來說,TransMLA技術(shù)的出現(xiàn)無疑是一個(gè)值得期待的重要進(jìn)展。

Q&A

Q1:TransMLA是什么?能解決什么問題?

A:TransMLA是北京大學(xué)團(tuán)隊(duì)開發(fā)的模型轉(zhuǎn)換技術(shù),能夠?qū)F(xiàn)有的GQA架構(gòu)大語(yǔ)言模型直接轉(zhuǎn)換為更高效的MLA架構(gòu),無需重新訓(xùn)練。它主要解決了現(xiàn)有AI模型推理速度慢、內(nèi)存占用大的問題,最高可實(shí)現(xiàn)10.6倍的速度提升。

Q2:使用TransMLA轉(zhuǎn)換后的模型性能會(huì)下降嗎?

A:性能下降很小。在68.75%的壓縮比下,模型性能僅下降1.65%,遠(yuǎn)低于同類技術(shù)21.85%的下降幅度。即使在93%的極高壓縮比下,經(jīng)過60億詞元的簡(jiǎn)單訓(xùn)練后,模型性能也能基本恢復(fù)到原始水平。

Q3:TransMLA支持哪些模型?普通用戶能使用嗎?

A:TransMLA支持包括LLaMA、Qwen、Gemma、Mistral等主流模型架構(gòu)。研究團(tuán)隊(duì)已將代碼開源發(fā)布在GitHub(https://github.com/fxmeng/TransMLA),技術(shù)開發(fā)者可以直接使用。轉(zhuǎn)換后的模型完全兼容DeepSeek的優(yōu)化生態(tài)系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
告別了“梓涵”時(shí)代,新一批“奇葩”名字來了!老師表示我想靜靜

告別了“梓涵”時(shí)代,新一批“奇葩”名字來了!老師表示我想靜靜

知鑒明史
2025-08-23 14:40:05
女排1-3法國(guó) 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷引崩盤

女排1-3法國(guó) 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷引崩盤

籃球資訊達(dá)人
2025-08-31 20:53:11
你見過的土豪是什么樣子的?網(wǎng)友:前臺(tái)小姐直接跟著他走了

你見過的土豪是什么樣子的?網(wǎng)友:前臺(tái)小姐直接跟著他走了

特約前排觀眾
2025-08-19 00:20:03
重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開始制造多彈頭導(dǎo)彈

重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開始制造多彈頭導(dǎo)彈

每日經(jīng)濟(jì)新聞
2025-08-30 23:03:05
“扁擔(dān)女孩”劉燕的現(xiàn)狀被曝,網(wǎng)傳的高考成績(jī)均為不實(shí)!網(wǎng)友爆評(píng)

“扁擔(dān)女孩”劉燕的現(xiàn)狀被曝,網(wǎng)傳的高考成績(jī)均為不實(shí)!網(wǎng)友爆評(píng)

胡侃社會(huì)百態(tài)
2025-08-31 10:22:25
九三大閱兵名單公布,又一位重量級(jí)嘉賓將現(xiàn)身北京

九三大閱兵名單公布,又一位重量級(jí)嘉賓將現(xiàn)身北京

一個(gè)有靈魂的作者
2025-08-29 21:56:26
國(guó)家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

國(guó)家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

陌識(shí)
2025-08-30 16:17:10
全文 《一念沉淪墮欲鄉(xiāng)》柳芊芊周巖陳書桓

全文 《一念沉淪墮欲鄉(xiāng)》柳芊芊周巖陳書桓

生活記錄類
2025-09-01 01:46:40
國(guó)安深夜發(fā)聲明:為6球慘敗感到恥辱!球迷要求徹查球員罵人事件

國(guó)安深夜發(fā)聲明:為6球慘敗感到恥辱!球迷要求徹查球員罵人事件

中超偽球迷
2025-09-01 01:44:07
美網(wǎng)現(xiàn)場(chǎng)爭(zhēng)議一幕!波蘭百萬富翁搶小球迷簽名帽引眾怒,球員補(bǔ)贈(zèng)禮物化解風(fēng)波

美網(wǎng)現(xiàn)場(chǎng)爭(zhēng)議一幕!波蘭百萬富翁搶小球迷簽名帽引眾怒,球員補(bǔ)贈(zèng)禮物化解風(fēng)波

環(huán)球網(wǎng)資訊
2025-08-31 20:09:12
Here we go!羅馬諾:尼古拉斯-岡薩雷斯將先租后買加盟馬競(jìng)

Here we go!羅馬諾:尼古拉斯-岡薩雷斯將先租后買加盟馬競(jìng)

懂球帝
2025-09-01 02:54:17
八國(guó)聯(lián)軍中,有七個(gè)國(guó)家主動(dòng)退還賠款,唯有一國(guó)分文不退,是誰(shuí)?

八國(guó)聯(lián)軍中,有七個(gè)國(guó)家主動(dòng)退還賠款,唯有一國(guó)分文不退,是誰(shuí)?

通文知史
2025-08-31 09:20:03
菲船被押送返航,仁愛礁沖突或?qū)⒙淠唬?>
    </a>
        <h3>
      <a href=科技有趣事
2025-08-30 09:59:49
9月3日大閱兵唯一“遺憾”,國(guó)人這次真的不能忍了!

9月3日大閱兵唯一“遺憾”,國(guó)人這次真的不能忍了!

音樂時(shí)光的娛樂
2025-08-30 14:45:19
七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開膛破肚”

七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開膛破肚”

深度報(bào)
2025-08-29 16:22:55
為啥廣東人口碑普遍很好?網(wǎng)友:廣東要是沒有蟑螂就完美了

為啥廣東人口碑普遍很好?網(wǎng)友:廣東要是沒有蟑螂就完美了

解讀熱點(diǎn)事件
2025-08-31 00:10:03
仰望U9極速472km/h的背后,布加迪CEO為何質(zhì)疑,輪胎是關(guān)鍵

仰望U9極速472km/h的背后,布加迪CEO為何質(zhì)疑,輪胎是關(guān)鍵

選車偵探
2025-08-30 18:27:54
103-45狂勝!中國(guó)男籃開門紅,狂轟23-0,5人上雙太強(qiáng)了

103-45狂勝!中國(guó)男籃開門紅,狂轟23-0,5人上雙太強(qiáng)了

體育就你秀
2025-08-31 21:19:34
果然不出所料:九三閱兵將至,臺(tái)海出現(xiàn)新情況,五角大樓急找大陸

果然不出所料:九三閱兵將至,臺(tái)海出現(xiàn)新情況,五角大樓急找大陸

頭條爆料007
2025-08-31 19:31:49
中央已劃紅線!公職人員這6種行為被嚴(yán)厲禁止,以后通通不行了!

中央已劃紅線!公職人員這6種行為被嚴(yán)厲禁止,以后通通不行了!

鬼菜生活
2025-08-27 13:14:45
2025-09-01 03:07:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
13926文章數(shù) 49653關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

時(shí)尚
家居
教育
數(shù)碼
公開課

看來看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

家居要聞

提升功能 靈活居住環(huán)境

教育要聞

高二英語(yǔ)七八十分左右,背完3500詞,接下來要做什么?

數(shù)碼要聞

真不多見!瀚鎧RX 9060 XT合金竟然用了藍(lán)色Radeon標(biāo)志包裝

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版