這項(xiàng)由北京大學(xué)人工智能研究院的孟凡旭、湯平志、湯曉娟等研究人員與騰訊優(yōu)圖實(shí)驗(yàn)室、小米公司、通用人工智能研究院合作完成的研究,發(fā)表于2025年6月12日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2502.07864v5。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過GitHub項(xiàng)目地址https://github.com/fxmeng/TransMLA訪問完整的研究代碼和論文。
在人工智能快速發(fā)展的今天,大語(yǔ)言模型已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡闹帧H欢?,就像一輛性能卓越的跑車卻受限于狹窄的道路一樣,目前的大模型在運(yùn)行時(shí)往往受到"通信瓶頸"而非計(jì)算能力的限制。換句話說,模型的"思考"速度其實(shí)很快,但信息在不同組件間傳遞的速度卻成了拖后腿的因素。
為了解決這個(gè)問題,學(xué)術(shù)界提出了多種技術(shù)方案,其中最引人注目的是DeepSeek公司開發(fā)的多頭潛在注意力機(jī)制(MLA)。這種技術(shù)就像是給信息傳遞開辟了一條高速公路,通過壓縮關(guān)鍵信息的存儲(chǔ)方式,大幅提升了模型的運(yùn)行效率。DeepSeek的V2、V3和R1等模型都采用了這種技術(shù),展現(xiàn)出了卓越的性能表現(xiàn)。
然而,對(duì)于已經(jīng)投入大量資源訓(xùn)練現(xiàn)有模型的公司來說,完全重新訓(xùn)練一個(gè)基于MLA架構(gòu)的模型就像是推倒重建一棟已經(jīng)建好的房子,成本高昂且耗時(shí)漫長(zhǎng)。大部分模型提供商使用的是群組查詢注意力機(jī)制(GQA),這種技術(shù)雖然也能提供不錯(cuò)的性能,但在效率上不如MLA。
正是在這樣的背景下,北京大學(xué)的研究團(tuán)隊(duì)提出了TransMLA這個(gè)創(chuàng)新解決方案。TransMLA就像是一個(gè)神奇的"轉(zhuǎn)換器",能夠?qū)F(xiàn)有的GQA模型直接轉(zhuǎn)換為MLA格式,讓模型享受到MLA的高效優(yōu)勢(shì),而無需從頭重新訓(xùn)練。這項(xiàng)技術(shù)不僅在理論上證明了MLA相比GQA具有更強(qiáng)的表達(dá)能力,更在實(shí)際應(yīng)用中實(shí)現(xiàn)了高達(dá)10.6倍的推理速度提升。
研究團(tuán)隊(duì)首先從理論層面證明了一個(gè)重要結(jié)論:在相同的內(nèi)存使用情況下,MLA架構(gòu)的表達(dá)能力始終強(qiáng)于GQA。這就像是在同樣大小的工具箱里,MLA能夠裝下更多、更有用的工具。這個(gè)理論發(fā)現(xiàn)為從GQA遷移到MLA提供了堅(jiān)實(shí)的科學(xué)依據(jù)。
TransMLA的核心創(chuàng)新體現(xiàn)在三個(gè)關(guān)鍵技術(shù)突破上。首先是RoRoPE技術(shù),這個(gè)技術(shù)解決了位置信息處理的難題。在現(xiàn)有的GQA模型中,每個(gè)注意力頭都攜帶自己的位置編碼信息,就像每個(gè)工人都要隨身攜帶一套完整的工具。RoRoPE通過巧妙的數(shù)學(xué)變換,將所有位置信息集中到第一個(gè)注意力頭中,其他頭則專門處理內(nèi)容信息,實(shí)現(xiàn)了"術(shù)業(yè)有專攻"的效果。
其次是FreqFold技術(shù),這個(gè)技術(shù)進(jìn)一步提升了位置信息的壓縮效率。研究團(tuán)隊(duì)發(fā)現(xiàn),相鄰頻率的位置編碼往往具有相似性,F(xiàn)reqFold利用這個(gè)特性,將相似的頻率信息進(jìn)行合并處理,就像將相似顏色的畫筆歸類存放,既節(jié)省空間又便于使用。
第三個(gè)關(guān)鍵技術(shù)是平衡鍵值(BKV)方法。在進(jìn)行信息壓縮時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)鍵信息和值信息的重要程度分布很不均衡,就像一個(gè)班級(jí)里學(xué)霸和學(xué)渣的成績(jī)差距懸殊。如果直接進(jìn)行壓縮,容易導(dǎo)致重要信息的丟失。BKV技術(shù)通過調(diào)整權(quán)重分布,確保鍵信息和值信息在壓縮過程中得到平等對(duì)待,從而獲得更好的壓縮效果。
在實(shí)際測(cè)試中,TransMLA展現(xiàn)出了令人印象深刻的性能表現(xiàn)。研究團(tuán)隊(duì)選擇了兩個(gè)具有代表性的模型進(jìn)行測(cè)試:SmolLM-1.7B和LLaMA-2-7B。這兩個(gè)模型分別代表了小型和中型語(yǔ)言模型的典型規(guī)模。在不進(jìn)行任何額外訓(xùn)練的情況下,TransMLA將LLaMA-2-7B的鍵值緩存壓縮到原來的7%,性能下降幅度僅為1.65%,而同類方法MHA2MLA在相同壓縮比下的性能下降高達(dá)21.85%。這個(gè)對(duì)比就像是兩種壓縮軟件的較量,TransMLA不僅壓縮比更高,還能更好地保持原始文件的質(zhì)量。
更令人驚喜的是,即使在極端的93%壓縮比下,經(jīng)過TransMLA處理的模型仍然能夠生成有意義的回答。雖然質(zhì)量有所下降,但經(jīng)過僅僅60億個(gè)詞元的訓(xùn)練后,模型性能就能基本恢復(fù)到原始水平。這個(gè)恢復(fù)速度相比傳統(tǒng)方法快了20多倍,大大降低了模型遷移的成本。
在硬件加速測(cè)試中,TransMLA更是展現(xiàn)出了卓越的實(shí)用價(jià)值。研究團(tuán)隊(duì)在三種不同配置的消費(fèi)級(jí)硬件上進(jìn)行了測(cè)試,包括165.2萬億次浮點(diǎn)運(yùn)算配24GB內(nèi)存、312萬億次浮點(diǎn)運(yùn)算配40GB內(nèi)存,以及320萬億次浮點(diǎn)運(yùn)算配64GB內(nèi)存的配置。測(cè)試結(jié)果顯示,在8K上下文長(zhǎng)度的任務(wù)中,經(jīng)過TransMLA轉(zhuǎn)換的模型能夠?qū)崿F(xiàn)高達(dá)10.6倍的推理速度提升。隨著上下文長(zhǎng)度的增加,這種優(yōu)勢(shì)變得更加明顯,因?yàn)楦L(zhǎng)的上下文意味著更大的內(nèi)存節(jié)省空間。
TransMLA的另一個(gè)重要優(yōu)勢(shì)是與DeepSeek生態(tài)系統(tǒng)的完全兼容性。轉(zhuǎn)換后的模型可以直接在DeepSeek的代碼庫(kù)中運(yùn)行,享受包括vLLM和SGlang在內(nèi)的各種優(yōu)化技術(shù)。這就像是獲得了一張通用的"會(huì)員卡",可以在整個(gè)優(yōu)化技術(shù)的"商店街"中自由購(gòu)物。這種兼容性不僅為用戶提供了更多選擇,也為未來的技術(shù)集成奠定了基礎(chǔ)。
從技術(shù)實(shí)現(xiàn)的角度來看,TransMLA的工作流程可以分為幾個(gè)清晰的步驟。首先,系統(tǒng)會(huì)分析原始GQA模型的結(jié)構(gòu),識(shí)別出需要轉(zhuǎn)換的各個(gè)組件。然后應(yīng)用RoRoPE技術(shù)重新組織位置編碼信息,將分散的位置信息集中到指定的注意力頭中。接下來,F(xiàn)reqFold技術(shù)會(huì)進(jìn)一步優(yōu)化位置信息的存儲(chǔ)效率,通過合并相似頻率來減少冗余。最后,BKV技術(shù)會(huì)對(duì)鍵值信息進(jìn)行平衡壓縮,確保重要信息在壓縮過程中得到妥善保留。
整個(gè)轉(zhuǎn)換過程不需要用戶具備深厚的技術(shù)背景,研究團(tuán)隊(duì)已經(jīng)將復(fù)雜的算法封裝成了易于使用的工具。用戶只需要提供原始模型和少量的校準(zhǔn)數(shù)據(jù),系統(tǒng)就能自動(dòng)完成轉(zhuǎn)換過程。這種用戶友好的設(shè)計(jì)使得更多的研究者和開發(fā)者能夠受益于這項(xiàng)技術(shù)的進(jìn)步。
值得注意的是,TransMLA不僅在理論上具有優(yōu)勢(shì),在實(shí)際應(yīng)用中也展現(xiàn)出了良好的泛化能力。研究團(tuán)隊(duì)測(cè)試了包括LLaMA、Qwen、Gemma、Mistral等多個(gè)主流模型架構(gòu),都取得了令人滿意的轉(zhuǎn)換效果。這種廣泛的兼容性使得TransMLA能夠?yàn)檎麄€(gè)行業(yè)帶來實(shí)質(zhì)性的改進(jìn)。
在性能評(píng)估方面,研究團(tuán)隊(duì)采用了六個(gè)標(biāo)準(zhǔn)化的評(píng)測(cè)基準(zhǔn),包括MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)、ARC(AI2推理挑戰(zhàn))、PIQA(物理交互問答)、HellaSwag(常識(shí)推理)、OpenBookQA(開卷問答)和Winogrande(語(yǔ)言推理)。這些測(cè)試就像是對(duì)模型進(jìn)行的"全科體檢",從不同角度評(píng)估模型的理解和推理能力。結(jié)果顯示,經(jīng)過TransMLA轉(zhuǎn)換的模型在這些測(cè)試中都保持了良好的性能表現(xiàn)。
研究還深入分析了TransMLA各個(gè)組件的貢獻(xiàn)程度。通過對(duì)LLaMA-3-8B模型的詳細(xì)分析,研究團(tuán)隊(duì)發(fā)現(xiàn)RoRoPE技術(shù)能夠有效地將重要的位置信息集中到前幾個(gè)注意力頭中,為后續(xù)的信息處理奠定了良好基礎(chǔ)。FreqFold技術(shù)則在此基礎(chǔ)上進(jìn)一步提升了壓縮效率,特別是在高壓縮比的情況下,其優(yōu)勢(shì)更加明顯。BKV技術(shù)的作用體現(xiàn)在保持壓縮質(zhì)量上,確保模型在大幅減少內(nèi)存占用的同時(shí)仍能保持良好的性能表現(xiàn)。
從實(shí)際應(yīng)用的角度來看,TransMLA為模型部署提供了更大的靈活性。原本需要高端服務(wù)器才能運(yùn)行的大型模型,現(xiàn)在可以在配置相對(duì)較低的硬件上流暢運(yùn)行。這種改進(jìn)不僅降低了部署成本,也擴(kuò)大了AI技術(shù)的應(yīng)用范圍。小型創(chuàng)業(yè)公司和個(gè)人開發(fā)者現(xiàn)在也能更容易地使用先進(jìn)的語(yǔ)言模型技術(shù)。
研究團(tuán)隊(duì)還提供了詳細(xì)的案例分析,展示了不同壓縮比下模型的實(shí)際表現(xiàn)。在92.97%的極高壓縮比下,雖然模型的回答質(zhì)量有所下降,但仍能保持基本的邏輯性和相關(guān)性。經(jīng)過適當(dāng)?shù)奈⒄{(diào)訓(xùn)練后,模型性能能夠快速恢復(fù),這為實(shí)際應(yīng)用提供了很大的操作空間。
此外,TransMLA的開源特性也值得特別關(guān)注。研究團(tuán)隊(duì)將所有代碼和實(shí)驗(yàn)數(shù)據(jù)都公開發(fā)布,這不僅促進(jìn)了學(xué)術(shù)交流,也為產(chǎn)業(yè)應(yīng)用提供了便利。其他研究者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和優(yōu)化,推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。
TransMLA技術(shù)的出現(xiàn),標(biāo)志著大語(yǔ)言模型優(yōu)化技術(shù)邁入了一個(gè)新的階段。它不僅解決了現(xiàn)有模型遷移成本高的問題,也為未來的模型設(shè)計(jì)提供了新的思路。隨著這項(xiàng)技術(shù)的不斷完善和推廣,我們可以期待看到更多高效、實(shí)用的AI應(yīng)用走進(jìn)日常生活。
說到底,TransMLA就像是為現(xiàn)有的AI模型裝上了一個(gè)"渦輪增壓器",在不改變核心引擎的情況下,大幅提升了運(yùn)行效率。這種技術(shù)創(chuàng)新不僅體現(xiàn)了研究團(tuán)隊(duì)的技術(shù)實(shí)力,更展現(xiàn)了他們對(duì)實(shí)際應(yīng)用需求的深刻理解。對(duì)于整個(gè)AI行業(yè)來說,TransMLA提供了一個(gè)既實(shí)用又經(jīng)濟(jì)的解決方案,讓更多的組織和個(gè)人能夠享受到最新AI技術(shù)帶來的便利。
隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,TransMLA將在推動(dòng)AI技術(shù)普及化的道路上發(fā)揮越來越重要的作用。它不僅降低了技術(shù)應(yīng)用的門檻,也為AI技術(shù)的創(chuàng)新發(fā)展提供了新的可能性。對(duì)于關(guān)注AI發(fā)展的讀者來說,TransMLA技術(shù)的出現(xiàn)無疑是一個(gè)值得期待的重要進(jìn)展。
Q&A
Q1:TransMLA是什么?能解決什么問題?
A:TransMLA是北京大學(xué)團(tuán)隊(duì)開發(fā)的模型轉(zhuǎn)換技術(shù),能夠?qū)F(xiàn)有的GQA架構(gòu)大語(yǔ)言模型直接轉(zhuǎn)換為更高效的MLA架構(gòu),無需重新訓(xùn)練。它主要解決了現(xiàn)有AI模型推理速度慢、內(nèi)存占用大的問題,最高可實(shí)現(xiàn)10.6倍的速度提升。
Q2:使用TransMLA轉(zhuǎn)換后的模型性能會(huì)下降嗎?
A:性能下降很小。在68.75%的壓縮比下,模型性能僅下降1.65%,遠(yuǎn)低于同類技術(shù)21.85%的下降幅度。即使在93%的極高壓縮比下,經(jīng)過60億詞元的簡(jiǎn)單訓(xùn)練后,模型性能也能基本恢復(fù)到原始水平。
Q3:TransMLA支持哪些模型?普通用戶能使用嗎?
A:TransMLA支持包括LLaMA、Qwen、Gemma、Mistral等主流模型架構(gòu)。研究團(tuán)隊(duì)已將代碼開源發(fā)布在GitHub(https://github.com/fxmeng/TransMLA),技術(shù)開發(fā)者可以直接使用。轉(zhuǎn)換后的模型完全兼容DeepSeek的優(yōu)化生態(tài)系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.