智東西
作者 陳駿達
編輯 云鵬
智東西9月1日報道,昨日,美團發(fā)布了其首款開源大模型LongCat-Flash,這是一款擁有5600億個總參數(shù)的MoE(混合專家)模型。
推理速度是這一模型最大的特點之一。美團稱,這一模型具備快捷連接架構(gòu),擴展了計算-通信重疊窗口,實現(xiàn)了每秒超過100個token的推理速度,理論每token輸出時間相比DeepSeek-V3降低近50%。
智東西的實測也印證了這點:我們要求其輸出大約100個token的內(nèi)容,除去首token延時后,輸出速度確實在100 tokens/秒左右。
LongCat-Flash目前暫時不支持文件、圖像等多模態(tài)內(nèi)容的上傳。網(wǎng)頁端內(nèi),提供了聯(lián)網(wǎng)搜索功能,但深度思考功能顯示為“敬請期待”的狀態(tài)。
在今年5月的財報電話中,美團創(chuàng)始人兼CEO王興已經(jīng)透露了LongCat模型的更多信息,他稱,“增強后的模型(指LongCat)現(xiàn)在可以在推理和非推理模式之間無縫切換”,性能接近GPT-4o。王興還在電話會議中定調(diào)稱,美團在AI領(lǐng)域的戰(zhàn)略是主動進攻,而不是被動防守,其AI戰(zhàn)略包含工作中的AI、產(chǎn)品中的AI和自研大語言模型。
另據(jù)公眾號01 Founder爆料,經(jīng)過01 Founder與多方信源的交叉確認,LongCat-Flash的訓練并非在英偉達GPU上完成,在其官方技術(shù)報告中,美團使用了“數(shù)萬個加速卡”的模糊表述,由于一些原因,該硬件廠商的具體名字不方便透露。不過,美團對具體使用何種GPU尚無官方信息放出。
根據(jù)美團龍貓團隊分享的技術(shù)報告,LongCat-Flash采用了創(chuàng)新的MoE架構(gòu),引入零計算專家,減少了在低難度token上浪費的計算資源,從而提升推理效率。
與DeepSeek-V3.1、Kimi-K2、Qwen3 MoE-2507等頭部開源模型相比,LongCat-Flash在通用領(lǐng)域、編程等場景的能力還有一定差距,但在Agentic工具調(diào)用、指令遵循等場景中,LongCat-Flash達到了開源模型SOTA的水準。
這一模型已經(jīng)上線Hugging Face、GitHub等開源平臺,技術(shù)報告同步發(fā)布。同時,美團也提供了LongCat-Flash模型的網(wǎng)頁版體驗鏈接,智東西第一時間對其能力進行了體驗。
Hugging Face地址:
huggingface.co/meituan-longcat
GitHub地址:
github.com/meituan-longcat/LongCat-Flash-Chat
技術(shù)報告鏈接:
github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
網(wǎng)頁版:
longcat.ai/
一、銳評外賣大戰(zhàn)階段性戰(zhàn)況,但算不清小學數(shù)學
智東西對LongCat-Flash的數(shù)學、編程、搜索、常識等能力進行了體驗。LongCat-Flash介紹,自己的知識截止時間為2024年6月,在不開啟聯(lián)網(wǎng)的情況下,它對之后發(fā)生的事情并不了解。
當被問及騰訊元寶這一AI工具的開發(fā)者是誰時,LongCat-Flash已經(jīng)無法給出正確答案,它稱元寶是美團開發(fā)的。元寶的發(fā)布時間為2024年5月30號,剛好卡在其知識截止時間的邊界。
緊接著,我們讓LongCat-Flash完成聯(lián)網(wǎng)搜索,整合信息并輸出研報這一常見的工作流,使用的案例是最新的“外賣大戰(zhàn)”,要求LongCat-Flash搜索美團、阿里和京東三家企業(yè)的最新財報,并對“外賣大戰(zhàn)”做一個階段性評估。
LongCat-Flash僅搜索了10個網(wǎng)頁,與其他大模型相比數(shù)量較少。同時,其信源構(gòu)成較為單一,主要來自百家號,缺少對權(quán)威媒體、公司官網(wǎng)等信源的覆蓋,在明確要求其查詢公司官網(wǎng)后,也未能在引用鏈接中看到相關(guān)網(wǎng)頁。
其引用的財報數(shù)據(jù)準確,分析部分基本符合業(yè)內(nèi)對阿里、美團、京東三家外賣大戰(zhàn)的主流觀點。LongCat-Flash的結(jié)論中更看好阿里,不過并未提出過多新見解。
在9.8-9.11這類大模型容易“翻車”的簡單算數(shù)上,LongCat-Flash未能幸免。它很快給出了答案,但結(jié)果明顯錯誤??梢钥吹剑P蜎]有自主驗證結(jié)果的準確性,更像是“拍腦門”給出了答案。
在計算利息這類更為場景化的數(shù)學題中,LongCat-Flash能給出更為全面的分析和解題過程,并最終得出正確答案。
通用知識場景中,我們讓LongCat-Flash在未開啟聯(lián)網(wǎng)搜索的情況下,解釋了“為什么天空在白天是藍色的,而在日落時會變紅?”這一現(xiàn)象。
LongCat-Flash的解釋分為三個部分,不僅提供了對白天、日落時天空顏色的解釋,還補充了日出時顏色與前者的區(qū)別。其引用的理論準確,還能用表格清晰呈現(xiàn),并主動提供了參考科普資料。
在編程場景,我們讓LongCat-Flash打造一個以龍貓為主題的小游戲。模型能按照要求在單一HTML網(wǎng)頁中實現(xiàn)游戲功能,但是游戲機制設(shè)計得不合理,導致可玩性一般。
二、采用新穎MoE架構(gòu),給專家合作搭建“捷徑”
技術(shù)報告中,美團分享了LongCat-Flash在模型架構(gòu)設(shè)計和多階段訓練流水線的更多細節(jié)。
LongCat-Flash采用了一種新穎的MoE架構(gòu),這是模型實現(xiàn)較高推理效率的核心。
這一架構(gòu)的主要模塊如下:
1、零計算專家(zero-computation experts)
在下一個token預測任務中,本身就存在計算負載的差異性,困難的token(例如推理復雜或語境模糊的部分)需要更多算力才能預測準確,簡單的token(如常見詞或模式化結(jié)構(gòu))幾乎不需要多少計算。
LongCat-Flash擁有一種動態(tài)算力資源分配機制,會將部分相對簡單的token交給零計算專家處理。這些專家的特點是直接把輸入原樣輸出,不做任何計算,因此不會額外增加計算成本。
每個token的激活專家數(shù)量會因上下文而異,模型因此能對重要token分配更多算力,對簡單token分配更少算力,從而在相同的算力預算下,獲得更好的性能。
為了讓模型真正學會這種“因上下文而異”的計算分配,必須對零計算專家的平均使用比例進行細粒度控制。否則,模型可能會過度依賴普通專家,而忽視零計算專家,導致資源利用效率低下。
LongCat-Flash給每個專家引入一個專家偏置項(bias),根據(jù)其近期使用情況動態(tài)調(diào)整路由分數(shù)。這些偏置不影響語言模型的主要訓練目標,僅用于保持計算資源分布的均衡。同時,LongCat-Flash還通過負載均衡控制,確保了MoE模型的高效訓練。
2、快捷連接架構(gòu)MoE(Shortcut-Connected MoE,ScMoE)
在大規(guī)模MoE模型中,通信開銷仍是主要瓶頸。傳統(tǒng)的執(zhí)行方式下,專家并行需要嚴格的順序流程:必須先完成一次全局通信,將token路由到對應的專家,然后才能開始計算。這種通信延遲會導致設(shè)備利用率不足,從而限制整體系統(tǒng)吞吐量。
共享專家架構(gòu)嘗試通過將通信與單個專家的計算重疊來緩解上述問題,但由于單個專家的計算窗口太小,效率提升有限。
為突破這一限制,美團提出了快捷連接架構(gòu)MoE,在層與層之間引入跨層的捷徑(Shortcut),重新排序執(zhí)行流程。這一創(chuàng)新使得前一層的稠密計算能夠與當前MoE層的分發(fā)/聚合通信并行執(zhí)行,形成比共享專家更大的重疊窗口。
測試顯示,ScMoE與非ScMoE基線模型的訓練損失曲線幾乎相同,說明這種重排不會損害模型性能。
同時,ScMoE帶來顯著的效率提升,更大的重疊窗口使得前一層計算可以與當前MoE通信階段完全并行,提升訓練效率。推理過程中,ScMoE啟用單批次重疊流水線,使得理論每token輸出時間相比頭部模型(如DeepSeek-V3)降低近50%。
同時,它還支持不同通信模式并行:節(jié)點內(nèi)的張量并行通信(通過NVLink實現(xiàn))與節(jié)點間的專家并行通信(通過RDMA實現(xiàn))可以完全重疊,最大化網(wǎng)絡(luò)利用率。
3、可擴展的方差對齊設(shè)計
隨著模型規(guī)模的擴大,一些在小規(guī)模下表現(xiàn)良好的架構(gòu)可能變得次優(yōu),導致模型性能不穩(wěn)定。通過實驗和理論分析,LongCat-Flash團隊發(fā)現(xiàn)模塊內(nèi)部的方差不匹配是造成這種問題的關(guān)鍵因素。
為此,他們提出了針對MLA(Multi-head Latent Attention,多頭注意力)和MoE模塊的方差對齊方法,通過引入了兩個尺度修正因子和專家初始化的方差補償,以提升模型可擴展性和穩(wěn)定性。
三、模型從半規(guī)模版本擴展而來,Agent能力突出
在模型擴展與訓練策略上,LongCat-Flash構(gòu)建了一個完整的穩(wěn)定性與擴展性框架。
LongCat-Flash團隊沒有直接在數(shù)千億參數(shù)的模型上反復試錯,而是采用了“以小推大”的策略:先在一個小規(guī)模的模型上系統(tǒng)地搜索學習率、初始化方差等參數(shù),然后通過理論推導的規(guī)則將這些最佳配置遷移到大模型中。這種方法既節(jié)省了大量算力,又能保證超參數(shù)在大模型中依然合適。
其次,在模型初始化上,團隊通過“模型增長”的方式,讓訓練過程更加平穩(wěn)。該團隊先訓練了一個“半規(guī)模(half scale)”的模型,等它收斂到一定程度后,再把它擴展成完整的大模型繼續(xù)訓練。
新的大模型雖然在最初會出現(xiàn)輕微的波動,但很快就能進入穩(wěn)定收斂狀態(tài),最終表現(xiàn)也明顯優(yōu)于完全隨機初始化的做法。
為了進一步保證訓練過程的穩(wěn)定性,LongCat-Flash還配備了一套多維度的穩(wěn)定性方案。
在路由層面,控制了不同專家的負載分布,避免出現(xiàn)有的專家過度繁忙、有的卻長期閑置的情況。
在激活層面,LongCat-Flash引入了類似“保險絲”的機制,對異常大的激活值施加輕微約束,從而防止訓練突然崩潰。
在優(yōu)化器層面,LongCat-Flash團隊對Adam的參數(shù)做了細致調(diào)整,使其在大規(guī)模訓練場景下依然數(shù)值穩(wěn)定。三方面配合,使模型在長時間訓練中都能保持平穩(wěn),不會出現(xiàn)不可恢復的損失峰值。
在訓練可靠性上,該團隊還特別強調(diào)了可復現(xiàn)性和錯誤檢測。這種嚴格的精度控制不僅保證了實驗可復現(xiàn),還能幫助快速發(fā)現(xiàn)和定位所謂的“靜默數(shù)據(jù)損壞”(SDC),避免錯誤在大規(guī)模分布式系統(tǒng)中被掩蓋。
通過這些設(shè)計,LongCat-Flash不僅能在數(shù)萬張加速卡上穩(wěn)定訓練,還能保證訓練結(jié)果可控、可靠,真正實現(xiàn)了在超大規(guī)模模型上的穩(wěn)健擴展。
在訓練流程上,模型采用多階段管線。首先,通過雙階段預訓練數(shù)據(jù)融合,逐步提升推理密集型數(shù)據(jù)(STEM知識與代碼)的比例,構(gòu)建出更適合后訓練的基礎(chǔ)模型。
在中期訓練中,模型的上下文被擴展至128k tokens,并利用合成數(shù)據(jù)進一步增強推理與編程能力。
在后訓練階段,LongCat-Flash團隊針對推理、編程和代理任務分別設(shè)計了數(shù)據(jù)與方法,尤其是提出多Agent合成框架,從信息處理、工具復雜度、用戶交互三方面生成高難度任務,以鍛煉模型的Agent能力。
在訓練基礎(chǔ)設(shè)施方面,團隊進行了內(nèi)核優(yōu)化、分布式并行策略設(shè)計以及監(jiān)控與容錯機制的開發(fā),使得模型能在數(shù)萬張加速卡上穩(wěn)定訓練。
結(jié)合計算與通信編排、推測解碼、KV緩存優(yōu)化、量化與調(diào)度優(yōu)化,模型在推理中實現(xiàn)了每秒超100 tokens的吞吐,并將成本控制在0.7美元/百萬tokens(約合人民幣5元)。
LongCat-Flash團隊在30項基準測試上評估了模型的能力,可以看到,Agent任務是這一模型能力的“長板”,相較DeepSeek-V3.1、Qwen3 MoE-2507和Kimi-K2等國產(chǎn)開源有明顯優(yōu)勢,但在編程、數(shù)學、推理等方面還有提升空間。
結(jié)語:主動進攻的美團,要打造AI原生產(chǎn)品
LongCat-Flash技術(shù)團隊透露,此次開源,他們旨在推動高效MoE架構(gòu)、高質(zhì)量數(shù)據(jù)策略以及自主Agent模型的相關(guān)研究,促進社區(qū)在大型語言模型領(lǐng)域的創(chuàng)新。
財報電話中,美團透露,已經(jīng)在利用AI優(yōu)化現(xiàn)有產(chǎn)品,并打造全新的AI原生產(chǎn)品,如AI運營助手等、消費者AI助手等。未來,美團在大模型領(lǐng)域的進展,值得持續(xù)關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.