梁文鋒等來及時雨

2025-07-15 16:10:00　來源: 字母榜

北京舉報

分享至

被梁文鋒靠著DeepSeek搶走風(fēng)頭近180天后，楊植麟正借助Kimi更新試圖卷土重來。

近期，Kimi K2新模型發(fā)布后，引來外部試用高潮。Perplexity CEO阿拉溫德發(fā)文稱，內(nèi)部將很快用K2進(jìn)行后訓(xùn)練，以對外提供服務(wù)。此前DeepSeek R1上市后，也被第一時間引入Perplexity。

試圖通過模型更新從DeepSeek手中搶回注意力的不止Kimi一家。據(jù)字母榜（ID：wujicaijing）獲悉，7月底，“AI六小龍”中的階躍星辰、智譜AI，都將發(fā)布自研的新一代基礎(chǔ)大模型，科大訊飛也將趕在月底推出自家全新模型。

當(dāng)一眾大模型玩家都在比拼模型更新和產(chǎn)品體驗之際，遲遲沒有大動作的DeepSeek，不出意外迎來了自身流量和產(chǎn)品使用率的下滑。

DeepSeek自1月以來的爆發(fā)式增長，僅持續(xù)了2個月時間。從4月份開始，DeepSeek月活躍用戶數(shù)便掉頭向下。QuestMobile數(shù)據(jù)顯示，截至5月份，DeepSeek月活躍用戶規(guī)模為1.69億，環(huán)比下滑5.1%。

隨著月活用戶規(guī)模下降，DeepSeek的下載量排名也急速下墜。曾經(jīng)一度在中美兩地的蘋果App Store 免費應(yīng)用下載榜上奪冠的DeepSeek，如今已經(jīng)被擠到了30名開外。

來自SemiAnalysis半導(dǎo)體研究機(jī)構(gòu)的一份報告，更是直觀展現(xiàn)了DeepSeek在用戶使用率方面的下降態(tài)勢——從年初7.5%的峰值，回落至5月底的3%，官網(wǎng)訪問量也同期下降了29%。

梁文鋒并非沒有準(zhǔn)備。早在2月份，路透社就曾爆料，DeepSeek內(nèi)部正在加速推出R2模型，該模型原計劃在5月初發(fā)布，但現(xiàn)在官方希望能盡早發(fā)布。

但直到7月中旬，R2模型仍遲遲未見。The Information曾爆料稱，阻擋R2模型上線的一大原因是，英偉達(dá)H20芯片的意外禁售，使得DeepSeek在算力儲備上出現(xiàn)緊缺狀況。梁文鋒擔(dān)心新模型一旦上線，會因為短時間內(nèi)調(diào)用量過高而造成體驗不佳。

年初R1模型爆火后，梁文鋒的低成本大模型訓(xùn)練方法，還意外帶火了H20芯片在國內(nèi)的需求。

自2023年以來，H20芯片是英偉達(dá)可合法出口至中國的最強(qiáng)AI芯片。但在DeepSeek影響之下，4月份，美國對其實施新的出口管制許可，其被禁止賣入中國市場。

如今，上述禁令終于迎來轉(zhuǎn)機(jī)。7月15日，在黃仁勛年內(nèi)第三次訪華之際，英偉達(dá)官方公告，公司正在提交重新銷售H20芯片的申請，且美國政府已向英偉達(dá)保證將授予許可證，接下來，公司將盡快啟動交付程序。

面對被同行搶跑的競爭格局，高端算力遇阻的梁文鋒，意外等來了黃仁勛送來的一場及時雨。

R1發(fā)布近半年來，動作寥寥的DeepSeek，不可避免陷入不進(jìn)則退的現(xiàn)實困境之中。

在國內(nèi)其他大模型玩家卯足勁頭追平乃至超過DeepSeek模型性能之際，梁文鋒只是帶領(lǐng)團(tuán)隊出著一些小招式，如DeepSeek V3模型完成小版本升級，上線新版本DeepSeek-V3-0324，隨后又更新了以DeepSeek-V3為基礎(chǔ)模型微調(diào)而來的DeepSeek-Prover-V2——一款數(shù)學(xué)定理證明模型。

最近的一次動作還要數(shù)5月底完成的DeepSeek R1小版本升級。但值得注意的是，DeepSeek-R1-0528仍然使用的是2024年12月所發(fā)布的DeepSeek V3 Base模型微調(diào)而來，并非基于新一代的V4模型。

官方介紹中，DeepSeek-R1-0528更多是在后訓(xùn)練過程中投入了更多算力，以此來提升模型的思維深度與推理能力，其在數(shù)學(xué)、編程等方面的整體表現(xiàn)，逼近OpenAI o3與谷歌 Gemini-2.5-Pro等國際頂尖模型。

但缺乏大版本升級，只是在小版本上修修補(bǔ)補(bǔ)的DeepSeek，遭遇的直觀后果之一便是，外界給其貼上的性價比標(biāo)簽，正在一點點被重新撕下。

一貫以性價比開道的DeepSeek，在過去近半年內(nèi)，正在被阿里、字節(jié)、百度等科技大廠奪走自身的性價比標(biāo)簽，科技大廠紛紛推出了API價格更低的同類模型。

百度創(chuàng)始人李彥宏更是貼臉開大，吐槽DeepSeek除了沒有多模態(tài)之外，使用起來還慢且貴，“中國市場上絕大多數(shù)的大模型API調(diào)用價格都比DeepSeek滿血版要低，而且速度也更快?！?/p>

現(xiàn)在，蓄足實力的“AI六小龍”們，通過新的模型更新，也開始在性能和價格上紛紛挑戰(zhàn)起DeepSeek的性價比。

7月份新上線的Kimi K2模型，同樣選擇了開源，并成為國內(nèi)開源領(lǐng)域首個總參數(shù)量達(dá)到1萬億的MoE架構(gòu)基礎(chǔ)模型。

官方介紹，在SWE Bench Verified、Tau2、AceBench等一系列基準(zhǔn)性能測試中，Kimi K2 均取得開源模型中的SOTA成績，在DeepSeek擅長的代碼、數(shù)學(xué)推理任務(wù)上實現(xiàn)了反超。

價格上，Kimi K2每百萬輸入tokens收費4元，每百萬輸出tokens收費16元，對齊了DeepSeek在標(biāo)準(zhǔn)時段（8點半到夜間12點半）的API價格體系。

Kimi之外，6月中旬更新的MiniMax-M1模型，號稱世界上第一個開源的大規(guī)模混合架構(gòu)推理模型，其號稱整個強(qiáng)化學(xué)習(xí)階段只用到512塊H800三周的時間，租賃成本只有53.47萬美金。對比DeepSeek，其V3模型訓(xùn)練是在2048塊H800上實現(xiàn)的，總花費約為557萬美元。

摸著DeepSeek過河的一眾國產(chǎn)大模型玩家，紛紛在模型性價比上完成了搶跑。對比國外的OpenAI，盡管各家也都在推出各類平替模型，但OpenAI的總調(diào)用量依然保持穩(wěn)定的秘訣，主要在于其在基礎(chǔ)模型能力上依然保持著行業(yè)頭部的水平，始終領(lǐng)先著競爭對手將近一代的差距。

相比之下，DeepSeek爆火出圈的R1，也只是做到了比肩o1的水平，而非徹底超越OpenAI的存在。所以，這也能部分解釋為什么短短半年內(nèi)，DeepSeek官方應(yīng)用和管網(wǎng)流量就相繼迎來了下跌，而ChatGPT卻依然維持穩(wěn)定增長。

不過，需要注意的是，盡管DeepSeek自身流量在下滑，但在第三方平臺，R1和V3模型的總使用量仍在持續(xù)快速增長。SemiAnalysis給出的數(shù)據(jù)顯示，第三方平臺托管的 R1 與 V3 使用量，自R1發(fā)布以來已增長近 20 倍。

之所以會造成上述反差局面，SemiAnalysis認(rèn)為DeepSeek更多是敗在了Token經(jīng)濟(jì)學(xué)上。

雖然外界一般都以每百萬 tokens的價格來衡量各個模型的性價比，但這一方法并不總是有效或合理，“因為這忽略了具體工作負(fù)載和用戶需求。”SemiAnalysis分析師指出。

包括延遲（模型生成首個 token 所需時間）、吞吐率（每個token的生成速度）、上下文窗口等因素的差異，都會對最終的token消耗成本產(chǎn)生直接影響。

典型如 DeepSeek 為了在推理資源有限的情況下提供便宜模型，其上下文窗口嚴(yán)格控制在了64K，是一眾主要模型提供商中最小的之一。

與之對比，近期更新的Kimi K2，支持最長128K上下文。更早之前更新的MiniMax-M1，更是支持業(yè)內(nèi)最高的100萬上下文輸入，是DeepSeek R1的8倍。

當(dāng)然，這更多是 DeepSeek主動選擇的結(jié)果。在一眾大模型玩家中，梁文鋒不僅主動選擇了開源，且還直接表現(xiàn)出了對C端應(yīng)用毫不在意的商業(yè)考量。追求并實現(xiàn)AGI，才是梁文鋒視野中的頭等大事。

但DeepSeek終究不是一家慈善機(jī)構(gòu)，梁文鋒盡管追求模型開源，他最終想要的也是借助開源生態(tài)實現(xiàn)預(yù)期的商業(yè)化。

基于此，維持開發(fā)者群體的活躍，和自家產(chǎn)品的用戶使用率，不僅必要，而且對大模型玩家來說更是多多益善。

如何重新激活外界對DeepSeek的興趣，最直接的解決辦法，無疑便是盡快推出新模型V4和R2。

這方面，奧特曼已經(jīng)為梁文鋒做了最佳現(xiàn)身說法。在DeepSeek搶走行業(yè)熱度后，奧特曼幾乎以每周都有新產(chǎn)品的更新頻率，讓OpenAI牢牢定在了AI熱搜榜上：在模型側(cè)推出了GPT 4.5、o3-mini/o4、GPT 4.1；在產(chǎn)品側(cè)上線了Operator、Deep Research、Codex；在體驗側(cè)，學(xué)習(xí)DeepSeek開放思維鏈，并主導(dǎo)了吉卜力風(fēng)格圖片的流行。

上述動作背后，都藏著奧特曼對OpenAI模型調(diào)用度規(guī)模的追求。全球最大的大模型整合應(yīng)用平臺Poe，在此前發(fā)布的《2025年春季人工智能模型使用趨勢》報告中指出，OpenAI的GPT-4.1系列發(fā)布后幾周內(nèi)，份額迅速增加到了約10%，位列第一。對比DeepSeek，其R1模型使用率，已從2月中旬的峰值7%下降到了4月底的3%，整體使用率下降超過50%。

在通用Agent大爆發(fā)的當(dāng)下，除了推出新模型之外，梁文鋒或許還該考慮如何補(bǔ)上模型調(diào)用工具的能力短板，以滿足更多AI開發(fā)者的新需求。

晚點LatePost 就曾爆料稱，字節(jié)扣子團(tuán)隊開發(fā)扣子空間時，他們曾考慮優(yōu)先使用DeepSeek-R1，但測試后發(fā)現(xiàn)其調(diào)用工具的能力不太理想，最終還是用了自家的豆包模型。

環(huán)比市面上主流的AI助手類應(yīng)用，DeepSeek是唯一暫不支持多模態(tài)功能的產(chǎn)品。1月15日應(yīng)用上線至今，6個月過去，如語音對話、圖片生成、音樂生成、視頻生成等，DeepSeek仍未提供支持服務(wù)。

作為通向AGI重要途徑的多模態(tài)，其重要性正隨著Agent生態(tài)的發(fā)展日益凸顯。如果梁文鋒再不向外界亮大招，其還將迎接更加現(xiàn)實的競爭挑戰(zhàn)，即可能會將更多模型調(diào)用需求推向?qū)κ帧?/p>

畢竟，現(xiàn)實環(huán)境中，從MiniMax到Kimi，其在最新更新的模型中，無一例外都強(qiáng)調(diào)了調(diào)用工具來構(gòu)建Agent的特性。

借助R1開啟深度思考浪潮后，梁文鋒還能為Agent時代創(chuàng)造出新的驚喜嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.