機(jī)器之心報(bào)道
機(jī)器之心編輯部
國(guó)產(chǎn)開源力量的集中爆發(fā)。
都在說國(guó)內(nèi)大模型正在馳騁開源領(lǐng)域,具體的情況如何?
近日,隨著新一代大語言模型(LLM)的一波更新,開源大模型再次成為了熱門討論話題。軟件工程師、自媒體 Rohan Paul 發(fā)現(xiàn)了一個(gè)驚人的現(xiàn)象:Design Arena 排行榜上排名前十幾位開源 AI 模型全部來自中國(guó)。
Design Arena 是目前全球最大規(guī)模的眾包 AI 生成設(shè)計(jì) Benchmark 平臺(tái),它的核心機(jī)制是讓真實(shí)的人類用戶進(jìn)行評(píng)測(cè),基于 Elo Rating(類似于國(guó)際象棋評(píng)分體系)等級(jí)分制度進(jìn)行模型對(duì)戰(zhàn)。
用戶在平臺(tái)上會(huì)被隨機(jī)展示兩段由不同模型生成的回答,然后進(jìn)行投票選擇「哪一個(gè)更好」。每一次投票都會(huì)影響對(duì)應(yīng)模型的 Elo 分?jǐn)?shù),進(jìn)而形成動(dòng)態(tài)的排行榜。Elo 核心原理是,高分選手擊敗低分選手,得分會(huì)很少,而低分選手爆冷戰(zhàn)勝高分選手時(shí),得分會(huì)很多。因此用對(duì)弈的角度來看的話,這是一個(gè)相對(duì)公平、符合認(rèn)知的評(píng)分系統(tǒng)。
因此,不同于 MMLU、SWE-Bench 這類客觀指標(biāo),Design Arena 更貼近于「用戶真實(shí)體驗(yàn)」。新模型一上線,就能迅速通過對(duì)戰(zhàn)獲得口碑分?jǐn)?shù)。
在 Design Arena 上,如果把條件設(shè)定為「開源」,可見現(xiàn)在的前 15 名是清一色的國(guó)產(chǎn)開源大模型:
排名第一的是 DeepSeek-R1-0528,智譜的 GLM-4.5 和阿里的 Qwen 3 Coder 480B 緊隨其后。
再往下我們能看到 DeepSeek、Qwen、GLM 的各種型號(hào),Kimi 在 7 月份開源的 K2 模型…… 一直到第 16 名才是 OpenAI 最近開源的 GPT OSS 120B。
在前 15 名中,各家大模型廠商上榜的模型數(shù)量依次如下:
- 阿里:6 款
- DeepSeek:5 款
- 智譜:3 款
- Kimi:1 款
最近一段時(shí)間,國(guó)內(nèi) AI 公司不斷發(fā)布新一代開源大模型,正在開拓 AI 技術(shù)的前沿。甚至對(duì)于國(guó)內(nèi)科技公司來說,開源已經(jīng)成為了最近一兩個(gè)月發(fā)布的主旋律。
在 Hugging Face 發(fā)布的中國(guó) AI 社區(qū) 7 月開放成果中,包括阿里、智譜、昆侖萬維、月之暗面、騰訊、階躍星辰等在內(nèi)的多家廠商先后開源了 33 款大模型。
此前還有機(jī)構(gòu) Interconnects(深度聚焦前沿 AI 研究的高質(zhì)量?jī)?nèi)容平臺(tái))匯總了國(guó)內(nèi)頂尖的 19 家開源模型實(shí)驗(yàn)室,包括 DeepSeek 這樣的頂級(jí)機(jī)構(gòu),以及一些通過技術(shù)報(bào)告和小眾模型嶄露頭角的新興學(xué)術(shù)實(shí)驗(yàn)室。
這 19 個(gè)開源玩家依次是:DeepSeek、Qwen、Moonshot AI (Kimi)、Zhipu / Z.AI、StepFun、Tencent (Hunyuan)、RedNote (Xiaohongshu)、MiniMax、OpenGVLab / InternLM、Skywork、ByteDance Seed、OpenBMB、Xiaomi (MiMo)、Baidu (ERNIE)、Multimodal Art Projection、Alibaba International Digital Commerce Group、BAAI 以及 inclusionAI、Pangu (Huawei)。
在大模型領(lǐng)域里,技術(shù)和性能領(lǐng)先的一直是以 GPT 系列為代表的閉源大模型。但隨著 Llama 系列興起,越來越多的開源模型逐漸成為了推動(dòng)技術(shù)向前進(jìn)步的重要?jiǎng)恿?。近一年多時(shí)間里,國(guó)產(chǎn)大模型集群式的崛起,則重塑了全球 AI 版圖。
現(xiàn)在說起開源的大模型,大多數(shù)人的第一反應(yīng)早已不是 Llama,而是 Qwen 和 DeepSeek。有人認(rèn)為,正是 DeepSeek 等開源大模型能夠與閉源頂尖模型分庭抗禮,才讓眾多應(yīng)用端公司得以轉(zhuǎn)變工作重點(diǎn),把精力放在模型調(diào)優(yōu)和應(yīng)用優(yōu)化的工作上來,進(jìn)而加速了 AI 技術(shù)的落地。
或許這樣的趨勢(shì)也會(huì)扭轉(zhuǎn) AI 研究社區(qū)的趨勢(shì),讓未來最先進(jìn)模型的開源成為必選項(xiàng)。
最后,在外網(wǎng)也有人在為中國(guó)的 AI 模型崛起尋找深層原因。這位 Illya Gerasymchuk 是數(shù)學(xué)專業(yè)的碩士,他認(rèn)為原因在于數(shù)學(xué)基礎(chǔ) —— 目前東亞人在數(shù)學(xué)領(lǐng)域上已經(jīng)占據(jù)了主導(dǎo)地位。
這是否和我們一直以來的印象已經(jīng)有些不一樣了?
https://www.designarena.ai/
https://x.com/rohanpaul_ai/status/1959710355208499692
https://x.com/interconnectsai/status/1957105950201950715
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.