字節(jié)首次開源推理模型，連奪7項(xiàng)第一

2025-08-21 13:48:34　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西8月21日報(bào)道，今天，字節(jié)跳動Seed團(tuán)隊(duì)開源了Seed-OSS系列模型，這些模型專為長上下文、推理、Agent和通用場景設(shè)計(jì)，將上下文窗口擴(kuò)展至512k，是業(yè)界常見上下文窗口（128k）的4倍，GPT-5上下文窗口的2倍，相當(dāng)于1600頁文本。

Seed-OSS系列模型是推理模型，專門針對推理任務(wù)進(jìn)行了優(yōu)化，還允許用戶靈活地控制思維預(yù)算。

字節(jié)Seed團(tuán)隊(duì)共開源了Seed-OSS的三個版本，分別為：

（1）基礎(chǔ)模型Seed-OSS-36B-Base

（2）無合成數(shù)據(jù)基礎(chǔ)模型Seed-OSS-36B-Base-woSyn

（3）指令微調(diào)模型Seed-OSS-36B-Instruct

指令微調(diào)后的Seed-OSS-36B-Instruct在通用知識、Agent、編程、長上下文等領(lǐng)域的基準(zhǔn)測試中，取得同量級開源模型中的7項(xiàng)SOTA（性能最佳）表現(xiàn)，整體能力超過了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型，與Qwen3-30B-A3B-Thinking-2507在大部分領(lǐng)域旗鼓相當(dāng)。

▲基準(zhǔn)測試結(jié)果，加粗項(xiàng)為開源SOTA（圖源：Hugging Face）

Seed-OSS系列模型采用了寬松的Apache2.0開源協(xié)議，并會在后續(xù)發(fā)布模型的詳細(xì)技術(shù)報(bào)告。

開源地址：

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

值得一提的是，字節(jié)Seed團(tuán)隊(duì)本次的發(fā)布方式較為“研究友好”。鑒于在預(yù)訓(xùn)練中包含合成指令數(shù)據(jù)可能會影響后訓(xùn)練研究，無合成數(shù)據(jù)基礎(chǔ)模型的發(fā)布，為研究社區(qū)提供了更多樣化的選擇。這一系列模型還支持4位和8位格式的量化，以減少內(nèi)存需求。

Seed-OSS系列模型使用了12萬億個token的預(yù)訓(xùn)練數(shù)據(jù)，采用當(dāng)前主流的因果語言模型架構(gòu)，也就是“預(yù)測下一個token”類型的模型。同時，Seed-OSS系列均為稠密模型，沒有采用MoE等架構(gòu)。

這一系列模型結(jié)合了幾項(xiàng)關(guān)鍵技術(shù)，包括RoPE（旋轉(zhuǎn)位置編碼）、GQA注意力機(jī)制（Grouped Query Attention）、RMSNorm歸一化（Root Mean Square Normalization）、SwiGLU激活函數(shù)等。這是現(xiàn)代大模型常見的高效組件組合，可提升訓(xùn)練穩(wěn)定性和推理性能。

Seed-OSS的上下文窗口達(dá)512k，相當(dāng)于能一次性處理數(shù)十萬字的內(nèi)容。這一上下文窗口并非后續(xù)擴(kuò)展而來，而是通過原生訓(xùn)練打造的。

思考預(yù)算功能可幫助開發(fā)者控制模型推理成本，優(yōu)化使用體驗(yàn)等。字節(jié)Seed團(tuán)隊(duì)分享了Seed-OSS在不同思考預(yù)算下性能的變化情況。

對于更簡單的任務(wù)（如IFEval），模型的思維鏈較短，隨著思維預(yù)算的增加，分?jǐn)?shù)波動并不明顯。對于更具挑戰(zhàn)性的任務(wù)（如AIME和LiveCodeBench），模型的思維鏈更長，隨著思維預(yù)算的增加，分?jǐn)?shù)也會提高。

字節(jié)Seed團(tuán)隊(duì)稱，如果沒有設(shè)置思維預(yù)算（默認(rèn)模式），Seed-OSS將不會擁有任何思考長度限制。

如果指定了思維預(yù)算，建議優(yōu)先考慮512的整數(shù)倍值，因?yàn)槟Ｐ鸵呀?jīng)在這些區(qū)間上進(jìn)行了大量的訓(xùn)練。

當(dāng)思維預(yù)算為0時，模型會直接輸出內(nèi)容，建議將任何低于512的預(yù)算設(shè)置為0。

Seed-OSS系列模型，獲得了不少開發(fā)者的認(rèn)可。Hugging Face的華人工程師Tiezhen Wang評價道，這一系列模型“很適合做消融研究”。這種研究能以較低的成本，探索不同組件對大模型性能的影響。

有網(wǎng)友稱，這種尺寸的基礎(chǔ)模型在開源界也是比較罕見的，Qwen3就沒有公布14B以上的基礎(chǔ)模型。另一位網(wǎng)友補(bǔ)充道，長上下文能力對真實(shí)應(yīng)用而言有很大的價值。

結(jié)語：從可選項(xiàng)到標(biāo)配，國產(chǎn)開源模型再添新選項(xiàng)

近期，字節(jié)Seed團(tuán)隊(duì)已經(jīng)密集開源了多款模型，除此次的Seed-OSS系列之外，他們還開源了多語言翻譯模型Seed-X、智能體模型Tar系列、圖像編輯模型Vincie等。

如今，開源已經(jīng)逐漸從可選項(xiàng)變?yōu)榻啤皹?biāo)配”的存在，連OpenAI等原本堅(jiān)持閉源策略的廠商，也在逐步開源模型。字節(jié)本次將更為核心的語言模型貢獻(xiàn)給社區(qū)，給開源社區(qū)的后續(xù)研究提供了更多基礎(chǔ)模型的選擇。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.