網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，字節(jié)開源Seed-OSS-36B模型，512k上下文

2025-08-21 10:11:51　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

開源賽道也是熱鬧了起來。

就在深夜，字節(jié)跳動 Seed 團(tuán)隊(duì)正式發(fā)布并開源了 Seed-OSS 系列模型，包含三個(gè)版本：

Seed-OSS-36B-Base（含合成數(shù)據(jù)）
Seed-OSS-36B-Base（不含合成數(shù)據(jù)）
Seed-OSS-36B-Instruct（指令微調(diào)版）

Hugging Face 地址：https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
項(xiàng)目地址：https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 萬億（12T）tokens 進(jìn)行訓(xùn)練，并在多個(gè)主流開源基準(zhǔn)測試中取得了出色的表現(xiàn)。

這三個(gè)模型均以 Apache-2.0 許可證發(fā)布，允許研究人員和企業(yè)開發(fā)者自由使用、修改和再分發(fā)。

主要特性：

靈活的推理預(yù)算控制：允許用戶根據(jù)需要靈活調(diào)整推理長度。這種對推理長度的動態(tài)控制能力，可在實(shí)際應(yīng)用場景中提升推理效率。
增強(qiáng)的推理能力：在保持平衡且優(yōu)秀的通用能力的同時(shí)，針對推理任務(wù)進(jìn)行了特別優(yōu)化。
智能體能力：在涉及工具使用和問題解決等智能體任務(wù)中表現(xiàn)突出。
研究友好：考慮到在預(yù)訓(xùn)練中加入合成指令數(shù)據(jù)可能會影響后續(xù)研究，字節(jié)同時(shí)發(fā)布了含有與不含指令數(shù)據(jù)的預(yù)訓(xùn)練模型，為研究社區(qū)提供了更多樣化的選擇。
原生長上下文：在訓(xùn)練中原生支持最長 512K 的上下文窗口。

模型架構(gòu)

Seed-OSS-36B 的架構(gòu)結(jié)合了多種常見的設(shè)計(jì)選擇，包括因果語言建模、分組查詢注意力（Grouped Query Attention）、SwiGLU 激活函數(shù)、RMSNorm 和 RoPE 位置編碼。

每個(gè)模型包含 360 億參數(shù)，分布在 64 層網(wǎng)絡(luò)中，并支持 15.5 萬詞表。

其最具代表性的特性之一是原生長上下文能力，最大上下文長度可達(dá) 512k tokens，能夠在不損失性能的情況下處理超長文檔和推理鏈。

這一長度是 OpenAI 最新 GPT-5 模型系列的兩倍，大約相當(dāng)于 1600 頁文本。

另一個(gè)顯著的特性是引入了推理預(yù)算，它允許開發(fā)者在模型給出答案之前，指定模型應(yīng)執(zhí)行多少推理過程。

這一設(shè)計(jì)在近期其他一些開源模型中也有所體現(xiàn)，例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在實(shí)際應(yīng)用中，這意味著團(tuán)隊(duì)可以根據(jù)任務(wù)的復(fù)雜性和部署的效率需求來調(diào)節(jié)性能。

推薦的預(yù)算值為 512 tokens 的倍數(shù)，其中 0 表示直接輸出答案的模式。

結(jié)果

基準(zhǔn)測試結(jié)果顯示，Seed-OSS-36B 位列當(dāng)前性能較強(qiáng)的開源大模型之列。

Seed-OSS-36B-Base

含合成數(shù)據(jù)版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分，在 MATH 上取得 81.7 得分。非合成基礎(chǔ)版本雖然在許多方面略微落后，但也具有競爭力。

Seed-OSS-36B-Instruct

Instruct 版本在多個(gè)領(lǐng)域都取得了 SOTA 成績。

數(shù)學(xué)與推理：Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成績，在 BeyondAIME 上取得 65，均代表開源領(lǐng)域的最新 SOTA 水平。
代碼能力：在 LiveCodeBench v6 上，Instruct 模型得分 67.4，同樣刷新 SOTA 紀(jì)錄。
長上下文處理：在 RULER（128K 上下文長度）測試中，該模型達(dá)到 94.6，創(chuàng)下開源模型的最高分。

思考預(yù)算

用戶可以靈活指定模型的推理預(yù)算。下圖展示了在不同任務(wù)中，隨著推理預(yù)算變化而產(chǎn)生的性能曲線。

對于較簡單的任務(wù)（如 IFEval），模型的思維鏈較短，隨著推理預(yù)算的增加，分?jǐn)?shù)會出現(xiàn)一定波動。

而在更具挑戰(zhàn)性的任務(wù)（如 AIME 和 LiveCodeBench）中，模型的思維鏈較長，分?jǐn)?shù)則會隨著推理預(yù)算的增加而提升。

模型在運(yùn)行過程，會提醒用戶 token 使用情況：

Got it, let's try to solve this problem step by step. The problem says ... ...

I have used 129 tokens, and there are 383 tokens remaining for use.

Using the power rule, ... ...

I have used 258 tokens, and there are 254 tokens remaining for use.

Alternatively, remember that ... ...

I have used 393 tokens, and there are 119 tokens remaining for use.

Because if ... ...

I have exhausted my token budget, and now I will start answering the question.

To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未設(shè)置推理預(yù)算（默認(rèn)模式），Seed-OSS 將以無限長度啟動推理。

如果指定了推理預(yù)算，字節(jié)建議用戶優(yōu)先選擇 512 的整數(shù)倍數(shù)（如 512、1K、2K、4K、8K 或 16K），因?yàn)槟Ｐ鸵言谶@些區(qū)間上進(jìn)行了大量訓(xùn)練。

當(dāng)推理預(yù)算為 0 時(shí)，模型會被指示直接輸出答案；對于低于 512 的預(yù)算，字節(jié)也建議統(tǒng)一設(shè)為 0。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.