智東西
作者 陳駿達(dá)
編輯 心緣
智東西8月21日報(bào)道,今天,字節(jié)跳動Seed團(tuán)隊(duì)開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設(shè)計(jì),將上下文窗口擴(kuò)展至512k,是業(yè)界常見上下文窗口(128k)的4倍,GPT-5上下文窗口的2倍,相當(dāng)于1600頁文本。
Seed-OSS系列模型是推理模型,專門針對推理任務(wù)進(jìn)行了優(yōu)化,還允許用戶靈活地控制思維預(yù)算。
字節(jié)Seed團(tuán)隊(duì)共開源了Seed-OSS的三個版本,分別為:
(1)基礎(chǔ)模型Seed-OSS-36B-Base
(2)無合成數(shù)據(jù)基礎(chǔ)模型Seed-OSS-36B-Base-woSyn
(3)指令微調(diào)模型Seed-OSS-36B-Instruct
指令微調(diào)后的Seed-OSS-36B-Instruct在通用知識、Agent、編程、長上下文等領(lǐng)域的基準(zhǔn)測試中,取得同量級開源模型中的7項(xiàng)SOTA(性能最佳)表現(xiàn),整體能力超過了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,與Qwen3-30B-A3B-Thinking-2507在大部分領(lǐng)域旗鼓相當(dāng)。
▲基準(zhǔn)測試結(jié)果,加粗項(xiàng)為開源SOTA(圖源:Hugging Face)
Seed-OSS系列模型采用了寬松的Apache2.0開源協(xié)議,并會在后續(xù)發(fā)布模型的詳細(xì)技術(shù)報(bào)告。
開源地址:
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
值得一提的是,字節(jié)Seed團(tuán)隊(duì)本次的發(fā)布方式較為“研究友好”。鑒于在預(yù)訓(xùn)練中包含合成指令數(shù)據(jù)可能會影響后訓(xùn)練研究,無合成數(shù)據(jù)基礎(chǔ)模型的發(fā)布,為研究社區(qū)提供了更多樣化的選擇。這一系列模型還支持4位和8位格式的量化,以減少內(nèi)存需求。
Seed-OSS系列模型使用了12萬億個token的預(yù)訓(xùn)練數(shù)據(jù),采用當(dāng)前主流的因果語言模型架構(gòu),也就是“預(yù)測下一個token”類型的模型。同時,Seed-OSS系列均為稠密模型,沒有采用MoE等架構(gòu)。
這一系列模型結(jié)合了幾項(xiàng)關(guān)鍵技術(shù),包括RoPE(旋轉(zhuǎn)位置編碼)、GQA注意力機(jī)制(Grouped Query Attention)、RMSNorm歸一化(Root Mean Square Normalization)、SwiGLU激活函數(shù)等。這是現(xiàn)代大模型常見的高效組件組合,可提升訓(xùn)練穩(wěn)定性和推理性能。
Seed-OSS的上下文窗口達(dá)512k,相當(dāng)于能一次性處理數(shù)十萬字的內(nèi)容。這一上下文窗口并非后續(xù)擴(kuò)展而來,而是通過原生訓(xùn)練打造的。
思考預(yù)算功能可幫助開發(fā)者控制模型推理成本,優(yōu)化使用體驗(yàn)等。字節(jié)Seed團(tuán)隊(duì)分享了Seed-OSS在不同思考預(yù)算下性能的變化情況。
對于更簡單的任務(wù)(如IFEval),模型的思維鏈較短,隨著思維預(yù)算的增加,分?jǐn)?shù)波動并不明顯。對于更具挑戰(zhàn)性的任務(wù)(如AIME和LiveCodeBench),模型的思維鏈更長,隨著思維預(yù)算的增加,分?jǐn)?shù)也會提高。
字節(jié)Seed團(tuán)隊(duì)稱,如果沒有設(shè)置思維預(yù)算(默認(rèn)模式),Seed-OSS將不會擁有任何思考長度限制。
如果指定了思維預(yù)算,建議優(yōu)先考慮512的整數(shù)倍值,因?yàn)槟P鸵呀?jīng)在這些區(qū)間上進(jìn)行了大量的訓(xùn)練。
當(dāng)思維預(yù)算為0時,模型會直接輸出內(nèi)容,建議將任何低于512的預(yù)算設(shè)置為0。
Seed-OSS系列模型,獲得了不少開發(fā)者的認(rèn)可。Hugging Face的華人工程師Tiezhen Wang評價道,這一系列模型“很適合做消融研究”。這種研究能以較低的成本,探索不同組件對大模型性能的影響。
有網(wǎng)友稱,這種尺寸的基礎(chǔ)模型在開源界也是比較罕見的,Qwen3就沒有公布14B以上的基礎(chǔ)模型。另一位網(wǎng)友補(bǔ)充道,長上下文能力對真實(shí)應(yīng)用而言有很大的價值。
結(jié)語:從可選項(xiàng)到標(biāo)配,國產(chǎn)開源模型再添新選項(xiàng)
近期,字節(jié)Seed團(tuán)隊(duì)已經(jīng)密集開源了多款模型,除此次的Seed-OSS系列之外,他們還開源了多語言翻譯模型Seed-X、智能體模型Tar系列、圖像編輯模型Vincie等。
如今,開源已經(jīng)逐漸從可選項(xiàng)變?yōu)榻啤皹?biāo)配”的存在,連OpenAI等原本堅(jiān)持閉源策略的廠商,也在逐步開源模型。字節(jié)本次將更為核心的語言模型貢獻(xiàn)給社區(qū),給開源社區(qū)的后續(xù)研究提供了更多基礎(chǔ)模型的選擇。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.