成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)首次開源推理模型,連奪7項(xiàng)第一

0
分享至


智東西
作者 陳駿達(dá)
編輯 心緣

智東西8月21日報(bào)道,今天,字節(jié)跳動Seed團(tuán)隊(duì)開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設(shè)計(jì),將上下文窗口擴(kuò)展至512k,是業(yè)界常見上下文窗口(128k)的4倍,GPT-5上下文窗口的2倍,相當(dāng)于1600頁文本。


Seed-OSS系列模型是推理模型,專門針對推理任務(wù)進(jìn)行了優(yōu)化,還允許用戶靈活地控制思維預(yù)算。

字節(jié)Seed團(tuán)隊(duì)共開源了Seed-OSS的三個版本,分別為:

(1)基礎(chǔ)模型Seed-OSS-36B-Base

(2)無合成數(shù)據(jù)基礎(chǔ)模型Seed-OSS-36B-Base-woSyn

(3)指令微調(diào)模型Seed-OSS-36B-Instruct

指令微調(diào)后的Seed-OSS-36B-Instruct在通用知識、Agent、編程、長上下文等領(lǐng)域的基準(zhǔn)測試中,取得同量級開源模型中的7項(xiàng)SOTA(性能最佳)表現(xiàn),整體能力超過了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,與Qwen3-30B-A3B-Thinking-2507在大部分領(lǐng)域旗鼓相當(dāng)。


▲基準(zhǔn)測試結(jié)果,加粗項(xiàng)為開源SOTA(圖源:Hugging Face)

Seed-OSS系列模型采用了寬松的Apache2.0開源協(xié)議,并會在后續(xù)發(fā)布模型的詳細(xì)技術(shù)報(bào)告。

開源地址:

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

值得一提的是,字節(jié)Seed團(tuán)隊(duì)本次的發(fā)布方式較為“研究友好”。鑒于在預(yù)訓(xùn)練中包含合成指令數(shù)據(jù)可能會影響后訓(xùn)練研究,無合成數(shù)據(jù)基礎(chǔ)模型的發(fā)布,為研究社區(qū)提供了更多樣化的選擇。這一系列模型還支持4位和8位格式的量化,以減少內(nèi)存需求。

Seed-OSS系列模型使用了12萬億個token的預(yù)訓(xùn)練數(shù)據(jù),采用當(dāng)前主流的因果語言模型架構(gòu),也就是“預(yù)測下一個token”類型的模型。同時,Seed-OSS系列均為稠密模型,沒有采用MoE等架構(gòu)。

這一系列模型結(jié)合了幾項(xiàng)關(guān)鍵技術(shù),包括RoPE(旋轉(zhuǎn)位置編碼)、GQA注意力機(jī)制(Grouped Query Attention)、RMSNorm歸一化(Root Mean Square Normalization)、SwiGLU激活函數(shù)等。這是現(xiàn)代大模型常見的高效組件組合,可提升訓(xùn)練穩(wěn)定性和推理性能。

Seed-OSS的上下文窗口達(dá)512k,相當(dāng)于能一次性處理數(shù)十萬字的內(nèi)容。這一上下文窗口并非后續(xù)擴(kuò)展而來,而是通過原生訓(xùn)練打造的。

思考預(yù)算功能可幫助開發(fā)者控制模型推理成本,優(yōu)化使用體驗(yàn)等。字節(jié)Seed團(tuán)隊(duì)分享了Seed-OSS在不同思考預(yù)算下性能的變化情況。

對于更簡單的任務(wù)(如IFEval),模型的思維鏈較短,隨著思維預(yù)算的增加,分?jǐn)?shù)波動并不明顯。對于更具挑戰(zhàn)性的任務(wù)(如AIME和LiveCodeBench),模型的思維鏈更長,隨著思維預(yù)算的增加,分?jǐn)?shù)也會提高。


字節(jié)Seed團(tuán)隊(duì)稱,如果沒有設(shè)置思維預(yù)算(默認(rèn)模式),Seed-OSS將不會擁有任何思考長度限制。

如果指定了思維預(yù)算,建議優(yōu)先考慮512的整數(shù)倍值,因?yàn)槟P鸵呀?jīng)在這些區(qū)間上進(jìn)行了大量的訓(xùn)練。

當(dāng)思維預(yù)算為0時,模型會直接輸出內(nèi)容,建議將任何低于512的預(yù)算設(shè)置為0。

Seed-OSS系列模型,獲得了不少開發(fā)者的認(rèn)可。Hugging Face的華人工程師Tiezhen Wang評價道,這一系列模型“很適合做消融研究”。這種研究能以較低的成本,探索不同組件對大模型性能的影響。


有網(wǎng)友稱,這種尺寸的基礎(chǔ)模型在開源界也是比較罕見的,Qwen3就沒有公布14B以上的基礎(chǔ)模型。另一位網(wǎng)友補(bǔ)充道,長上下文能力對真實(shí)應(yīng)用而言有很大的價值。


結(jié)語:從可選項(xiàng)到標(biāo)配,國產(chǎn)開源模型再添新選項(xiàng)

近期,字節(jié)Seed團(tuán)隊(duì)已經(jīng)密集開源了多款模型,除此次的Seed-OSS系列之外,他們還開源了多語言翻譯模型Seed-X、智能體模型Tar系列、圖像編輯模型Vincie等。

如今,開源已經(jīng)逐漸從可選項(xiàng)變?yōu)榻啤皹?biāo)配”的存在,連OpenAI等原本堅(jiān)持閉源策略的廠商,也在逐步開源模型。字節(jié)本次將更為核心的語言模型貢獻(xiàn)給社區(qū),給開源社區(qū)的后續(xù)研究提供了更多基礎(chǔ)模型的選擇。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中華人民共和國和亞美尼亞共和國關(guān)于建立戰(zhàn)略伙伴關(guān)系的聯(lián)合聲明

中華人民共和國和亞美尼亞共和國關(guān)于建立戰(zhàn)略伙伴關(guān)系的聯(lián)合聲明

新京報(bào)
2025-08-31 16:19:25
5000萬歐真香!馬卡:許多人質(zhì)疑A費(fèi)轉(zhuǎn)會費(fèi),他僅用3場就證明自己

5000萬歐真香!馬卡:許多人質(zhì)疑A費(fèi)轉(zhuǎn)會費(fèi),他僅用3場就證明自己

直播吧
2025-08-31 17:40:30
乒超聯(lián)賽大爆冷!王楚欽遭遇單打首敗,對手曾戰(zhàn)勝國乒7大主力

乒超聯(lián)賽大爆冷!王楚欽遭遇單打首敗,對手曾戰(zhàn)勝國乒7大主力

全言作品
2025-08-31 20:40:51
即將消失的蒙古國:全國只有一條高速公路,76%的國土正在成沙漠

即將消失的蒙古國:全國只有一條高速公路,76%的國土正在成沙漠

芳芳?xì)v史燴
2025-08-08 19:02:24
遮羞布?沒了!央媒痛批造車新勢力“瞞天過海”,套路被戳穿了

遮羞布?沒了!央媒痛批造車新勢力“瞞天過?!?,套路被戳穿了

小李車評李建紅
2025-08-29 07:21:18
亞特蘭大隊(duì)玩砸了:低價推銷6000萬前鋒,卻無人問津!

亞特蘭大隊(duì)玩砸了:低價推銷6000萬前鋒,卻無人問津!

越嶺尋蹤
2025-08-31 19:45:43
歐媒:塞爾維亞主力后衛(wèi)博格丹腿筋撕裂,將缺席歐錦賽剩余比賽

歐媒:塞爾維亞主力后衛(wèi)博格丹腿筋撕裂,將缺席歐錦賽剩余比賽

懂球帝
2025-08-31 16:23:42
蔣凡回來了,阿里的電商也回來了

蔣凡回來了,阿里的電商也回來了

侃故事的阿慶
2025-08-31 15:11:50
22萬買了雷軍的小米SU7,再開朋友的特斯拉,發(fā)現(xiàn)不是一個檔次

22萬買了雷軍的小米SU7,再開朋友的特斯拉,發(fā)現(xiàn)不是一個檔次

176翠翠
2025-08-29 10:53:43
北京市最新消息:關(guān)于對北京地鐵建議的官方回復(fù)

北京市最新消息:關(guān)于對北京地鐵建議的官方回復(fù)

童童聊娛樂啊
2025-08-31 17:59:09
中超23輪積分榜:爭冠4隊(duì)僅1隊(duì)贏球,申花跌至第2,國安慘敗排第4

中超23輪積分榜:爭冠4隊(duì)僅1隊(duì)贏球,申花跌至第2,國安慘敗排第4

中超偽球迷
2025-08-31 21:47:07
上海市區(qū)最不幸的板塊,房價膝蓋斬之后,竟然賣爆了?

上海市區(qū)最不幸的板塊,房價膝蓋斬之后,竟然賣爆了?

環(huán)線房產(chǎn)咨詢
2025-08-31 19:43:46
這回真要排隊(duì)買本田了,2026款本田奧德賽驚艷亮相,神車再進(jìn)化!

這回真要排隊(duì)買本田了,2026款本田奧德賽驚艷亮相,神車再進(jìn)化!

三農(nóng)老歷
2025-08-31 01:33:40
南京大學(xué)33歲東思嘉自殺去世!老公大14歲,是副院長,曝其出軌

南京大學(xué)33歲東思嘉自殺去世!老公大14歲,是副院長,曝其出軌

180視角
2025-08-29 09:32:14
男星許凱要塌房了,以一己之力將半個娛樂圈拉下水,牽連多位藝人

男星許凱要塌房了,以一己之力將半個娛樂圈拉下水,牽連多位藝人

流年拾光
2025-08-26 20:17:22
難逃下課?55歲前曼聯(lián)主帥又和隊(duì)內(nèi)“C羅”開戰(zhàn):你說謊 不可容忍

難逃下課?55歲前曼聯(lián)主帥又和隊(duì)內(nèi)“C羅”開戰(zhàn):你說謊 不可容忍

風(fēng)過鄉(xiāng)
2025-08-31 08:39:35
100架只是開始?美空軍直言B-21采購計(jì)劃“可能不夠”

100架只是開始?美空軍直言B-21采購計(jì)劃“可能不夠”

魚莫語
2025-08-29 17:15:28
“防藍(lán)光”手機(jī)膜真有效嗎?記者調(diào)查揭開真相

“防藍(lán)光”手機(jī)膜真有效嗎?記者調(diào)查揭開真相

環(huán)球網(wǎng)資訊
2025-08-31 16:36:37
越南高層重大人事調(diào)整

越南高層重大人事調(diào)整

萬國明信片
2025-08-31 09:06:32
澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

深析古今
2025-08-25 10:41:34
2025-08-31 22:59:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10390文章數(shù) 116838關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

本地
藝術(shù)
親子
旅游
教育

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

她有兩個子宮,同時懷孕!醫(yī)生:堪比中彩票

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

江蘇考生|??频奖究频哪嬉u!|幫學(xué)生成功“撿漏”本科名額

無障礙瀏覽 進(jìn)入關(guān)懷版