成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一個(gè)模型超了DeepSeek R1、V3,參數(shù)671B,成本不到350萬美元

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

Deep Cogito,一家鮮為人知的 AI 初創(chuàng)公司,總部位于舊金山,由前谷歌員工創(chuàng)立,如今開源的四款混合推理模型,受到大家廣泛關(guān)注。

  • 2 款中型 ——700 億參數(shù)稠密模型、1090 億 MoE 模型;
  • 2 款大型 ——4050 億參數(shù)稠密模型、6710 億 MoE 模型。

每個(gè)模型都可以直接作答(標(biāo)準(zhǔn) LLM 模式),也可以在作答前進(jìn)行自我反思(類似推理模型)。

其中,最大規(guī)模的 671B MoE 模型是目前全球最強(qiáng)大的開源模型之一,其性能與最新的 DeepSeek v3 和 DeepSeek R1 模型相當(dāng)甚至超越,且接近 o3 和 Claude 4 Opus 等閉源前沿模型。

Deep Cogito 的核心方法是迭代蒸餾與增強(qiáng)(Iterated Distillation and Amplification,簡(jiǎn)稱 IDA),它不依賴手工設(shè)計(jì)的提示詞或靜態(tài)教師模型,而是利用模型自身不斷演化的洞察力來引導(dǎo)訓(xùn)練。

這一過程不是通過延長推理時(shí)間來提升性能,而是讓模型通過迭代式策略改進(jìn)內(nèi)化推理過程。

這是一個(gè)全新的擴(kuò)展范式,使模型逐漸形成更強(qiáng)的直覺,并成為 AI 自我提升(AI 系統(tǒng)自我改進(jìn))概念的有力驗(yàn)證。

由于 Cogito 模型在搜索過程中對(duì)推理路徑有更好的直覺,其推理鏈比 DeepSeek R1 縮短了 60%。

與普遍認(rèn)為技術(shù)創(chuàng)新需要大量基礎(chǔ)設(shè)施投入的觀點(diǎn)相反,這種方法效率極高 —— Cogito 系列模型(總共 8 個(gè),本文是其中的 4 個(gè))的訓(xùn)練總成本不足 350 萬美元,其中已包含合成與人工數(shù)據(jù)生成、超過一千次訓(xùn)練實(shí)驗(yàn)的所有成本。

現(xiàn)在,用戶可以在 Huggingface 上下載模型,或者直接通過 Together AI、Baseten 或 RunPod 上的 API 使用它們,或者使用 Unsloth 在本地運(yùn)行它們。

Huggingface 地址:https://huggingface.co/collections/deepcogito/cogito-v2-preview-6886b5450b897ea2a2389a6b

說到 Deep Cogito,可能許多 AI 從業(yè)者近期才剛剛開始接觸這家公司,Deep Cogito 實(shí)際上已經(jīng)默默耕耘了一年多的時(shí)間。

它于 2025 年 4 月正式走出隱身狀態(tài),并發(fā)布了一系列基于 Meta 的 Llama 3.2 訓(xùn)練的開源模型。那些早期發(fā)布的模型就已展現(xiàn)出頗具前景的表現(xiàn)。

當(dāng)時(shí)最小的 Cogito v1 模型(3B 和 8B)在多個(gè)評(píng)測(cè)基準(zhǔn)上都超越了同尺寸的 Llama 3 模型,有時(shí)差距甚至相當(dāng)明顯。

Deep Cogito 的聯(lián)合創(chuàng)始人兼 CEO Drishan Arora,此前是谷歌大語言模型核心工程師。他將公司的長期目標(biāo)描述為:構(gòu)建能夠像 AlphaGo 那樣通過每次迭代不斷進(jìn)行推理和自我提升的模型。



方法介紹

該研究最主要的目標(biāo)是:將推理步驟蒸餾回模型的參數(shù)中,也就是把推理時(shí)的搜索過程轉(zhuǎn)化為模型的直覺,融入其內(nèi)在能力中。

今年早些時(shí)候,Cogito v1 模型上線,該模型當(dāng)時(shí)就使用了「迭代蒸餾與增強(qiáng) 」技術(shù)。

今天發(fā)布的 Cogito v2 模型在這一研究路徑上進(jìn)一步拓展到了更大規(guī)模的系統(tǒng)上,并將重點(diǎn)放在 IDA 的另一個(gè)關(guān)鍵部分上 —— 通過蒸餾實(shí)現(xiàn)自我改進(jìn)。

在多個(gè)特定領(lǐng)域(如國際象棋、圍棋和撲克),AI 通過兩步循環(huán)(two-step loop)實(shí)現(xiàn)了超人類表現(xiàn):

  • 推理時(shí)計(jì)算:通過消耗算力來搜索解決方案;
  • 策略迭代優(yōu)化:將搜索發(fā)現(xiàn)的知識(shí)蒸餾到模型參數(shù)中,使得下次搜索更容易。

在這一模式下,AlphaGo 是典型代表,LLM 可視為同類系統(tǒng),其推理時(shí)間計(jì)算雖比游戲系統(tǒng)更非結(jié)構(gòu)化(通過生成答案前的「思考過程」實(shí)現(xiàn)),但要完成智能迭代提升的閉環(huán),同樣需要關(guān)鍵的第二步驟 —— 策略迭代優(yōu)化。

也就是說,需要將推理過程蒸餾回模型參數(shù)中,使模型擁有更強(qiáng)的智能先驗(yàn)。這意味著應(yīng)當(dāng)能夠以某種方式利用推理階段的思考過程,使模型本身變得更有能力或更聰明。模型應(yīng)該能夠直接預(yù)測(cè)出推理的結(jié)果(而不是真的執(zhí)行整個(gè)推理過程),并預(yù)判自身推理可能產(chǎn)生的結(jié)果。

盡管近期的 LLM 在推理方面取得了一些進(jìn)展,但這些進(jìn)展大多是依賴于延長推理鏈條,而不是增強(qiáng)模型本身的智能先驗(yàn)。因此,LLM 性能的提升主要依賴于給模型更大的思考預(yù)算(即更多的推理 token),也就是多試幾種可能,而非模型對(duì)哪條搜索路徑更合適有真正的直覺。同樣地,LLM 在非思考模式下的改進(jìn),也主要依賴于加入回溯等啟發(fā)式策略,其本質(zhì)上與窮舉更多路徑?jīng)]有本質(zhì)區(qū)別。

提升模型本身的智能是一個(gè)更加困難的根本性問題,尤其是面對(duì)語言模型中那種非結(jié)構(gòu)化的推理路徑。要解決這個(gè)問題,需要在迭代式策略改進(jìn)方面取得技術(shù)性突破。Cogito v2 就是該研究在這個(gè)方向上邁出的下一步。

該研究相信,在迭代式策略改進(jìn)方向上持續(xù)研究,將有望實(shí)現(xiàn)遠(yuǎn)超單純?cè)黾油评?token 所能帶來的模型能力躍升。

評(píng)估

團(tuán)隊(duì)公布了一些標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估結(jié)果,但特別強(qiáng)調(diào),這些公開基準(zhǔn)測(cè)試固然有其參考價(jià)值,但它們的結(jié)果與團(tuán)隊(duì)的內(nèi)部評(píng)估時(shí)常存在差異。

在他們的內(nèi)部評(píng)估中,Cogito 模型的表現(xiàn)持續(xù)優(yōu)于大多數(shù)開源模型。因此他們相信,自家模型在應(yīng)對(duì)真實(shí)世界的應(yīng)用和評(píng)估時(shí)會(huì)表現(xiàn)出色。

此外,像 o3 和 Claude 4 Opus 這類前沿的閉源模型,它們的實(shí)力也早已超越了這些基準(zhǔn)測(cè)試所能衡量的范疇。

報(bào)告中還提到了一個(gè)有趣的「涌現(xiàn)能力」。盡管 Cogito v2 的訓(xùn)練數(shù)據(jù)完全是文本,但由于其基座模型具備多模態(tài)能力,它似乎通過純粹的遷移學(xué)習(xí),學(xué)會(huì)了對(duì)圖像進(jìn)行復(fù)雜的邏輯推理。

在一個(gè)示例中,模型在被要求對(duì)比兩張風(fēng)馬牛不相及的圖片(一張鴨子和一頭獅子)時(shí),其內(nèi)部的「思考」過程清晰地展示了它如何分析圖像的構(gòu)圖、色彩、主體、環(huán)境乃至情感氛圍,并最終給出了條理清晰的對(duì)比。

這種未經(jīng)專門訓(xùn)練而自發(fā)產(chǎn)生的能力,為研究 AI 的泛化與學(xué)習(xí)機(jī)制提供了新的有趣視角。不過團(tuán)隊(duì)尚未通過視覺基準(zhǔn)測(cè)試評(píng)估此功能。







基準(zhǔn)測(cè)試結(jié)果

70B Dense



109B MoE



405B Dense



671B MoE(非推理)



671B MoE(推理)



https://www.deepcogito.com/research/cogito-v2-preview

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越南這次是真的看明白了:解放軍不是“現(xiàn)代化”,是徹底換代。

越南這次是真的看明白了:解放軍不是“現(xiàn)代化”,是徹底換代。

老友科普
2025-08-04 08:33:48
你有過合租社死的經(jīng)歷嗎?網(wǎng)友:大家心中默念,非禮勿視!

你有過合租社死的經(jīng)歷嗎?網(wǎng)友:大家心中默念,非禮勿視!

解讀熱點(diǎn)事件
2025-07-16 00:15:03
俄羅斯惹出大事,面臨嚴(yán)重后果

俄羅斯惹出大事,面臨嚴(yán)重后果

楊興文
2025-08-30 11:15:03
唯一公開出席閱兵的藝人!演員杜江在現(xiàn)場(chǎng)激動(dòng)發(fā)言,履歷果不簡(jiǎn)單

唯一公開出席閱兵的藝人!演員杜江在現(xiàn)場(chǎng)激動(dòng)發(fā)言,履歷果不簡(jiǎn)單

史書無明
2025-09-03 12:20:08
A股:今天,9月3日,盤中逾4000家個(gè)股普跌,意味著什么?

A股:今天,9月3日,盤中逾4000家個(gè)股普跌,意味著什么?

明心
2025-09-03 11:54:14
蘇有朋翻車,真應(yīng)了王晶的話:有些明星真正的樣子,比路人還差!

蘇有朋翻車,真應(yīng)了王晶的話:有些明星真正的樣子,比路人還差!

青青子衿
2025-08-31 20:13:36
中美日激光武器射程差距太大:美8000米 、日1200米,中國是多少

中美日激光武器射程差距太大:美8000米 、日1200米,中國是多少

近史閣
2025-08-26 10:14:03
誰的鋪位誰做主?女子理直氣壯要求換鋪,網(wǎng)友評(píng)論一針見血

誰的鋪位誰做主?女子理直氣壯要求換鋪,網(wǎng)友評(píng)論一針見血

法老不說教
2025-09-02 18:11:05
馬思純被曝和張曼樂分手!兩人最后同框在6月,網(wǎng)友:普天同慶

馬思純被曝和張曼樂分手!兩人最后同框在6月,網(wǎng)友:普天同慶

檸檬有娛樂
2025-09-03 09:54:23
將軍為什么就是“不鼓掌”

將軍為什么就是“不鼓掌”

上觀新聞
2025-08-30 08:04:09
重要賽事!9月3日下午16:00!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!9月3日下午16:00!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-09-03 10:13:52
27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

第四思維
2025-09-01 09:02:30
外交部發(fā)言人就印尼總統(tǒng)普拉博沃來華出席“9·3”紀(jì)念活動(dòng)答記者問

外交部發(fā)言人就印尼總統(tǒng)普拉博沃來華出席“9·3”紀(jì)念活動(dòng)答記者問

界面新聞
2025-09-03 06:07:49
巴克利:NBA把直播版權(quán)賣給太多平臺(tái),他們只顧賺錢不管球迷

巴克利:NBA把直播版權(quán)賣給太多平臺(tái),他們只顧賺錢不管球迷

雷速體育
2025-09-03 12:30:39
我國九三閱兵,多種新式武器亮相,特朗普首度回應(yīng),非常意外

我國九三閱兵,多種新式武器亮相,特朗普首度回應(yīng),非常意外

DS北風(fēng)
2025-09-03 12:07:07
中國奶粉是全世界最貴的奶粉,現(xiàn)在市面主流的奶粉幾乎全是智商稅

中國奶粉是全世界最貴的奶粉,現(xiàn)在市面主流的奶粉幾乎全是智商稅

流蘇晚晴
2025-09-02 19:36:42
太狠了!網(wǎng)傳岳陽某高中宿舍電吹風(fēng)1.5元5分鐘,一度電18元引爭(zhēng)議

太狠了!網(wǎng)傳岳陽某高中宿舍電吹風(fēng)1.5元5分鐘,一度電18元引爭(zhēng)議

火山詩話
2025-09-03 06:31:14
岳云鵬被罵上熱搜!全紅嬋哥哥用白切雞參加廚綜遭淘汰,兩廣炸鍋

岳云鵬被罵上熱搜!全紅嬋哥哥用白切雞參加廚綜遭淘汰,兩廣炸鍋

史行途
2025-09-03 08:44:46
五大上市險(xiǎn)企投資日賺超20億,股票投資達(dá)1.85萬億!新華保險(xiǎn)投資收益率領(lǐng)跑

五大上市險(xiǎn)企投資日賺超20億,股票投資達(dá)1.85萬億!新華保險(xiǎn)投資收益率領(lǐng)跑

時(shí)代投研
2025-09-02 21:47:14
中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

一個(gè)有靈魂的作者
2025-08-27 17:08:06
2025-09-03 14:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11217文章數(shù) 142439關(guān)注度
往期回顧 全部

科技要聞

谷歌搜索反壟斷案宣判:Chrome保住了

頭條要聞

游客從西安趕到北京看閱兵 稱看到戰(zhàn)機(jī)編隊(duì)"這趟值了"

頭條要聞

游客從西安趕到北京看閱兵 稱看到戰(zhàn)機(jī)編隊(duì)"這趟值了"

體育要聞

從山西到達(dá)拉斯,李月汝與她的籃球野心

娛樂要聞

謝霆鋒與王菲vs張柏芝合影 對(duì)比明顯

財(cái)經(jīng)要聞

黃金新一波漲勢(shì)來了!這輪能下場(chǎng)嗎?

汽車要聞

帶激光雷達(dá)的純電小型SUV 長安啟源全新Q05配色曝光

態(tài)度原創(chuàng)

家居
教育
時(shí)尚
旅游
房產(chǎn)

家居要聞

與光同塵 居于自然空間

教育要聞

跟同學(xué)相處的6個(gè)潛規(guī)則,新學(xué)期趕緊告訴孩子,省得吃啞巴虧

三種適合9月的風(fēng)格,好漂亮

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

無障礙瀏覽 進(jìn)入關(guān)懷版