網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一個(gè)模型超了DeepSeek R1、V3，參數(shù)671B，成本不到350萬美元

2025-08-04 16:15:47　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

Deep Cogito，一家鮮為人知的 AI 初創(chuàng)公司，總部位于舊金山，由前谷歌員工創(chuàng)立，如今開源的四款混合推理模型，受到大家廣泛關(guān)注。

2 款中型 ——700 億參數(shù)稠密模型、1090 億 MoE 模型；
2 款大型 ——4050 億參數(shù)稠密模型、6710 億 MoE 模型。

每個(gè)模型都可以直接作答（標(biāo)準(zhǔn) LLM 模式），也可以在作答前進(jìn)行自我反思（類似推理模型）。

其中，最大規(guī)模的 671B MoE 模型是目前全球最強(qiáng)大的開源模型之一，其性能與最新的 DeepSeek v3 和 DeepSeek R1 模型相當(dāng)甚至超越，且接近 o3 和 Claude 4 Opus 等閉源前沿模型。

Deep Cogito 的核心方法是迭代蒸餾與增強(qiáng)（Iterated Distillation and Amplification，簡(jiǎn)稱 IDA），它不依賴手工設(shè)計(jì)的提示詞或靜態(tài)教師模型，而是利用模型自身不斷演化的洞察力來引導(dǎo)訓(xùn)練。

這一過程不是通過延長推理時(shí)間來提升性能，而是讓模型通過迭代式策略改進(jìn)內(nèi)化推理過程。

這是一個(gè)全新的擴(kuò)展范式，使模型逐漸形成更強(qiáng)的直覺，并成為 AI 自我提升（AI 系統(tǒng)自我改進(jìn)）概念的有力驗(yàn)證。

由于 Cogito 模型在搜索過程中對(duì)推理路徑有更好的直覺，其推理鏈比 DeepSeek R1 縮短了 60%。

與普遍認(rèn)為技術(shù)創(chuàng)新需要大量基礎(chǔ)設(shè)施投入的觀點(diǎn)相反，這種方法效率極高 —— Cogito 系列模型（總共 8 個(gè)，本文是其中的 4 個(gè)）的訓(xùn)練總成本不足 350 萬美元，其中已包含合成與人工數(shù)據(jù)生成、超過一千次訓(xùn)練實(shí)驗(yàn)的所有成本。

現(xiàn)在，用戶可以在 Huggingface 上下載模型，或者直接通過 Together AI、Baseten 或 RunPod 上的 API 使用它們，或者使用 Unsloth 在本地運(yùn)行它們。

Huggingface 地址：https://huggingface.co/collections/deepcogito/cogito-v2-preview-6886b5450b897ea2a2389a6b

說到 Deep Cogito，可能許多 AI 從業(yè)者近期才剛剛開始接觸這家公司，Deep Cogito 實(shí)際上已經(jīng)默默耕耘了一年多的時(shí)間。

它于 2025 年 4 月正式走出隱身狀態(tài)，并發(fā)布了一系列基于 Meta 的 Llama 3.2 訓(xùn)練的開源模型。那些早期發(fā)布的模型就已展現(xiàn)出頗具前景的表現(xiàn)。

當(dāng)時(shí)最小的 Cogito v1 模型（3B 和 8B）在多個(gè)評(píng)測(cè)基準(zhǔn)上都超越了同尺寸的 Llama 3 模型，有時(shí)差距甚至相當(dāng)明顯。

Deep Cogito 的聯(lián)合創(chuàng)始人兼 CEO Drishan Arora，此前是谷歌大語言模型核心工程師。他將公司的長期目標(biāo)描述為：構(gòu)建能夠像 AlphaGo 那樣通過每次迭代不斷進(jìn)行推理和自我提升的模型。

方法介紹

該研究最主要的目標(biāo)是：將推理步驟蒸餾回模型的參數(shù)中，也就是把推理時(shí)的搜索過程轉(zhuǎn)化為模型的直覺，融入其內(nèi)在能力中。

今年早些時(shí)候，Cogito v1 模型上線，該模型當(dāng)時(shí)就使用了「迭代蒸餾與增強(qiáng) 」技術(shù)。

今天發(fā)布的 Cogito v2 模型在這一研究路徑上進(jìn)一步拓展到了更大規(guī)模的系統(tǒng)上，并將重點(diǎn)放在 IDA 的另一個(gè)關(guān)鍵部分上 —— 通過蒸餾實(shí)現(xiàn)自我改進(jìn)。

在多個(gè)特定領(lǐng)域（如國際象棋、圍棋和撲克），AI 通過兩步循環(huán)（two-step loop）實(shí)現(xiàn)了超人類表現(xiàn)：

推理時(shí)計(jì)算：通過消耗算力來搜索解決方案；
策略迭代優(yōu)化：將搜索發(fā)現(xiàn)的知識(shí)蒸餾到模型參數(shù)中，使得下次搜索更容易。

在這一模式下，AlphaGo 是典型代表，LLM 可視為同類系統(tǒng)，其推理時(shí)間計(jì)算雖比游戲系統(tǒng)更非結(jié)構(gòu)化（通過生成答案前的「思考過程」實(shí)現(xiàn)），但要完成智能迭代提升的閉環(huán)，同樣需要關(guān)鍵的第二步驟 —— 策略迭代優(yōu)化。

也就是說，需要將推理過程蒸餾回模型參數(shù)中，使模型擁有更強(qiáng)的智能先驗(yàn)。這意味著應(yīng)當(dāng)能夠以某種方式利用推理階段的思考過程，使模型本身變得更有能力或更聰明。模型應(yīng)該能夠直接預(yù)測(cè)出推理的結(jié)果（而不是真的執(zhí)行整個(gè)推理過程），并預(yù)判自身推理可能產(chǎn)生的結(jié)果。

盡管近期的 LLM 在推理方面取得了一些進(jìn)展，但這些進(jìn)展大多是依賴于延長推理鏈條，而不是增強(qiáng)模型本身的智能先驗(yàn)。因此，LLM 性能的提升主要依賴于給模型更大的思考預(yù)算（即更多的推理 token），也就是多試幾種可能，而非模型對(duì)哪條搜索路徑更合適有真正的直覺。同樣地，LLM 在非思考模式下的改進(jìn)，也主要依賴于加入回溯等啟發(fā)式策略，其本質(zhì)上與窮舉更多路徑?jīng)]有本質(zhì)區(qū)別。

提升模型本身的智能是一個(gè)更加困難的根本性問題，尤其是面對(duì)語言模型中那種非結(jié)構(gòu)化的推理路徑。要解決這個(gè)問題，需要在迭代式策略改進(jìn)方面取得技術(shù)性突破。Cogito v2 就是該研究在這個(gè)方向上邁出的下一步。

該研究相信，在迭代式策略改進(jìn)方向上持續(xù)研究，將有望實(shí)現(xiàn)遠(yuǎn)超單純?cè)黾油评?token 所能帶來的模型能力躍升。

評(píng)估

團(tuán)隊(duì)公布了一些標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估結(jié)果，但特別強(qiáng)調(diào)，這些公開基準(zhǔn)測(cè)試固然有其參考價(jià)值，但它們的結(jié)果與團(tuán)隊(duì)的內(nèi)部評(píng)估時(shí)常存在差異。

在他們的內(nèi)部評(píng)估中，Cogito 模型的表現(xiàn)持續(xù)優(yōu)于大多數(shù)開源模型。因此他們相信，自家模型在應(yīng)對(duì)真實(shí)世界的應(yīng)用和評(píng)估時(shí)會(huì)表現(xiàn)出色。

此外，像 o3 和 Claude 4 Opus 這類前沿的閉源模型，它們的實(shí)力也早已超越了這些基準(zhǔn)測(cè)試所能衡量的范疇。

報(bào)告中還提到了一個(gè)有趣的「涌現(xiàn)能力」。盡管 Cogito v2 的訓(xùn)練數(shù)據(jù)完全是文本，但由于其基座模型具備多模態(tài)能力，它似乎通過純粹的遷移學(xué)習(xí)，學(xué)會(huì)了對(duì)圖像進(jìn)行復(fù)雜的邏輯推理。

在一個(gè)示例中，模型在被要求對(duì)比兩張風(fēng)馬牛不相及的圖片（一張鴨子和一頭獅子）時(shí)，其內(nèi)部的「思考」過程清晰地展示了它如何分析圖像的構(gòu)圖、色彩、主體、環(huán)境乃至情感氛圍，并最終給出了條理清晰的對(duì)比。

這種未經(jīng)專門訓(xùn)練而自發(fā)產(chǎn)生的能力，為研究 AI 的泛化與學(xué)習(xí)機(jī)制提供了新的有趣視角。不過團(tuán)隊(duì)尚未通過視覺基準(zhǔn)測(cè)試評(píng)估此功能。

基準(zhǔn)測(cè)試結(jié)果

70B Dense

109B MoE

405B Dense

671B MoE（非推理）

671B MoE（推理）

https://www.deepcogito.com/research/cogito-v2-preview

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.