機(jī)器之心報(bào)道
機(jī)器之心編輯部
Deep Cogito,一家鮮為人知的 AI 初創(chuàng)公司,總部位于舊金山,由前谷歌員工創(chuàng)立,如今開源的四款混合推理模型,受到大家廣泛關(guān)注。
- 2 款中型 ——700 億參數(shù)稠密模型、1090 億 MoE 模型;
- 2 款大型 ——4050 億參數(shù)稠密模型、6710 億 MoE 模型。
每個(gè)模型都可以直接作答(標(biāo)準(zhǔn) LLM 模式),也可以在作答前進(jìn)行自我反思(類似推理模型)。
其中,最大規(guī)模的 671B MoE 模型是目前全球最強(qiáng)大的開源模型之一,其性能與最新的 DeepSeek v3 和 DeepSeek R1 模型相當(dāng)甚至超越,且接近 o3 和 Claude 4 Opus 等閉源前沿模型。
Deep Cogito 的核心方法是迭代蒸餾與增強(qiáng)(Iterated Distillation and Amplification,簡(jiǎn)稱 IDA),它不依賴手工設(shè)計(jì)的提示詞或靜態(tài)教師模型,而是利用模型自身不斷演化的洞察力來引導(dǎo)訓(xùn)練。
這一過程不是通過延長推理時(shí)間來提升性能,而是讓模型通過迭代式策略改進(jìn)內(nèi)化推理過程。
這是一個(gè)全新的擴(kuò)展范式,使模型逐漸形成更強(qiáng)的直覺,并成為 AI 自我提升(AI 系統(tǒng)自我改進(jìn))概念的有力驗(yàn)證。
由于 Cogito 模型在搜索過程中對(duì)推理路徑有更好的直覺,其推理鏈比 DeepSeek R1 縮短了 60%。
與普遍認(rèn)為技術(shù)創(chuàng)新需要大量基礎(chǔ)設(shè)施投入的觀點(diǎn)相反,這種方法效率極高 —— Cogito 系列模型(總共 8 個(gè),本文是其中的 4 個(gè))的訓(xùn)練總成本不足 350 萬美元,其中已包含合成與人工數(shù)據(jù)生成、超過一千次訓(xùn)練實(shí)驗(yàn)的所有成本。
現(xiàn)在,用戶可以在 Huggingface 上下載模型,或者直接通過 Together AI、Baseten 或 RunPod 上的 API 使用它們,或者使用 Unsloth 在本地運(yùn)行它們。
Huggingface 地址:https://huggingface.co/collections/deepcogito/cogito-v2-preview-6886b5450b897ea2a2389a6b
說到 Deep Cogito,可能許多 AI 從業(yè)者近期才剛剛開始接觸這家公司,Deep Cogito 實(shí)際上已經(jīng)默默耕耘了一年多的時(shí)間。
它于 2025 年 4 月正式走出隱身狀態(tài),并發(fā)布了一系列基于 Meta 的 Llama 3.2 訓(xùn)練的開源模型。那些早期發(fā)布的模型就已展現(xiàn)出頗具前景的表現(xiàn)。
當(dāng)時(shí)最小的 Cogito v1 模型(3B 和 8B)在多個(gè)評(píng)測(cè)基準(zhǔn)上都超越了同尺寸的 Llama 3 模型,有時(shí)差距甚至相當(dāng)明顯。
Deep Cogito 的聯(lián)合創(chuàng)始人兼 CEO Drishan Arora,此前是谷歌大語言模型核心工程師。他將公司的長期目標(biāo)描述為:構(gòu)建能夠像 AlphaGo 那樣通過每次迭代不斷進(jìn)行推理和自我提升的模型。
方法介紹
該研究最主要的目標(biāo)是:將推理步驟蒸餾回模型的參數(shù)中,也就是把推理時(shí)的搜索過程轉(zhuǎn)化為模型的直覺,融入其內(nèi)在能力中。
今年早些時(shí)候,Cogito v1 模型上線,該模型當(dāng)時(shí)就使用了「迭代蒸餾與增強(qiáng) 」技術(shù)。
今天發(fā)布的 Cogito v2 模型在這一研究路徑上進(jìn)一步拓展到了更大規(guī)模的系統(tǒng)上,并將重點(diǎn)放在 IDA 的另一個(gè)關(guān)鍵部分上 —— 通過蒸餾實(shí)現(xiàn)自我改進(jìn)。
在多個(gè)特定領(lǐng)域(如國際象棋、圍棋和撲克),AI 通過兩步循環(huán)(two-step loop)實(shí)現(xiàn)了超人類表現(xiàn):
- 推理時(shí)計(jì)算:通過消耗算力來搜索解決方案;
- 策略迭代優(yōu)化:將搜索發(fā)現(xiàn)的知識(shí)蒸餾到模型參數(shù)中,使得下次搜索更容易。
在這一模式下,AlphaGo 是典型代表,LLM 可視為同類系統(tǒng),其推理時(shí)間計(jì)算雖比游戲系統(tǒng)更非結(jié)構(gòu)化(通過生成答案前的「思考過程」實(shí)現(xiàn)),但要完成智能迭代提升的閉環(huán),同樣需要關(guān)鍵的第二步驟 —— 策略迭代優(yōu)化。
也就是說,需要將推理過程蒸餾回模型參數(shù)中,使模型擁有更強(qiáng)的智能先驗(yàn)。這意味著應(yīng)當(dāng)能夠以某種方式利用推理階段的思考過程,使模型本身變得更有能力或更聰明。模型應(yīng)該能夠直接預(yù)測(cè)出推理的結(jié)果(而不是真的執(zhí)行整個(gè)推理過程),并預(yù)判自身推理可能產(chǎn)生的結(jié)果。
盡管近期的 LLM 在推理方面取得了一些進(jìn)展,但這些進(jìn)展大多是依賴于延長推理鏈條,而不是增強(qiáng)模型本身的智能先驗(yàn)。因此,LLM 性能的提升主要依賴于給模型更大的思考預(yù)算(即更多的推理 token),也就是多試幾種可能,而非模型對(duì)哪條搜索路徑更合適有真正的直覺。同樣地,LLM 在非思考模式下的改進(jìn),也主要依賴于加入回溯等啟發(fā)式策略,其本質(zhì)上與窮舉更多路徑?jīng)]有本質(zhì)區(qū)別。
提升模型本身的智能是一個(gè)更加困難的根本性問題,尤其是面對(duì)語言模型中那種非結(jié)構(gòu)化的推理路徑。要解決這個(gè)問題,需要在迭代式策略改進(jìn)方面取得技術(shù)性突破。Cogito v2 就是該研究在這個(gè)方向上邁出的下一步。
該研究相信,在迭代式策略改進(jìn)方向上持續(xù)研究,將有望實(shí)現(xiàn)遠(yuǎn)超單純?cè)黾油评?token 所能帶來的模型能力躍升。
評(píng)估
團(tuán)隊(duì)公布了一些標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估結(jié)果,但特別強(qiáng)調(diào),這些公開基準(zhǔn)測(cè)試固然有其參考價(jià)值,但它們的結(jié)果與團(tuán)隊(duì)的內(nèi)部評(píng)估時(shí)常存在差異。
在他們的內(nèi)部評(píng)估中,Cogito 模型的表現(xiàn)持續(xù)優(yōu)于大多數(shù)開源模型。因此他們相信,自家模型在應(yīng)對(duì)真實(shí)世界的應(yīng)用和評(píng)估時(shí)會(huì)表現(xiàn)出色。
此外,像 o3 和 Claude 4 Opus 這類前沿的閉源模型,它們的實(shí)力也早已超越了這些基準(zhǔn)測(cè)試所能衡量的范疇。
報(bào)告中還提到了一個(gè)有趣的「涌現(xiàn)能力」。盡管 Cogito v2 的訓(xùn)練數(shù)據(jù)完全是文本,但由于其基座模型具備多模態(tài)能力,它似乎通過純粹的遷移學(xué)習(xí),學(xué)會(huì)了對(duì)圖像進(jìn)行復(fù)雜的邏輯推理。
在一個(gè)示例中,模型在被要求對(duì)比兩張風(fēng)馬牛不相及的圖片(一張鴨子和一頭獅子)時(shí),其內(nèi)部的「思考」過程清晰地展示了它如何分析圖像的構(gòu)圖、色彩、主體、環(huán)境乃至情感氛圍,并最終給出了條理清晰的對(duì)比。
這種未經(jīng)專門訓(xùn)練而自發(fā)產(chǎn)生的能力,為研究 AI 的泛化與學(xué)習(xí)機(jī)制提供了新的有趣視角。不過團(tuán)隊(duì)尚未通過視覺基準(zhǔn)測(cè)試評(píng)估此功能。
基準(zhǔn)測(cè)試結(jié)果
70B Dense
109B MoE
405B Dense
671B MoE(非推理)
671B MoE(推理)
https://www.deepcogito.com/research/cogito-v2-preview
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.