新智元報(bào)道
編輯:KingHZ 好困
【新智元導(dǎo)讀】剛剛,面壁智能再放大招——MiniCPM-V 4.5多模態(tài)端側(cè)模型橫空出世:8B參數(shù),越級(jí)反超72B巨無(wú)霸,圖片、視頻、OCR同級(jí)全線SOTA!不僅跑得快、看得清,還能真正落地到車機(jī)、機(jī)器人等。這一次,它不只是升級(jí),而是刷新了端側(cè)AI的高度。
這個(gè)夏天,中國(guó)AI徹底炸場(chǎng)!
一波波重量級(jí)開(kāi)源模型的發(fā)布,讓全球開(kāi)發(fā)者目不暇接。
就在剛剛,面壁智能最新開(kāi)源的首個(gè)「高刷視頻理解」多模態(tài)模型MiniCPM-V 4.5,直接刷新了端側(cè)多模態(tài)的天花板。
憑借著8B的參數(shù)量,在單圖、高刷視頻理解、長(zhǎng)視頻理解、OCR、復(fù)雜文檔解析等多個(gè)領(lǐng)域,一舉拿下同級(jí)別或通用模型的SOTA。
話不多說(shuō),直接上效果。
Github:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
看完之后,你敢信這是一個(gè)只有8B參數(shù)的端側(cè)小模型實(shí)現(xiàn)的?反正我不信!
就拿這個(gè)刷新率極高的翻紙視頻來(lái)說(shuō),時(shí)長(zhǎng)只有短短3秒,卻出現(xiàn)了四張寫滿了不同單詞的白紙。
要想截下這些轉(zhuǎn)瞬即逝的畫面,你反應(yīng)稍微慢點(diǎn)都不行,更不用說(shuō)看清楚字了。
比如下面這幾張圖,就是我們小心翼翼地、一點(diǎn)一點(diǎn)拖動(dòng)進(jìn)度條截出來(lái)的。
左右滑動(dòng)查看
然而,我們很快就被「打臉」了。
在MiniCPM-V 4.5拿到這個(gè)視頻之后,它不僅十分輕松地識(shí)別出了每張紙上的內(nèi)容,而且一個(gè)字都沒(méi)錯(cuò)!
可能有人會(huì)覺(jué)得,這個(gè)任務(wù)是不是對(duì)于AI來(lái)說(shuō)很簡(jiǎn)單?實(shí)際上并不是。
同樣一道題,我們拿去問(wèn)了問(wèn)當(dāng)今最強(qiáng)的視頻模型——Gemini 2.5 Pro。
結(jié)果,它不僅只看到了兩張紙,而且能識(shí)別出來(lái)的,只有第二張的內(nèi)容:
基于視頻,紙張上寫著以下內(nèi)容:
·第一張紙(00:00):第一張紙上的文字簡(jiǎn)短且模糊,但看起來(lái)像是一系列手寫的筆記或計(jì)算內(nèi)容。
·第二張紙(00:01):第二張紙上清楚地寫著以下文字:“Controllable Hybrid Fast/Deep Thinking”。
相比起來(lái),GPT-4o就更慘了。
在認(rèn)真分析了自己截取的5張圖之后,4o遺憾地表示:「對(duì)不起,我什么都沒(méi)識(shí)別出來(lái)」……
要知道Gemini 2.5 Pro和GPT-4o可都是全球頂尖的云端多模態(tài)大模型,結(jié)果在視頻處理上卻不如參數(shù)一個(gè)只有8B的端側(cè)模型。
可能又有人會(huì)說(shuō),剛剛這個(gè)場(chǎng)景太極限了,平時(shí)都碰不到。
沒(méi)問(wèn)題,我們下面就去測(cè)一個(gè)對(duì)于端側(cè)模型來(lái)說(shuō),更接近實(shí)際應(yīng)用的場(chǎng)景。
比如,你在開(kāi)車的時(shí)候突然渴了,想買點(diǎn)喝的。但路很窄,需要時(shí)刻觀察過(guò)往的行人和非機(jī)動(dòng)車。
這時(shí)你就可以問(wèn)MiniCPM-V 4.5:「我想喝杯飲品,附近能買到嗎?」
秒秒鐘,MiniCPM-V 4.5就發(fā)現(xiàn)了路邊的CoCo,并且貼心地告訴我們可以去買杯咖啡或奶茶。
MiniCPM-V 4.5這視力,稱之為「鷹眼級(jí)」是一點(diǎn)也不夸張。
而如此絲滑且精準(zhǔn)的效果,靠的正是面壁智能針對(duì)模型的全方位創(chuàng)新和升級(jí)。
越級(jí)的性能:不僅在OCR、文檔解析、圖片理解、長(zhǎng)視頻分析等維度實(shí)現(xiàn)了同級(jí)SOTA,甚至還反超了9倍參數(shù)量的Qwen2.5-VL 72B;
極致的效率:通過(guò)高達(dá)96倍的視覺(jué)壓縮率,在同等視覺(jué)token開(kāi)銷下,可處理6倍的視頻幀數(shù),相比同類模型提升了12至24倍;
端側(cè)部署友好:在顯存占用、平均推理時(shí)間等方面具有顯著的優(yōu)勢(shì),達(dá)到了效果、速度與功耗的極佳平衡;
混合推理模式:支持「長(zhǎng)思考」與「短思考」可控混合推理,既能搞定深度分析,又能兼顧快速響應(yīng)。
毫不意外,面壁這次打造出的「最強(qiáng)端側(cè)多模態(tài)」,一如既往地延續(xù)了小鋼炮MiniCPM系列的「以小博大」和「高效低成本」。
最強(qiáng)端側(cè)多模態(tài)
首次實(shí)現(xiàn)高刷視頻理解
以小博大,一直是面壁小鋼炮的基因。
這一次,MiniCPM-V 4.5憑借8B參數(shù),在圖片、OCR、復(fù)雜文檔解析、長(zhǎng)視頻理解等多模態(tài)能力上再次刷新能力上限。
單圖方面:在綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass上,單圖理解能力越級(jí)超越多模態(tài)王者Gemini 2.5 Pro和GPT-4o、GPT-4.1等眾多閉源模型,甚至超過(guò)參數(shù)規(guī)模更大的Qwen2.5-VL 72B。
視頻理解:MiniCPM-V 4.5在Video-MME、LVBench、LongVideoBench、MLVU等榜單中,均達(dá)到同級(jí)最佳水平。
在復(fù)雜文檔識(shí)別任務(wù)中,在OmniDocBench榜單的OverallEdit、TextEdit、TableEdit三項(xiàng)指標(biāo)上,MiniCPM-V 4.5均取得了通用多模態(tài)模型的SOTA。
此外,MiniCPM-V 4.5同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡,常規(guī)模式在絕大部分場(chǎng)景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對(duì)復(fù)雜與復(fù)合型推理任務(wù)。
更值得一提的是,MiniCPM-V 4.5在全行業(yè)內(nèi),首次實(shí)現(xiàn)了「高刷視頻理解」能力。
高刷視頻不僅有著豐富的細(xì)節(jié),還能更好地反映連續(xù)時(shí)間內(nèi)的變化,可以為大模型提供「原生慢動(dòng)作」數(shù)據(jù)。
而對(duì)高刷視頻的理解,本質(zhì)就是「模型通過(guò)獲取更多的視頻幀,來(lái)更加精細(xì)、實(shí)時(shí)地理解視頻內(nèi)容」。
目前的主流多模態(tài)模型,處理視頻時(shí)通常會(huì)采取1 fps抽幀的方式。
這樣做在一定程度上保證了模型推理效率,但也因此缺失了絕大部分的視覺(jué)信息,降低了大模型對(duì)動(dòng)態(tài)世界「精細(xì)化」理解,從而犧牲了模型性能。
相比之下,MiniCPM-V 4.5將2D-Resampler的模型結(jié)構(gòu)拓展為3D-Resampler,實(shí)現(xiàn)了高密度壓縮三維視頻片段。
在LLM推理開(kāi)銷不變的情況下,MiniCPM-V 4.5最大可接收6倍視頻幀數(shù)量達(dá)到96倍視覺(jué)壓縮率,是同類模型的12-24倍。
換句話說(shuō)就是,MiniCPM-V 4.5無(wú)需依賴插值算法去「猜測(cè)」中間幀,就能直接分析真實(shí)、連續(xù)的動(dòng)態(tài)過(guò)程,從而更好地去理解物理世界。
在實(shí)測(cè)中,MiniCPM-V 4.5如「鷹眼」般「明察秋毫」,視頻細(xì)節(jié)「盡收眼底」。
在側(cè)重高刷視頻理解能力的FavorBench的榜單中,MiniCPM-V 4.5達(dá)到同尺寸SOTA,且超過(guò)Qwen2.5-VL 72B,實(shí)現(xiàn)越級(jí)領(lǐng)先水平。
不難想象,具備高刷視頻理解能力的模型,必定更能滿足汽車座艙、具身智能等要求實(shí)時(shí)、精細(xì)識(shí)別和理解的應(yīng)用場(chǎng)景中,提供更加智能的服務(wù)。
而這就是「高刷」視頻理解的核心價(jià)值。
一手實(shí)測(cè)
下面,就到了激動(dòng)人心的實(shí)測(cè)環(huán)節(jié)。 首先我們來(lái)看看,8B參數(shù)的MiniCPM-V 4.5的推理能力如何。 舉個(gè)栗子,現(xiàn)在十分著急想要下高速路的你,突然看到了這樣一個(gè)交通牌。 很顯然,East Perth/Welshpool出口只有700米,比1千米以外的James St & Wellington St出口短了300米。 因此,East Perth/Welshpool必定是首選。
很快,MiniCPM-V 4.5就給出了正確答案,以及非常清晰、有條理的分析。
通過(guò)仔細(xì)觀察畫面左側(cè)的綠色指示牌,我識(shí)別到:
·上方牌子顯示GRAHAM FARMER FWY,East Perth和Welshpool,并標(biāo)明EXIT 700m(出口700米)。
·下方牌子則顯示James St & Wellington St,并標(biāo)明EXIT 1km(出口1公里)。
根據(jù)這些信息,如果您希望盡快到達(dá)出口,應(yīng)該選擇距離更短的那個(gè)。
由于「700米」比「1公里」(即1000米)更短,所以GRAHAM FARMER FWY方向的出口(East Perth/Welshpool)是最近的。
對(duì)于完整信息的快速理解和推理,MiniCPM-V 4.5輕松搞定。
那么,如果視覺(jué)信息是陸陸續(xù)續(xù)輸入的,模型還能把這些碎片聯(lián)系起來(lái)嗎?
圖中人物具體說(shuō)了些什么?
答案是,可以。
在Hinton的這段采訪中,字幕全是只言片語(yǔ)而且持續(xù)時(shí)間有長(zhǎng)有短,但這并難不倒MiniCPM-V 4.5。
只見(jiàn)它不僅概括了主題「LLM和人類的差異」,而且從第三人稱完美復(fù)述了Hinton發(fā)言的內(nèi)容。
一鍵總結(jié)視頻內(nèi)容,以后手機(jī)上輕松實(shí)現(xiàn)。
既然是模型測(cè)試,那么各種考試題一定也是少不了的。
比如下面這道高中化學(xué)實(shí)驗(yàn)選擇題,開(kāi)啟思考模式的MiniCPM-V 4.5,直接化身課后輔導(dǎo)助手。
在ABCD四個(gè)選項(xiàng)全部認(rèn)真分析了一遍之后,它信心滿滿地給出了正確答案——B。
無(wú)論哪里不懂,你都可以直接拍照詢問(wèn)MiniCPM-V 4.5:
介紹一下化石
MiniCPM-V 4.5很快便會(huì)從基本信息、核心特征到科學(xué)意義,給你進(jìn)行全面地答疑解惑。
試想這種功能普及之后,逛博物館,哪里不懂直接拍照就能得到全面解答,人人都有專屬「電子導(dǎo)游」。
而對(duì)于手寫文字識(shí)別,MiniCPM-V 4.5更是輕松搞定:
實(shí)話說(shuō),這手寫字絕對(duì)保真,MiniCPM-V 4.5識(shí)別效果絕對(duì)實(shí)用。
不止是文字,像是結(jié)構(gòu)化表格提取,甚至就連合并單元格這種復(fù)雜的操作,MiniCPM-V 4.5都能手到擒來(lái):
最后,看看MiniCPM-V 4.5到底能不能理解梗圖meme的笑點(diǎn)。
這張圖笑點(diǎn)在哪兒
看到這張圖后,MiniCPM-V 4.5一下就看出了里面都有哪些角色,并且get到了笑點(diǎn)是源于「AI」這個(gè)元素的加入。
然后就是一波深度分析:
·第一層的「Boss」只會(huì)在車頂坐著不動(dòng),高高在上地指揮別人去拉車
·第二層的「Leader」則會(huì)自己走在隊(duì)伍最前面,帶領(lǐng)大家一起拉車
·第三層是「內(nèi)向」的人,由于張不開(kāi)嘴求別人幫忙,所以只好默默地一個(gè)人拉車
·第四層雖然也是「內(nèi)向」的人,但卻得到了AI的加持!不過(guò),你可不要以為他能像其他隊(duì)伍一樣會(huì)有人(工智能)幫他分?jǐn)偣ぷ?,能夠輕松一些;相反,這個(gè)倒霉蛋因?yàn)樾实玫搅舜蠓嵘话才帕?倍的工作量!
看完是不是感覺(jué),諷刺感直接拉滿!
以后,即便不是互聯(lián)網(wǎng)「5G沖浪」選手,也能輕松看懂各種小圈子和外國(guó)的冷門梗圖了!
尺寸小≠端側(cè)模型
當(dāng)下,端側(cè)AI應(yīng)用持續(xù)升溫。然而,模型能力再?gòu)?qiáng),如果無(wú)法在端側(cè)設(shè)備上穩(wěn)定、流暢運(yùn)行,一切都是空談。
不是模型尺寸小,就叫端側(cè)模型。評(píng)判端側(cè)模型的關(guān)鍵指標(biāo)是:在手機(jī)、平板、電腦、車機(jī)、機(jī)器人等終端設(shè)備上,是否能穩(wěn)定、絲滑地運(yùn)行。
在技術(shù)研究上的難點(diǎn),端側(cè)模型不亞于基礎(chǔ)大模型,落地上更是同時(shí)受限于算力、功耗、速度、網(wǎng)速要求等因素。
許多團(tuán)隊(duì)屢屢碰壁,無(wú)法從技術(shù)上解決「發(fā)燙、宕機(jī)、極度耗電」等問(wèn)題。
面壁則一直以追求「同等性能我最小,同等參數(shù)我最強(qiáng)」,最終帶來(lái)更快速度、更低成本、絲滑體驗(yàn)的端側(cè)模型為目標(biāo)。
不斷提升模型「能力密度」的同時(shí),面壁小鋼炮MiniCPM也一直致力于追求極致「能效比」:
通過(guò)更低的顯存占用、更快的響應(yīng)速度,確保在提供SOTA級(jí)多模態(tài)表現(xiàn)的同時(shí),帶來(lái)最佳的推理效率和最低的推理開(kāi)銷。
例如,在覆蓋短、中、長(zhǎng)三種類型的視頻理解評(píng)測(cè)集Video-MME上,MiniCPM-V 4.5時(shí)間開(kāi)銷(未計(jì)算模型抽幀時(shí)間)僅為同級(jí)模型的1/10。
這一成績(jī),便是得益于模型推理時(shí)采用的高密度視頻壓縮技術(shù)。
三大技術(shù)創(chuàng)新
作為多模態(tài)模型的新旗艦,MiniCPM-V 4.5之所以具備高刷視頻理解能力、并取得單圖、OCR、長(zhǎng)視頻理解的SOTA,主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。
全新模型結(jié)構(gòu):3D-Resampler高密度視頻壓縮
當(dāng)前,制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的Trade-off:
一方面,只有更多視頻幀,模型才能獲取更加精細(xì)的信息以提高理解上限;
另一方面,模型融入太多視頻幀會(huì)造成顯存、推理速度等開(kāi)銷爆炸。
由于局部片段的不同視頻之間存在著信息冗余性,即大部分視覺(jué)信息不變,僅有少部分信息發(fā)生變化,存在著很大的信息壓縮空間。
因此,MiniCPM-V 4.5將模型結(jié)構(gòu)從2D-Resampler拓展為3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮。
具體而言,視頻會(huì)按照每N個(gè)視頻幀一組進(jìn)行分組(分組尺寸最大為6),然后3D-Resampler會(huì)對(duì)每個(gè)視頻組進(jìn)行壓縮編碼,得到 64 個(gè)視覺(jué)token(與編碼單圖視覺(jué)token數(shù)量相同)。
最終實(shí)現(xiàn)在推理開(kāi)銷不變的情況下,實(shí)現(xiàn)更高頻率抽幀,實(shí)現(xiàn)了模型高刷視頻理解能力。
得益于Resampler機(jī)制的靈活性,在推理階段還可以靈活調(diào)整視頻分組尺寸,同時(shí)支持單圖、多圖、視頻的統(tǒng)一編碼(即單圖編碼視為3D視頻編碼的2D特例),方便知識(shí)和能力遷移。
多頁(yè)文檔圖片:統(tǒng)一OCR和知識(shí)推理學(xué)習(xí)
文檔中蘊(yùn)含豐富高質(zhì)量的知識(shí)。
多模態(tài)大模型有兩大重要話題:
1. 對(duì)文字的識(shí)別解析,受限于圖像樣例難度;
2. 從文檔中學(xué)習(xí)知識(shí),受限于解析準(zhǔn)確性。
這割裂了兩種學(xué)習(xí)范式。
提升OCR能力,往往需要補(bǔ)充更豐富且有難度的數(shù)據(jù)。為了提升數(shù)據(jù)的難度和多樣性,常見(jiàn)的做法是數(shù)據(jù)增廣。例如,對(duì)圖像中文字加高斯噪音。但是增廣過(guò)大會(huì)讓文字不可讀,反而會(huì)導(dǎo)致模型幻覺(jué)。
在文檔知識(shí)學(xué)習(xí)方面,大部分工作將文檔解析成圖文交替數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)重受到文檔解析工具錯(cuò)誤的影響。
通過(guò)連續(xù)控制圖像中「文字信息可見(jiàn)度」,MiniCPM-V 4.5可在OCR和知識(shí)學(xué)習(xí)兩種模式之間無(wú)縫切換,首次實(shí)現(xiàn)了OCR和知識(shí)學(xué)習(xí)這兩種學(xué)習(xí)范式的有效融合,且不會(huì)受到過(guò)度增廣和解析錯(cuò)誤的影響。
具體如下:
·首先提取出文檔中的文字框;
·然后對(duì)文字框內(nèi)區(qū)域進(jìn)行不同程度的噪音增廣。
文字框通常非常準(zhǔn)確,大部分解析錯(cuò)誤來(lái)源于排版、閱讀順序、低信息量圖文噪音錯(cuò)誤。重點(diǎn)在于噪音增廣:
·當(dāng)施加噪音較小,文字處于尚可辨別范圍內(nèi)時(shí),模型會(huì)進(jìn)行OCR學(xué)習(xí)識(shí)別文字;
·當(dāng)施加噪音較大,文字已經(jīng)無(wú)法辨認(rèn)時(shí),模型會(huì)自動(dòng)進(jìn)入知識(shí)學(xué)習(xí),根據(jù)文檔的多模態(tài)上下文還原文字;
·當(dāng)噪音介于兩者之間時(shí),模型會(huì)進(jìn)行混合能力的學(xué)習(xí)。
基于上述技術(shù),MiniCPM-V 4.5低成本實(shí)現(xiàn)了領(lǐng)先的OCR和多模態(tài)知識(shí)能力。
通用域混合推理強(qiáng)化學(xué)習(xí)
深度思考推理能力顯著拓展了多模態(tài)大模型的推理能力邊界,但也往往伴隨著過(guò)高的推理延遲。
通過(guò)同時(shí)支持常規(guī)模式和深度思考模式,MiniCPM-V 4.5實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡:
·在絕大部分的場(chǎng)景下,常規(guī)模式提供出色的多模態(tài)理解能力;
·而深度思考模式則專注于應(yīng)對(duì)復(fù)雜與復(fù)合型推理任務(wù)。
為了讓模型在兩種模式下都具備優(yōu)秀的多模態(tài)性能,MiniCPM-V 4.5借助RLPR技術(shù),從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎(jiǎng)勵(lì)信號(hào)。而且面壁還提出了混合推理的強(qiáng)化學(xué)習(xí)RL訓(xùn)練方案,同時(shí)提升模型在常規(guī)模式和深度思考模式下的性能表現(xiàn)。
通過(guò)在RL訓(xùn)練中同時(shí)激活常規(guī)和深度思考模式,模型在兩種模式下的性能都得以持續(xù)提升。最終,通過(guò)輕量化的RLAIF-V訓(xùn)練階段,模型既保持了推理能力又顯著降低了幻覺(jué)。
從行業(yè)第一個(gè)「高刷視頻理解」模型,到OCR和知識(shí)學(xué)習(xí)的第一次有效結(jié)合,再到可控混合推理等,MiniCPM-V 4.5的意義遠(yuǎn)不止一次模型的升級(jí),更是開(kāi)源端側(cè)多模態(tài)AI的一場(chǎng)革命。
參考連接:
https://github.com/OpenBMB/MiniCPM-o
https://huggingface.co/openbmb/MiniCPM-V-4_5
https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.