《科創(chuàng)板日?qǐng)?bào)》9月1日訊 一張三維建模圖、一個(gè)手辦模型、一個(gè)印有“Nano-banana”字樣的包裝盒……在剛剛過去的周末,朋友圈突然涌現(xiàn)出大量雷同的“3D打印手辦”圖片。這些手辦或是明星角色,或是家中寵物,種類繁多令人眼花繚亂。此時(shí)此刻,在某社交平臺(tái)上以“手辦”為關(guān)鍵詞進(jìn)行搜索,同樣會(huì)看到許多相似的內(nèi)容。
與此形成呼應(yīng)的是,今日早盤,3D打印概念震蕩拉升。截至發(fā)稿,海正生材、長(zhǎng)江材料等多股漲停,金橙子、思看科技等紛紛上漲。
然而,這場(chǎng)3D打印熱潮背后的真正主角,卻是谷歌推出的一款代號(hào)“納米香蕉”(Nano-banana)的圖像生成與編輯模型。前文提到的“3D打印手辦”圖片,便是Nano-banana的“杰作”。簡(jiǎn)單來說,通過上傳人物或動(dòng)物圖片素材,再輸入特定提示詞和指令,該模型便能夠?qū)⑷讼褶D(zhuǎn)化為同款“手辦”。不過與真正手辦不同的是,Nano-banana生成的“手辦”僅存在于圖片之中。
據(jù)悉,這款模型正式名稱為Gemini 2.5 Flash Image,自8月26日正式上線后,其憑借圖像編輯實(shí)測(cè)中的驚艷效果迅速出圈。在海外知名AI排行平臺(tái)LMArena的最新榜單中,Nano-banana以1362的分?jǐn)?shù)位列第一,大幅領(lǐng)先于第二名flux(1191)和GPT(1170)。
除了“做手辦”外,Nano-banana還有許多使用場(chǎng)景,比如能夠?qū)⒂脩籼峁┑亩鄠€(gè)素材圖,按照要求進(jìn)行融合。據(jù)3D數(shù)字藝術(shù)家特拉維斯·戴維斯測(cè)試,該模型能夠同時(shí)駕馭多達(dá)13個(gè)圖片素材,并將他們?nèi)咳跒橐粡垐D。
在谷歌Gemini官方轉(zhuǎn)發(fā)的使用案例中,用戶只需在地圖上畫出“箭頭”,Nano-banana便會(huì)利用其世界知識(shí)推理具體位置與畫面,從而將衛(wèi)星圖轉(zhuǎn)換為風(fēng)景圖。此外,按照官方說法,該模型同時(shí)具備圖片生成與修改、局部重繪、風(fēng)格遷移等圖片編輯能力。
實(shí)現(xiàn)上述效果的關(guān)鍵在于Nano-banana以下核心能力:跨圖一致性、多圖融合、對(duì)話式/指令式精細(xì)編輯、以及“借助Gemini世界知識(shí)”帶來的更強(qiáng)常識(shí)/語(yǔ)義理解。目前,用戶可通過Gemini App、API等方式訪問Nano-banana,其API定價(jià)為每百萬輸出token30美元。具體而言,生成單張圖片約消耗1290個(gè)輸出token,折算成本約0.039美元。
值得一提的是,截至目前諸多海外平臺(tái)如Adobe、WPP、Figma等已在真實(shí)平臺(tái)迅速集成Nano-banana并驗(yàn)證生產(chǎn)力提升,同時(shí)給出了高度評(píng)價(jià)。華福證券表示,谷歌Nano-banana出圈意味著多模態(tài)模型向更高能力突破,同時(shí)看好多模態(tài)領(lǐng)域的爆發(fā)。
現(xiàn)如今,AI圖像模型已成為科技巨頭的核心競(jìng)爭(zhēng)領(lǐng)域。3月26日,OpenAI推出基于GPT-4o模型的圖像生成功能——Images in ChatGPT,標(biāo)志著ChatGPT正式實(shí)現(xiàn)從單一語(yǔ)言模型向全模態(tài)智能體的跨越。8月23日,Meta宣布將與Midjourney合作開發(fā)圖像和視頻生成技術(shù)。
華泰證券認(rèn)為,原生多模態(tài)模型架構(gòu)得到業(yè)界認(rèn)可,OpenAI和Google的原生多模態(tài)模型已經(jīng)在性能、延時(shí)、部署上展現(xiàn)出了優(yōu)勢(shì)。整體而言,多模態(tài)為主的產(chǎn)品商業(yè)化快于文本產(chǎn)品,從大模型到多模態(tài)已是商業(yè)化的必由之路,多模態(tài)大模型和應(yīng)用發(fā)展的奇點(diǎn)將至。
就投資層面來看,該機(jī)構(gòu)指出,多模態(tài)有望在算力和應(yīng)用兩方面帶來相關(guān)投資機(jī)會(huì)。算力側(cè),供給端原生多模態(tài)模型需要比非原生模型更多的算力,需求端視頻的推理算力需求遠(yuǎn)大于文字,視頻Agent的落地進(jìn)一步催生推理算力需求。應(yīng)用側(cè),供給端國(guó)內(nèi)的視頻生成模型領(lǐng)先,需求端廣告、零售、創(chuàng)作、教育等領(lǐng)域均有AI化需求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.