機(jī)器之心報(bào)道
編輯:Panda
昨晚,神秘且強(qiáng)大的圖像生成與編輯模型 nano banana 終于正式顯露真身。沒(méi)有意外,它果然來(lái)自谷歌,并且也獲得了一個(gè)正式但無(wú)趣的名字:gemini-2.5-flash-image-preview
據(jù)介紹,該模型具有「SOTA 的圖像生成與編輯能力、驚人的角色一致性以及閃電般的速度」。
下面是谷歌官方分享的一些示例:
從其名字也可以猜測(cè),谷歌應(yīng)該還有一個(gè)非 flash 的 gemini-2.5-image 模型 —— 其性能應(yīng)該會(huì)更加強(qiáng)大,但速度會(huì)更慢。
現(xiàn)目前,gemini-2.5-flash-image-preview 已經(jīng)在 Google AI Studio 和 Gemini API 中提供了預(yù)覽。用戶(hù)可以免費(fèi)試用。
可以看到,gemini-2.5-flash-image-preview 支持 32k 上下文,提供了溫度(可以控制模型的創(chuàng)造力)以及一些高級(jí)設(shè)置。
然而,遺憾的是,該模型尚不支持對(duì)中文輸入執(zhí)行圖像生成和編輯,而是會(huì)給出文本響應(yīng)。
另外,在 Gemini 中,用戶(hù)只需選擇 2.5 Flash 并使用合適的提示詞,也可以使用該模型。
價(jià)格方面,gemini-2.5-flash-image-preview 輸入/輸出文本的價(jià)格是 0.3/2.5 美元,輸入/輸出圖像的價(jià)格是 0.3/30 美元。知識(shí)截止時(shí)間是 2025 年 6 月。
大概計(jì)算下來(lái),該模型生成每張圖像的成本大約為 0.039 美元(約 0.28 元),遠(yuǎn)低于 OpenAI 的圖像生成成本。
具體功能(尤其是圖像編輯)上,谷歌官方博客介紹說(shuō)他們尤其注重在不同圖片間保持人物形象的一致性。
「我們知道,當(dāng)你編輯自己或熟悉的人時(shí),哪怕是細(xì)微的差別都會(huì)顯得刺眼 ——『差一點(diǎn)但不完全一樣』的效果就是感覺(jué)不對(duì)。正因如此,我們的最新更新專(zhuān)門(mén)針對(duì)這一點(diǎn),讓你的朋友、家人,甚至寵物,無(wú)論是嘗試 60 年代的蜂窩頭發(fā)型,還是給吉娃娃穿上芭蕾舞裙,都能始終看起來(lái)像他們自己?!?br/>
你只需要給 Gemini 一張照片,并告訴它你想要修改的地方,就能加上獨(dú)特的個(gè)人風(fēng)格。該模型可以幫你把自己和寵物放在同一張照片里,把房間背景換成新壁紙的效果,或者把你帶到世界上任何你能想象的地方 —— 同時(shí)保持「你就是你」。完成后,你甚至可以把編輯過(guò)的照片再次上傳到 Gemini,把新圖變成一段有趣的視頻。
谷歌還分享了一些玩法示例。
換裝或換場(chǎng)景:上傳一張人物或?qū)櫸锏恼掌?,該模型?huì)在任何新場(chǎng)景下都保持他們的外貌一致。你可以嘗試不同的服裝、職業(yè),甚至看看你在另一個(gè)年代會(huì)是什么樣子 —— 但始終還是你自己。
谷歌甚至還專(zhuān)門(mén)構(gòu)建了一個(gè)演示模板應(yīng)用來(lái)展示不同年代的你是什么樣。
地址:https://aistudio.google.com/apps/bundled/past_forward
合成照片:你現(xiàn)在可以上傳多張照片,把它們?nèi)诤铣梢粋€(gè)全新的場(chǎng)景。比如,把你和狗狗的照片合成在籃球場(chǎng)上,生成一張完美的合影。
多輪編輯:你可以不斷修改 Gemini 生成的圖像。比如,從一間空房間開(kāi)始,先刷墻,再加書(shū)架、家具或茶幾。Gemini 會(huì)一路協(xié)助你,只改動(dòng)你指定的部分,同時(shí)保留其余部分。
混合設(shè)計(jì):把一張圖的風(fēng)格應(yīng)用到另一張圖的物體上。比如,把花瓣的顏色和質(zhì)感應(yīng)用到一雙雨靴上,或者用蝴蝶翅膀的花紋設(shè)計(jì)一件連衣裙。
原生世界知識(shí):該模型還能夠利用 Gemini 的世界知識(shí),從而解鎖全新的應(yīng)用場(chǎng)景。為了展示這一點(diǎn),谷歌在 Google AI Studio 中構(gòu)建了一個(gè)模板應(yīng)用,它可以將一個(gè)簡(jiǎn)單畫(huà)布變成交互式教育導(dǎo)師。
地址:https://aistudio.google.com/apps/bundled/codrawing
此外,谷歌還提到所有在 Gemini 應(yīng)用中生成或編輯的圖片都會(huì)帶有可見(jiàn)水印,以及谷歌的隱形 SynthID 數(shù)字水印,以清晰標(biāo)識(shí)它們是 AI 生成的。
該模型一上線(xiàn)就迎來(lái)了一波測(cè)試熱潮,谷歌首席科學(xué)家 Jeff Dean 直接以身入局,將自己 P 成了一個(gè)足球運(yùn)動(dòng)員卡牌角色。
諾獎(jiǎng)得主、DeepMind 創(chuàng)始人兼 CEO Demis Hassabis 也來(lái)了一張個(gè)人形象照。
網(wǎng)友們也是各灑創(chuàng)意,分享了很多有趣結(jié)果。
感興趣的讀者也可以訪問(wèn)我們之前的測(cè)試報(bào)道《谷歌偷偷搞了個(gè)神秘模型 Nano-Banana?實(shí)測(cè):強(qiáng)到離譜,但有 3 大硬傷》。
排行榜
gemini-2.5-flash-image-preview 正式上線(xiàn)后不久,各個(gè)榜單也開(kāi)始曬出該模型的成績(jī)表現(xiàn)。
在 Artificial Analysis 圖像編輯排行榜上,該模型直接躍升至第一位,獲得了 1212 的 ELO 分?jǐn)?shù)。
而在其文生圖榜單上,字節(jié)跳動(dòng)的即夢(mèng) 3.0 和 OpenAI 的 GPT-4o 還有少量?jī)?yōu)勢(shì)。
不過(guò),在投票人數(shù)更多的 LM Arena 的榜單上,gemini-2.5-flash-image-preview 在這兩個(gè)任務(wù)上都已經(jīng)成為冠軍。
下面展示了在各個(gè)指標(biāo)上更詳細(xì)的分?jǐn)?shù),其中 gemini-2.5-flash-image-preview 在角色一致性、創(chuàng)意、圖表、事物 / 環(huán)境等方面優(yōu)勢(shì)明顯,而在風(fēng)格化方面,GPT-4o 目前最為領(lǐng)先。
你已經(jīng)嘗試過(guò) nano banana /gemini-2.5-flash-image-preview 了嗎?感覺(jué)如何?
https://x.com/googleaistudio/status/1960344388560904213
https://blog.google/products/gemini/updated-image-editing-model/
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
文中視頻鏈接:https://mp.weixin.qq.com/s/eLst3bx4X9-ssnj1Z0p4yw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.