網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌nano banana正式上線(xiàn)：?jiǎn)螆D成本不到3毛錢(qián)，比OpenAI便宜95%

2025-08-27 10:19:25　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：Panda

昨晚，神秘且強(qiáng)大的圖像生成與編輯模型 nano banana 終于正式顯露真身。沒(méi)有意外，它果然來(lái)自谷歌，并且也獲得了一個(gè)正式但無(wú)趣的名字：gemini-2.5-flash-image-preview

據(jù)介紹，該模型具有「SOTA 的圖像生成與編輯能力、驚人的角色一致性以及閃電般的速度」。

下面是谷歌官方分享的一些示例：

從其名字也可以猜測(cè)，谷歌應(yīng)該還有一個(gè)非 flash 的 gemini-2.5-image 模型 —— 其性能應(yīng)該會(huì)更加強(qiáng)大，但速度會(huì)更慢。

現(xiàn)目前，gemini-2.5-flash-image-preview 已經(jīng)在 Google AI Studio 和 Gemini API 中提供了預(yù)覽。用戶(hù)可以免費(fèi)試用。

可以看到，gemini-2.5-flash-image-preview 支持 32k 上下文，提供了溫度（可以控制模型的創(chuàng)造力）以及一些高級(jí)設(shè)置。

然而，遺憾的是，該模型尚不支持對(duì)中文輸入執(zhí)行圖像生成和編輯，而是會(huì)給出文本響應(yīng)。

另外，在 Gemini 中，用戶(hù)只需選擇 2.5 Flash 并使用合適的提示詞，也可以使用該模型。

價(jià)格方面，gemini-2.5-flash-image-preview 輸入/輸出文本的價(jià)格是 0.3/2.5 美元，輸入/輸出圖像的價(jià)格是 0.3/30 美元。知識(shí)截止時(shí)間是 2025 年 6 月。

大概計(jì)算下來(lái)，該模型生成每張圖像的成本大約為 0.039 美元（約 0.28 元），遠(yuǎn)低于 OpenAI 的圖像生成成本。

具體功能（尤其是圖像編輯）上，谷歌官方博客介紹說(shuō)他們尤其注重在不同圖片間保持人物形象的一致性。

「我們知道，當(dāng)你編輯自己或熟悉的人時(shí)，哪怕是細(xì)微的差別都會(huì)顯得刺眼 ——『差一點(diǎn)但不完全一樣』的效果就是感覺(jué)不對(duì)。正因如此，我們的最新更新專(zhuān)門(mén)針對(duì)這一點(diǎn)，讓你的朋友、家人，甚至寵物，無(wú)論是嘗試 60 年代的蜂窩頭發(fā)型，還是給吉娃娃穿上芭蕾舞裙，都能始終看起來(lái)像他們自己?！?br/>

你只需要給 Gemini 一張照片，并告訴它你想要修改的地方，就能加上獨(dú)特的個(gè)人風(fēng)格。該模型可以幫你把自己和寵物放在同一張照片里，把房間背景換成新壁紙的效果，或者把你帶到世界上任何你能想象的地方 —— 同時(shí)保持「你就是你」。完成后，你甚至可以把編輯過(guò)的照片再次上傳到 Gemini，把新圖變成一段有趣的視頻。

谷歌還分享了一些玩法示例。

換裝或換場(chǎng)景：上傳一張人物或?qū)櫸锏恼掌?，該模型?huì)在任何新場(chǎng)景下都保持他們的外貌一致。你可以嘗試不同的服裝、職業(yè)，甚至看看你在另一個(gè)年代會(huì)是什么樣子 —— 但始終還是你自己。

谷歌甚至還專(zhuān)門(mén)構(gòu)建了一個(gè)演示模板應(yīng)用來(lái)展示不同年代的你是什么樣。

地址：https://aistudio.google.com/apps/bundled/past_forward

合成照片：你現(xiàn)在可以上傳多張照片，把它們?nèi)诤铣梢粋€(gè)全新的場(chǎng)景。比如，把你和狗狗的照片合成在籃球場(chǎng)上，生成一張完美的合影。

多輪編輯：你可以不斷修改 Gemini 生成的圖像。比如，從一間空房間開(kāi)始，先刷墻，再加書(shū)架、家具或茶幾。Gemini 會(huì)一路協(xié)助你，只改動(dòng)你指定的部分，同時(shí)保留其余部分。

混合設(shè)計(jì)：把一張圖的風(fēng)格應(yīng)用到另一張圖的物體上。比如，把花瓣的顏色和質(zhì)感應(yīng)用到一雙雨靴上，或者用蝴蝶翅膀的花紋設(shè)計(jì)一件連衣裙。

原生世界知識(shí)：該模型還能夠利用 Gemini 的世界知識(shí)，從而解鎖全新的應(yīng)用場(chǎng)景。為了展示這一點(diǎn)，谷歌在 Google AI Studio 中構(gòu)建了一個(gè)模板應(yīng)用，它可以將一個(gè)簡(jiǎn)單畫(huà)布變成交互式教育導(dǎo)師。

地址：https://aistudio.google.com/apps/bundled/codrawing

此外，谷歌還提到所有在 Gemini 應(yīng)用中生成或編輯的圖片都會(huì)帶有可見(jiàn)水印，以及谷歌的隱形 SynthID 數(shù)字水印，以清晰標(biāo)識(shí)它們是 AI 生成的。

該模型一上線(xiàn)就迎來(lái)了一波測(cè)試熱潮，谷歌首席科學(xué)家 Jeff Dean 直接以身入局，將自己 P 成了一個(gè)足球運(yùn)動(dòng)員卡牌角色。

諾獎(jiǎng)得主、DeepMind 創(chuàng)始人兼 CEO Demis Hassabis 也來(lái)了一張個(gè)人形象照。

網(wǎng)友們也是各灑創(chuàng)意，分享了很多有趣結(jié)果。

感興趣的讀者也可以訪問(wèn)我們之前的測(cè)試報(bào)道《谷歌偷偷搞了個(gè)神秘模型 Nano-Banana？實(shí)測(cè)：強(qiáng)到離譜，但有 3 大硬傷》。

排行榜

gemini-2.5-flash-image-preview 正式上線(xiàn)后不久，各個(gè)榜單也開(kāi)始曬出該模型的成績(jī)表現(xiàn)。

在 Artificial Analysis 圖像編輯排行榜上，該模型直接躍升至第一位，獲得了 1212 的 ELO 分?jǐn)?shù)。

而在其文生圖榜單上，字節(jié)跳動(dòng)的即夢(mèng) 3.0 和 OpenAI 的 GPT-4o 還有少量?jī)?yōu)勢(shì)。

不過(guò)，在投票人數(shù)更多的 LM Arena 的榜單上，gemini-2.5-flash-image-preview 在這兩個(gè)任務(wù)上都已經(jīng)成為冠軍。

下面展示了在各個(gè)指標(biāo)上更詳細(xì)的分?jǐn)?shù)，其中 gemini-2.5-flash-image-preview 在角色一致性、創(chuàng)意、圖表、事物 / 環(huán)境等方面優(yōu)勢(shì)明顯，而在風(fēng)格化方面，GPT-4o 目前最為領(lǐng)先。

你已經(jīng)嘗試過(guò) nano banana /gemini-2.5-flash-image-preview 了嗎？感覺(jué)如何？

https://x.com/googleaistudio/status/1960344388560904213

https://blog.google/products/gemini/updated-image-editing-model/

https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

文中視頻鏈接：https://mp.weixin.qq.com/s/eLst3bx4X9-ssnj1Z0p4yw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.