谷歌「最強圖像模型」橫掃一切！3毛錢P圖打懵OpenAI，PS要不存在了

2025-08-27 10:10:57　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：定慧

　　【新智元導(dǎo)讀】Gemini 2.5 Flash Image是谷歌最新發(fā)布的頂級圖像生成與編輯模型，被網(wǎng)友譽為「最強圖像模型」。其化身nano-banana在LMArena盲測中以歷史最大優(yōu)勢奪冠，憑借角色一致性、提示編輯、原生世界知識和多圖像融合四大能力，引發(fā)廣泛關(guān)注。

　　剛剛，谷歌正式發(fā)布最先進的圖像模型，Gemini 2.5 Flash Image。

　　如果說它的另一個名字，nano-banana，你就一定知道了！

　　「最強圖像模型」這個稱號可以說是被全球網(wǎng)友親自認(rèn)定。

　　此前nano-banana在LMArena上線后迅速風(fēng)靡。

　　最終盲測下，Gemini 2.5 Flash Image成績一騎絕塵。

　　盲測了500多萬場，獲得超250萬選票，以171分優(yōu)勢領(lǐng)先第二名flux-1-knotext-max，可以說是遙遙領(lǐng)先。

　　并取得了LMArena競技場歷史上最大的Elo分?jǐn)?shù)領(lǐng)先優(yōu)勢！

　　一句話，所有人用了都說好！

　　不愧是谷歌，確實低調(diào)且實力強大，即使大概率是最強模型，也要等全球網(wǎng)友用過蓋章定論后才正式發(fā)布！

　　谷歌CEO劈柴和DeepMind的老大Demis親自帶貨。

　　我們「順手」拿谷歌CEO劈柴和DeepMind的老大Demis做了一些測試，效果真的令人拍案叫絕。

　　感覺以后P圖這職業(yè)要徹底消失了！

　　劈柴隨意換裝、戴墨鏡，還可以戴上Vision Pro。

　　Demis還置頂了Nano banana為他創(chuàng)作的畫像。

　　讓我們來「魔改一番」。

　　Nano-banana的能力幾乎到了「言出法隨」的地步。

　　換裝、換手表、變換手勢，甚至戴個帽子并讓喬布斯出現(xiàn)在身后。

　　同時，模型價格非常低。該模型現(xiàn)已通過Gemini API和Google AI Studio面向開發(fā)者推出，并通過Vertex AI面向企業(yè)推出。 Gemini 2.5 Flash Image的價格為每百萬輸出token 30.00美元，每張圖片為1290個輸出token。

　　也就是每張圖片只需0.039美元，按照現(xiàn)在的費率，一張圖也就是不到3毛錢！

　　比OpenAI便宜太多了！網(wǎng)友紛紛表示，谷歌這是請奧特曼吃香蕉呢～

　　感覺一大批P圖的都要失業(yè)了！

　　Gemini 2.5 Flash Image實戰(zhàn)應(yīng)用

　　Gemini 2.5 Flash Image此次更新了四個超強能力：

　　保持角色一致性

　　完全基于提示的圖像編輯

　　原生世界知識

　　多圖像融合

　　可以將多張圖像融合為一張圖像，保持角色一致性以實現(xiàn)豐富的敘事效果，使用自然語言進行目標(biāo)轉(zhuǎn)換，并利用 Gemini的全球知識來生成和編輯圖像。

　　比如過道、人像和手機可以完美的融合成一張人物在過道里打電話的照片。

　　尤其是燈管散發(fā)出的光形成的漫反射。

　　圖像生成中的一個基本挑戰(zhàn)是在多個提示和編輯中保持角色或物體的外觀一致。

　　現(xiàn)在，可以將同一個角色放置在不同的環(huán)境中，以新的設(shè)置從多個角度展示單一產(chǎn)品，或生成一致的品牌資產(chǎn)，同時保持主體的一致性。

　　除了在角色一致性方面表現(xiàn)出色外，模型還非常擅長遵循視覺模板。

　　谷歌已經(jīng)提供了開發(fā)者探索的模板，諸如房地產(chǎn)列表卡片、統(tǒng)一的員工徽章或整個產(chǎn)品目錄的動態(tài)產(chǎn)品效果圖等場景。

　　Gemini 2.5 Flash Image 支持通過自然語言進行目標(biāo)化轉(zhuǎn)換和精確的局部編輯。

　　例如，模型可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、更改主體姿勢、為黑白照片上色，或者根據(jù)簡單的提示實現(xiàn)您所能想象到的其他效果。

　　更絕的是，此次更新的nano-banana還具有出色的「原生世界知識」。

　　從歷史上看，圖像生成模型在生成美觀的圖像方面表現(xiàn)出色，但在對現(xiàn)實世界的深層語義理解方面有所欠缺。

　　而Gemini 2.5 Flash Image受益于Gemini的全球知識，從而解鎖了新的用例。

　　在Google AI Studio中構(gòu)建了一個模板應(yīng)用，可將簡單的畫布轉(zhuǎn)變?yōu)榻换ナ浇逃龑?dǎo)師。

　　它展示了該模型讀取和理解手繪圖、幫助解答現(xiàn)實世界問題，以及在單一步驟中遵循復(fù)雜編輯指令的能力。

　　Gemini 2.5 Flash Image能夠理解和融合多張輸入圖像。

　　可以將某個對象放入場景中，使用配色方案或紋理重新設(shè)計房間風(fēng)格，并通過單個提示融合圖像。

　　詳細介紹

　　關(guān)于新模型的性能，谷歌DeepMind進行了詳細介紹。

　　首先是模型的能力介紹：

　　「從逼真的寫實杰作到令人驚嘆的幻想世界，現(xiàn)在可以原生地生成、編輯和優(yōu)化圖像，在推理、控制和創(chuàng)意方面達到全新水平。」

　　角色一致性方面，為模型提供參考圖像，它便能生成新的視覺內(nèi)容，在不同的姿勢、光照、環(huán)境或風(fēng)格中保持角色、主體或?qū)ο蟮南嗨菩?，從而幫助?chuàng)作出更具吸引力、敘事性更強的作品。

　　感覺個人就能制作電影的時代即將到來！

　　新模型可以應(yīng)用特定的藝術(shù)風(fēng)格、設(shè)計或紋理，可以輕松地將這些從一張圖像轉(zhuǎn)移到另一張圖像，同時保留原主體的形態(tài)和細節(jié)。

　　這對于廣告設(shè)計界幾乎就是降維打擊。

　　在創(chuàng)意構(gòu)圖方面，只需一個提示詞，即可將多個圖像中的創(chuàng)意元素融合在一起。

　　使用2.5 Flash，可以開始融合最多三個輸入中的不同元素，從而創(chuàng)建出獨特而統(tǒng)一的構(gòu)圖。

　　比如在山峰前躍出水面的鯨魚。

　　借助Gemini的底層邏輯，2.5 Flash可以推斷出圖像中某個時刻之前或之后發(fā)生的事情。

　　這相當(dāng)一種現(xiàn)實世界推理，需要完全依賴于世界知識。

　　比如，生成一個氣球飄向仙人掌的初始畫面后，讓它設(shè)想接下來可能出現(xiàn)的場景。

　　PS要不存在了

　　谷歌的新模型一發(fā)布，最不開心的估計就是Photoshop了。

　　AI圖片編輯功能直接降維打擊了Adobe腹地。

　　未來像Adobe Photoshop等傳統(tǒng)工具將面臨重大挑戰(zhàn)。

　　不過目前Nano-banana并不是完美的，比如在合并兩張不同照片時，有時難以準(zhǔn)確復(fù)制人臉。

　　但它在對現(xiàn)有圖片進行細微調(diào)整方面表現(xiàn)已經(jīng)非常出色。

　　而且成本還這么低。

　　你覺得AI會徹底取代傳統(tǒng)產(chǎn)業(yè)嗎？

　　參考資料：

　　https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

　　https://deepmind.google/models/gemini/image/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.