新智元報道
編輯:定慧
【新智元導(dǎo)讀】Gemini 2.5 Flash Image是谷歌最新發(fā)布的頂級圖像生成與編輯模型,被網(wǎng)友譽為「最強圖像模型」。其化身nano-banana在LMArena盲測中以歷史最大優(yōu)勢奪冠,憑借角色一致性、提示編輯、原生世界知識和多圖像融合四大能力,引發(fā)廣泛關(guān)注。
剛剛,谷歌正式發(fā)布最先進的圖像模型,Gemini 2.5 Flash Image。
如果說它的另一個名字,nano-banana,你就一定知道了!
「最強圖像模型」這個稱號可以說是被全球網(wǎng)友親自認(rèn)定。
此前nano-banana在LMArena上線后迅速風(fēng)靡。
最終盲測下,Gemini 2.5 Flash Image成績一騎絕塵。
盲測了500多萬場,獲得超250萬選票,以171分優(yōu)勢領(lǐng)先第二名flux-1-knotext-max,可以說是遙遙領(lǐng)先。
并取得了LMArena競技場歷史上最大的Elo分?jǐn)?shù)領(lǐng)先優(yōu)勢!
一句話,所有人用了都說好!
不愧是谷歌,確實低調(diào)且實力強大,即使大概率是最強模型,也要等全球網(wǎng)友用過蓋章定論后才正式發(fā)布!
谷歌CEO劈柴和DeepMind的老大Demis親自帶貨。
我們「順手」拿谷歌CEO劈柴和DeepMind的老大Demis做了一些測試,效果真的令人拍案叫絕。
感覺以后P圖這職業(yè)要徹底消失了!
劈柴隨意換裝、戴墨鏡,還可以戴上Vision Pro。
Demis還置頂了Nano banana為他創(chuàng)作的畫像。
讓我們來「魔改一番」。
Nano-banana的能力幾乎到了「言出法隨」的地步。
換裝、換手表、變換手勢,甚至戴個帽子并讓喬布斯出現(xiàn)在身后。
同時,模型價格非常低。該模型現(xiàn)已通過Gemini API和Google AI Studio面向開發(fā)者推出,并通過Vertex AI面向企業(yè)推出。 Gemini 2.5 Flash Image的價格為每百萬輸出token 30.00美元,每張圖片為1290個輸出token。
也就是每張圖片只需0.039美元,按照現(xiàn)在的費率,一張圖也就是不到3毛錢!
比OpenAI便宜太多了!網(wǎng)友紛紛表示,谷歌這是請奧特曼吃香蕉呢~
感覺一大批P圖的都要失業(yè)了!
Gemini 2.5 Flash Image實戰(zhàn)應(yīng)用
Gemini 2.5 Flash Image此次更新了四個超強能力:
保持角色一致性
完全基于提示的圖像編輯
原生世界知識
多圖像融合
可以將多張圖像融合為一張圖像,保持角色一致性以實現(xiàn)豐富的敘事效果,使用自然語言進行目標(biāo)轉(zhuǎn)換,并利用 Gemini的全球知識來生成和編輯圖像。
比如過道、人像和手機可以完美的融合成一張人物在過道里打電話的照片。
尤其是燈管散發(fā)出的光形成的漫反射。
圖像生成中的一個基本挑戰(zhàn)是在多個提示和編輯中保持角色或物體的外觀一致。
現(xiàn)在,可以將同一個角色放置在不同的環(huán)境中,以新的設(shè)置從多個角度展示單一產(chǎn)品,或生成一致的品牌資產(chǎn),同時保持主體的一致性。
除了在角色一致性方面表現(xiàn)出色外,模型還非常擅長遵循視覺模板。
谷歌已經(jīng)提供了開發(fā)者探索的模板,諸如房地產(chǎn)列表卡片、統(tǒng)一的員工徽章或整個產(chǎn)品目錄的動態(tài)產(chǎn)品效果圖等場景。
Gemini 2.5 Flash Image 支持通過自然語言進行目標(biāo)化轉(zhuǎn)換和精確的局部編輯。
例如,模型可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、更改主體姿勢、為黑白照片上色,或者根據(jù)簡單的提示實現(xiàn)您所能想象到的其他效果。
更絕的是,此次更新的nano-banana還具有出色的「原生世界知識」。
從歷史上看,圖像生成模型在生成美觀的圖像方面表現(xiàn)出色,但在對現(xiàn)實世界的深層語義理解方面有所欠缺。
而Gemini 2.5 Flash Image受益于Gemini的全球知識,從而解鎖了新的用例。
在Google AI Studio中構(gòu)建了一個模板應(yīng)用,可將簡單的畫布轉(zhuǎn)變?yōu)榻换ナ浇逃龑?dǎo)師。
它展示了該模型讀取和理解手繪圖、幫助解答現(xiàn)實世界問題,以及在單一步驟中遵循復(fù)雜編輯指令的能力。
Gemini 2.5 Flash Image能夠理解和融合多張輸入圖像。
可以將某個對象放入場景中,使用配色方案或紋理重新設(shè)計房間風(fēng)格,并通過單個提示融合圖像。
詳細介紹
關(guān)于新模型的性能,谷歌DeepMind進行了詳細介紹。
首先是模型的能力介紹:
「從逼真的寫實杰作到令人驚嘆的幻想世界,現(xiàn)在可以原生地生成、編輯和優(yōu)化圖像,在推理、控制和創(chuàng)意方面達到全新水平。」
角色一致性方面,為模型提供參考圖像,它便能生成新的視覺內(nèi)容,在不同的姿勢、光照、環(huán)境或風(fēng)格中保持角色、主體或?qū)ο蟮南嗨菩?,從而幫助?chuàng)作出更具吸引力、敘事性更強的作品。
感覺個人就能制作電影的時代即將到來!
新模型可以應(yīng)用特定的藝術(shù)風(fēng)格、設(shè)計或紋理,可以輕松地將這些從一張圖像轉(zhuǎn)移到另一張圖像,同時保留原主體的形態(tài)和細節(jié)。
這對于廣告設(shè)計界幾乎就是降維打擊。
在創(chuàng)意構(gòu)圖方面,只需一個提示詞,即可將多個圖像中的創(chuàng)意元素融合在一起。
使用2.5 Flash,可以開始融合最多三個輸入中的不同元素,從而創(chuàng)建出獨特而統(tǒng)一的構(gòu)圖。
比如在山峰前躍出水面的鯨魚。
借助Gemini的底層邏輯,2.5 Flash可以推斷出圖像中某個時刻之前或之后發(fā)生的事情。
這相當(dāng)一種現(xiàn)實世界推理,需要完全依賴于世界知識。
比如,生成一個氣球飄向仙人掌的初始畫面后,讓它設(shè)想接下來可能出現(xiàn)的場景。
PS要不存在了
谷歌的新模型一發(fā)布,最不開心的估計就是Photoshop了。
AI圖片編輯功能直接降維打擊了Adobe腹地。
未來像Adobe Photoshop等傳統(tǒng)工具將面臨重大挑戰(zhàn)。
不過目前Nano-banana并不是完美的,比如在合并兩張不同照片時,有時難以準(zhǔn)確復(fù)制人臉。
但它在對現(xiàn)有圖片進行細微調(diào)整方面表現(xiàn)已經(jīng)非常出色。
而且成本還這么低。
你覺得AI會徹底取代傳統(tǒng)產(chǎn)業(yè)嗎?
參考資料:
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
https://deepmind.google/models/gemini/image/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.