智東西
編譯 陳駿達(dá)
編輯 李水青
智東西8月27日?qǐng)?bào)道,今天,谷歌推出了Gemini 2.5 Flash Image,這款模型是谷歌最先進(jìn)的圖像生成和編輯模型。
這一模型的核心亮點(diǎn)是其圖像編輯能力。谷歌稱,這一模型可將多個(gè)圖像混合到單個(gè)圖像中,保持高度角色一致性,還能使用自然語言進(jìn)行有針對(duì)性的修改,并充分利用Gemini的世界知識(shí)。
諾貝爾獎(jiǎng)得主、谷歌DeepMind CEO Demis Hassabis用自己的照片為新模型做宣傳,展示Gemini 2.5 Flash Image的角色一致性。他將自己的一張照片背景做了修改,切換為古典風(fēng)格,但是人物的容貌沒有出現(xiàn)改變。
上述能力也解鎖了不少有趣的用例,比如,按照特定視覺模板打造“球星卡”一般的設(shè)計(jì),讓普通人也能一鍵體驗(yàn)頂級(jí)運(yùn)動(dòng)員才有的待遇。
這一模型與谷歌Veo 3等視頻生成模型是絕配,結(jié)合使用后可以打造出豐富的視頻效果。海外AI創(chuàng)意平臺(tái)Kera AI已經(jīng)用類似的模式,打造了一部廣告大片。
這款模型在上周其實(shí)已經(jīng)以“nano-banana”的代號(hào)出現(xiàn)在大模型競技場中,并獲得了用戶200多萬票的認(rèn)可。如今正式揭曉后,Gemini 2.5 Flash Image在文生圖與圖像編輯兩個(gè)場景均拿下了全球第一,在圖像編輯榜單上更是獲得1362的高分,較第二名的領(lǐng)先幅度接近15%。
在谷歌公布的基準(zhǔn)測試中,Gemini 2.5 Flash Image在用戶綜合喜好度、人物、創(chuàng)造力、信息圖、物體和環(huán)境的生成上均領(lǐng)先GPT-4o圖像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型,但在風(fēng)格化能力上與GPT-4o圖像生成仍有差距。
Gemini 2.5 Flash Image是一款主要面向開發(fā)者的模型,目前可在Gemini API、Google AI Studio、以及面向企業(yè)的Vertex AI中獲得。
這一模型的價(jià)格為30美元/100萬個(gè)輸出token,每張圖像為1290個(gè)輸出token,每張圖像價(jià)格約為0.039美元(折合人民幣0.28元)。所有其他輸入和輸出模態(tài)均遵循Gemini 2.5 Flash定價(jià)。
為了讓使用Gemini 2.5 Flash Image打造AI應(yīng)用更為容易,谷歌還對(duì)AI Studio的“構(gòu)建模式(Built Mode)”進(jìn)行了重大更新。開發(fā)者可以使用利用AI打造應(yīng)用程序,快速測試Gemini 2.5 Flash Image等新模型的功能。
當(dāng)準(zhǔn)備好發(fā)布應(yīng)用時(shí),開發(fā)者可以直接從谷歌AI Studio進(jìn)行部署,或?qū)⒋a保存到GitHub。谷歌也在博客中集中展示了幾個(gè)案例:
超強(qiáng)角色一致性,幫Altman一鍵穿越
在多輪對(duì)話和編輯中保持角色和對(duì)象外觀的一致,是圖像生成與編輯的重大挑戰(zhàn)。谷歌的Gemini 2.5 Flash Image允許用戶將同一個(gè)角色放置在不同的環(huán)境中,在新環(huán)境中從多個(gè)角度展示單個(gè)產(chǎn)品,或生成一致的品牌資產(chǎn),同時(shí)保留主題。
在下方的示例應(yīng)用中,用戶僅需上傳一張自己的自拍,就能生成從50年代到00年代的六張寫真,每張都有當(dāng)時(shí)的年代風(fēng)格,用戶的面貌并沒有出現(xiàn)明顯的偏離。
智東西也上傳了一張OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman的照片,谷歌的新模型直接讓Altman一鍵穿越回過去,畫面質(zhì)感超真實(shí),連每個(gè)年代的服飾都準(zhǔn)確還原了。
這種一致性還可用于專業(yè)設(shè)計(jì)場景。例如,用戶可以給模型提供一種特定的紋理,并要求其進(jìn)行替換。模型能在不改變形狀和細(xì)節(jié)的前提下,完成紋理的更換。
體驗(yàn)鏈接:
https://aistudio.google.com/apps/bundled/past_forward?showPreview=true&showAssistant=true
一句話精準(zhǔn)P圖,光線、色彩全可自定義
Gemini 2.5 Flash Image支持使用自然語言進(jìn)行有圖像轉(zhuǎn)換和編輯。例如,模型可以模糊圖像的背景、去除T恤上的污漬、從照片中刪除整個(gè)人物、改變拍攝對(duì)象的姿勢、為黑白照片添加顏色等。
為了展示這些功能的實(shí)際應(yīng)用,谷歌在AI Studio中構(gòu)建了一個(gè)照片編輯模板應(yīng)用。可以看到,這一照片編輯應(yīng)用支持對(duì)特定區(qū)域進(jìn)行選中和修改,或是進(jìn)行大范圍調(diào)整和濾鏡處理。
智東西上傳了一張?jiān)瞬竦恼掌⒁竽P瓦M(jìn)行微調(diào),讓牙齒看上去更白。
最終生成結(jié)果如下,可以看到修改后扎克伯格的其他外貌特征沒有出現(xiàn)明顯變化。
也可以通過預(yù)設(shè)的提示詞,對(duì)圖像的光線、背景等進(jìn)行自定義。下圖中,寫真的光線便被調(diào)整得更加溫暖。
體驗(yàn)鏈接:
https://aistudio.google.com/apps/bundled/pixshop
具備大量世界知識(shí),能看懂手繪插圖
過去,許多圖像生成模型雖然能打造出精美的畫面,但對(duì)現(xiàn)實(shí)世界缺乏深刻的語義理解。谷歌稱,Gemini 2.5 Flash Image擁有Gemini的世界知識(shí),為展示這點(diǎn),他們打造了一個(gè)模板應(yīng)用,將簡單的畫布變成了一個(gè)互動(dòng)式教育導(dǎo)師。
演示中,Gemini 2.5 Flash Image能夠理解手繪的各類畫面,并解答用戶提出的各類問題。
這種世界知識(shí)還讓模型能夠預(yù)測圖像未來的變化,具備一定圖像推理能力。比如,當(dāng)看到氣球飛翔仙人掌時(shí),模型能夠根據(jù)用戶“預(yù)測下一個(gè)可能場景”的指令,生成氣球破碎的畫面。
體驗(yàn)鏈接:
https://aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true
多圖融合能力出眾,可實(shí)現(xiàn)精準(zhǔn)商品展示
Gemini 2.5 Flash Image可以理解和合并多個(gè)輸入圖像,這在電子商務(wù)等場景中有很強(qiáng)的實(shí)用價(jià)值。例如,商家可以在同一場景中用AI生成不同產(chǎn)品的宣傳照,或是給客戶提供家具等產(chǎn)品擺放在真實(shí)場景中的樣子。
下方是谷歌提供的一個(gè)案例,只需將左側(cè)的臺(tái)燈拖拽到右側(cè)的場景中,稍等一段時(shí)間,就能看到擺放后的效果。可以看到模型不僅將臺(tái)燈元素加入畫面,還開啟了燈光。不過,生成過程明顯加速了。
多圖融合能力還可用于創(chuàng)意圖像的生成。例如,融合鯨魚與高山的兩張照片,打造出極具視覺沖擊力的視覺效果。
體驗(yàn)鏈接:
https://aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true
Gemini 2.5 Flash Image發(fā)布后,海外網(wǎng)友已經(jīng)第一時(shí)間玩起來了。這位網(wǎng)友利用它客戶打造了月餅廣告宣傳照,他稱,同樣的提示詞,在Midjourney里要花上10倍的調(diào)整和微調(diào)才能產(chǎn)生類似的結(jié)果。
還有網(wǎng)友分享了自己利用Gemini 2.5 Flash Image結(jié)合Veo 3打造的視頻。在這一過程中,Gemini 2.5 Flash Image生成了許多不同角度的鏡頭畫面,而Veo 3負(fù)責(zé)將它們變?yōu)橐曨l。最終的效果十分驚艷。
不過,也有用戶吐槽這款模型的審查十分嚴(yán)格,例如,無法生成人們拿著刀和斧頭的畫面。
結(jié)語:圖像編輯再進(jìn)化,或成重要生產(chǎn)力工具
從某種意義上來說,準(zhǔn)確的圖像編輯能力是圖像生成走進(jìn)真實(shí)生產(chǎn)場景中最關(guān)鍵的能力之一。在電商等場景中,這一能力滿足了企業(yè)用戶對(duì)精確控制的需求;而在娛樂場景里,這一能力可以給用戶提供豐富的體驗(yàn)和玩法。
當(dāng)前,已有多家國內(nèi)外大模型廠商推出圖像編輯模型,這一領(lǐng)域的最新進(jìn)展值得持續(xù)關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.