谷歌日前更新了其Gemini AI圖像生成工具,推出了代號為"Nano Bananas"的全新版本。
這次升級被正式命名為Gemini 2.5 Flash Image,允許用戶通過語音和文本提示生成圖像,包括替換照片中的人物、改變服裝或?qū)⒄鎸崍D像中的人物與新背景合并。谷歌于周二正式發(fā)布該功能,目前僅通過Gemini移動應(yīng)用提供,網(wǎng)頁版尚未獲得所有新功能。
在測試中,新引擎展現(xiàn)出令人印象深刻的效果。例如,美國編輯Avram Piltch分別拍攝了自己的軀干照片和兩把椅子的照片。當(dāng)他將兩張照片上傳到手機上的Gemini后,要求引擎將他畫在紅色椅子上。
Gemini不僅將Piltch放置在紅椅上,還為他繪制了原始軀干照片中沒有的手臂和腿部。它甚至完成了T恤上原本只顯示一半的logo。合成照片唯一的不準確之處是褲子變成了黑色,而實際上他穿的是藍色牛仔褲。當(dāng)他要求Gemini將褲子改為淺藍色牛仔褲時,系統(tǒng)毫無問題地完成了修改。
谷歌表示:"只需給Gemini一張照片,告訴它你想改變什么來添加你的獨特風(fēng)格。Gemini讓你可以合并照片,將自己與寵物放在一張圖片中,改變房間背景來預(yù)覽新墻紙,或?qū)⒆约褐糜谑澜缛魏文隳芟胂蟮牡胤健瑫r保持你還是你。"
"完成后,你甚至可以將編輯過的圖像重新上傳到Gemini,將新照片轉(zhuǎn)換成有趣的視頻。"
在其他測試中,Piltch拍攝了女兒的照片,要求移除她旁邊的兩個雕像。雕像消失了,附近樹木的陰影延伸到它們之前所在的位置。然后他要求女兒出現(xiàn)在金字塔前,Gemini滿足了要求,甚至改變了她的姿勢,讓她站得更直。
用戶會立即注意到的一個重大改進是速度。在測試中,圖像在幾秒鐘內(nèi)就能完成,所有工作都在云端進行。我們甚至使用Gemini制作了本文的封面圖。
這一舉措應(yīng)該讓Adobe感到擔(dān)憂,Gemini在讓圖像編輯者使用AI在幾秒鐘內(nèi)完成可能需要圖形設(shè)計師數(shù)小時或至少數(shù)分鐘才能完成的工作方面展現(xiàn)出真正的技能。過去需要用Photoshop將某人合成到圖片中的工作,現(xiàn)在只需要要求工具為你完成即可。
谷歌加入了SynthID水印,讓人們能夠識別AI生成的圖像,這應(yīng)該在減少垃圾郵件、煽動或其他目的的虛假圖片方面發(fā)揮重要作用。
雖然這不會阻止即將涌入你收件箱的AI生成垃圾郵件浪潮,但至少提供了一些安全檢查。Gemini 2.5 Flash Image仍有一些防護機制,盡管相對有限。例如,生成希特勒的圖片很困難但并非不可能。如果你想要泰勒·斯威夫特或唐納德·特朗普等名人,則不會有任何問題。值得慶幸的是,它至少有防護措施防止生成色情內(nèi)容。
總體而言,雖然有些圖像效果不夠完美,但它仍然是OpenAI或xAI的Grok等其他大語言模型圖像設(shè)計工具的有力競爭對手。
谷歌正在為Gemini API、面向開發(fā)者的Google AI Studio和Vertex AI推出新系統(tǒng),成本為每百萬輸出Token 30美元,每張圖像為1290個輸出Token(每張圖像0.039美元)。
谷歌表示,這是一個過渡版本,未來將有更多改進。該公司還與OpenRouter.ai和fal.ai合作,使該技術(shù)更加普及,F(xiàn)在輪到其他AI公司來匹配谷歌這套極具吸引力的新功能了。
Q&A
Q1:Gemini 2.5 Flash Image有什么新功能?
A:Gemini 2.5 Flash Image允許用戶通過語音和文本提示生成圖像,包括替換照片中的人物、改變服裝、合并不同照片中的元素,以及將人物與新背景合并。它還能自動補全缺失的身體部位和物體細節(jié)。
Q2:這個AI圖像生成工具的速度如何?
A:新版本的處理速度非常快,在測試中圖像能在幾秒鐘內(nèi)完成生成,所有工作都在云端進行。相比傳統(tǒng)圖像編輯可能需要數(shù)小時或數(shù)分鐘的工作,現(xiàn)在只需幾秒鐘就能完成。
Q3:Gemini 2.5 Flash Image的使用成本是多少?
A:谷歌為Gemini API、Google AI Studio和Vertex AI提供該服務(wù),成本為每百萬輸出Token 30美元,每張圖像為1290個輸出Token,相當(dāng)于每張圖像0.039美元。目前主要通過Gemini移動應(yīng)用提供服務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.