Google今日發(fā)布了 Gemini 2.5 Flash Image(測試代號“nano-banana”),這是其最先進的圖像生成和編輯模型。Google聲稱,這款新模型能夠在生成和編輯圖像的同時保持字符的一致性,并將多幅圖像融合成一幅。
據(jù) LMArena 稱,Gemini 2.5 Flash Image 目前是全球評價最高的圖像編輯模型,擊敗了 OpenAI 的 GPT Image 1 和 Flux.1 Kontext。一般來說,之前的圖像生成模型在美學方面表現(xiàn)更佳,但缺乏對現(xiàn)實世界的精準語義理解。全新的 Gemini 2.5 Flash Image 利用 Gemini 的世界知識,創(chuàng)作出更精準、更逼真的圖像。
全新的 Gemini 2.5 Flash 模型 可供消費者和開發(fā)者使用。開發(fā)者可以通過 Gemini API、Google AI Studio 和 Vertex AI 企業(yè)版獲取此模型。對于開發(fā)者,Gemini 2.5 Flash Image 的價格為每 100 萬個輸出代幣 30 美元。因此,每張圖片的成本約為 0.039 美元。
對于消費者來說,可以通過 Gemini 網(wǎng)頁和移動應用程序訪問此模型。Google 強調了 以下可供普通消費者在 Gemini 應用程序上嘗試的用例:
給自己換一套服裝或換個地點 :上傳一個人或寵物的照片,當你把它們放在新的場景中時,模型在每張圖片中都會保持相同的外觀。 混合照片 :現(xiàn)在您可以上傳多張照片并將它們混合在一起,打造一個全新的場景。例如,拍攝您和狗狗的照片,打造一張你們倆在籃球場上的完美肖像照。 嘗試多輪編輯: 您可以繼續(xù)編輯 Gemini 制作的圖像 - 找一個空房間,粉刷墻壁,然后添加書架、一些家具或咖啡桌。 混合設計: 將一張圖片的風格運用到另一張圖片的某個物體上。你可以將花瓣的顏色和紋理運用到雨靴上,或者用蝴蝶翅膀的圖案設計一條連衣裙。
Google聲稱,除非用戶上傳的圖片包含在反饋中,否則它不會使用用戶上傳的實際圖片來訓練其生成式機器學習技術。在 Gemini 應用中創(chuàng)建或編輯的所有圖片都會帶有可見的水印和不可見的 SynthID 數(shù)字水印。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.