谷歌正在對其Gemini聊天機器人進行重大升級,推出全新的AI圖像模型,為用戶提供更精細的照片編輯控制功能。這一舉措旨在追趕OpenAI的熱門圖像工具,并從ChatGPT中吸引更多用戶。
這項名為Gemini 2.5 Flash Image的更新從周二開始向所有Gemini應用用戶推出,同時也通過Gemini API、Google AI Studio和Vertex AI平臺向開發(fā)者提供服務。
Gemini的新AI圖像模型專為根據(jù)用戶的自然語言請求進行更精確的圖像編輯而設計,同時保持面部、動物和其他細節(jié)的一致性,這正是大多數(shù)競爭對手工具難以做到的。例如,當你要求ChatGPT或xAI的Grok更改照片中某人襯衫的顏色時,結果可能包含扭曲的面部或改變的背景。
谷歌的新工具已經引起了廣泛關注。在最近幾周,社交媒體用戶對眾包評估平臺LMArena中一個令人印象深刻的AI圖像編輯器贊不絕口。該模型以"nano-banana"的假名匿名出現(xiàn)在用戶面前。
谷歌表示,這個模型正是其旗艦產品Gemini 2.5 Flash AI模型中的原生圖像功能。谷歌聲稱該圖像模型在LMArena和其他基準測試中達到了最先進水平。
谷歌DeepMind視覺生成模型產品負責人Nicole Brichtova在接受TechCrunch采訪時表示:"我們真正在推進視覺質量,以及模型遵循指令的能力。這次更新在無縫編輯方面做得更好,模型輸出可以用于用戶想要的任何用途。"
AI圖像模型已成為科技巨頭的關鍵戰(zhàn)場。當OpenAI在3月推出GPT-4o的原生圖像生成器時,由于AI生成的吉卜力工作室風格表情包引發(fā)熱潮,ChatGPT的使用量急劇上升。據(jù)OpenAI首席執(zhí)行官Sam Altman表示,這讓公司的GPU"過熱"。
為了跟上OpenAI和谷歌的步伐,Meta上周宣布將從初創(chuàng)公司Midjourney授權AI圖像模型。與此同時,獲得a16z支持的德國獨角獸公司Black Forest Labs繼續(xù)憑借其FLUX AI圖像模型在基準測試中占據(jù)主導地位。
或許Gemini令人印象深刻的AI圖像編輯器能夠幫助谷歌縮小與OpenAI的用戶差距。ChatGPT現(xiàn)在每周擁有超過7億用戶。在谷歌7月的財報電話會議上,該科技巨頭的首席執(zhí)行官Sundar Pichai透露,Gemini擁有4.5億月活躍用戶,這意味著周活躍用戶數(shù)量更低。
Brichtova表示,谷歌專門針對消費者使用場景設計了這個圖像模型,比如幫助用戶可視化他們的家居和園藝項目。該模型還具有更好的"世界知識",可以在單個提示中結合多個參考;例如,將沙發(fā)圖像、客廳照片和調色板合并成一個協(xié)調的渲染圖。
雖然Gemini的新AI圖像生成器讓用戶更容易制作和編輯逼真圖像,但公司設有限制用戶創(chuàng)建內容的保護措施。谷歌在AI圖像生成器保護措施方面曾經歷過困難。該公司曾因Gemini生成歷史上不準確的人物圖片而道歉,并完全撤回了AI圖像生成器。
現(xiàn)在,谷歌認為它找到了更好的平衡點。Brichtova說:"我們希望給用戶創(chuàng)意控制權,讓他們能從模型中得到想要的東西。但這并不意味著什么都可以。"
谷歌生成式AI服務條款禁止用戶生成"非自愿的親密圖像"。這些保護措施似乎在Grok中并不存在,Grok允許用戶創(chuàng)建類似泰勒·斯威夫特等名人的AI生成明確圖像。
為了應對深度偽造圖像的興起(這可能讓用戶難以辨別網上什么是真實的),Brichtova表示谷歌對AI生成的圖像應用視覺水印以及元數(shù)據(jù)標識符。然而,在社交媒體上快速瀏覽圖像的用戶可能不會尋找這些標識符。
Q&A
Q1:Gemini 2.5 Flash Image相比其他AI圖像工具有什么優(yōu)勢?
A:Gemini 2.5 Flash Image專為根據(jù)用戶的自然語言請求進行更精確的圖像編輯而設計,同時保持面部、動物和其他細節(jié)的一致性,這正是大多數(shù)競爭對手工具難以做到的。例如更改照片中衣服顏色時,不會導致面部扭曲或背景改變。
Q2:普通用戶如何使用Gemini 2.5 Flash Image?
A:這項更新從周二開始向所有Gemini應用用戶推出,用戶可以直接在Gemini聊天機器人中使用這個新的AI圖像模型功能。開發(fā)者也可以通過Gemini API、Google AI Studio和Vertex AI平臺獲得服務。
Q3:谷歌如何防止AI圖像生成器被濫用?
A:谷歌設有保護措施限制用戶創(chuàng)建的內容,生成式AI服務條款禁止用戶生成"非自愿的親密圖像"。此外,谷歌對AI生成的圖像應用視覺水印以及元數(shù)據(jù)標識符,幫助用戶識別AI生成內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.