機器之心報道
機器之心編輯部
引入「交錯生成」功能,增強模型在世界知識和創(chuàng)意解釋方面的能力。
香蕉也能變禮服?Google 真的做到了!
在最新一期谷歌開發(fā)者節(jié)目里,Google DeepMind 團隊首次全面展示了Gemini 2.5 Flash Image—— 一款擁有原生圖像生成與編輯能力的最新模型。
它不僅能快速生成高質量圖像,還能在多輪對話中保持場景一致,帶來了前所未有的互動體驗,堪稱 SOTA 級圖像生成革命。
背后的研發(fā)和產品團隊,也首次亮相。
起底背后團隊
Logan Kilpatrick
Logan Kilpatrick 是 Google DeepMind 的高級產品經(jīng)理,負責領導 Google AI Studio 和 Gemini API 的產品開發(fā)工作。
他在 AI 開發(fā)者社區(qū)中享有盛譽,曾在 OpenAI 擔任開發(fā)者關系負責人,廣為人知的昵稱是 「LoganGPT」 。在加入 Google 之前,他曾在 Apple 擔任機器學習工程師,并在 NASA 擔任開源政策顧問 。
在 Google,Kilpatrick 領導了 Gemini 2.0 Flash 的本地圖像生成功能的推出,使開發(fā)者能夠通過自然語言提示生成和編輯圖像。這一功能的亮點包括多輪對話式圖像編輯、圖像和文本的交替生成,以及基于世界知識的圖像生成 。
Kilpatrick 還定期在 X 上分享產品更新和開發(fā)者資源,成為 Google AI 的非正式代言人 。
他畢業(yè)于哈佛大學和牛津大學,早期在 NASA 開發(fā)月球車軟件,并在 Apple 訓練機器學習模型 。他對 Julia 編程語言持積極態(tài)度,并曾在 2024 年表示,直接邁向人工超智能(ASI)而不關注中間階段的做法「越來越可能」。
Kaushik Shivakumar
Kaushik Shivakumar 是 Google DeepMind 的研究工程師,專注于機器人技術、人工智能和多模態(tài)學習的研究與應用 。
他在加利福尼亞大學伯克利分校獲得了計算機科學學士學位,并在該校的 AUTOLab 實驗室攻讀碩士學位,師從 Ken Goldberg 教授 。在研究生階段,他主要從事與可變形物體操作、語言模型和強化學習相關的機器人研究。
在加入 DeepMind 之前,Kaushik 曾在 Google Brain 團隊擔任軟件工程實習生,研究深度神經(jīng)網(wǎng)絡的不確定性估計方法 。他還在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等機構擔任研究員和實習生,參與了多項與機器人、機器學習和弱監(jiān)督學習相關的項目 。
在 DeepMind,Kaushik 參與了多個重要項目,包括 Gemini 2.5 模型的開發(fā),該模型在推理能力、多模態(tài)理解和長上下文處理方面取得了顯著進展 。此外,他還在機器人操作、物體追蹤和語義搜索等領域發(fā)表了多篇研究論文 。
Robert Riachi
Robert Riachi 是 Google DeepMind 的研究工程師,專注于多模態(tài) AI 模型的開發(fā)與應用,尤其在圖像生成和編輯領域具有顯著貢獻。
他在大學期間主修計算機科學和統(tǒng)計學,畢業(yè)于加拿大滑鐵盧大學。
在 DeepMind,Riachi 參與了多個重要項目,包括 Gemini 2.0 和 Gemini 2.5 系列模型的研發(fā)工作,致力于將圖像生成能力與對話式 AI 相結合,使用戶能夠通過自然語言提示進行精細的圖像編輯。
在加入 DeepMind 之前,Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司擔任軟件工程師和機器學習工程師。
Nicole Brichtova
Nicole Brichtova 本科和研究生分別畢業(yè)于美國喬治敦大學和美國杜克大學富卡商學院,目前擔任 Google DeepMind 的視覺生成產品負責人,專注于構建生成模型,推動 Gemini 應用、Google Ads 和 Google Cloud 等產品的發(fā)展。
在加入 DeepMind 之前,Nicole 曾在 Google 的消費產品團隊擔任產品和市場戰(zhàn)略工作,參與了多個項目的規(guī)劃和推廣。此外,她還在德勤咨詢公司擔任顧問,為財富 500 強的科技公司提供創(chuàng)新和增長方面的建議。
Nicole 特別關注生成式人工智能如何支持創(chuàng)意、設計以及與技術互動的新方式。她在多個公開場合分享了 DeepMind 在視覺生成領域的最新進展,強調模型在理解復雜指令和生成高質量圖像方面的能力。
Mostafa Dehghani
Mostafa Dehghani 是 Google DeepMind 的研究科學家,主要從事機器學習,特別是深度學習方面的工作。他的研究興趣包括自監(jiān)督學習、生成模型、大模型訓練和序列建模。
在加入谷歌前,他在阿姆斯特丹大學攻讀博士學位,博士研究聚焦于改進在不完備監(jiān)督下的學習過程。他探索了將歸納偏置引入算法、融入先驗知識以及使用數(shù)據(jù)本身進行元學習的思想,旨在幫助學習算法更好地從噪聲或有限數(shù)據(jù)中學習。
他于 2020 年加入 Google DeepMind,參與了多個重要項目,包括開發(fā)多模態(tài)視覺語言模型 PaLI-X、構建 220 億參數(shù)的 Vision Transformer(ViT22B)以及提出 DSI++(Differentiable Search Indices),這是一種用于文檔增量更新的檢索增強學習方法 。
Nano Banana 有哪些技術亮點?
在節(jié)目一開始,研究人員就演展示了這款 P 圖神器的幾個亮點。
圖像編輯與場景一致性:
讓 AI 給 Logan 「穿上一件巨大的香蕉服」。生成只花了十幾秒,結果既保留了 Logan 的臉部特征,還加上了芝加哥街頭的背景。
創(chuàng)意解讀與模糊指令處理:
當提示「讓它變成納米(Nano)」時,模型居然生成了 Logan 的「迷你 Q 版」形象,依舊保持了香蕉服的設定。
模型能夠通過自然語言指令進行多輪互動,且在多次編輯中保持場景一致性,無需輸入冗長提示詞。
過去圖像生成 AI 最大的槽點是「寫字像外星文」。而這次,Gemini 2.5 Flash Image 已經(jīng)能在圖中正確生成簡短的文字,比如「Gemini Nano」。
團隊甚至把文本渲染能力當作模型評估的新指標,因為它能反映模型生成圖像「結構」的能力,并作為衡量整體圖像質量的信號,有助于指導模型改進。
他們通過追蹤此指標,避免了模型退步。雖然目前仍有文本渲染方面的不足,但團隊正努力改進。
而且,Gemini 2.5 Flash Image 不只是「畫圖機器」,它的核心魅力還在于「看懂圖片」。
團隊介紹,這款模型在原生圖像生成與多模態(tài)理解方面實現(xiàn)了緊密結合:圖像理解為生成提供信息,生成又反過來強化理解,兩者相輔相成。
通過圖像、視頻甚至音頻,Gemini 能從世界中學習額外知識,從而提升文本理解與生成能力 —— 視覺信號成為理解世界的捷徑。
在操作體驗上,模型引入了「交錯生成機制(interleaved generation)」
面對復雜、多點修改的任務,它會將一次性指令拆解成多輪操作,逐步生成與編輯圖像,實現(xiàn)「像素級別的完美編輯」。用戶只需用自然語言下達指令,即便提示模糊,Gemini 也能創(chuàng)意解讀,并保持場景一致性。
無論是角色動作、服裝,還是背景環(huán)境,修改與生成都能在多輪中保持連貫。
用 1980 年代美國魅力購物中心風格生成多張圖片,每張圖都保持風格一致且具上下文關聯(lián)。模型會利用多模態(tài)上下文,參考先前的圖像來生成修改。
因此,除了娛樂搞怪,Gemini 2.5 Flash Image 在實際應用場景中也大有用武之地。家居設計中,用戶可以快速查看多種方案。如房間不同窗簾效果可視化,模型能精準修改而不破壞整體環(huán)境。
人物 OOTD,無論是換衣服、變角度,還是生成 80 年代復古風形象,人物的面部和身份一致性都能保持穩(wěn)定。生成一張圖只需十幾秒,失敗了也能迅速重試,極大提升了創(chuàng)作效率。
那么,在實際應用中,開發(fā)者應該如何在 Imagen 和 Gemini 之間做選擇?
Nicole Brichtova 表示,Gemini 的終極目標,是整合所有模態(tài),向 AGI(通用人工智能)方向邁進。這意味著 Gemini 不只是一個圖像生成工具,而是一個能夠利用「知識轉移」,在跨模態(tài)的復雜任務中發(fā)揮作用的系統(tǒng)。
相比之下,Imagen 專注文本到圖像任務,在 Vertex 平臺中提供多種變體,針對特定需求進行了優(yōu)化,例如單張圖像的高質量生成、快速輸出、以及成本效益等方面。
簡而言之,如果任務目標明確、追求速度和性價比,Imagen 仍然是理想選擇。
復雜多模態(tài)工作流中,Gemini 的優(yōu)勢則更加突出。它適合復雜多模態(tài)任務,支持生成 + 編輯、多輪創(chuàng)意迭代,能理解模糊指令。
Gemini 能利用世界知識理解模糊提示,適合創(chuàng)意場景。Nicole 還補充道,Gemini 可以直接將參考圖像作為風格輸入,比 Imagen 的操作更方便。這讓它在處理「以某公司風格設計廣告牌」之類的任務時,更加自然和高效。
最后,團隊成員分享了對未來模型能力的展望。
一個是智能提升。Mostafa Dehghani 期待模型能展現(xiàn)出「智能」,即使不完全遵循指令,也能生成「比我實際描述的更好」的結果,讓使用者感受到與一個更聰明的系統(tǒng)互動。
另一個是事實性與功能性。Nicole Brichtova 對「事實性」感到非常興奮,希望未來的模型能夠生成既美觀又具功能性且準確無誤的圖表或信息圖,甚至能自動制作工作簡報,她認為這只是這些模型能做到的一小部分。
https://www.youtube.com/watch?v=H6ZXujE1qBA
https://www.linkedin.com/in/logankilpatrick/details/experience/
https://www.linkedin.com/in/kaushik-shivakumar/
https://www.linkedin.com/in/robertjrriachi/
https://www.linkedin.com/in/nicolebrichtova/
https://www.linkedin.com/in/dehghani-mostafa/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.