網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌Nano Banana全網(wǎng)刷屏，起底背后團(tuán)隊(duì)

2025-08-29 15:36:46　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

引入「交錯(cuò)生成」功能，增強(qiáng)模型在世界知識(shí)和創(chuàng)意解釋方面的能力。

香蕉也能變禮服？Google 真的做到了！

在最新一期谷歌開發(fā)者節(jié)目里，Google DeepMind 團(tuán)隊(duì)首次全面展示了Gemini 2.5 Flash Image—— 一款擁有原生圖像生成與編輯能力的最新模型。

它不僅能快速生成高質(zhì)量圖像，還能在多輪對(duì)話中保持場(chǎng)景一致，帶來了前所未有的互動(dòng)體驗(yàn)，堪稱 SOTA 級(jí)圖像生成革命。

背后的研發(fā)和產(chǎn)品團(tuán)隊(duì)，也首次亮相。

起底背后團(tuán)隊(duì)

Logan Kilpatrick

Logan Kilpatrick 是 Google DeepMind 的高級(jí)產(chǎn)品經(jīng)理，負(fù)責(zé)領(lǐng)導(dǎo) Google AI Studio 和 Gemini API 的產(chǎn)品開發(fā)工作。

他在 AI 開發(fā)者社區(qū)中享有盛譽(yù)，曾在 OpenAI 擔(dān)任開發(fā)者關(guān)系負(fù)責(zé)人，廣為人知的昵稱是「LoganGPT」。在加入 Google 之前，他曾在 Apple 擔(dān)任機(jī)器學(xué)習(xí)工程師，并在 NASA 擔(dān)任開源政策顧問。

在 Google，Kilpatrick 領(lǐng)導(dǎo)了 Gemini 2.0 Flash 的本地圖像生成功能的推出，使開發(fā)者能夠通過自然語言提示生成和編輯圖像。這一功能的亮點(diǎn)包括多輪對(duì)話式圖像編輯、圖像和文本的交替生成，以及基于世界知識(shí)的圖像生成。

Kilpatrick 還定期在 X 上分享產(chǎn)品更新和開發(fā)者資源，成為 Google AI 的非正式代言人。

他畢業(yè)于哈佛大學(xué)和牛津大學(xué)，早期在 NASA 開發(fā)月球車軟件，并在 Apple 訓(xùn)練機(jī)器學(xué)習(xí)模型。他對(duì) Julia 編程語言持積極態(tài)度，并曾在 2024 年表示，直接邁向人工超智能（ASI）而不關(guān)注中間階段的做法「越來越可能」。

Kaushik Shivakumar

Kaushik Shivakumar 是 Google DeepMind 的研究工程師，專注于機(jī)器人技術(shù)、人工智能和多模態(tài)學(xué)習(xí)的研究與應(yīng)用。

他在加利福尼亞大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位，并在該校的 AUTOLab 實(shí)驗(yàn)室攻讀碩士學(xué)位，師從 Ken Goldberg 教授。在研究生階段，他主要從事與可變形物體操作、語言模型和強(qiáng)化學(xué)習(xí)相關(guān)的機(jī)器人研究。

在加入 DeepMind 之前，Kaushik 曾在 Google Brain 團(tuán)隊(duì)擔(dān)任軟件工程實(shí)習(xí)生，研究深度神經(jīng)網(wǎng)絡(luò)的不確定性估計(jì)方法。他還在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等機(jī)構(gòu)擔(dān)任研究員和實(shí)習(xí)生，參與了多項(xiàng)與機(jī)器人、機(jī)器學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)相關(guān)的項(xiàng)目。

在 DeepMind，Kaushik 參與了多個(gè)重要項(xiàng)目，包括 Gemini 2.5 模型的開發(fā)，該模型在推理能力、多模態(tài)理解和長(zhǎng)上下文處理方面取得了顯著進(jìn)展。此外，他還在機(jī)器人操作、物體追蹤和語義搜索等領(lǐng)域發(fā)表了多篇研究論文。

Robert Riachi

Robert Riachi 是 Google DeepMind 的研究工程師，專注于多模態(tài) AI 模型的開發(fā)與應(yīng)用，尤其在圖像生成和編輯領(lǐng)域具有顯著貢獻(xiàn)。

他在大學(xué)期間主修計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)，畢業(yè)于加拿大滑鐵盧大學(xué)。

在 DeepMind，Riachi 參與了多個(gè)重要項(xiàng)目，包括 Gemini 2.0 和 Gemini 2.5 系列模型的研發(fā)工作，致力于將圖像生成能力與對(duì)話式 AI 相結(jié)合，使用戶能夠通過自然語言提示進(jìn)行精細(xì)的圖像編輯。

在加入 DeepMind 之前，Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司擔(dān)任軟件工程師和機(jī)器學(xué)習(xí)工程師。

Nicole Brichtova

Nicole Brichtova 本科和研究生分別畢業(yè)于美國(guó)喬治敦大學(xué)和美國(guó)杜克大學(xué)富卡商學(xué)院，目前擔(dān)任 Google DeepMind 的視覺生成產(chǎn)品負(fù)責(zé)人，專注于構(gòu)建生成模型，推動(dòng) Gemini 應(yīng)用、Google Ads 和 Google Cloud 等產(chǎn)品的發(fā)展。

在加入 DeepMind 之前，Nicole 曾在 Google 的消費(fèi)產(chǎn)品團(tuán)隊(duì)擔(dān)任產(chǎn)品和市場(chǎng)戰(zhàn)略工作，參與了多個(gè)項(xiàng)目的規(guī)劃和推廣。此外，她還在德勤咨詢公司擔(dān)任顧問，為財(cái)富 500 強(qiáng)的科技公司提供創(chuàng)新和增長(zhǎng)方面的建議。

Nicole 特別關(guān)注生成式人工智能如何支持創(chuàng)意、設(shè)計(jì)以及與技術(shù)互動(dòng)的新方式。她在多個(gè)公開場(chǎng)合分享了 DeepMind 在視覺生成領(lǐng)域的最新進(jìn)展，強(qiáng)調(diào)模型在理解復(fù)雜指令和生成高質(zhì)量圖像方面的能力。

Mostafa Dehghani

Mostafa Dehghani 是 Google DeepMind 的研究科學(xué)家，主要從事機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)方面的工作。他的研究興趣包括自監(jiān)督學(xué)習(xí)、生成模型、大模型訓(xùn)練和序列建模。

在加入谷歌前，他在阿姆斯特丹大學(xué)攻讀博士學(xué)位，博士研究聚焦于改進(jìn)在不完備監(jiān)督下的學(xué)習(xí)過程。他探索了將歸納偏置引入算法、融入先驗(yàn)知識(shí)以及使用數(shù)據(jù)本身進(jìn)行元學(xué)習(xí)的思想，旨在幫助學(xué)習(xí)算法更好地從噪聲或有限數(shù)據(jù)中學(xué)習(xí)。

他于 2020 年加入 Google DeepMind，參與了多個(gè)重要項(xiàng)目，包括開發(fā)多模態(tài)視覺語言模型 PaLI-X、構(gòu)建 220 億參數(shù)的 Vision Transformer（ViT22B）以及提出 DSI++（Differentiable Search Indices），這是一種用于文檔增量更新的檢索增強(qiáng)學(xué)習(xí)方法。

Nano Banana 有哪些技術(shù)亮點(diǎn)？

在節(jié)目一開始，研究人員就演展示了這款 P 圖神器的幾個(gè)亮點(diǎn)。

圖像編輯與場(chǎng)景一致性：

讓 AI 給 Logan 「穿上一件巨大的香蕉服」。生成只花了十幾秒，結(jié)果既保留了 Logan 的臉部特征，還加上了芝加哥街頭的背景。

創(chuàng)意解讀與模糊指令處理：

當(dāng)提示「讓它變成納米（Nano）」時(shí)，模型居然生成了 Logan 的「迷你 Q 版」形象，依舊保持了香蕉服的設(shè)定。

模型能夠通過自然語言指令進(jìn)行多輪互動(dòng)，且在多次編輯中保持場(chǎng)景一致性，無需輸入冗長(zhǎng)提示詞。

過去圖像生成 AI 最大的槽點(diǎn)是「寫字像外星文」。而這次，Gemini 2.5 Flash Image 已經(jīng)能在圖中正確生成簡(jiǎn)短的文字，比如「Gemini Nano」。

團(tuán)隊(duì)甚至把文本渲染能力當(dāng)作模型評(píng)估的新指標(biāo)，因?yàn)樗芊从衬Ｐ蜕蓤D像「結(jié)構(gòu)」的能力，并作為衡量整體圖像質(zhì)量的信號(hào)，有助于指導(dǎo)模型改進(jìn)。

他們通過追蹤此指標(biāo)，避免了模型退步。雖然目前仍有文本渲染方面的不足，但團(tuán)隊(duì)正努力改進(jìn)。

而且，Gemini 2.5 Flash Image 不只是「畫圖機(jī)器」，它的核心魅力還在于「看懂圖片」。

團(tuán)隊(duì)介紹，這款模型在原生圖像生成與多模態(tài)理解方面實(shí)現(xiàn)了緊密結(jié)合：圖像理解為生成提供信息，生成又反過來強(qiáng)化理解，兩者相輔相成。

通過圖像、視頻甚至音頻，Gemini 能從世界中學(xué)習(xí)額外知識(shí)，從而提升文本理解與生成能力 —— 視覺信號(hào)成為理解世界的捷徑。

在操作體驗(yàn)上，模型引入了「交錯(cuò)生成機(jī)制（interleaved generation）」

面對(duì)復(fù)雜、多點(diǎn)修改的任務(wù)，它會(huì)將一次性指令拆解成多輪操作，逐步生成與編輯圖像，實(shí)現(xiàn)「像素級(jí)別的完美編輯」。用戶只需用自然語言下達(dá)指令，即便提示模糊，Gemini 也能創(chuàng)意解讀，并保持場(chǎng)景一致性。

無論是角色動(dòng)作、服裝，還是背景環(huán)境，修改與生成都能在多輪中保持連貫。

用 1980 年代美國(guó)魅力購(gòu)物中心風(fēng)格生成多張圖片，每張圖都保持風(fēng)格一致且具上下文關(guān)聯(lián)。模型會(huì)利用多模態(tài)上下文，參考先前的圖像來生成修改。

因此，除了娛樂搞怪，Gemini 2.5 Flash Image 在實(shí)際應(yīng)用場(chǎng)景中也大有用武之地。家居設(shè)計(jì)中，用戶可以快速查看多種方案。如房間不同窗簾效果可視化，模型能精準(zhǔn)修改而不破壞整體環(huán)境。

人物 OOTD，無論是換衣服、變角度，還是生成 80 年代復(fù)古風(fēng)形象，人物的面部和身份一致性都能保持穩(wěn)定。生成一張圖只需十幾秒，失敗了也能迅速重試，極大提升了創(chuàng)作效率。

那么，在實(shí)際應(yīng)用中，開發(fā)者應(yīng)該如何在 Imagen 和 Gemini 之間做選擇？

Nicole Brichtova 表示，Gemini 的終極目標(biāo)，是整合所有模態(tài)，向 AGI（通用人工智能）方向邁進(jìn)。這意味著 Gemini 不只是一個(gè)圖像生成工具，而是一個(gè)能夠利用「知識(shí)轉(zhuǎn)移」，在跨模態(tài)的復(fù)雜任務(wù)中發(fā)揮作用的系統(tǒng)。

相比之下，Imagen 專注文本到圖像任務(wù)，在 Vertex 平臺(tái)中提供多種變體，針對(duì)特定需求進(jìn)行了優(yōu)化，例如單張圖像的高質(zhì)量生成、快速輸出、以及成本效益等方面。

簡(jiǎn)而言之，如果任務(wù)目標(biāo)明確、追求速度和性價(jià)比，Imagen 仍然是理想選擇。

復(fù)雜多模態(tài)工作流中，Gemini 的優(yōu)勢(shì)則更加突出。它適合復(fù)雜多模態(tài)任務(wù)，支持生成 + 編輯、多輪創(chuàng)意迭代，能理解模糊指令。

Gemini 能利用世界知識(shí)理解模糊提示，適合創(chuàng)意場(chǎng)景。Nicole 還補(bǔ)充道，Gemini 可以直接將參考圖像作為風(fēng)格輸入，比 Imagen 的操作更方便。這讓它在處理「以某公司風(fēng)格設(shè)計(jì)廣告牌」之類的任務(wù)時(shí)，更加自然和高效。

最后，團(tuán)隊(duì)成員分享了對(duì)未來模型能力的展望。

一個(gè)是智能提升。Mostafa Dehghani 期待模型能展現(xiàn)出「智能」，即使不完全遵循指令，也能生成「比我實(shí)際描述的更好」的結(jié)果，讓使用者感受到與一個(gè)更聰明的系統(tǒng)互動(dòng)。

另一個(gè)是事實(shí)性與功能性。Nicole Brichtova 對(duì)「事實(shí)性」感到非常興奮，希望未來的模型能夠生成既美觀又具功能性且準(zhǔn)確無誤的圖表或信息圖，甚至能自動(dòng)制作工作簡(jiǎn)報(bào)，她認(rèn)為這只是這些模型能做到的一小部分。

https://www.youtube.com/watch?v=H6ZXujE1qBA

https://www.linkedin.com/in/logankilpatrick/details/experience/

https://www.linkedin.com/in/kaushik-shivakumar/

https://www.linkedin.com/in/robertjrriachi/

https://www.linkedin.com/in/nicolebrichtova/

https://www.linkedin.com/in/dehghani-mostafa/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.