機(jī)器之心報(bào)道
機(jī)器之心編輯部
引入「交錯(cuò)生成」功能,增強(qiáng)模型在世界知識(shí)和創(chuàng)意解釋方面的能力。
香蕉也能變禮服?Google 真的做到了!
在最新一期谷歌開發(fā)者節(jié)目里,Google DeepMind 團(tuán)隊(duì)首次全面展示了Gemini 2.5 Flash Image—— 一款擁有原生圖像生成與編輯能力的最新模型。
它不僅能快速生成高質(zhì)量圖像,還能在多輪對(duì)話中保持場(chǎng)景一致,帶來了前所未有的互動(dòng)體驗(yàn),堪稱 SOTA 級(jí)圖像生成革命。
背后的研發(fā)和產(chǎn)品團(tuán)隊(duì),也首次亮相。
起底背后團(tuán)隊(duì)
Logan Kilpatrick
Logan Kilpatrick 是 Google DeepMind 的高級(jí)產(chǎn)品經(jīng)理,負(fù)責(zé)領(lǐng)導(dǎo) Google AI Studio 和 Gemini API 的產(chǎn)品開發(fā)工作。
他在 AI 開發(fā)者社區(qū)中享有盛譽(yù),曾在 OpenAI 擔(dān)任開發(fā)者關(guān)系負(fù)責(zé)人,廣為人知的昵稱是 「LoganGPT」 。在加入 Google 之前,他曾在 Apple 擔(dān)任機(jī)器學(xué)習(xí)工程師,并在 NASA 擔(dān)任開源政策顧問 。
在 Google,Kilpatrick 領(lǐng)導(dǎo)了 Gemini 2.0 Flash 的本地圖像生成功能的推出,使開發(fā)者能夠通過自然語言提示生成和編輯圖像。這一功能的亮點(diǎn)包括多輪對(duì)話式圖像編輯、圖像和文本的交替生成,以及基于世界知識(shí)的圖像生成 。
Kilpatrick 還定期在 X 上分享產(chǎn)品更新和開發(fā)者資源,成為 Google AI 的非正式代言人 。
他畢業(yè)于哈佛大學(xué)和牛津大學(xué),早期在 NASA 開發(fā)月球車軟件,并在 Apple 訓(xùn)練機(jī)器學(xué)習(xí)模型 。他對(duì) Julia 編程語言持積極態(tài)度,并曾在 2024 年表示,直接邁向人工超智能(ASI)而不關(guān)注中間階段的做法「越來越可能」。
Kaushik Shivakumar
Kaushik Shivakumar 是 Google DeepMind 的研究工程師,專注于機(jī)器人技術(shù)、人工智能和多模態(tài)學(xué)習(xí)的研究與應(yīng)用 。
他在加利福尼亞大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,并在該校的 AUTOLab 實(shí)驗(yàn)室攻讀碩士學(xué)位,師從 Ken Goldberg 教授 。在研究生階段,他主要從事與可變形物體操作、語言模型和強(qiáng)化學(xué)習(xí)相關(guān)的機(jī)器人研究。
在加入 DeepMind 之前,Kaushik 曾在 Google Brain 團(tuán)隊(duì)擔(dān)任軟件工程實(shí)習(xí)生,研究深度神經(jīng)網(wǎng)絡(luò)的不確定性估計(jì)方法 。他還在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等機(jī)構(gòu)擔(dān)任研究員和實(shí)習(xí)生,參與了多項(xiàng)與機(jī)器人、機(jī)器學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)相關(guān)的項(xiàng)目 。
在 DeepMind,Kaushik 參與了多個(gè)重要項(xiàng)目,包括 Gemini 2.5 模型的開發(fā),該模型在推理能力、多模態(tài)理解和長(zhǎng)上下文處理方面取得了顯著進(jìn)展 。此外,他還在機(jī)器人操作、物體追蹤和語義搜索等領(lǐng)域發(fā)表了多篇研究論文 。
Robert Riachi
Robert Riachi 是 Google DeepMind 的研究工程師,專注于多模態(tài) AI 模型的開發(fā)與應(yīng)用,尤其在圖像生成和編輯領(lǐng)域具有顯著貢獻(xiàn)。
他在大學(xué)期間主修計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué),畢業(yè)于加拿大滑鐵盧大學(xué)。
在 DeepMind,Riachi 參與了多個(gè)重要項(xiàng)目,包括 Gemini 2.0 和 Gemini 2.5 系列模型的研發(fā)工作,致力于將圖像生成能力與對(duì)話式 AI 相結(jié)合,使用戶能夠通過自然語言提示進(jìn)行精細(xì)的圖像編輯。
在加入 DeepMind 之前,Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司擔(dān)任軟件工程師和機(jī)器學(xué)習(xí)工程師。
Nicole Brichtova
Nicole Brichtova 本科和研究生分別畢業(yè)于美國(guó)喬治敦大學(xué)和美國(guó)杜克大學(xué)富卡商學(xué)院,目前擔(dān)任 Google DeepMind 的視覺生成產(chǎn)品負(fù)責(zé)人,專注于構(gòu)建生成模型,推動(dòng) Gemini 應(yīng)用、Google Ads 和 Google Cloud 等產(chǎn)品的發(fā)展。
在加入 DeepMind 之前,Nicole 曾在 Google 的消費(fèi)產(chǎn)品團(tuán)隊(duì)擔(dān)任產(chǎn)品和市場(chǎng)戰(zhàn)略工作,參與了多個(gè)項(xiàng)目的規(guī)劃和推廣。此外,她還在德勤咨詢公司擔(dān)任顧問,為財(cái)富 500 強(qiáng)的科技公司提供創(chuàng)新和增長(zhǎng)方面的建議。
Nicole 特別關(guān)注生成式人工智能如何支持創(chuàng)意、設(shè)計(jì)以及與技術(shù)互動(dòng)的新方式。她在多個(gè)公開場(chǎng)合分享了 DeepMind 在視覺生成領(lǐng)域的最新進(jìn)展,強(qiáng)調(diào)模型在理解復(fù)雜指令和生成高質(zhì)量圖像方面的能力。
Mostafa Dehghani
Mostafa Dehghani 是 Google DeepMind 的研究科學(xué)家,主要從事機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)方面的工作。他的研究興趣包括自監(jiān)督學(xué)習(xí)、生成模型、大模型訓(xùn)練和序列建模。
在加入谷歌前,他在阿姆斯特丹大學(xué)攻讀博士學(xué)位,博士研究聚焦于改進(jìn)在不完備監(jiān)督下的學(xué)習(xí)過程。他探索了將歸納偏置引入算法、融入先驗(yàn)知識(shí)以及使用數(shù)據(jù)本身進(jìn)行元學(xué)習(xí)的思想,旨在幫助學(xué)習(xí)算法更好地從噪聲或有限數(shù)據(jù)中學(xué)習(xí)。
他于 2020 年加入 Google DeepMind,參與了多個(gè)重要項(xiàng)目,包括開發(fā)多模態(tài)視覺語言模型 PaLI-X、構(gòu)建 220 億參數(shù)的 Vision Transformer(ViT22B)以及提出 DSI++(Differentiable Search Indices),這是一種用于文檔增量更新的檢索增強(qiáng)學(xué)習(xí)方法 。
Nano Banana 有哪些技術(shù)亮點(diǎn)?
在節(jié)目一開始,研究人員就演展示了這款 P 圖神器的幾個(gè)亮點(diǎn)。
圖像編輯與場(chǎng)景一致性:
讓 AI 給 Logan 「穿上一件巨大的香蕉服」。生成只花了十幾秒,結(jié)果既保留了 Logan 的臉部特征,還加上了芝加哥街頭的背景。
創(chuàng)意解讀與模糊指令處理:
當(dāng)提示「讓它變成納米(Nano)」時(shí),模型居然生成了 Logan 的「迷你 Q 版」形象,依舊保持了香蕉服的設(shè)定。
模型能夠通過自然語言指令進(jìn)行多輪互動(dòng),且在多次編輯中保持場(chǎng)景一致性,無需輸入冗長(zhǎng)提示詞。
過去圖像生成 AI 最大的槽點(diǎn)是「寫字像外星文」。而這次,Gemini 2.5 Flash Image 已經(jīng)能在圖中正確生成簡(jiǎn)短的文字,比如「Gemini Nano」。
團(tuán)隊(duì)甚至把文本渲染能力當(dāng)作模型評(píng)估的新指標(biāo),因?yàn)樗芊从衬P蜕蓤D像「結(jié)構(gòu)」的能力,并作為衡量整體圖像質(zhì)量的信號(hào),有助于指導(dǎo)模型改進(jìn)。
他們通過追蹤此指標(biāo),避免了模型退步。雖然目前仍有文本渲染方面的不足,但團(tuán)隊(duì)正努力改進(jìn)。
而且,Gemini 2.5 Flash Image 不只是「畫圖機(jī)器」,它的核心魅力還在于「看懂圖片」。
團(tuán)隊(duì)介紹,這款模型在原生圖像生成與多模態(tài)理解方面實(shí)現(xiàn)了緊密結(jié)合:圖像理解為生成提供信息,生成又反過來強(qiáng)化理解,兩者相輔相成。
通過圖像、視頻甚至音頻,Gemini 能從世界中學(xué)習(xí)額外知識(shí),從而提升文本理解與生成能力 —— 視覺信號(hào)成為理解世界的捷徑。
在操作體驗(yàn)上,模型引入了「交錯(cuò)生成機(jī)制(interleaved generation)」
面對(duì)復(fù)雜、多點(diǎn)修改的任務(wù),它會(huì)將一次性指令拆解成多輪操作,逐步生成與編輯圖像,實(shí)現(xiàn)「像素級(jí)別的完美編輯」。用戶只需用自然語言下達(dá)指令,即便提示模糊,Gemini 也能創(chuàng)意解讀,并保持場(chǎng)景一致性。
無論是角色動(dòng)作、服裝,還是背景環(huán)境,修改與生成都能在多輪中保持連貫。
用 1980 年代美國(guó)魅力購(gòu)物中心風(fēng)格生成多張圖片,每張圖都保持風(fēng)格一致且具上下文關(guān)聯(lián)。模型會(huì)利用多模態(tài)上下文,參考先前的圖像來生成修改。
因此,除了娛樂搞怪,Gemini 2.5 Flash Image 在實(shí)際應(yīng)用場(chǎng)景中也大有用武之地。家居設(shè)計(jì)中,用戶可以快速查看多種方案。如房間不同窗簾效果可視化,模型能精準(zhǔn)修改而不破壞整體環(huán)境。
人物 OOTD,無論是換衣服、變角度,還是生成 80 年代復(fù)古風(fēng)形象,人物的面部和身份一致性都能保持穩(wěn)定。生成一張圖只需十幾秒,失敗了也能迅速重試,極大提升了創(chuàng)作效率。
那么,在實(shí)際應(yīng)用中,開發(fā)者應(yīng)該如何在 Imagen 和 Gemini 之間做選擇?
Nicole Brichtova 表示,Gemini 的終極目標(biāo),是整合所有模態(tài),向 AGI(通用人工智能)方向邁進(jìn)。這意味著 Gemini 不只是一個(gè)圖像生成工具,而是一個(gè)能夠利用「知識(shí)轉(zhuǎn)移」,在跨模態(tài)的復(fù)雜任務(wù)中發(fā)揮作用的系統(tǒng)。
相比之下,Imagen 專注文本到圖像任務(wù),在 Vertex 平臺(tái)中提供多種變體,針對(duì)特定需求進(jìn)行了優(yōu)化,例如單張圖像的高質(zhì)量生成、快速輸出、以及成本效益等方面。
簡(jiǎn)而言之,如果任務(wù)目標(biāo)明確、追求速度和性價(jià)比,Imagen 仍然是理想選擇。
復(fù)雜多模態(tài)工作流中,Gemini 的優(yōu)勢(shì)則更加突出。它適合復(fù)雜多模態(tài)任務(wù),支持生成 + 編輯、多輪創(chuàng)意迭代,能理解模糊指令。
Gemini 能利用世界知識(shí)理解模糊提示,適合創(chuàng)意場(chǎng)景。Nicole 還補(bǔ)充道,Gemini 可以直接將參考圖像作為風(fēng)格輸入,比 Imagen 的操作更方便。這讓它在處理「以某公司風(fēng)格設(shè)計(jì)廣告牌」之類的任務(wù)時(shí),更加自然和高效。
最后,團(tuán)隊(duì)成員分享了對(duì)未來模型能力的展望。
一個(gè)是智能提升。Mostafa Dehghani 期待模型能展現(xiàn)出「智能」,即使不完全遵循指令,也能生成「比我實(shí)際描述的更好」的結(jié)果,讓使用者感受到與一個(gè)更聰明的系統(tǒng)互動(dòng)。
另一個(gè)是事實(shí)性與功能性。Nicole Brichtova 對(duì)「事實(shí)性」感到非常興奮,希望未來的模型能夠生成既美觀又具功能性且準(zhǔn)確無誤的圖表或信息圖,甚至能自動(dòng)制作工作簡(jiǎn)報(bào),她認(rèn)為這只是這些模型能做到的一小部分。
https://www.youtube.com/watch?v=H6ZXujE1qBA
https://www.linkedin.com/in/logankilpatrick/details/experience/
https://www.linkedin.com/in/kaushik-shivakumar/
https://www.linkedin.com/in/robertjrriachi/
https://www.linkedin.com/in/nicolebrichtova/
https://www.linkedin.com/in/dehghani-mostafa/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.