成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌Nano Banana全網(wǎng)刷屏,起底背后團(tuán)隊(duì)

0
分享至




機(jī)器之心報(bào)道

機(jī)器之心編輯部

引入「交錯(cuò)生成」功能,增強(qiáng)模型在世界知識(shí)和創(chuàng)意解釋方面的能力。

香蕉也能變禮服?Google 真的做到了!

在最新一期谷歌開發(fā)者節(jié)目里,Google DeepMind 團(tuán)隊(duì)首次全面展示了Gemini 2.5 Flash Image—— 一款擁有原生圖像生成與編輯能力的最新模型。

它不僅能快速生成高質(zhì)量圖像,還能在多輪對(duì)話中保持場(chǎng)景一致,帶來了前所未有的互動(dòng)體驗(yàn),堪稱 SOTA 級(jí)圖像生成革命。

背后的研發(fā)和產(chǎn)品團(tuán)隊(duì),也首次亮相。

起底背后團(tuán)隊(duì)

Logan Kilpatrick



Logan Kilpatrick 是 Google DeepMind 的高級(jí)產(chǎn)品經(jīng)理,負(fù)責(zé)領(lǐng)導(dǎo) Google AI Studio 和 Gemini API 的產(chǎn)品開發(fā)工作。



他在 AI 開發(fā)者社區(qū)中享有盛譽(yù),曾在 OpenAI 擔(dān)任開發(fā)者關(guān)系負(fù)責(zé)人,廣為人知的昵稱是 「LoganGPT」 。在加入 Google 之前,他曾在 Apple 擔(dān)任機(jī)器學(xué)習(xí)工程師,并在 NASA 擔(dān)任開源政策顧問 。

在 Google,Kilpatrick 領(lǐng)導(dǎo)了 Gemini 2.0 Flash 的本地圖像生成功能的推出,使開發(fā)者能夠通過自然語言提示生成和編輯圖像。這一功能的亮點(diǎn)包括多輪對(duì)話式圖像編輯、圖像和文本的交替生成,以及基于世界知識(shí)的圖像生成 。

Kilpatrick 還定期在 X 上分享產(chǎn)品更新和開發(fā)者資源,成為 Google AI 的非正式代言人 。

他畢業(yè)于哈佛大學(xué)和牛津大學(xué),早期在 NASA 開發(fā)月球車軟件,并在 Apple 訓(xùn)練機(jī)器學(xué)習(xí)模型 。他對(duì) Julia 編程語言持積極態(tài)度,并曾在 2024 年表示,直接邁向人工超智能(ASI)而不關(guān)注中間階段的做法「越來越可能」。



Kaushik Shivakumar



Kaushik Shivakumar 是 Google DeepMind 的研究工程師,專注于機(jī)器人技術(shù)、人工智能和多模態(tài)學(xué)習(xí)的研究與應(yīng)用 。

他在加利福尼亞大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,并在該校的 AUTOLab 實(shí)驗(yàn)室攻讀碩士學(xué)位,師從 Ken Goldberg 教授 。在研究生階段,他主要從事與可變形物體操作、語言模型和強(qiáng)化學(xué)習(xí)相關(guān)的機(jī)器人研究。



在加入 DeepMind 之前,Kaushik 曾在 Google Brain 團(tuán)隊(duì)擔(dān)任軟件工程實(shí)習(xí)生,研究深度神經(jīng)網(wǎng)絡(luò)的不確定性估計(jì)方法 。他還在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等機(jī)構(gòu)擔(dān)任研究員和實(shí)習(xí)生,參與了多項(xiàng)與機(jī)器人、機(jī)器學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)相關(guān)的項(xiàng)目 。

在 DeepMind,Kaushik 參與了多個(gè)重要項(xiàng)目,包括 Gemini 2.5 模型的開發(fā),該模型在推理能力、多模態(tài)理解和長(zhǎng)上下文處理方面取得了顯著進(jìn)展 。此外,他還在機(jī)器人操作、物體追蹤和語義搜索等領(lǐng)域發(fā)表了多篇研究論文 。

Robert Riachi



Robert Riachi 是 Google DeepMind 的研究工程師,專注于多模態(tài) AI 模型的開發(fā)與應(yīng)用,尤其在圖像生成和編輯領(lǐng)域具有顯著貢獻(xiàn)。

他在大學(xué)期間主修計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué),畢業(yè)于加拿大滑鐵盧大學(xué)。



在 DeepMind,Riachi 參與了多個(gè)重要項(xiàng)目,包括 Gemini 2.0 和 Gemini 2.5 系列模型的研發(fā)工作,致力于將圖像生成能力與對(duì)話式 AI 相結(jié)合,使用戶能夠通過自然語言提示進(jìn)行精細(xì)的圖像編輯。

在加入 DeepMind 之前,Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司擔(dān)任軟件工程師和機(jī)器學(xué)習(xí)工程師。

Nicole Brichtova



Nicole Brichtova 本科和研究生分別畢業(yè)于美國(guó)喬治敦大學(xué)和美國(guó)杜克大學(xué)富卡商學(xué)院,目前擔(dān)任 Google DeepMind 的視覺生成產(chǎn)品負(fù)責(zé)人,專注于構(gòu)建生成模型,推動(dòng) Gemini 應(yīng)用、Google Ads 和 Google Cloud 等產(chǎn)品的發(fā)展。



在加入 DeepMind 之前,Nicole 曾在 Google 的消費(fèi)產(chǎn)品團(tuán)隊(duì)擔(dān)任產(chǎn)品和市場(chǎng)戰(zhàn)略工作,參與了多個(gè)項(xiàng)目的規(guī)劃和推廣。此外,她還在德勤咨詢公司擔(dān)任顧問,為財(cái)富 500 強(qiáng)的科技公司提供創(chuàng)新和增長(zhǎng)方面的建議。



Nicole 特別關(guān)注生成式人工智能如何支持創(chuàng)意、設(shè)計(jì)以及與技術(shù)互動(dòng)的新方式。她在多個(gè)公開場(chǎng)合分享了 DeepMind 在視覺生成領(lǐng)域的最新進(jìn)展,強(qiáng)調(diào)模型在理解復(fù)雜指令和生成高質(zhì)量圖像方面的能力。

Mostafa Dehghani



Mostafa Dehghani 是 Google DeepMind 的研究科學(xué)家,主要從事機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)方面的工作。他的研究興趣包括自監(jiān)督學(xué)習(xí)、生成模型、大模型訓(xùn)練和序列建模。

在加入谷歌前,他在阿姆斯特丹大學(xué)攻讀博士學(xué)位,博士研究聚焦于改進(jìn)在不完備監(jiān)督下的學(xué)習(xí)過程。他探索了將歸納偏置引入算法、融入先驗(yàn)知識(shí)以及使用數(shù)據(jù)本身進(jìn)行元學(xué)習(xí)的思想,旨在幫助學(xué)習(xí)算法更好地從噪聲或有限數(shù)據(jù)中學(xué)習(xí)。

他于 2020 年加入 Google DeepMind,參與了多個(gè)重要項(xiàng)目,包括開發(fā)多模態(tài)視覺語言模型 PaLI-X、構(gòu)建 220 億參數(shù)的 Vision Transformer(ViT22B)以及提出 DSI++(Differentiable Search Indices),這是一種用于文檔增量更新的檢索增強(qiáng)學(xué)習(xí)方法 。

Nano Banana 有哪些技術(shù)亮點(diǎn)?

在節(jié)目一開始,研究人員就演展示了這款 P 圖神器的幾個(gè)亮點(diǎn)。

圖像編輯與場(chǎng)景一致性:



讓 AI 給 Logan 「穿上一件巨大的香蕉服」。生成只花了十幾秒,結(jié)果既保留了 Logan 的臉部特征,還加上了芝加哥街頭的背景。

創(chuàng)意解讀與模糊指令處理:



當(dāng)提示「讓它變成納米(Nano)」時(shí),模型居然生成了 Logan 的「迷你 Q 版」形象,依舊保持了香蕉服的設(shè)定。

模型能夠通過自然語言指令進(jìn)行多輪互動(dòng),且在多次編輯中保持場(chǎng)景一致性,無需輸入冗長(zhǎng)提示詞。

過去圖像生成 AI 最大的槽點(diǎn)是「寫字像外星文」。而這次,Gemini 2.5 Flash Image 已經(jīng)能在圖中正確生成簡(jiǎn)短的文字,比如「Gemini Nano」。



團(tuán)隊(duì)甚至把文本渲染能力當(dāng)作模型評(píng)估的新指標(biāo),因?yàn)樗芊从衬P蜕蓤D像「結(jié)構(gòu)」的能力,并作為衡量整體圖像質(zhì)量的信號(hào),有助于指導(dǎo)模型改進(jìn)。

他們通過追蹤此指標(biāo),避免了模型退步。雖然目前仍有文本渲染方面的不足,但團(tuán)隊(duì)正努力改進(jìn)。

而且,Gemini 2.5 Flash Image 不只是「畫圖機(jī)器」,它的核心魅力還在于「看懂圖片」。

團(tuán)隊(duì)介紹,這款模型在原生圖像生成與多模態(tài)理解方面實(shí)現(xiàn)了緊密結(jié)合:圖像理解為生成提供信息,生成又反過來強(qiáng)化理解,兩者相輔相成。

通過圖像、視頻甚至音頻,Gemini 能從世界中學(xué)習(xí)額外知識(shí),從而提升文本理解與生成能力 —— 視覺信號(hào)成為理解世界的捷徑。

在操作體驗(yàn)上,模型引入了「交錯(cuò)生成機(jī)制(interleaved generation)」

面對(duì)復(fù)雜、多點(diǎn)修改的任務(wù),它會(huì)將一次性指令拆解成多輪操作,逐步生成與編輯圖像,實(shí)現(xiàn)「像素級(jí)別的完美編輯」。用戶只需用自然語言下達(dá)指令,即便提示模糊,Gemini 也能創(chuàng)意解讀,并保持場(chǎng)景一致性。

無論是角色動(dòng)作、服裝,還是背景環(huán)境,修改與生成都能在多輪中保持連貫。



用 1980 年代美國(guó)魅力購(gòu)物中心風(fēng)格生成多張圖片,每張圖都保持風(fēng)格一致且具上下文關(guān)聯(lián)。模型會(huì)利用多模態(tài)上下文,參考先前的圖像來生成修改。

因此,除了娛樂搞怪,Gemini 2.5 Flash Image 在實(shí)際應(yīng)用場(chǎng)景中也大有用武之地。家居設(shè)計(jì)中,用戶可以快速查看多種方案。如房間不同窗簾效果可視化,模型能精準(zhǔn)修改而不破壞整體環(huán)境。

人物 OOTD,無論是換衣服、變角度,還是生成 80 年代復(fù)古風(fēng)形象,人物的面部和身份一致性都能保持穩(wěn)定。生成一張圖只需十幾秒,失敗了也能迅速重試,極大提升了創(chuàng)作效率。

那么,在實(shí)際應(yīng)用中,開發(fā)者應(yīng)該如何在 Imagen 和 Gemini 之間做選擇?

Nicole Brichtova 表示,Gemini 的終極目標(biāo),是整合所有模態(tài),向 AGI(通用人工智能)方向邁進(jìn)。這意味著 Gemini 不只是一個(gè)圖像生成工具,而是一個(gè)能夠利用「知識(shí)轉(zhuǎn)移」,在跨模態(tài)的復(fù)雜任務(wù)中發(fā)揮作用的系統(tǒng)。

相比之下,Imagen 專注文本到圖像任務(wù),在 Vertex 平臺(tái)中提供多種變體,針對(duì)特定需求進(jìn)行了優(yōu)化,例如單張圖像的高質(zhì)量生成、快速輸出、以及成本效益等方面。

簡(jiǎn)而言之,如果任務(wù)目標(biāo)明確、追求速度和性價(jià)比,Imagen 仍然是理想選擇。

復(fù)雜多模態(tài)工作流中,Gemini 的優(yōu)勢(shì)則更加突出。它適合復(fù)雜多模態(tài)任務(wù),支持生成 + 編輯、多輪創(chuàng)意迭代,能理解模糊指令。

Gemini 能利用世界知識(shí)理解模糊提示,適合創(chuàng)意場(chǎng)景。Nicole 還補(bǔ)充道,Gemini 可以直接將參考圖像作為風(fēng)格輸入,比 Imagen 的操作更方便。這讓它在處理「以某公司風(fēng)格設(shè)計(jì)廣告牌」之類的任務(wù)時(shí),更加自然和高效。

最后,團(tuán)隊(duì)成員分享了對(duì)未來模型能力的展望。

一個(gè)是智能提升。Mostafa Dehghani 期待模型能展現(xiàn)出「智能」,即使不完全遵循指令,也能生成「比我實(shí)際描述的更好」的結(jié)果,讓使用者感受到與一個(gè)更聰明的系統(tǒng)互動(dòng)。

另一個(gè)是事實(shí)性與功能性。Nicole Brichtova 對(duì)「事實(shí)性」感到非常興奮,希望未來的模型能夠生成既美觀又具功能性且準(zhǔn)確無誤的圖表或信息圖,甚至能自動(dòng)制作工作簡(jiǎn)報(bào),她認(rèn)為這只是這些模型能做到的一小部分。

https://www.youtube.com/watch?v=H6ZXujE1qBA

https://www.linkedin.com/in/logankilpatrick/details/experience/

https://www.linkedin.com/in/kaushik-shivakumar/

https://www.linkedin.com/in/robertjrriachi/

https://www.linkedin.com/in/nicolebrichtova/

https://www.linkedin.com/in/dehghani-mostafa/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克世界排名更新:肖國(guó)棟升至第8!特魯姆普仍居榜首,丁俊暉第7

斯諾克世界排名更新:肖國(guó)棟升至第8!特魯姆普仍居榜首,丁俊暉第7

雷速體育
2025-09-03 02:12:27
滬漂時(shí)和一位高中女老師合租,她半夜敲我房門:求你幫我一件私事

滬漂時(shí)和一位高中女老師合租,她半夜敲我房門:求你幫我一件私事

凱裕說故事
2025-08-28 14:34:32
隊(duì)報(bào)盤點(diǎn)轉(zhuǎn)會(huì)窗自由球員:埃里克森、富安健洋、齊耶赫在列

隊(duì)報(bào)盤點(diǎn)轉(zhuǎn)會(huì)窗自由球員:埃里克森、富安健洋、齊耶赫在列

懂球帝
2025-09-03 03:44:53
哭求調(diào)休跑馬拉松,衛(wèi)健委回應(yīng),張水華或遇大麻煩,贊助商或解約

哭求調(diào)休跑馬拉松,衛(wèi)健委回應(yīng),張水華或遇大麻煩,贊助商或解約

東球弟
2025-09-02 12:57:27
吳千語疑街頭拍攝被野生捕獲,網(wǎng)民驚訝真人一部位與上鏡有落差?

吳千語疑街頭拍攝被野生捕獲,網(wǎng)民驚訝真人一部位與上鏡有落差?

粵睇先生
2025-09-03 00:55:03
特朗普:人還活著,要被印度氣死了

特朗普:人還活著,要被印度氣死了

百味朱砂
2025-09-02 11:45:26
董璇舌釘引爆熱搜!賢妻良母人設(shè)背后,藏著多少我們沒看見的她?

董璇舌釘引爆熱搜!賢妻良母人設(shè)背后,藏著多少我們沒看見的她?

可樂談情感
2025-08-11 13:16:57
謝賢已經(jīng)安排好后事了!放著親兒女不管,為啥獨(dú)寵前兒媳張柏芝?

謝賢已經(jīng)安排好后事了!放著親兒女不管,為啥獨(dú)寵前兒媳張柏芝?

簡(jiǎn)讀視覺
2025-08-07 17:45:21
被木子美曝光“疊羅漢”“三人組”的圈內(nèi)大佬為何默不作聲?

被木子美曝光“疊羅漢”“三人組”的圈內(nèi)大佬為何默不作聲?

廖保平
2025-09-02 08:37:13
九三閱兵,讓人沒想到的是,國(guó)務(wù)院放出個(gè)從沒見過的消息!

九三閱兵,讓人沒想到的是,國(guó)務(wù)院放出個(gè)從沒見過的消息!

天行艦
2025-08-17 00:00:03
穆阿尼:這是我第一次來英超,我已經(jīng)迫不及待展示我的能力

穆阿尼:這是我第一次來英超,我已經(jīng)迫不及待展示我的能力

懂球帝
2025-09-02 09:14:15
洪秀柱抵達(dá)北京,在落地的那一刻,做出鄭重表態(tài),民進(jìn)黨氣急敗壞

洪秀柱抵達(dá)北京,在落地的那一刻,做出鄭重表態(tài),民進(jìn)黨氣急敗壞

博覽歷史
2025-09-02 18:39:52
我在泰國(guó)租了個(gè)妻子看似各取所需,其背后隱藏著不可告人的真相

我在泰國(guó)租了個(gè)妻子看似各取所需,其背后隱藏著不可告人的真相

小魚滑
2024-04-24 00:04:25
香港一夜沸騰!1200架無人機(jī)重現(xiàn)日本投降,場(chǎng)面震撼,市民看哭了

香港一夜沸騰!1200架無人機(jī)重現(xiàn)日本投降,場(chǎng)面震撼,市民看哭了

史書無明
2025-08-31 12:30:43
“最快女護(hù)士”后續(xù):同事發(fā)聲吐槽,本人拒不辭職,361難上加難

“最快女護(hù)士”后續(xù):同事發(fā)聲吐槽,本人拒不辭職,361難上加難

古希臘掌管松餅的神
2025-09-02 09:18:05
一路走好!9月才過兩天傳來4位名人死訊,最小35歲,她最出乎意料

一路走好!9月才過兩天傳來4位名人死訊,最小35歲,她最出乎意料

春秋論娛
2025-09-02 21:24:40
媒體人:張鎮(zhèn)麟加盟上海的轉(zhuǎn)會(huì)費(fèi)不菲,趙睿連他的一半都不到

媒體人:張鎮(zhèn)麟加盟上海的轉(zhuǎn)會(huì)費(fèi)不菲,趙睿連他的一半都不到

林小湜體育頻道
2025-09-02 20:32:09
陳數(shù)與陳好,誰是熟女天花板?二人身材豐盈氣質(zhì)高雅!

陳數(shù)與陳好,誰是熟女天花板?二人身材豐盈氣質(zhì)高雅!

娛樂領(lǐng)航家
2025-09-02 19:00:03
敗光20億、向洋人下跪、國(guó)籍問題,鄧亞萍身上的標(biāo)簽到底是真是假

敗光20億、向洋人下跪、國(guó)籍問題,鄧亞萍身上的標(biāo)簽到底是真是假

說歷史的老牢
2025-09-01 14:36:38
蘇杰生徹底對(duì)華明牌,想要實(shí)現(xiàn)“龍象共舞”,中國(guó)必須先行撤軍?

蘇杰生徹底對(duì)華明牌,想要實(shí)現(xiàn)“龍象共舞”,中國(guó)必須先行撤軍?

boss外傳
2025-09-02 00:00:03
2025-09-03 04:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11215文章數(shù) 142437關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請(qǐng)

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強(qiáng)硬表態(tài)將留任后又突然改口

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強(qiáng)硬表態(tài)將留任后又突然改口

體育要聞

記者:拜仁有意免簽格伊,后者能在1月和海外球隊(duì)預(yù)簽合同

娛樂要聞

“廚神對(duì)決!”誰做的菜好吃?

財(cái)經(jīng)要聞

黃金破"次元" 年輕人熬夜買"金谷子"

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
本地
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

realme真我Watch 5曝光:1.97英寸方屏、460mAh電池

親子要聞

運(yùn)動(dòng)童裝,不再只討好「爸媽」

本地新聞

換個(gè)城市過夏天 | “中式美學(xué)”打開夏日濰坊

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版