henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
用提示詞就能點對點編輯圖片?
Qwen:沒錯,正是在下。
瞧,上面這套“哪里不對改哪里”的操作,就來自“凌晨戰(zhàn)神”Qwen團隊最新發(fā)布的——Qwen-Image-Edit
作為Qwen-Image20B的圖像編輯版,Qwen-Image-Edit除了能做上面這種精準的文字修改,還能夠新增、消除、重繪、修改元素,而且還支持IP編輯、視角切換、風格遷移等生成式玩法。
網(wǎng)友:這一連串功能擺出來,PS都得收聲。
一次出圖,玩轉(zhuǎn)增刪改
話不多說,我們直接看效果。
原創(chuàng)IP編輯
原創(chuàng)IP編輯需要保持原始圖像視覺語義不變的前提下,對圖像內(nèi)容進行修改,也就是所謂的語義編輯。
Qwen以他們的吉祥物卡皮巴拉作為輸入,生成了一系列衍生IP形象。
(卡皮巴拉:我一好好的水豚成熊了?)
不難看出,這些IP形象既忠實呈現(xiàn)了卡皮巴拉的角色特性,又在對應(yīng)場景中展現(xiàn)出豐富多彩的形象。
那么,Demo很優(yōu)秀,實測效果又如何?
對此,我們進行了簡單地實測,提示詞:這只熊穿著體操隊服,雙手拉在單杠上。
實話說,生成效果確實不賴,單杠因受力產(chǎn)生了自然變形,更難能可貴的是雙手手指數(shù)量也是一致的(動漫角色經(jīng)典的四根手指)。
視角轉(zhuǎn)換
接下來是視角轉(zhuǎn)換,Qwen-Image-Edit在這里不僅展示了90度旋轉(zhuǎn),還展示了180度旋轉(zhuǎn)。
我們把WRC上拍的小瓦力輸入Qwen-Image-Edit,分別進行右側(cè),后側(cè)視角轉(zhuǎn)換的測試。
(注:這張圖片并不是嚴格意義上的主視圖,而且還有點俯視,我們看看效果。)
嚴格來說,右側(cè)瓦利的右手(圖片左)有些變形,但轉(zhuǎn)向后側(cè)的效果實屬驚艷到了。
虛擬形象生成
虛擬形象可以說是大伙最愛玩的功能之一,生成頭像嘎嘎好用。
在Qwen展示的案例中,如果硬要挑刺就是——3D卡通風格把原先的半框眼鏡變成了全框的黑框眼鏡。
在測試的過程中,我們發(fā)現(xiàn),一旦畫風變得復雜(圖為熱血漫畫風格),線條就會稍顯凌亂。
(眼鏡框細節(jié)倒是保留了下來)
不過,在網(wǎng)友的測試中,效果倒是非常不錯:自拍頭像的女性版本,動漫版,007版和惡魔版本。
A新增
除了上面的生成式語義編輯,外觀元素的增、刪、改也非常重要。
Qwen-Image-Edit展示了在圖片中添加指示牌的案例,可以看到Qwen-Image-Edit不僅成功添加了指示牌,還生成了相應(yīng)的倒影,細節(jié)處理十分到位。
我們用一張在頤和園實拍的照片進行測試,提示詞:add the small wooden sign in the foreground in front of the tree with the text ‘welcome to SummerPalace’(在樹前的前景中添加一個小木牌,牌上寫著“歡迎來到頤和園”。)
在測試中,我們發(fā)現(xiàn),如果輸入的圖像分辨率過高,Qwen會主動報告:編輯后的圖片會降低分辨率。
同時,由于照片的分辨率較高,生成的圖片有些失真。
不過,基本的畫面元素和新增操作還是實現(xiàn)了。
為了驗證是否是分辨率的問題,我們把照片換成分辨率沒那么高的漫畫圖片,輸出效果還是非常不錯的。
提示詞:add the small wooden sign in the foreground in front of the woman with the text ‘welcome to the sea’(在女人前的前景中添加一個小木牌,牌上寫著“歡迎來到大?!?。)
AI消除與重繪
在消除和重繪方面,Qwen展示了兩個很巧妙的例子,一個是去除頭發(fā)絲等細小元素,另一個是在一堆復雜元素中,選取其中一個元素改變顏色。
看得出來,效果確實不錯。
這里我們簡單測試了一下改顏色的操作,把上面的a從黃色變成橙色。
其他字母的顏色都沒變,只有a變了。
我服了!確實厲害!
虛擬場景與穿搭模擬
接下來是兩個老生常談的電商場景,模特換背景,換衣服。
人物手部,肢體末端,頭發(fā),光影表現(xiàn)都不錯。
文字設(shè)計與海報編輯
Qwen-Image-Edit在下面的案例中展示了中、英雙語的文字編輯能力。
令人驚艷的是,其不光能修改海報中的大字,連細小的文字也能精準調(diào)整。
對此,我們拿自己的海報進行了測試:把AICoding改成AIAgent。
沒毛病,高,實在是高!
鏈式編輯
最后,就是我們開頭展示的,框出錯誤的部分,逐步修改的方法,Qwen-Image-Edit把它叫做鏈式編輯。
在Qwen展示的案例中,他們先用Qwen-Image生成了一幅《蘭亭集序》。
不難看出,這幅AI生成的書法作品中有不少錯字。
在這里,Qwen展示了不用重新生成整幅圖片,就能解決這些問題的辦法——
很簡單,就是框住錯誤的字,交給Qwen-Image-Edit改就可以。
離譜的是,對于一些生僻字,還可以圈出錯誤的偏旁,實現(xiàn)偏旁級別的修復。
就這樣,逐步修改畫面中的瑕疵,最終得到完美的圖片。
需要說明的是,上述簡單實測均為一次出圖
可以看到,經(jīng)過Qwen-Image-Edit處理的圖片,雖然有時會有一些色調(diào),細節(jié)的輕微改變,但在絕大多數(shù)情況下,都和官方說的一樣,能達到不錯的編輯效果。
你給這個效果打幾分?
創(chuàng)意+精準,統(tǒng)統(tǒng)搞定
據(jù)介紹,Qwen-Image-Edit這次的主要更新包括:
- 語義與外觀雙重編輯:Qwen-Image-Edit不僅支持low-level的視覺外觀編輯(如元素的添加、刪除、修改等,要求圖片其他區(qū)域完全不變),也支持high-level的視覺語義編輯(如IP創(chuàng)作、物體旋轉(zhuǎn)、風格遷移等,允許整體像素變化但保持語義一致)。
- 精準文字編輯:Qwen-Image-Edit支持中英文雙語文字編輯,可在保留原有字體、字號、風格的前提下,直接對圖片中的文字進行增、刪、改等操作。
- 強大的基準性能:在多個公開基準測試中的評估表明,Qwen-Image-Edit在圖像編輯任務(wù)上具備SOTA性能,是一個強大的圖像編輯基礎(chǔ)模型。
其中,為了同時實現(xiàn)語義與外觀雙重的編輯能力,Qwen-Image-Edit將輸?圖像同時輸?到Qwen2.5-VL(實現(xiàn)視覺語義控制)和VAEEncoder(實現(xiàn)視覺外觀控制)。
換句話說,就是從創(chuàng)意裂變到精準改字,所有常見的圖像編輯需求Qwen都能hold住。
最后,Qwen-Image-Edit的體驗方式如下,感興趣的同學快去體驗吧!
Qwen-Image-Edit:https://huggingface.co/spaces/Qwen/Qwen-Image-Edit
Qwenchat:https://chat.qwen.ai/
GitHub:https://github.com/QwenLM/Qwen-Image
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.