智東西
作者 李水青
編輯 心緣
智東西8月19日?qǐng)?bào)道,今日,阿里推出Qwen-Image-Edit,這是其此前8月5日推出的圖像生成基礎(chǔ)模型Qwen-Image的圖像編輯版本。(阿里開(kāi)源圖像大模型,實(shí)測(cè)中文渲染能力絕了!精準(zhǔn)搞定復(fù)雜字體排版,硬剛字節(jié)OpenAI)
這下,PS可能真的要被干掉了。如下圖所示,用戶可以通過(guò)Qwen-Image-Edit在圖中添加指示牌,指定指示牌中上的文本為“Welcome to Penguin Beach”。下面右圖不僅準(zhǔn)確生成了用戶所需要素,指示牌下還生成了自然的倒影。
▲Qwen-Image-Edit支持語(yǔ)義和外觀編輯功能
Qwen-Image-Edit基于其20B的Qwen-Image模型進(jìn)?步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。同時(shí),Qwen-Image-Edit將輸?圖像同時(shí)輸?到Qwen2.5-VL(實(shí)現(xiàn)視覺(jué)語(yǔ)義控制)和VAE Encoder(實(shí)現(xiàn)視覺(jué)外觀控制),從而兼具語(yǔ)義與外觀的雙重編輯能?。
Qwen-Image-Edit的主要特性包括:
1、語(yǔ)義與外觀雙重編輯:Qwen-Image-Edit不僅?持low-level(低階)的視覺(jué)外觀編輯,如元素的添加、刪除、修改等,要求圖片其他區(qū)域完全不變,也支持high-level(高階)的視覺(jué)語(yǔ)義編輯,如IP創(chuàng)作、物體旋轉(zhuǎn)、風(fēng)格遷移等,允許整體像素變化但保持語(yǔ)義一致。
2、精準(zhǔn)?字編輯:Qwen-Image-Edit支持中英文雙語(yǔ)文字編輯,可在保留原有字體、字號(hào)、風(fēng)格的前提下,直接對(duì)圖片中的文字進(jìn)行增、刪、改等操作。
3、強(qiáng)?的基準(zhǔn)性能:在多個(gè)公開(kāi)基準(zhǔn)測(cè)試中的評(píng)估表明,Qwen-Image-Edit在圖像編輯任務(wù)上具備SOTA(最佳表現(xiàn))性能,是一個(gè)強(qiáng)大的圖像編輯基礎(chǔ)模型。
目前,用戶可以訪問(wèn)Qwen Chat(chat.qwen.ai)并選擇“圖像編輯”功能,體驗(yàn)Qwen-Image-Edit。本文通過(guò)實(shí)測(cè)及一些官方案例,發(fā)現(xiàn)Qwen-Image-Edit已經(jīng)能實(shí)現(xiàn)比較準(zhǔn)確的文本驅(qū)動(dòng)圖像編輯,比如在文字生成、視角切換、場(chǎng)景創(chuàng)設(shè)、背景變幻等方面都生成較精準(zhǔn),并且主體能保持較高一致性,光線和質(zhì)感會(huì)隨場(chǎng)景自然變化。不過(guò),目前其在Qwen Chat和Hugging Face的免費(fèi)體驗(yàn)都有次數(shù)限制,不能無(wú)限使用。
▲Qwen-Image-Edit體驗(yàn)入口頁(yè)面截圖
ModelScope地址:
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face地址:
https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub地址:
https://github.com/QwenLM/Qwen-Image
一、支持語(yǔ)義和外觀編輯,或成IP打造神器
Qwen-Image-Edit的一大亮點(diǎn)在于其語(yǔ)義和外觀編輯功能,智東西對(duì)此進(jìn)行了一手體驗(yàn)。
語(yǔ)義編輯是指在保留原始視覺(jué)語(yǔ)義的同時(shí)修改圖像內(nèi)容。
如下圖所示,當(dāng)智東西輸入以下男士照片,并輸入“在桌子上生成一個(gè)立牌,寫著‘沐嶼咖啡’”,Qwen-Image-Edit能輸出準(zhǔn)確的文字,人物保持了一致性,鏡頭拉近了一點(diǎn),膚色略變黃了一些。
輸入圖片:
輸出圖片:
當(dāng)智東西輸入一張小兔子的圖片,并輸入“讓小兔子拿著畫筆畫畫”的提示詞,Qwen-Image-Edit準(zhǔn)確生成了這幅畫面,且保持了小兔子形象的特點(diǎn),延續(xù)了風(fēng)格可愛(ài)活潑風(fēng)格,柔光下毛發(fā)甚至更加細(xì)膩。
輸入圖片:
輸出圖片:
當(dāng)我進(jìn)一步要求“為小兔子穿上寫著‘智東西’的短袖,畫板上寫上‘AGI’”,Qwen-Image-Edit也能夠準(zhǔn)確生成,而且畫板上的文字與原本的畫作風(fēng)格一致,其他的元素沒(méi)有發(fā)生變化。
輸出圖片:
當(dāng)智東西讓Qwen-Image-Edit將下面這幅書法中的“層”改為簡(jiǎn)體寫法時(shí),如輸出圖所示,Qwen-Image-Edit這次誤將“窮”(標(biāo)紅框)字識(shí)別為了“層”,而沒(méi)有將原本需要修改的字(標(biāo)藍(lán)框)改正。不過(guò)只能說(shuō)中國(guó)文化博大精深,讓大模型看草書屬實(shí)有點(diǎn)為難它了。
輸入圖片:
輸出圖片:
Qwen-Image-Edit還支持視角轉(zhuǎn)換、背景修改、添刪細(xì)節(jié)等外觀編輯。當(dāng)我們輸入一張小猴子卡通圖片,提出“朝向左側(cè)”的視角轉(zhuǎn)換要求,Qwen-Image-Edit能夠生成小猴子的側(cè)面,可以說(shuō)形象和場(chǎng)景完全保持一致,就像動(dòng)畫的前后兩幀。我們還特意觀察了下手腳的生成情況,沒(méi)有出現(xiàn)類似“六根指頭”的恐怖谷效應(yīng)。
輸入圖片:
輸出圖片:
當(dāng)我們輸入一張女孩照片,并輸入“將背景變?yōu)楦咴┥健碧崾驹~,Qwen-Image-Edit快速更換了背景,值得一提的是女生身上的光感也切換到了外場(chǎng)狀態(tài),與內(nèi)場(chǎng)的聚光燈效果有所區(qū)別,顯得比較自然。
輸入圖片:
輸出圖片:
再來(lái)看看阿里官方公布的一些案例,以Qwen的吉祥物——水豚為例,在輸入對(duì)應(yīng)文字后,Qwen-Image-Edit輸出了不同場(chǎng)景的水豚圖片。
雖然編輯后的圖像與輸入圖像(最左側(cè)圖像)的像素大部分不同,但水豚的形態(tài)一致性得到了完美保留。語(yǔ)義編輯功能可以讓原創(chuàng)IP內(nèi)容創(chuàng)作變得輕松便捷,且內(nèi)容豐富多樣。
團(tuán)隊(duì)還圍繞16種MBTI性格類型設(shè)計(jì)了一系列編輯提示,基于這些提示生成了一套以吉祥物水豚為原型的MBTI主題表情包,這可以用于拓展IP的影響力。
新穎的視圖合成是語(yǔ)義編輯的另一個(gè)關(guān)鍵應(yīng)用場(chǎng)景。如下面的兩個(gè)示例圖所示,Qwen-Image-Edit不僅可以將物體旋轉(zhuǎn)90度,還可以進(jìn)行完整的180度旋轉(zhuǎn),讓用戶能夠直接看到物體的背面。
語(yǔ)義編輯的另一個(gè)典型應(yīng)用是風(fēng)格轉(zhuǎn)換。例如,給定一幅輸入肖像,Qwen-Image-Edit可以輕松地將其轉(zhuǎn)換為各種藝術(shù)風(fēng)格,例如吉卜力工作室的風(fēng)格。此功能在虛擬化身創(chuàng)建等應(yīng)用中具有重要價(jià)值。
二、增刪改特定元素,虛擬傳達(dá)、模擬場(chǎng)景一鍵完成
除了語(yǔ)義編輯之外,外觀編輯是另一種常見(jiàn)的圖像編輯需求。外觀編輯強(qiáng)調(diào)在添加、移除或修改特定元素時(shí),保持圖像的某些區(qū)域完全不變。開(kāi)篇提到的案例展示了一個(gè)將招牌添加到場(chǎng)景中的案例。如圖所示,Qwen-Image-Edit不僅成功插入了招牌,還生成了相應(yīng)的反射。
下面這個(gè)例子演示了如何從圖像中去除細(xì)發(fā)絲和其他小物體。
此外,圖像中特定字母“n”的顏色可以修改為藍(lán)色,從而實(shí)現(xiàn)對(duì)特定元素的精確編輯。
外觀編輯在調(diào)整人物背景或更換服裝等場(chǎng)景中也有廣泛的應(yīng)用。下面的三幅圖分別展示了這些實(shí)際用例。
三、精準(zhǔn)文本編輯,鏈?zhǔn)叫薷臅ㄥe(cuò)誤
Qwen-Image-Edit的另一大亮點(diǎn)在于其精準(zhǔn)的文本編輯能力,這源于Qwen-Image在文本渲染方面的功底。
以下兩個(gè)案例生動(dòng)地展現(xiàn)了Qwen-Image-Edit在英文文本編輯方面的性能:
Qwen-Image-Edit還可以直接編輯中文海報(bào),不僅可以修改大標(biāo)題文本,還可以對(duì)細(xì)小復(fù)雜的文本元素進(jìn)行精確調(diào)整。
最后,通過(guò)一個(gè)具體的圖像編輯示例,通義團(tuán)隊(duì)演示了如何使用鏈?zhǔn)骄庉嫹椒ㄖ鸩郊m正Qwen-Image生成的書法作品中的錯(cuò)誤:
在這幅作品中,幾個(gè)漢字存在生成錯(cuò)誤,Qwen-Image-Edit可以逐步糾正這些錯(cuò)誤。例如,用戶可以在原始圖像上繪制邊界框來(lái)標(biāo)記需要校正的區(qū)域,并指示Qwen-Image-Edit修復(fù)這些特定區(qū)域。在這里,演示者希望“稽”字能夠正確地寫在紅色框內(nèi),而“亭”字能夠準(zhǔn)確地呈現(xiàn)在藍(lán)色區(qū)域內(nèi)。
然而,在實(shí)際操作中,“稽”字相對(duì)模糊,模型未能一次性將其正確糾正。“稽”字的右下角部分應(yīng)該是“旨”,而不是“日”。此時(shí),演示員進(jìn)一步用紅框突出顯示“日”部分,指示Qwen-Image-Edit微調(diào)此細(xì)節(jié),將其替換為“旨”。
通過(guò)這種鏈?zhǔn)?、循序漸進(jìn)的編輯方法,我們可以不斷地糾正字符錯(cuò)誤,直到達(dá)到理想的最終結(jié)果。
最終,演示員成功獲取了完整正確的《蘭亭集序》書法版本。
結(jié)語(yǔ):AI圖像編輯更精準(zhǔn),降低視覺(jué)創(chuàng)作門檻
通過(guò)體驗(yàn),我們發(fā)現(xiàn)Qwen-Image-Edit具備較強(qiáng)大的語(yǔ)義和外觀編輯功能。盡管在連續(xù)多輪修改中,Qwen-Image-Edit編輯的精準(zhǔn)性和一致性仍有待提高,在草書等更復(fù)雜字體生成上有局限,并且使用次數(shù)有限制,但其目前已能實(shí)現(xiàn)大多物體增刪、文字生成、角度轉(zhuǎn)換等實(shí)用功能。
隨著這一能力還在持續(xù)迭代,其有望推動(dòng)圖像生成領(lǐng)域的發(fā)展,降低視覺(jué)內(nèi)容創(chuàng)作的技術(shù)門檻,并激發(fā)更多創(chuàng)新應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.