網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里“干掉”PS了，深夜正式開(kāi)源

2025-08-19 10:28:31　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者李水青
編輯心緣

智東西8月19日?qǐng)?bào)道，今日，阿里推出Qwen-Image-Edit，這是其此前8月5日推出的圖像生成基礎(chǔ)模型Qwen-Image的圖像編輯版本。（阿里開(kāi)源圖像大模型，實(shí)測(cè)中文渲染能力絕了！精準(zhǔn)搞定復(fù)雜字體排版，硬剛字節(jié)OpenAI）

這下，PS可能真的要被干掉了。如下圖所示，用戶可以通過(guò)Qwen-Image-Edit在圖中添加指示牌，指定指示牌中上的文本為“Welcome to Penguin Beach”。下面右圖不僅準(zhǔn)確生成了用戶所需要素，指示牌下還生成了自然的倒影。

▲Qwen-Image-Edit支持語(yǔ)義和外觀編輯功能

Qwen-Image-Edit基于其20B的Qwen-Image模型進(jìn)?步訓(xùn)練，將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域，實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。同時(shí)，Qwen-Image-Edit將輸?圖像同時(shí)輸?到Qwen2.5-VL（實(shí)現(xiàn)視覺(jué)語(yǔ)義控制）和VAE Encoder（實(shí)現(xiàn)視覺(jué)外觀控制），從而兼具語(yǔ)義與外觀的雙重編輯能?。

Qwen-Image-Edit的主要特性包括：

1、語(yǔ)義與外觀雙重編輯：Qwen-Image-Edit不僅?持low-level（低階）的視覺(jué)外觀編輯，如元素的添加、刪除、修改等，要求圖片其他區(qū)域完全不變，也支持high-level（高階）的視覺(jué)語(yǔ)義編輯，如IP創(chuàng)作、物體旋轉(zhuǎn)、風(fēng)格遷移等，允許整體像素變化但保持語(yǔ)義一致。

2、精準(zhǔn)?字編輯：Qwen-Image-Edit支持中英文雙語(yǔ)文字編輯，可在保留原有字體、字號(hào)、風(fēng)格的前提下，直接對(duì)圖片中的文字進(jìn)行增、刪、改等操作。

3、強(qiáng)?的基準(zhǔn)性能：在多個(gè)公開(kāi)基準(zhǔn)測(cè)試中的評(píng)估表明，Qwen-Image-Edit在圖像編輯任務(wù)上具備SOTA（最佳表現(xiàn)）性能，是一個(gè)強(qiáng)大的圖像編輯基礎(chǔ)模型。

目前，用戶可以訪問(wèn)Qwen Chat（chat.qwen.ai）并選擇“圖像編輯”功能，體驗(yàn)Qwen-Image-Edit。本文通過(guò)實(shí)測(cè)及一些官方案例，發(fā)現(xiàn)Qwen-Image-Edit已經(jīng)能實(shí)現(xiàn)比較準(zhǔn)確的文本驅(qū)動(dòng)圖像編輯，比如在文字生成、視角切換、場(chǎng)景創(chuàng)設(shè)、背景變幻等方面都生成較精準(zhǔn)，并且主體能保持較高一致性，光線和質(zhì)感會(huì)隨場(chǎng)景自然變化。不過(guò)，目前其在Qwen Chat和Hugging Face的免費(fèi)體驗(yàn)都有次數(shù)限制，不能無(wú)限使用。

▲Qwen-Image-Edit體驗(yàn)入口頁(yè)面截圖

ModelScope地址：

https://modelscope.cn/models/Qwen/Qwen-Image-Edit

Hugging Face地址：

https://huggingface.co/Qwen/Qwen-Image-Edit

GitHub地址：

https://github.com/QwenLM/Qwen-Image

一、支持語(yǔ)義和外觀編輯，或成IP打造神器

Qwen-Image-Edit的一大亮點(diǎn)在于其語(yǔ)義和外觀編輯功能，智東西對(duì)此進(jìn)行了一手體驗(yàn)。

語(yǔ)義編輯是指在保留原始視覺(jué)語(yǔ)義的同時(shí)修改圖像內(nèi)容。

如下圖所示，當(dāng)智東西輸入以下男士照片，并輸入“在桌子上生成一個(gè)立牌，寫著‘沐嶼咖啡’”，Qwen-Image-Edit能輸出準(zhǔn)確的文字，人物保持了一致性，鏡頭拉近了一點(diǎn)，膚色略變黃了一些。

輸入圖片：

輸出圖片：

當(dāng)智東西輸入一張小兔子的圖片，并輸入“讓小兔子拿著畫筆畫畫”的提示詞，Qwen-Image-Edit準(zhǔn)確生成了這幅畫面，且保持了小兔子形象的特點(diǎn)，延續(xù)了風(fēng)格可愛(ài)活潑風(fēng)格，柔光下毛發(fā)甚至更加細(xì)膩。

輸入圖片：

輸出圖片：

當(dāng)我進(jìn)一步要求“為小兔子穿上寫著‘智東西’的短袖，畫板上寫上‘AGI’”，Qwen-Image-Edit也能夠準(zhǔn)確生成，而且畫板上的文字與原本的畫作風(fēng)格一致，其他的元素沒(méi)有發(fā)生變化。

輸出圖片：

當(dāng)智東西讓Qwen-Image-Edit將下面這幅書法中的“層”改為簡(jiǎn)體寫法時(shí)，如輸出圖所示，Qwen-Image-Edit這次誤將“窮”（標(biāo)紅框）字識(shí)別為了“層”，而沒(méi)有將原本需要修改的字（標(biāo)藍(lán)框）改正。不過(guò)只能說(shuō)中國(guó)文化博大精深，讓大模型看草書屬實(shí)有點(diǎn)為難它了。

輸入圖片：

輸出圖片：

Qwen-Image-Edit還支持視角轉(zhuǎn)換、背景修改、添刪細(xì)節(jié)等外觀編輯。當(dāng)我們輸入一張小猴子卡通圖片，提出“朝向左側(cè)”的視角轉(zhuǎn)換要求，Qwen-Image-Edit能夠生成小猴子的側(cè)面，可以說(shuō)形象和場(chǎng)景完全保持一致，就像動(dòng)畫的前后兩幀。我們還特意觀察了下手腳的生成情況，沒(méi)有出現(xiàn)類似“六根指頭”的恐怖谷效應(yīng)。

輸入圖片：

輸出圖片：

當(dāng)我們輸入一張女孩照片，并輸入“將背景變?yōu)楦咴┥健碧崾驹~，Qwen-Image-Edit快速更換了背景，值得一提的是女生身上的光感也切換到了外場(chǎng)狀態(tài)，與內(nèi)場(chǎng)的聚光燈效果有所區(qū)別，顯得比較自然。

輸入圖片：

輸出圖片：

再來(lái)看看阿里官方公布的一些案例，以Qwen的吉祥物——水豚為例，在輸入對(duì)應(yīng)文字后，Qwen-Image-Edit輸出了不同場(chǎng)景的水豚圖片。

雖然編輯后的圖像與輸入圖像（最左側(cè)圖像）的像素大部分不同，但水豚的形態(tài)一致性得到了完美保留。語(yǔ)義編輯功能可以讓原創(chuàng)IP內(nèi)容創(chuàng)作變得輕松便捷，且內(nèi)容豐富多樣。

團(tuán)隊(duì)還圍繞16種MBTI性格類型設(shè)計(jì)了一系列編輯提示，基于這些提示生成了一套以吉祥物水豚為原型的MBTI主題表情包，這可以用于拓展IP的影響力。

新穎的視圖合成是語(yǔ)義編輯的另一個(gè)關(guān)鍵應(yīng)用場(chǎng)景。如下面的兩個(gè)示例圖所示，Qwen-Image-Edit不僅可以將物體旋轉(zhuǎn)90度，還可以進(jìn)行完整的180度旋轉(zhuǎn)，讓用戶能夠直接看到物體的背面。

語(yǔ)義編輯的另一個(gè)典型應(yīng)用是風(fēng)格轉(zhuǎn)換。例如，給定一幅輸入肖像，Qwen-Image-Edit可以輕松地將其轉(zhuǎn)換為各種藝術(shù)風(fēng)格，例如吉卜力工作室的風(fēng)格。此功能在虛擬化身創(chuàng)建等應(yīng)用中具有重要價(jià)值。

二、增刪改特定元素，虛擬傳達(dá)、模擬場(chǎng)景一鍵完成

除了語(yǔ)義編輯之外，外觀編輯是另一種常見(jiàn)的圖像編輯需求。外觀編輯強(qiáng)調(diào)在添加、移除或修改特定元素時(shí)，保持圖像的某些區(qū)域完全不變。開(kāi)篇提到的案例展示了一個(gè)將招牌添加到場(chǎng)景中的案例。如圖所示，Qwen-Image-Edit不僅成功插入了招牌，還生成了相應(yīng)的反射。

下面這個(gè)例子演示了如何從圖像中去除細(xì)發(fā)絲和其他小物體。

此外，圖像中特定字母“n”的顏色可以修改為藍(lán)色，從而實(shí)現(xiàn)對(duì)特定元素的精確編輯。

外觀編輯在調(diào)整人物背景或更換服裝等場(chǎng)景中也有廣泛的應(yīng)用。下面的三幅圖分別展示了這些實(shí)際用例。

三、精準(zhǔn)文本編輯，鏈?zhǔn)叫薷臅ㄥe(cuò)誤

Qwen-Image-Edit的另一大亮點(diǎn)在于其精準(zhǔn)的文本編輯能力，這源于Qwen-Image在文本渲染方面的功底。

以下兩個(gè)案例生動(dòng)地展現(xiàn)了Qwen-Image-Edit在英文文本編輯方面的性能：

Qwen-Image-Edit還可以直接編輯中文海報(bào)，不僅可以修改大標(biāo)題文本，還可以對(duì)細(xì)小復(fù)雜的文本元素進(jìn)行精確調(diào)整。

最后，通過(guò)一個(gè)具體的圖像編輯示例，通義團(tuán)隊(duì)演示了如何使用鏈?zhǔn)骄庉嫹椒ㄖ鸩郊m正Qwen-Image生成的書法作品中的錯(cuò)誤：

在這幅作品中，幾個(gè)漢字存在生成錯(cuò)誤，Qwen-Image-Edit可以逐步糾正這些錯(cuò)誤。例如，用戶可以在原始圖像上繪制邊界框來(lái)標(biāo)記需要校正的區(qū)域，并指示Qwen-Image-Edit修復(fù)這些特定區(qū)域。在這里，演示者希望“稽”字能夠正確地寫在紅色框內(nèi)，而“亭”字能夠準(zhǔn)確地呈現(xiàn)在藍(lán)色區(qū)域內(nèi)。

然而，在實(shí)際操作中，“稽”字相對(duì)模糊，模型未能一次性將其正確糾正。“稽”字的右下角部分應(yīng)該是“旨”，而不是“日”。此時(shí)，演示員進(jìn)一步用紅框突出顯示“日”部分，指示Qwen-Image-Edit微調(diào)此細(xì)節(jié)，將其替換為“旨”。

通過(guò)這種鏈?zhǔn)?、循序漸進(jìn)的編輯方法，我們可以不斷地糾正字符錯(cuò)誤，直到達(dá)到理想的最終結(jié)果。

最終，演示員成功獲取了完整正確的《蘭亭集序》書法版本。

結(jié)語(yǔ)：AI圖像編輯更精準(zhǔn)，降低視覺(jué)創(chuàng)作門檻

通過(guò)體驗(yàn)，我們發(fā)現(xiàn)Qwen-Image-Edit具備較強(qiáng)大的語(yǔ)義和外觀編輯功能。盡管在連續(xù)多輪修改中，Qwen-Image-Edit編輯的精準(zhǔn)性和一致性仍有待提高，在草書等更復(fù)雜字體生成上有局限，并且使用次數(shù)有限制，但其目前已能實(shí)現(xiàn)大多物體增刪、文字生成、角度轉(zhuǎn)換等實(shí)用功能。

隨著這一能力還在持續(xù)迭代，其有望推動(dòng)圖像生成領(lǐng)域的發(fā)展，降低視覺(jué)內(nèi)容創(chuàng)作的技術(shù)門檻，并激發(fā)更多創(chuàng)新應(yīng)用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.