網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全面評(píng)測(cè)圖像編輯模型推理能力：所有模型在程序性推理方面表現(xiàn)差

2025-06-13 14:20:11　來(lái)源: 量子位

北京舉報(bào)

分享至

KRIS-Bench團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

人類(lèi)在學(xué)習(xí)新知識(shí)時(shí)，總是遵循從“記憶事實(shí)”到“理解概念”再到“掌握技能”的認(rèn)知路徑。

AI是否也建立了“先記住單詞，再理解原理，最后練習(xí)應(yīng)用”的這種知識(shí)結(jié)構(gòu)呢？

測(cè)評(píng)一下就知道了！

東南大學(xué)聯(lián)合馬克斯·普朗克信息研究所、上海交通大學(xué)、階躍星辰、加州大學(xué)伯克利分校與加州大學(xué)默塞德分校的研究團(tuán)隊(duì)，共同提出了KRIS-Bench（Knowledge-based Reasoning in Image-editing Systems Benchmark）。

首創(chuàng)地從知識(shí)類(lèi)型的視角，對(duì)圖像編輯模型的推理能力進(jìn)行系統(tǒng)化、精細(xì)化的評(píng)測(cè)。

借鑒布魯姆認(rèn)知分類(lèi)與教育心理學(xué)中的分層教學(xué)理念，KRIS-Bench讓AI在事實(shí)性知識(shí)（Factual Knowledge）、概念性知識(shí)（Conceptual Knowledge）與程序性知識(shí)（Procedural Knowledge）三大層面上，逐步接受更深入、更復(fù)雜的編輯挑戰(zhàn)。

基于認(rèn)知分層的三大知識(shí)范疇

事實(shí)性知識(shí)（Factual Knowledge）：如顏色、數(shù)量、空間與時(shí)間這些可直接感知的信息；
概念性知識(shí)（Conceptual Knowledge）：涉及物理、化學(xué)、生物等學(xué)科常識(shí)，需要對(duì)世界進(jìn)一步的理解；
程序性知識(shí)（Procedural Knowledge）：多步操作與規(guī)則推理，考察模型的任務(wù)分解與推理能力。

KRIS-Bench在每個(gè)類(lèi)別下又細(xì)化出7大推理維度、22種典型編輯任務(wù)，從“物體計(jì)數(shù)變化”到“化學(xué)反應(yīng)預(yù)測(cè)”、“多元素合成”等，覆蓋了從初級(jí)到高級(jí)的全譜系難度。

樣本總量：1,267對(duì)圖像–指令，全部由專(zhuān)家團(tuán)隊(duì)手工打磨、反復(fù)校對(duì)；
數(shù)據(jù)來(lái)源：包含真實(shí)照片、開(kāi)源基準(zhǔn)、模型生成、3D渲染等多樣分布，防止模型投機(jī)取巧。

四維度自動(dòng)化評(píng)估指標(biāo)

借助多模態(tài)大模型與人工校準(zhǔn)，KRIS-Bench首創(chuàng)從四個(gè)維度對(duì)編輯輸出打分：

視覺(jué)一致性（Visual Consistency）：非目標(biāo)區(qū)域是否保持原貌；
視覺(jué)質(zhì)量（Visual Quality）：生成圖像的自然度與無(wú)失真度；
指令跟隨（Instruction Following）：指令要點(diǎn)執(zhí)行的完整性與準(zhǔn)確性；
知識(shí)合理性（Knowledge Plausibility）：結(jié)果是否符合真實(shí)世界的常識(shí)與規(guī)律。

深度知識(shí)任務(wù)還附帶手工知識(shí)提示，以幫助評(píng)判模型是否真正“理解”了背后的原理。

10款模型全面測(cè)試

KRIS-Bench評(píng)估了3款閉源（GPT-Image-1、Gemini 2.0 Flash、Doubao）和7款開(kāi)源（OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix）模型。

閉源旗艦GPT-Image-1遙遙領(lǐng)先，開(kāi)源黑馬BAGEL-Think通過(guò)引入推理過(guò)程提高了在知識(shí)合理性上的性能表現(xiàn)，但離閉源模型仍有一定的距離。
即使對(duì)于最簡(jiǎn)單的事實(shí)性知識(shí)，許多模型在例如數(shù)量變化，大小改變上的表現(xiàn)依舊差強(qiáng)人意。
所有模型在“程序性推理”、“自然科學(xué)”及“多步驟合成”任務(wù)上普遍失分，顯示出深層推理能力的嚴(yán)重不足。

借助KRIS-Bench，團(tuán)隊(duì)正推動(dòng)圖像編輯模型脫離單純的“像素搬運(yùn)”，向具備人類(lèi)般認(rèn)知能力的“視覺(jué)智者”邁進(jìn)。

未來(lái)，團(tuán)隊(duì)期待編輯不再是“換換顏色”“挪挪位置”這么簡(jiǎn)單，而是在內(nèi)部植入物理、化學(xué)、社會(huì)常識(shí)與因果推理，真正讓 AI 明白“為什么會(huì)這樣”和“接下來(lái)會(huì)怎樣”。

感興趣的朋友可以戳下方鏈接獲取更多細(xì)節(jié)

項(xiàng)目地址：https://yongliang-wu.github.io/kris_bench_project_page/
論文地址：https://arxiv.org/abs/2505.16707
代碼地址：https://github.com/mercurystraw/Kris_Bench

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.