成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全面評(píng)測(cè)圖像編輯模型推理能力:所有模型在程序性推理方面表現(xiàn)差

0
分享至

KRIS-Bench團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

人類(lèi)在學(xué)習(xí)新知識(shí)時(shí),總是遵循從“記憶事實(shí)”到“理解概念”再到“掌握技能”的認(rèn)知路徑。

AI是否也建立了“先記住單詞,再理解原理,最后練習(xí)應(yīng)用”的這種知識(shí)結(jié)構(gòu)呢?

測(cè)評(píng)一下就知道了!

東南大學(xué)聯(lián)合馬克斯·普朗克信息研究所、上海交通大學(xué)、階躍星辰、加州大學(xué)伯克利分校與加州大學(xué)默塞德分校的研究團(tuán)隊(duì),共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首創(chuàng)地從知識(shí)類(lèi)型的視角,對(duì)圖像編輯模型的推理能力進(jìn)行系統(tǒng)化、精細(xì)化的評(píng)測(cè)。



借鑒布魯姆認(rèn)知分類(lèi)與教育心理學(xué)中的分層教學(xué)理念,KRIS-Bench讓AI在事實(shí)性知識(shí)(Factual Knowledge)、概念性知識(shí)(Conceptual Knowledge)與程序性知識(shí)(Procedural Knowledge)三大層面上,逐步接受更深入、更復(fù)雜的編輯挑戰(zhàn)。



基于認(rèn)知分層的三大知識(shí)范疇

  • 事實(shí)性知識(shí)(Factual Knowledge):如顏色、數(shù)量、空間與時(shí)間這些可直接感知的信息;
  • 概念性知識(shí)(Conceptual Knowledge):涉及物理、化學(xué)、生物等學(xué)科常識(shí),需要對(duì)世界進(jìn)一步的理解;
  • 程序性知識(shí)(Procedural Knowledge):多步操作與規(guī)則推理,考察模型的任務(wù)分解與推理能力。

KRIS-Bench在每個(gè)類(lèi)別下又細(xì)化出7大推理維度、22種典型編輯任務(wù),從“物體計(jì)數(shù)變化”到“化學(xué)反應(yīng)預(yù)測(cè)”“多元素合成”等,覆蓋了從初級(jí)到高級(jí)的全譜系難度。



  • 樣本總量:1,267對(duì)圖像–指令,全部由專(zhuān)家團(tuán)隊(duì)手工打磨、反復(fù)校對(duì);
  • 數(shù)據(jù)來(lái)源:包含真實(shí)照片、開(kāi)源基準(zhǔn)、模型生成、3D渲染等多樣分布,防止模型投機(jī)取巧。



四維度自動(dòng)化評(píng)估指標(biāo)

借助多模態(tài)大模型與人工校準(zhǔn),KRIS-Bench首創(chuàng)從四個(gè)維度對(duì)編輯輸出打分:

  1. 視覺(jué)一致性(Visual Consistency):非目標(biāo)區(qū)域是否保持原貌;
  2. 視覺(jué)質(zhì)量(Visual Quality):生成圖像的自然度與無(wú)失真度;
  3. 指令跟隨(Instruction Following):指令要點(diǎn)執(zhí)行的完整性與準(zhǔn)確性;
  4. 知識(shí)合理性(Knowledge Plausibility):結(jié)果是否符合真實(shí)世界的常識(shí)與規(guī)律。

深度知識(shí)任務(wù)還附帶手工知識(shí)提示,以幫助評(píng)判模型是否真正“理解”了背后的原理。

10款模型全面測(cè)試

KRIS-Bench評(píng)估了3款閉源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款開(kāi)源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 閉源旗艦GPT-Image-1遙遙領(lǐng)先,開(kāi)源黑馬BAGEL-Think通過(guò)引入推理過(guò)程提高了在知識(shí)合理性上的性能表現(xiàn),但離閉源模型仍有一定的距離。
  • 即使對(duì)于最簡(jiǎn)單的事實(shí)性知識(shí),許多模型在例如數(shù)量變化,大小改變上的表現(xiàn)依舊差強(qiáng)人意。
  • 所有模型在“程序性推理”、“自然科學(xué)”及“多步驟合成”任務(wù)上普遍失分,顯示出深層推理能力的嚴(yán)重不足。



借助KRIS-Bench,團(tuán)隊(duì)正推動(dòng)圖像編輯模型脫離單純的“像素搬運(yùn)”,向具備人類(lèi)般認(rèn)知能力的“視覺(jué)智者”邁進(jìn)。

未來(lái),團(tuán)隊(duì)期待編輯不再是“換換顏色”“挪挪位置”這么簡(jiǎn)單,而是在內(nèi)部植入物理、化學(xué)、社會(huì)常識(shí)與因果推理,真正讓 AI 明白“為什么會(huì)這樣”和“接下來(lái)會(huì)怎樣”。

感興趣的朋友可以戳下方鏈接獲取更多細(xì)節(jié)

項(xiàng)目地址:https://yongliang-wu.github.io/kris_bench_project_page/
論文地址:https://arxiv.org/abs/2505.16707
代碼地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不僅華為要謝,中國(guó)更要感謝梁孟松!為中國(guó)芯片竟放棄上億年薪!

不僅華為要謝,中國(guó)更要感謝梁孟松!為中國(guó)芯片竟放棄上億年薪!

青青子衿
2025-09-02 04:12:58
金正恩還沒(méi)抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

金正恩還沒(méi)抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

壹知眠羊
2025-08-30 11:28:44
腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點(diǎn)

腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點(diǎn)

荷蘭豆愛(ài)健康
2025-08-30 08:55:46
6杯酒敬自己!20年間全家接連去世,小伙一人養(yǎng)5個(gè)娃和植物人母親

6杯酒敬自己!20年間全家接連去世,小伙一人養(yǎng)5個(gè)娃和植物人母親

削桐作琴
2025-09-01 12:39:50
青浦警方行拘兩名報(bào)案者,原因是……

青浦警方行拘兩名報(bào)案者,原因是……

綠色青浦
2025-09-02 16:59:00
一汽豐田8月銷(xiāo)售新車(chē)70125輛,環(huán)比增長(zhǎng)103%

一汽豐田8月銷(xiāo)售新車(chē)70125輛,環(huán)比增長(zhǎng)103%

經(jīng)濟(jì)觀察報(bào)
2025-09-01 18:39:36
半小時(shí)暴增400%、十大城市受追捧!俄羅斯游客開(kāi)始瘋狂搜索中國(guó)

半小時(shí)暴增400%、十大城市受追捧!俄羅斯游客開(kāi)始瘋狂搜索中國(guó)

觀察者網(wǎng)
2025-09-02 19:08:09
四川一年級(jí)新生爆款名字出爐,男女生前10名→

四川一年級(jí)新生爆款名字出爐,男女生前10名→

掌上金牛
2025-09-02 19:19:03
新一代奧迪Q5L實(shí)車(chē)圖曝光,軸距加長(zhǎng),內(nèi)外革新,值得期待嗎?

新一代奧迪Q5L實(shí)車(chē)圖曝光,軸距加長(zhǎng),內(nèi)外革新,值得期待嗎?

藍(lán)色海邊
2025-09-02 18:48:04
未來(lái)國(guó)足四小天鵝已就位!U23亞洲杯預(yù)選賽扛起大旗

未來(lái)國(guó)足四小天鵝已就位!U23亞洲杯預(yù)選賽扛起大旗

中山印象體育攝影師
2025-09-02 13:53:11
“假愛(ài)國(guó)”風(fēng)波3年后,51歲吳京又傳壞消息,多位明星都被牽連

“假愛(ài)國(guó)”風(fēng)波3年后,51歲吳京又傳壞消息,多位明星都被牽連

素衣讀史
2025-09-02 16:19:53
伊朗總統(tǒng)乘高鐵抵京

伊朗總統(tǒng)乘高鐵抵京

環(huán)球時(shí)報(bào)新聞
2025-09-02 15:51:45
這一夜,全運(yùn)會(huì)的體面,被廣東男籃撕了個(gè)粉碎

這一夜,全運(yùn)會(huì)的體面,被廣東男籃撕了個(gè)粉碎

阿物評(píng)論哥
2025-09-02 17:45:02
看完董璇和高云翔合影,再看她和張維伊合影,生理性喜歡顯而易見(jiàn)

看完董璇和高云翔合影,再看她和張維伊合影,生理性喜歡顯而易見(jiàn)

觀察鑒娛
2025-09-01 09:45:14
西甲夏窗引援花費(fèi)TOP10:皇馬包攬前三,赫伊森6250萬(wàn)歐居首

西甲夏窗引援花費(fèi)TOP10:皇馬包攬前三,赫伊森6250萬(wàn)歐居首

懂球帝
2025-09-02 11:43:22
1-4到5-4!新人翻盤(pán)小司機(jī),周躍龍轟147進(jìn)正賽,中國(guó)軍團(tuán)4勝2負(fù)

1-4到5-4!新人翻盤(pán)小司機(jī),周躍龍轟147進(jìn)正賽,中國(guó)軍團(tuán)4勝2負(fù)

劉姚堯的文字城堡
2025-09-02 19:54:07
外媒:美擬向每名離開(kāi)加沙的巴勒斯坦人支付5000美元

外媒:美擬向每名離開(kāi)加沙的巴勒斯坦人支付5000美元

參考消息
2025-09-01 20:35:07
金正恩抵達(dá)北京

金正恩抵達(dá)北京

浙江之聲
2025-09-02 21:57:01
閱兵不到一天,霍啟剛父子現(xiàn)身北京,果然世家門(mén)閥,目的很明確了

閱兵不到一天,霍啟剛父子現(xiàn)身北京,果然世家門(mén)閥,目的很明確了

史智文道
2025-09-02 16:21:19
德國(guó)計(jì)劃凍結(jié)匈牙利430億歐元的資金!剝奪其投票權(quán)

德國(guó)計(jì)劃凍結(jié)匈牙利430億歐元的資金!剝奪其投票權(quán)

項(xiàng)鵬飛
2025-09-02 20:03:22
2025-09-02 23:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11226文章數(shù) 176257關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技稱將在四季度提交IPO申請(qǐng)

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強(qiáng)硬表態(tài)將留任后又突然改口

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強(qiáng)硬表態(tài)將留任后又突然改口

體育要聞

等了十年,石宇奇終于說(shuō)出這句話

娛樂(lè)要聞

“廚神對(duì)決!”誰(shuí)做的菜好吃?

財(cái)經(jīng)要聞

黃金破"次元" 年輕人熬夜買(mǎi)"金谷子"

汽車(chē)要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

時(shí)尚
教育
藝術(shù)
房產(chǎn)
軍事航空

三種適合9月的風(fēng)格,好漂亮

教育要聞

初中數(shù)學(xué)因式分解題,看到平方就要想到平方差

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤(pán)單月狂賣(mài)11.7億!

軍事要聞

九三閱兵 具體安排來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版