成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

你的模型評測搭子上線:Evaluation Agent懂你更懂AI

0
分享至



本文作者來自于上海人工智能實驗室與新加坡南洋理工大學,分別是張凡、田淑琳、黃子琪,指導老師是喬宇老師與劉子緯老師。

怎么快速判斷一個生成模型好不好?

最直接的辦法當然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術、有經驗、眼光毒辣,能告訴你模型到底強在哪、弱在哪,適不適合你的需求。

但問題是:

  • 朋友太忙,沒法一條條幫你看;
  • 你問題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業(yè)、耐心、隨叫隨到的評估顧問。

于是,來自上海人工智能實驗室 & 南洋理工大學 S-Lab 的研究者合作研發(fā)了一個AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評測,還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

  • 你問「它拍古風視頻怎么樣?」,它就給你規(guī)劃方案;
  • 你問「懂光圈焦距嗎?」,它就設計針對測試;
  • 你想知道適不適合你,它還真能給出解釋。

這就是視覺生成模型評估的新范式:

Evaluation Agent 入選 ACL 2025 主會 Oral 論文。



  • 論文:https://arxiv.org/abs/2412.09645
  • 代碼:https://github.com/Vchitect/Evaluation-Agent
  • 網頁:https://vchitect.github.io/Evaluation-Agent-project/
  • 論文標題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent?

1. 可定制:你說關注點,它來定方案。

不同人對生成模型有不同期待 —— 風格?多樣性?一致性?

只需用自然語言說出你的關注點,Evaluation Agent 就能:

  • 自動規(guī)劃合適的評估流程
  • 根據中間結果靈活調整評估方向
  • 針對性地深入分析你關心的能力維度

真正實現「按需評估」,服務你的具體任務。

2. 高效率:更少樣本,評得更快

傳統(tǒng)評估動輒需要幾千張樣本,Evaluation Agent 通過多輪交互式評估與智能采樣策略,大幅減少樣本數量。整體評估過程的耗時可以壓縮到傳統(tǒng)方法的 10% 左右,尤其適合在迭代開發(fā)中快速反饋。

3. 可解釋:讓評估結果說人話

結果不僅是表格和數字,Evaluation Agent 會以自然語言生成分析報告,不僅涵蓋模型能力的全面總結,還能指出模型的局限性和改進方向。

4. 可擴展:支持不同任務、工具、指標的集成

Evaluation Agent 是一個開放框架,支持集成新評估工具和指標,適用于不同的視覺生成任務(如圖片生成和視頻生成)。

框架工作原理



Evaluation Agent 框架主要由兩個階段組成:

1. 提案階段(Proposal Stage)

  • Plan Agent:分析用戶需求,動態(tài)規(guī)劃評估路徑。
  • PromptGen Agent:為每個子任務生成專屬的評估提示(prompt)。

這一階段的目標是:根據你的關注點,量身定制評估方案。

2. 執(zhí)行階段(Execution Stage)

框架利用視覺生成模型生成內容,并通過相應評估工具進行質量分析。

  • 視覺生成模型:根據上階段設計的 prompt 生成樣本
  • 評估工具包:根據提案階段的規(guī)劃選用合適的工具對采樣內容進行評估

3. 動態(tài)多輪交互

評估不是一次性完成的。Execution 階段的每一輪評估結果,都會反饋給 Proposal 階段,用于優(yōu)化后續(xù) prompt 和任務設置。通過這種多輪協(xié)同,Evaluation Agent 實現了對模型能力的動態(tài)、深入評估。

結果展示

1. 對比傳統(tǒng)評測框架



視頻生成模型評測效率上與 VBench 評測框架的對比



圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

研究團隊在圖片生成任務(T2I)和視頻生成任務(T2V)上對 Evaluation Agent 進行了全面驗證。結果表明,其評估效率顯著高于現有基準框架(如 VBench、T2I-CompBench),相較于傳統(tǒng)的評測框架節(jié)省了 90% 以上的時間,且評估結果具有較高一致性。

2. 用戶開放式評估場景



對用戶開放問題評估的部分樣例

Evaluation Agent 不僅能夠高效評估模型的表現,還能靈活處理用戶提出的個性化評估需求,例如:

  • 模型能否生成特定歷史場景的高質量視頻?
  • 模型是否理解并能應用焦距、光圈、ISO 等攝影概念?

在處理用戶的開放式查詢時,Evaluation Agent 展現了卓越的靈活性和深度。它能夠根據用戶的定制需求,系統(tǒng)地探索模型在特定領域的能力,從基本問題開始,逐步動態(tài)深入,最終通過自然語言詳細分析和總結評估結果。

例如,對于問題「模型是否能夠在保持原始風格的同時生成現有藝術作品的變體?」,下面展示了完整的評估過程。

在 Evaluation Agent 工作中,開放式用戶評估問題數據集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數據集為系統(tǒng)提供了多樣化的評估場景,特別是在面臨復雜的、用戶特定的評估需求時,能夠展現出系統(tǒng)的靈活性和動態(tài)評估能力。

開放式用戶評估問題數據集首先通過用戶調研收集了來自用戶的一系列針對模型能力的開放問題。隨后,經過數據清洗、過濾、擴展以及標簽打標等處理,最終完成了數據集的構建。該數據集涵蓋了廣泛的評估維度,能夠全面評估模型的各項能力。下圖展示了該數據集在不同類別下的統(tǒng)計分布。



開放式用戶評估問題數據集統(tǒng)計分布

前景與進一步計劃

Evaluation Agent 的初步研究已經證明其在視覺生成模型評估中的高效性和靈活性。未來,該方向可能在以下領域進一步拓展和深入研究:

1. 擴展評估能力,涵蓋更多視覺任務

  • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來將擴展到3D 內容生成、AIGC 視頻編輯等更復雜的生成任務。
  • 增加對多模態(tài) AI(如結合文本、音頻、視頻的生成模型)的評估能力,探索不同 AI 模型在跨模態(tài)任務中的表現。

2. 優(yōu)化開放式評估機制

  • 進一步完善開放式用戶評估問題數據集,提升 Evaluation Agent 對復雜、抽象概念(如風格遷移、藝術融合、情感表達等)的理解和評估能力。
  • 引入強化學習機制,使 Evaluation Agent 能夠利用基于用戶反饋的數據實現自我優(yōu)化,提高評估的精準性和適應性。

3. 從自動評測邁向智能推薦

  • 未來,該框架可拓展用于視覺生成模型的個性化推薦,依據用戶的具體需求自動匹配最合適的生成模型,并生成詳盡的評估報告。
  • 研究如何利用眾包數據,收集不同領域的專業(yè)人士(如設計師、攝影師、影視制片人)對 AI 生成內容的反饋,以提升評估框架在多領域場景下的適應性和泛化能力。

總結

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統(tǒng)評估方式的限制,能夠根據用戶需求動態(tài)分析模型表現,為生成式 AI 的理解與優(yōu)化提供支持。無論關注的是準確性、多樣性,還是風格與創(chuàng)意,這一框架都能給出清晰、有針對性的評估結果。

研究團隊希望這一方法能為視覺生成模型的評估帶來新的思路,推動更智能、更靈活的評估體系發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突然!農業(yè)銀行,刷屏!

突然!農業(yè)銀行,刷屏!

券商中國
2025-09-04 16:46:24
A股:大盤跌破20日均線,不管你現在是滿倉還是空倉,一定要注意

A股:大盤跌破20日均線,不管你現在是滿倉還是空倉,一定要注意

虎哥閑聊
2025-09-04 14:35:10
金昊殺妻案:瑤瑤曾是“滄州錦鯉”,免費在滄州吃喝玩樂一年

金昊殺妻案:瑤瑤曾是“滄州錦鯉”,免費在滄州吃喝玩樂一年

漢史趣聞
2025-09-04 19:03:14
102歲老兵ICU看閱兵后安詳離世

102歲老兵ICU看閱兵后安詳離世

大象新聞
2025-09-04 16:47:06
墻倒眾人推!口碑崩了,500萬打水漂了,胡歌張譯的仇終于有人報

墻倒眾人推!口碑崩了,500萬打水漂了,胡歌張譯的仇終于有人報

小故事娛樂
2025-09-04 16:17:13
姆巴佩:從未見過一個球員在踢了60場比賽后還能保持最佳狀態(tài)

姆巴佩:從未見過一個球員在踢了60場比賽后還能保持最佳狀態(tài)

懂球帝
2025-09-05 00:18:14
全網瘋找薛凱琪 “小兔子”!又純又欲太出圈,這狀態(tài)說44歲誰信

全網瘋找薛凱琪 “小兔子”!又純又欲太出圈,這狀態(tài)說44歲誰信

七阿姨愛八卦
2025-09-03 23:49:15
朝韓互動,金正恩一點情面不留,韓議長連退兩步,請普京代為傳話

朝韓互動,金正恩一點情面不留,韓議長連退兩步,請普京代為傳話

傲傲講歷史
2025-09-03 23:08:59
原國家部委工作人員張某某,與外國女官員生下私生子!詳情披露

原國家部委工作人員張某某,與外國女官員生下私生子!詳情披露

南方都市報
2025-09-04 10:09:39
洪洞一正處官員組團嫖娼被抓:因失足女供述和支付記錄案發(fā)!

洪洞一正處官員組團嫖娼被抓:因失足女供述和支付記錄案發(fā)!

兵叔評說
2025-09-04 19:58:39
九三閱兵,央視鏡頭下的明星,黃日華站軍姿,雷軍王興同框

九三閱兵,央視鏡頭下的明星,黃日華站軍姿,雷軍王興同框

糊咖娛樂
2025-09-04 11:49:53
兩個傳聞打架!牛市總要為暴跌找個理由

兩個傳聞打架!牛市總要為暴跌找個理由

深水財經社
2025-09-04 14:47:05
我國九三閱兵剛結束,這五國表態(tài)來了,尤其是新加坡,非常不一般

我國九三閱兵剛結束,這五國表態(tài)來了,尤其是新加坡,非常不一般

DS北風
2025-09-04 18:59:12
中朝兩黨兩國最高領導人會談結束 金正恩離開人民大會堂

中朝兩黨兩國最高領導人會談結束 金正恩離開人民大會堂

極目新聞
2025-09-04 20:05:06
官方稱釋永信涉刑事案、六根不凈:被抓照流出,一細節(jié)暗示將重判

官方稱釋永信涉刑事案、六根不凈:被抓照流出,一細節(jié)暗示將重判

溫柔看世界
2025-09-04 22:03:20
進口醫(yī)療器械的消失,比進口藥的消失更令人擔憂

進口醫(yī)療器械的消失,比進口藥的消失更令人擔憂

霹靂炮
2025-09-03 22:46:13
臺灣TVBS電視臺主持人譚伊倫:兩岸如果要開戰(zhàn)的話,我愿意上戰(zhàn)場

臺灣TVBS電視臺主持人譚伊倫:兩岸如果要開戰(zhàn)的話,我愿意上戰(zhàn)場

總在茶余后
2025-09-04 01:52:24
人民大會堂文藝晚會,堪比演技照妖鏡,有人驚艷全場,有人拖后腿

人民大會堂文藝晚會,堪比演技照妖鏡,有人驚艷全場,有人拖后腿

小娛樂悠悠
2025-09-04 06:46:49
俄軍9月3日依舊轟炸烏克蘭!遭雷擊:三架圖-160轟炸機疑任務失敗

俄軍9月3日依舊轟炸烏克蘭!遭雷擊:三架圖-160轟炸機疑任務失敗

鷹眼Defence
2025-09-04 15:56:27
“不承認自己是中國人別來競選!”馬英九發(fā)話后,鄭麗文表明立場

“不承認自己是中國人別來競選!”馬英九發(fā)話后,鄭麗文表明立場

風眼軍情
2025-09-03 20:08:33
2025-09-05 02:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11234文章數 142442關注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機新品

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

體育要聞

這個中國人,和楊瀚森一起進了《NBA2K26》

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經要聞

A股久違的深跌出現了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

家居
數碼
手機
藝術
本地

家居要聞

高級黑白 體現簡單生活

數碼要聞

超30款新品齊上陣,追覓場景新品發(fā)布會一文看懂

手機要聞

當華為Mate XTs三折疊遇上鴻蒙5,移動生產力開始新變革

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

無障礙瀏覽 進入關懷版