成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型給自己當(dāng)裁判并不靠譜!上交揭示LLM-as-a-judge機(jī)制缺陷

0
分享至

大語言模型(LLM)正從工具進(jìn)化為“裁判”(LLM-as-a-judge),開始大規(guī)模地評(píng)判由AI自己生成的內(nèi)容。這種高效的評(píng)估范式,其可靠性與人類判斷的一致性,卻很少被深入驗(yàn)證。

一個(gè)最基礎(chǔ)、卻也最關(guān)鍵的問題是:在評(píng)判一個(gè)模型是否“入戲”之前,AI裁判能準(zhǔn)確識(shí)別出對(duì)話中到底是誰在說話嗎?

針對(duì)這一問題,上海交通大學(xué)王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對(duì)此進(jìn)行了系統(tǒng)性的研究。

文章提出一個(gè)名為PersonaEval的全新基準(zhǔn)測(cè)試。這項(xiàng)測(cè)試的核心任務(wù),就是讓模型在給定一段對(duì)話后,從幾個(gè)候選角色中選出真正的說話者。



測(cè)試結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率僅為68.8%,而人類實(shí)驗(yàn)組的平均準(zhǔn)確率為90.8%。

論文即將發(fā)表在2025年10月份的第2屆語言模型大會(huì)(COLM)上。

一個(gè)讓頂尖模型也“翻車”的簡(jiǎn)單問題

近來,關(guān)于大語言模型能否勝任“裁判”的討論愈發(fā)激烈,從“隱形prompt”影響大模型審稿的爭(zhēng)議,到斯坦福大學(xué)籌備首屆純AI學(xué)術(shù)會(huì)議Agent4Science的嘗試,都標(biāo)志著一個(gè)新趨勢(shì)的到來:大語言模型(LLM)能當(dāng)裁判評(píng)判AI生成的內(nèi)容。

這一趨勢(shì)在角色扮演(Role-Play)領(lǐng)域尤為明顯。從讓大模型扮演經(jīng)典的文學(xué)人物、游戲NPC,到Character.AI的火爆和各類應(yīng)用中“AI陪玩”的興起,一個(gè)由LLM驅(qū)動(dòng)的虛擬伴侶和內(nèi)容創(chuàng)作時(shí)代正向我們走來。

隨著其巨大的商業(yè)與應(yīng)用潛力引發(fā)業(yè)界廣泛關(guān)注,如何評(píng)價(jià)AI“演技”也自然成了亟待解決的核心問題。于是,讓LLM來擔(dān)當(dāng)裁判,也順理成章地成為了該領(lǐng)域的主流評(píng)估方法之一。

在AI當(dāng)裁判之前,首先要確認(rèn)AI是否能夠準(zhǔn)確進(jìn)行“角色身份識(shí)別”(Role Identification)。作者認(rèn)為,如果連這個(gè)都做不到,那么后續(xù)所有關(guān)于語氣、情感、性格一致性的高級(jí)評(píng)估,都將是空中樓閣。

我們來看一個(gè)在人類眼中非常簡(jiǎn)單,但卻讓頂尖大模型都判斷失誤的例子,如下圖所示:



△圖1 簡(jiǎn)單案例

如上圖所示,角色莊顏正在與某人對(duì)話。在她的內(nèi)心獨(dú)白中,她明確提到了“羅輯”,同時(shí)她在話語中也提到了“羅老師”。

  • 人類的判斷邏輯:對(duì)于即使沒有看過《三體》的人類來說,也能判斷出莊顏是在與羅輯對(duì)話,因?yàn)榍f顏的內(nèi)心獨(dú)白和說話內(nèi)容已經(jīng)圈定了羅輯是說話對(duì)象,這是最直接、最關(guān)鍵的上下文線索,即對(duì)話的參與者
  • LLM的判斷邏輯:然而,一個(gè)頂尖的LLM(DeepSeek-R1-0528)在此案例中做出了錯(cuò)誤判斷,選擇了史強(qiáng)。從模型的分析可以看出,它忽略了“羅輯是對(duì)話參與者”這一核心情境信息,反而過度關(guān)注回應(yīng)者的語言風(fēng)格,認(rèn)為其“直接、現(xiàn)實(shí)、略帶挑釁”更符合史強(qiáng)的性格特征,從而做出了錯(cuò)誤選擇。

這個(gè)例子一針見血地指出了當(dāng)前LLM裁判的致命缺陷:它們似乎更關(guān)注表層的語言風(fēng)格(聽起來像誰),而人類則首先觀察真實(shí)的對(duì)話意圖和上下文(在那個(gè)情境下,誰會(huì)這么說)。

為什么會(huì)產(chǎn)生這種分歧?這背后其實(shí)是AI與人類智能模式的深刻差異。

正如論文所引述的認(rèn)知科學(xué)家Josh Tenenbaum的觀點(diǎn):LLM的智能是從海量語言中學(xué)習(xí)模式而“衍生”出來的,它們是頂級(jí)的模式匹配專家;而人類的智能則“先于”語言,我們是帶著意圖和認(rèn)知去發(fā)展和使用語言這一工具的

PersonaEval:一個(gè)專為L(zhǎng)LM裁判打造的“照妖鏡”

為了系統(tǒng)性地評(píng)估LLM在角色身份識(shí)別上的能力,論文作者精心構(gòu)建了PersonaEval基準(zhǔn)。

它有幾個(gè)核心特點(diǎn),確保了評(píng)估與人類對(duì)齊,以及一定的挑戰(zhàn)性:

  • 源于純正的人類創(chuàng)作:所有對(duì)話數(shù)據(jù)均來自小說、劇本和真實(shí)的人類視頻,而非AI合成內(nèi)容。這保證了評(píng)估的標(biāo)準(zhǔn)根植于真實(shí)的人類判斷,避免了“模型評(píng)價(jià)模型”的數(shù)據(jù)污染。
  • 精心設(shè)計(jì)的“干擾項(xiàng)”:在多項(xiàng)選擇任務(wù)中,錯(cuò)誤的選項(xiàng)(distractors)并非隨機(jī)設(shè)置,而是通過embedding技術(shù)精心挑選出的、與正確角色在語義上最接近的“高仿”角色。這迫使模型進(jìn)行細(xì)致入微的推理,而不是簡(jiǎn)單的模式匹配。
  • 專注于“疑難雜癥”:為了避免簡(jiǎn)單的案例虛假拉高模型的表現(xiàn),論文作者通過一個(gè)強(qiáng)大的基線模型(Qwen-max)進(jìn)行過濾,只保留那些連強(qiáng)模型都感到困惑(置信度低于0.5)的“硬核案例”。



△圖2:PersonaEval基準(zhǔn)的構(gòu)建流程

整個(gè)基準(zhǔn)包含了三個(gè)不同方向的測(cè)試集:

  • PersonaEval-Literary:來自771本英文小說,測(cè)試模型對(duì)虛構(gòu)敘事角色的推理能力。
  • PersonaEval-Drama:來自中文劇本,測(cè)試模型對(duì)腳本化互動(dòng)中的角色理解。
  • PersonaEval-Expertise:來自WIRED的“5Levels”系列視頻,測(cè)試模型能否根據(jù)語言和概念的復(fù)雜程度,判斷專家是在對(duì)兒童、青少年還是其他專家說話。

測(cè)試發(fā)現(xiàn):AI判斷相較于人類還有巨大差距

在PersonaEval這個(gè)“考場(chǎng)”上,現(xiàn)有LLM的表現(xiàn)如何呢?結(jié)果令人震驚。

論文作者對(duì)包括GPT系列、Claude系列、DeepSeek系列在內(nèi)的多個(gè)頂尖模型進(jìn)行了測(cè)試。結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率也僅為68.8%。相比之下,論文作者組織了一場(chǎng)人類研究,由20名高學(xué)歷志愿者參與,人類的平均準(zhǔn)確率高達(dá)90.8%!



△圖3:LLM在PersonaEval上的準(zhǔn)確率與人類水平對(duì)比

上圖直觀地展示了這條巨大的“鴻溝”(Current Gap)。這清晰地回答了論文標(biāo)題中的問題:

目前的LLM裁判,還遠(yuǎn)不夠“擬人”,不足以可靠地評(píng)判角色扮演。如何彌補(bǔ)差距?強(qiáng)化“推理”是關(guān)鍵,而非“投喂”角色知識(shí)。

既然發(fā)現(xiàn)了問題,那該如何解決?

論文作者進(jìn)一步探索了兩種常見的模型提升策略:

  • 訓(xùn)練時(shí)適配(Training-time Adaptation):通過在角色扮演的語料上進(jìn)行微調(diào)(fine-tuning),向模型“注入”更多角色知識(shí)。
  • 測(cè)試時(shí)計(jì)算(Test-time Compute):在推理階段通過少樣本提示(few-shot prompting)或自洽性(self-consistency)等方法來提升表現(xiàn)。

結(jié)果再次出人意料。研究發(fā)現(xiàn),對(duì)模型進(jìn)行角色相關(guān)的微調(diào),不僅沒有提升其角色識(shí)別能力,反而可能導(dǎo)致性能下降。這可能是因?yàn)樗烙浻脖车慕巧R(shí)干擾了模型更底層的、通用的推理能力。



△圖4:在角色數(shù)據(jù)上微調(diào)后(粉色柱),模型性能反而下降

與此同時(shí),測(cè)試時(shí)計(jì)算的方法顯示出更大的潛力,特別是那些為“推理”而生的模型,表現(xiàn)出了明顯的優(yōu)勢(shì)。例如,專為推理任務(wù)優(yōu)化的DeepSeek-R1和QwQ-32B等模型,在基準(zhǔn)測(cè)試中名列前茅。

這表明,想要打造一個(gè)好的“AI裁判”,關(guān)鍵不在于灌輸更多的角色知識(shí),而在于提升模型本身強(qiáng)大、穩(wěn)健、具有上下文感知能力的推理引擎。

該論文揭示了當(dāng)前流行的“LLM-as-a-judge”評(píng)估范式在一個(gè)基礎(chǔ)卻被忽視的維度上的嚴(yán)重缺陷。

這項(xiàng)研究不僅為我們提供了一個(gè)寶貴的評(píng)估工具,更促使我們重新思考如何構(gòu)建真正與人類價(jià)值觀和判斷力對(duì)齊的AI系統(tǒng)。

未來的研究或許可以深入分析模型做出錯(cuò)誤判斷的“思考路徑”,從而開發(fā)出更有效的、以推理為導(dǎo)向的提升方法。PersonaEval,正在朝著這個(gè)目標(biāo)邁進(jìn)。

最終,我們希望AI不僅能“扮演”人類,更能真正“理解”人類的互動(dòng)方式。

作者簡(jiǎn)介

論文第一作者是上海交通大學(xué)博士研究生周凌楓,主要研究大模型智能體、人工智能賦能的社會(huì)科學(xué)等方向。



論文的通訊作者為上海交通大學(xué)長(zhǎng)聘教軌助理教授、博士生導(dǎo)師王德泉。本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。近五年論文谷歌學(xué)術(shù)總引用次數(shù) 12000 余次,H-index 22。

項(xiàng)目鏈接:https://github.com/maple-zhou/PersonaEval

論文地址:https://arxiv.org/abs/2508.10014

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“這是家長(zhǎng)會(huì),不是夜總會(huì)!”寶媽穿特殊褲子參加,被網(wǎng)友怒斥

“這是家長(zhǎng)會(huì),不是夜總會(huì)!”寶媽穿特殊褲子參加,被網(wǎng)友怒斥

熙熙說教
2025-08-22 17:46:53
遼籃悔之晚矣!張鎮(zhèn)麟剛加盟上海就完全康復(fù),即將啟程參加拉練賽

遼籃悔之晚矣!張鎮(zhèn)麟剛加盟上海就完全康復(fù),即將啟程參加拉練賽

格斗聯(lián)盟有話說
2025-08-30 19:51:41
兩岸突發(fā)大事!中國(guó)官宣重大消息:九三閱兵這天,這些人必邀出席

兩岸突發(fā)大事!中國(guó)官宣重大消息:九三閱兵這天,這些人必邀出席

絕對(duì)軍評(píng)
2025-08-30 14:25:32
閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險(xiǎn)了!

閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險(xiǎn)了!

墨蘭史書
2025-08-30 04:05:03
我們很可能拖不走仁愛礁菲坐灘舊軍艦,即便垮掉也是一個(gè)大問題

我們很可能拖不走仁愛礁菲坐灘舊軍艦,即便垮掉也是一個(gè)大問題

科普100克克
2025-08-28 21:59:00
西熱力江:新疆給趙睿720萬頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

西熱力江:新疆給趙睿720萬頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

818體育
2025-08-30 15:05:16
七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開膛破肚”

七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開膛破肚”

深度報(bào)
2025-08-29 16:22:55
男子在甘肅張掖七彩丹霞景區(qū)翻護(hù)欄下山撿相機(jī)!當(dāng)?shù)匚穆镁郑翰閷?shí)后會(huì)對(duì)當(dāng)事人做出處理,踩踏未造成太大影響

男子在甘肅張掖七彩丹霞景區(qū)翻護(hù)欄下山撿相機(jī)!當(dāng)?shù)匚穆镁郑翰閷?shí)后會(huì)對(duì)當(dāng)事人做出處理,踩踏未造成太大影響

臺(tái)州交通廣播
2025-08-30 16:37:55
重要賽事:8月31日晚18點(diǎn),央視CCTV5直播有變,中國(guó)女排沖擊8強(qiáng)

重要賽事:8月31日晚18點(diǎn),央視CCTV5直播有變,中國(guó)女排沖擊8強(qiáng)

體育就你秀
2025-08-30 12:14:02
巴基斯坦總理:中國(guó)為巴基斯坦所做的一切,都是美國(guó)做不到的

巴基斯坦總理:中國(guó)為巴基斯坦所做的一切,都是美國(guó)做不到的

泠泠說史
2025-08-30 17:54:07
敢跟美國(guó)正面硬剛的第二個(gè)國(guó)家出現(xiàn),中國(guó)苦心經(jīng)營(yíng)奏效

敢跟美國(guó)正面硬剛的第二個(gè)國(guó)家出現(xiàn),中國(guó)苦心經(jīng)營(yíng)奏效

閆樹軍論評(píng)
2025-08-30 21:27:30
孫興慜:美職聯(lián)有梅西、蘇亞雷斯等人,我的名字可能不算響亮

孫興慜:美職聯(lián)有梅西、蘇亞雷斯等人,我的名字可能不算響亮

懂球帝
2025-08-30 17:39:56
中泰鐵路大結(jié)局?泰中途把800億高鐵大單給日本,10年后悔不當(dāng)初

中泰鐵路大結(jié)局?泰中途把800億高鐵大單給日本,10年后悔不當(dāng)初

瘋狂的小菠蘿
2025-08-30 14:53:23
降息525基點(diǎn)!

降息525基點(diǎn)!

格隆匯
2025-08-30 20:19:31
1946年華中軍區(qū)曾密電毛澤東:陳毅不會(huì)打仗!毛主席三句話定乾坤

1946年華中軍區(qū)曾密電毛澤東:陳毅不會(huì)打仗!毛主席三句話定乾坤

云霄紀(jì)史觀
2025-08-30 15:00:23
運(yùn)氣真好,曼聯(lián)新賽季英超的前兩個(gè)進(jìn)球都來自于對(duì)手烏龍

運(yùn)氣真好,曼聯(lián)新賽季英超的前兩個(gè)進(jìn)球都來自于對(duì)手烏龍

懂球帝
2025-08-30 22:47:24
余承東:尚界虧本也要讓利給消費(fèi)者,尚界H5憑16.98萬元預(yù)售價(jià)一舉打爆車圈

余承東:尚界虧本也要讓利給消費(fèi)者,尚界H5憑16.98萬元預(yù)售價(jià)一舉打爆車圈

瀟湘晨報(bào)
2025-08-30 16:47:16
這5類常用藥不宜長(zhǎng)期使用,會(huì)破壞免疫力,不少人還在亂用

這5類常用藥不宜長(zhǎng)期使用,會(huì)破壞免疫力,不少人還在亂用

醫(yī)者真言
2025-08-28 16:06:31
男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

第四思維
2025-08-27 09:22:11
巴黎世錦賽混雙:蔣魏組合2-1逆轉(zhuǎn)娃卉組合,首次躋身世錦賽決賽

巴黎世錦賽混雙:蔣魏組合2-1逆轉(zhuǎn)娃卉組合,首次躋身世錦賽決賽

直播吧
2025-08-30 17:49:39
2025-08-30 23:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

關(guān)稅政策遭沉重打擊 特朗普回?fù)簦核嘘P(guān)稅仍然有效

頭條要聞

關(guān)稅政策遭沉重打擊 特朗普回?fù)簦核嘘P(guān)稅仍然有效

體育要聞

淘汰曼聯(lián)的英乙隊(duì),仍然沒有忘記張恩華

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機(jī)大模型即將全量推送

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
教育
數(shù)碼

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

教育要聞

教育部發(fā)布2025年第3號(hào)留學(xué)預(yù)警

數(shù)碼要聞

小米召回14萬充電寶 支持退款

無障礙瀏覽 進(jìn)入關(guān)懷版