成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5編程成績(jī)有貓膩!自刪23道測(cè)試題,關(guān)鍵基準(zhǔn)還是自己提的

0
分享至

白交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

別急著用GPT-5編程了,可能它能力沒有你想象中那么強(qiáng)。

有人發(fā)現(xiàn),官方測(cè)試編程能力用的SWE-bench Verified,但貨不對(duì)板,只用了477個(gè)問題。



什么意思呢?我們知道,SWE-bench是評(píng)估模型/智能體自主編程能力的一個(gè)通用且常用的指標(biāo)。而SWE-bench Verified作為它的子集,本來一共有500個(gè)問題。

現(xiàn)在相當(dāng)于OpenAI自行省略的那23個(gè)問題,自己搞了個(gè)子集的“子集”來評(píng)估模型能力。

而如果這些題默認(rèn)零分,那么得分實(shí)際上是比Claude Opus 4.1還要低的。因?yàn)楝F(xiàn)在僅有0.4%的差距。



OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時(shí)就信誓旦旦地說,之所以忽略是因?yàn)檫@些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運(yùn)行。



離譜了朋友們!要知道SWE-bench Verified這個(gè)OpenAI自己提的,理由也是因?yàn)镾WE-bench無法系統(tǒng)評(píng)估模型的編程能力,所以決定自己再提煉一個(gè)子集。

現(xiàn)在又因?yàn)闇y(cè)試題無法正常運(yùn)行,所以自行又搞了個(gè)子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯(cuò)誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績(jī)可能還有假?



OpenAI一直省略23個(gè)問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看,這個(gè)官方給的結(jié)果或許根本沒有參考價(jià)值。

網(wǎng)友們除了自行忽略部分測(cè)試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴(kuò)展思維僅靠原始模型輸出的Opus 4.1進(jìn)行比較。這種比較實(shí)際上沒有參考意義。



而他們之所以只使用477個(gè)問題來測(cè)試,理由也跟GPT-4.1發(fā)布時(shí)一樣,因?yàn)樗麄儍?nèi)部的基礎(chǔ)設(shè)施運(yùn)行不了剩下的23個(gè)問題。



今年4月份發(fā)布GPT-4.1時(shí),在同一基準(zhǔn)僅使用477個(gè)問題下得得分在54.6%。

當(dāng)時(shí)官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個(gè)數(shù)值放在當(dāng)時(shí)也是最高的。



而Anthropic這邊,其實(shí)也已經(jīng)發(fā)現(xiàn)了OpenAI這個(gè)操作。

就在Claude Opus 4.1發(fā)布公布編程成績(jī)之時(shí),在文章的末尾有這么一句話。



對(duì)于Claude 4系列模型,他們繼續(xù)使用相同的簡(jiǎn)單框架,該框架僅為模型配備了兩種工具——一個(gè)Bash工具和一個(gè)通過字符串替換進(jìn)行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個(gè)“規(guī)劃工具”。

并在最后注明:在所有Claude 4模型中,他們報(bào)告的分?jǐn)?shù)基于完整的500個(gè)問題。OpenAI模型的得分基于477問題的子集進(jìn)行報(bào)告。



基準(zhǔn)還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準(zhǔn),那這件事就更離譜了。

這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。



當(dāng)時(shí)啊還是因?yàn)轭愃频脑颉麄儨y(cè)試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導(dǎo)致SWE-bench無法系統(tǒng)性評(píng)估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個(gè)新版本,希望能夠提供更準(zhǔn)確的評(píng)估。

他們共同發(fā)起了一項(xiàng)人工注釋活動(dòng),共有93位資深程序員參與進(jìn)來,以篩選SWE-bench測(cè)試集每個(gè)樣本,從而獲得適當(dāng)范圍的單元測(cè)試和明確指定的問題描述。

他們隨機(jī)抽取了1699個(gè)樣本,然后基于統(tǒng)一標(biāo)準(zhǔn)來進(jìn)行標(biāo)注。

比如,問題描述是否明確?每個(gè)注釋都有一個(gè)標(biāo)簽,范圍從 [0, 1, 2, 3],嚴(yán)重程度依次遞增。

標(biāo)簽0和1 表示輕微;標(biāo)簽2和3表示嚴(yán)重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。



此外,我們還會(huì)評(píng)估每個(gè)示例的難度,方法是讓注釋者估算開發(fā)人員確定并實(shí)現(xiàn)解決方案所需的時(shí)間。

最終得到了500個(gè)經(jīng)過驗(yàn)證的樣本,并且按照難度對(duì)數(shù)據(jù)集進(jìn)行細(xì)分?!昂?jiǎn)單”子集包含196個(gè)小于15分鐘的修復(fù)任務(wù),而“困難”子集包含 45 個(gè)大于 1 小時(shí)的任務(wù)。

結(jié)果現(xiàn)在這個(gè)子集又被OpenAI縮減了。

One More Thing

不過,還是有個(gè)總榜單或許值得參考,就是那個(gè)最原始的SWE-bench。

在這個(gè)榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。



GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗(yàn)呀?歡迎在評(píng)論區(qū)與我們分享。

參考鏈接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
滄州孟村“蘇妲己”,處的對(duì)象不止一個(gè)金某

滄州孟村“蘇妲己”,處的對(duì)象不止一個(gè)金某

皮蛋兒電影
2025-08-30 18:08:50
上海高溫破百年歷史,明天有望再破兩項(xiàng)紀(jì)錄

上海高溫破百年歷史,明天有望再破兩項(xiàng)紀(jì)錄

上觀新聞
2025-08-30 16:52:47
佩通坦被解職不到24小時(shí),家人首次發(fā)聲,給予肯定和贊美

佩通坦被解職不到24小時(shí),家人首次發(fā)聲,給予肯定和贊美

陳博世財(cái)經(jīng)
2025-08-30 17:19:34
“亂港分子”何桂藍(lán):從清華學(xué)霸到港獨(dú)分子,昔日風(fēng)光今日凄慘

“亂港分子”何桂藍(lán):從清華學(xué)霸到港獨(dú)分子,昔日風(fēng)光今日凄慘

蜉蝣說
2025-08-30 17:14:26
吳京為何淪為全網(wǎng)群嘲的對(duì)象?編劇王海林曝光真相,言語(yǔ)一針見血

吳京為何淪為全網(wǎng)群嘲的對(duì)象?編劇王海林曝光真相,言語(yǔ)一針見血

小徐講八卦
2025-08-29 15:54:48
功率拉滿,約基奇26中15砍39分10板4助3斷,三分4中1罰球8中8

功率拉滿,約基奇26中15砍39分10板4助3斷,三分4中1罰球8中8

懂球帝
2025-08-31 01:15:19
劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

劉強(qiáng)東美女助理:出身普通,卻深得劉強(qiáng)東信任,名下多家公司

禾寒?dāng)?/span>
2025-08-30 20:15:42
郭金友,任上被查

郭金友,任上被查

新京報(bào)
2025-08-30 20:09:30
金正恩會(huì)見援俄朝軍烈士遺屬 表示“深感內(nèi)疚”

金正恩會(huì)見援俄朝軍烈士遺屬 表示“深感內(nèi)疚”

看看新聞Knews
2025-08-30 15:12:05
一場(chǎng)1-4潰敗,衛(wèi)冕冠軍欲哭無淚,揪出2大水貨,最慘烈爭(zhēng)冠誕生

一場(chǎng)1-4潰敗,衛(wèi)冕冠軍欲哭無淚,揪出2大水貨,最慘烈爭(zhēng)冠誕生

大秦壁虎白話體育
2025-08-30 22:24:01
哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

極目新聞
2025-08-31 07:26:46
國(guó)家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

國(guó)家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

陌識(shí)
2025-08-30 16:17:10
多國(guó)領(lǐng)導(dǎo)人抵華

多國(guó)領(lǐng)導(dǎo)人抵華

環(huán)球時(shí)報(bào)新聞
2025-08-30 17:35:41
安洗瑩賽后采訪說輸球原因,稱贊并祝福陳雨菲,以及最新傷情消息

安洗瑩賽后采訪說輸球原因,稱贊并祝福陳雨菲,以及最新傷情消息

真理是我親戚
2025-08-30 23:06:58
“內(nèi)鬼”郭志新,被查

“內(nèi)鬼”郭志新,被查

新京報(bào)政事兒
2025-08-30 22:14:03
娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

花心電影
2025-08-30 21:23:30
外交部發(fā)言人就泰國(guó)憲法法院裁決佩通坦總理解職答記者問

外交部發(fā)言人就泰國(guó)憲法法院裁決佩通坦總理解職答記者問

界面新聞
2025-08-30 09:17:17
大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

軒逸阿II
2025-08-30 15:52:54
人民幣在朝鮮的購(gòu)買力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

人民幣在朝鮮的購(gòu)買力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

熊貓君點(diǎn)評(píng)
2025-08-30 19:40:55
投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

極目新聞
2025-08-30 16:08:04
2025-08-31 08:12:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機(jī)
旅游
軍事航空

親子要聞

寶藍(lán)用平板一下子買了50盒玩具??!!

房產(chǎn)要聞

顛覆認(rèn)知!海口真正的豪宅作品,終于出現(xiàn)了!

手機(jī)要聞

蘋果iPhone 17系列爆水管 Pro版大漲價(jià)8499起

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

以軍繼續(xù)襲擊加沙城

無障礙瀏覽 進(jìn)入關(guān)懷版