成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度揭秘OpenAI如何讓GPT-5「技術(shù)性」超越Claude:悄悄跳過(guò)最難的23道題

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】OpenAI在SWE-bench Verified編程測(cè)試中僅完成477道題卻公布74.9%高分,對(duì)比之下,Anthropic的Claude完成全部500題。

幾天前,OpenAI發(fā)布會(huì)上,奧特曼宣布GPT-5登頂了,號(hào)稱代碼能力全球第一。

但發(fā)布會(huì)上搞了一個(gè)大烏龍,52.8>69.1=30.8?

于是,OpenAI那些年薪上億的天才們做的一張表格火遍了全世界(左邊)。


雖然這張表格一開(kāi)始在OpenAI的官博中是準(zhǔn)確的,但是當(dāng)面向全世界直播竟然搞了這么大一個(gè)Bug。

拋開(kāi)烏龍外,更重要的但是被人們忽視的一個(gè)事情是,GPT-5在SWE-bench Verified基準(zhǔn)上取得的74.9%的通過(guò)率。

這個(gè)分?jǐn)?shù)略高于Anthropic的Claude Opus 4.1的74.5%。


這一下子,就讓GPT-5成為當(dāng)前軟件工程任務(wù)基準(zhǔn)上的領(lǐng)先模型。

但等等,這分?jǐn)?shù)…好像有點(diǎn)貓膩啊。

OpenAI并未運(yùn)行SWE-bench Verified的全部500道測(cè)試任務(wù),而是略去了其中無(wú)法運(yùn)行的23個(gè)任務(wù),僅基于477個(gè)任務(wù)計(jì)算得分

SemiAnalysis專門發(fā)帖提到這個(gè)問(wèn)題。


Anthropic專門在它的博客里也「內(nèi)涵」了這個(gè)問(wèn)題。


SWE-bench Verified總共500道題,GPT-5只做了477道,那23道題,它直接跳過(guò)了!

而對(duì)手Claude呢?老老實(shí)實(shí),500道題一道沒(méi)落。

這下,性質(zhì)全變了。

當(dāng)然OpenAI是承認(rèn)這件事情的。

他們從GPT-4.1開(kāi)始就在「?jìng)渥ⅰ估镎f(shuō)明了:OpenAI的基礎(chǔ)設(shè)施無(wú)法運(yùn)行這23道題目。(好奇啊,什么樣的題目,OpenAI的天才們竟然說(shuō)無(wú)法運(yùn)行)


如果將這23道無(wú)法運(yùn)行的題目按0分計(jì)入,GPT-4.1的得分將從54.6%降至52.1%

由此推測(cè),GPT-5的74.9%,若也將那23道題視作全錯(cuò),其實(shí)際全500題通過(guò)率約為71.4%(74.9%×477/500,注意這是極度簡(jiǎn)化的計(jì)算)明顯低于Claude Opus 4.1基于500道題取得的74.5%

需要強(qiáng)調(diào)的是,那23個(gè)被略去的任務(wù)并非對(duì)GPT-5「無(wú)關(guān)緊要」。

相反,它們大多是Verified集中最困難的一批問(wèn)題。

據(jù)第三方分析,在Verified數(shù)據(jù)集的「耗時(shí)>4小時(shí)」級(jí)別的任務(wù)中,絕大多數(shù)模型都無(wú)法解決任何一道。

模型在需要超過(guò)1小時(shí)才能完成的「較難」問(wèn)題上表現(xiàn)顯著下降。

只有ClaudeSonnet4(非思考模式)、o3和GPT4.1能夠完成部分超過(guò)4小時(shí)的任務(wù)(各占33%)。


這些極端困難任務(wù)對(duì)模型的綜合能力是嚴(yán)峻考驗(yàn)。

如果GPT-5無(wú)法運(yùn)行這些任務(wù),那么從全面能力上說(shuō),它可能尚未真正超越Claude 4.1。

在Anthropic提供的信息中,Claude 4.1很可能也嘗試了這些任務(wù)(Anthropic并未聲稱其模型跳過(guò)任何Verified任務(wù)),因此其74.5%分?jǐn)?shù)包含了所有難題的考驗(yàn)。

而GPT-5的74.9%則是在剔除了這些「攔路虎」后的結(jié)果。

這種差異引發(fā)的主要爭(zhēng)議點(diǎn)在于:評(píng)測(cè)分?jǐn)?shù)的可比性報(bào)告方法的透明性。

甚至,就連作為裁判的SWE-bench Verified數(shù)據(jù)集,也是OpenAI自己搞的。


SemiAnalysis認(rèn)為,要想「公平」的對(duì)比模型之間的成績(jī),或許swebench.com上的SWE-bench官方排行榜可能是對(duì)當(dāng)前模型在此基準(zhǔn)測(cè)試中表現(xiàn)的最清晰描述。

沒(méi)有「驗(yàn)證」子集,工具使用受限(僅限bash),大部分腳手架內(nèi)容是開(kāi)放可見(jiàn)的。

在此前提下的基準(zhǔn)測(cè)試中,5月14日的Claude 4 Opus檢查點(diǎn)(67.6)表現(xiàn)是要優(yōu)于GPT-5(65)的。


接下來(lái)的問(wèn)題就是,什么是SWE-bench,什么又是「驗(yàn)證」子集,為啥要額外搞一個(gè)SWE-bench Verified?

SWE-bench:AI界的「程序員高考」

SWE-bench你可以把它想象成AI界的「程序員高考」。

考的,全是真實(shí)世界的代碼難題。

想拿高分?不僅要修復(fù)bug。還不能引入新bug,這標(biāo)準(zhǔn)簡(jiǎn)直不要太嚴(yán)格。

曾幾何時(shí),AI們分?jǐn)?shù)也就二三十分,慘不忍睹。

比如截至2024年8月5日,根據(jù)SWE-bench的排行榜,編碼智能體在SWE-bench上最高得分20%。

在SWE-bench Lite上得分能稍微好點(diǎn),達(dá)到43%。

但是現(xiàn)在的AI厲害了,基本上前十的模型都能超過(guò)50分。


OpenAI覺(jué)得SWE-bench太難了,一些任務(wù)甚至壓根沒(méi)法解決,從而沒(méi)法很好的評(píng)估模型的能力。

簡(jiǎn)單介紹下SWE-bench

SWE-bench測(cè)試集中的每個(gè)樣本均來(lái)自GitHub上12個(gè)開(kāi)源Python存儲(chǔ)庫(kù)中的已解決GitHub問(wèn)題。

每個(gè)樣本都有一個(gè)相關(guān)的拉取請(qǐng)求(PR),其中包含解決方案代碼和單元測(cè)試以驗(yàn)證代碼的正確性。

這些單元測(cè)試在PR中的解決方案代碼添加之前會(huì)失敗,但添加之后會(huì)通過(guò),因此被稱為FAIL_TO_PASS測(cè)試。

每個(gè)樣本還具有相關(guān)的PASS_TO_PASS測(cè)試,這些測(cè)試在PR合并前后都會(huì)通過(guò),用于檢查PR是否破壞了代碼庫(kù)中現(xiàn)有且不相關(guān)的功能。

對(duì)于SWE-bench中的每個(gè)樣本,智能體將獲得來(lái)自GitHub issue的原始文本,即問(wèn)題描述,并可以訪問(wèn)代碼庫(kù)。

據(jù)此,智能體必須編輯代碼庫(kù)中的文件以解決問(wèn)題。測(cè)試用例不會(huì)展示給智能體。

模型提出的修改編輯通過(guò)運(yùn)行FAIL_TO_PASSPASS_TO_PASS測(cè)試進(jìn)行評(píng)估。

如果FAIL_TO_PASS測(cè)試通過(guò),表明該模型解決了問(wèn)題。

如果PASS_TO_PASS測(cè)試通過(guò),則表明該編輯沒(méi)有意外破壞代碼庫(kù)中不相關(guān)的部分。

只有當(dāng)這兩組測(cè)試全部通過(guò)后,該編輯才能徹底解決原始GitHub問(wèn)題。

這就是上面所說(shuō)的:不僅要修復(fù)bug,還不能引入新bug。

SWE-bench Verified:一個(gè)人工選出來(lái)的子集

SWE-bench Verified是SWE-bench基準(zhǔn)的一個(gè)人類校驗(yàn)子集,于2024年8月由OpenAI與SWE-bench作者合作發(fā)布。

OpenAI與93名精通Python的軟件開(kāi)發(fā)人員合作,手動(dòng)篩選SWE-bench樣本的質(zhì)量。

首先,給SWE-bench測(cè)試集的1699個(gè)隨機(jī)樣本「打分」。


四個(gè)分?jǐn)?shù):

  • 0:?jiǎn)栴}描述清晰,對(duì)于成功解決所需的條件也很明確。

  • 1:關(guān)于這個(gè)問(wèn)題還有一些空白需要填寫(xiě),但對(duì)于成功解決方案所需的內(nèi)容,存在一種合理的解讀方式。

  • 2:該問(wèn)題描述含糊,存在歧義空間,尚不清楚一個(gè)成功的解決方案應(yīng)具備哪些特征。

  • 3:在沒(méi)有更多信息的情況下,幾乎無(wú)法理解你需要做什么。


得分為2和3分的直接拋棄不要,只留0和1分的題目。

雖然這種方法會(huì)導(dǎo)致樣本移除的誤報(bào)率較高,但有助于提高對(duì)最終數(shù)據(jù)集樣本質(zhì)量的信心。

然后從0和1分的題目中再隨機(jī)抽取500道,這就是最終的SWE-bench Verified。

說(shuō)回分?jǐn)?shù),Claude考的是「全科」,OpenAI考的是「精選版」。

這成績(jī),怎么能直接比?數(shù)字背后的故事,更值得玩味。

在發(fā)布會(huì)圖表畫(huà)錯(cuò)的烏龍以外,這個(gè)被「掩蓋」的事實(shí)似乎并沒(méi)有引起太多人的注意。

甚至,我們可以陰謀論的猜測(cè)一下,OpenAI是不是故意而為之,用這個(gè)小小的烏龍,來(lái)掩蓋SWE-Bench的分?jǐn)?shù)?

畢竟,要想隱瞞一個(gè)真相,最好的做法不是否認(rèn)它,而是用一個(gè)更大的「真相」去轉(zhuǎn)移所有人的注意力。

參考資料:

https://x.com/SemiAnalysis_/status/1955028150217478177


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
德云系自媒體爆料,郭德綱賬號(hào)取關(guān)六百多人,和前大徒弟有關(guān)

德云系自媒體爆料,郭德綱賬號(hào)取關(guān)六百多人,和前大徒弟有關(guān)

我就是個(gè)碼字的
2025-08-30 08:30:03
趙繼偉宴請(qǐng)全隊(duì)25人!送別3隊(duì)友!50道大菜擺滿,有烤全羊大龍蝦

趙繼偉宴請(qǐng)全隊(duì)25人!送別3隊(duì)友!50道大菜擺滿,有烤全羊大龍蝦

老吳說(shuō)體育
2025-08-31 01:03:29
1973年,入獄7年,58歲的她無(wú)罪釋放,她卻拒絕出獄

1973年,入獄7年,58歲的她無(wú)罪釋放,她卻拒絕出獄

玥來(lái)玥好講故事
2025-08-29 20:36:14
“吃飯八分飽”錯(cuò)了?醫(yī)生建議:過(guò)了60歲,吃飯要盡量做到這7點(diǎn)

“吃飯八分飽”錯(cuò)了?醫(yī)生建議:過(guò)了60歲,吃飯要盡量做到這7點(diǎn)

說(shuō)歷史的老牢
2025-08-30 11:17:31
神經(jīng)內(nèi)科醫(yī)生勸告:這5種不舒服其實(shí)是腦梗,千萬(wàn)別大意,速看!

神經(jīng)內(nèi)科醫(yī)生勸告:這5種不舒服其實(shí)是腦梗,千萬(wàn)別大意,速看!

華庭講美食
2025-08-27 16:23:47
上海夫妻冷戰(zhàn)十年分房睡,妻子突然病逝,丈夫整理房間發(fā)現(xiàn)這個(gè)

上海夫妻冷戰(zhàn)十年分房睡,妻子突然病逝,丈夫整理房間發(fā)現(xiàn)這個(gè)

飛云如水
2025-08-17 22:33:09
前所未有!俄軍空襲剛開(kāi)始,烏軍就開(kāi)始反擊,直接與俄羅斯對(duì)轟!

前所未有!俄軍空襲剛開(kāi)始,烏軍就開(kāi)始反擊,直接與俄羅斯對(duì)轟!

阿龍聊軍事
2025-06-07 20:04:46
男子花20萬(wàn)買二手房,洗澡時(shí)卻流出紅色液體,物業(yè)上門檢查水箱傻眼

男子花20萬(wàn)買二手房,洗澡時(shí)卻流出紅色液體,物業(yè)上門檢查水箱傻眼

罪案洞察者
2025-08-30 09:49:35
惡鄰占公共走廊放鞋柜,看網(wǎng)友“神”操作后,直呼 “干得漂亮”

惡鄰占公共走廊放鞋柜,看網(wǎng)友“神”操作后,直呼 “干得漂亮”

裝修秀
2025-08-30 10:50:03
當(dāng)年為什么查辦褚時(shí)健?

百曉生談歷史
2025-08-20 21:55:53

公安部發(fā)布!退休人員必看,事關(guān)錢袋子、養(yǎng)老金,不要掉以輕心

公安部發(fā)布!退休人員必看,事關(guān)錢袋子、養(yǎng)老金,不要掉以輕心

雙色球的方向舵
2025-08-29 15:41:13
已確認(rèn),即將抵達(dá)!暴雨+10級(jí)大風(fēng),再熬一天,浙江高溫退散!臺(tái)風(fēng)最新路徑公布

已確認(rèn),即將抵達(dá)!暴雨+10級(jí)大風(fēng),再熬一天,浙江高溫退散!臺(tái)風(fēng)最新路徑公布

浙江消防
2025-08-30 18:10:11
暴雨、大暴雨!臺(tái)風(fēng),又來(lái)了

暴雨、大暴雨!臺(tái)風(fēng),又來(lái)了

環(huán)球網(wǎng)資訊
2025-08-30 14:55:27
為什么社會(huì)上的單親媽媽,越來(lái)越多了?

為什么社會(huì)上的單親媽媽,越來(lái)越多了?

加油丁小文
2025-08-20 06:00:03
噩耗!藥企大佬尹正龍去世,僅60歲,當(dāng)天上午還在開(kāi)會(huì),死因曝光

噩耗!藥企大佬尹正龍去世,僅60歲,當(dāng)天上午還在開(kāi)會(huì),死因曝光

云景侃記
2025-08-28 14:16:26
記者:安東尼加盟貝蒂斯轉(zhuǎn)會(huì)費(fèi)2500萬(wàn)鎊,曼聯(lián)有50%二轉(zhuǎn)分成

記者:安東尼加盟貝蒂斯轉(zhuǎn)會(huì)費(fèi)2500萬(wàn)鎊,曼聯(lián)有50%二轉(zhuǎn)分成

懂球帝
2025-08-30 04:05:34
董璇給張維伊老家親戚買金子,男方瞬間變臉,雙方經(jīng)濟(jì)實(shí)力差太多

董璇給張維伊老家親戚買金子,男方瞬間變臉,雙方經(jīng)濟(jì)實(shí)力差太多

萌神木木
2025-08-30 14:00:10
圈內(nèi)大佬親述,陪睡陪玩只是冰山一角,岳云鵬、楊冪、許凱

圈內(nèi)大佬親述,陪睡陪玩只是冰山一角,岳云鵬、楊冪、許凱

農(nóng)村娛樂(lè)光哥
2025-08-29 11:15:35
叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說(shuō)不會(huì)虧待他們

叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說(shuō)不會(huì)虧待他們

興史興談
2025-07-14 15:41:56
提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

瓜農(nóng)娟姐
2025-08-30 16:06:15
2025-08-31 03:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來(lái)四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂(lè)要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開(kāi)啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

游戲
本地
家居
手機(jī)
公開(kāi)課

UP主挑戰(zhàn)念“游戲科學(xué)”100萬(wàn)次:最后竟然成功了!

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

家居要聞

提升功能 靈活居住環(huán)境

手機(jī)要聞

vivo X300系列超前瞻預(yù)熱開(kāi)啟:兩億像素+長(zhǎng)焦微距,實(shí)力不容小覷

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版