成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從需求分析到代碼生成,LLM都能干點啥?一文讀懂291個軟工Benchmark!

0
分享至


新智元報道

編輯:LRST

【新智元導讀】大語言模型正加速重塑軟件工程領域的各個環(huán)節(jié),從需求分析到代碼生成,再到自動化測試,幾乎無所不能,但衡量這些模型到底「好不好用」、「好在哪里」、「還有哪些短板」,一直缺乏系統(tǒng)、權威的評估工具。浙江大學、新加坡管理大學、加拿大渥太華大學等機構的研究團隊,首次對291個用于評估LLMs在軟件工程任務中的Benchmark進行了系統(tǒng)綜述,為AI4SE社區(qū)繪制了一份詳盡的「基準地圖」與方法指南。

近年來,ChatGPT、Llama等大語言模型在軟件工程領域的能力突飛猛進,從需求分析、代碼生成到測試與維護幾乎無所不能。但一個核心問題是:我們如何客觀評估這些模型在不同軟件工程任務中的表現(xiàn)?

在SE領域,Benchmark既是分數(shù)卡,讓不同模型在同一標準下比拼;也是方向盤,引導技術改進與未來研究方向。

然而,現(xiàn)有LLM-SE Benchmark存在三大痛點:

  • 零散分布:缺乏覆蓋全流程的軟件工程任務Benchmark綜述

  • 構建方式各異:評估指標、數(shù)據(jù)來源五花八門,難以橫向比較

  • 研究空白:此前從未有系統(tǒng)文獻綜述全面匯總軟件工程相關的大語言模型Benchmark

這使得開發(fā)者和研究者在選擇評估方法時常陷入「信息孤島」,甚至可能被不全面的評估結果誤導。

為填補這一空白,來自浙江大學、新加坡管理大學、渥太華大學等機構的團隊開展了一項系統(tǒng)文獻綜述,首次全面梳理了291個用于評估大語言模型在軟件工程任務中的Benchmark,并從任務覆蓋、語言分布、構建方式到未來趨勢進行了深入分析。


論文鏈接:https://arxiv.org/pdf/2505.08903


圖1 綜述框架總覽

研究聚焦三大核心問題:

  • 現(xiàn)有LLM-SE Benchmark有哪些?

  • 它們是如何構建的?

  • 它們面臨哪些挑戰(zhàn)與改進機會?

為了確保全面、系統(tǒng),研究人員開展「地毯式搜索」:

數(shù)據(jù)來源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫;

  • 補充檢索采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;

  • 嚴格篩選設置包含與排除標準,剔除與LLM-SE無關或信息不全的Benchmark;

  • 質量評估從描述清晰度、SE相關性、方法嚴謹性、可復現(xiàn)性、學術影響五個維度打分;

  • 最終成果匯總291個在2025年6月前發(fā)表的Benchmark,按任務、語言、構建方式等多維度分類分析。

六大任務全覆蓋

Benchmark演化脈絡清晰


圖2 Benchmark年份分布

統(tǒng)計顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長,2023和2024年分別新增近70個,增長勢頭迅猛。


圖3 Benchmark語言分布

Python在評估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務;Java、C++、C語言在質量分析與維護任務中占有重要地位;Go、PHP、Ruby等小眾語言的Benchmark仍然稀缺。


圖4 Benchmark任務分布

任務分布(六大類)

  • 需求與設計(25個):需求獲取、分類、沖突檢測、規(guī)格化與驗證;

  • 編碼輔助(124個):代碼生成、補全、摘要、多語言遷移(占比超40%,最多);

  • 軟件測試(25個):測試生成、GUI測試、斷言生成、自動修復;

  • AIOps(6個):日志生成與解析;

  • 軟件維護(13個):代碼審查、克隆檢測、代碼重構;

  • 質量管理(111個):缺陷檢測、漏洞識別、修復建議(占比38%)。

其中「編碼輔助」任務相關Benchmark數(shù)量最多,占比超過40%,其次是質量管理類任務,占比達38%。

現(xiàn)實挑戰(zhàn)

Benchmark還遠遠不夠用!

研究指出,當前Benchmark建設存在五大瓶頸:

  • 任務定義模糊、評價不一致缺乏統(tǒng)一標準,難以橫向對比;

  • 規(guī)模受限、計算成本高多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復雜系統(tǒng);

  • 泛化能力不足Benchmark表現(xiàn)好,真實場景卻「水土不服」;

  • 更新滯后難以及時跟進新技術與框架;

  • 數(shù)據(jù)隱私限制真實企業(yè)數(shù)據(jù)難以共享,影響高質量Benchmark建設。

未來機會

Benchmark建設仍是「藍海」

團隊提出了五大改進方向:

  • 多維評估引入準確率、可維護性、效率、安全性、可解釋性等指標;

  • 跨語言、跨任務統(tǒng)一評估框架,提升通用性;

  • 貼近真實場景引入真實項目數(shù)據(jù),提高落地性;

  • 人類反饋與倫理考量納入有害性檢測、隱私風險等維度;

  • 動態(tài)可擴展平臺支持任務擴展、新模型接入與持續(xù)測評。

總結

Benchmark是推動LLM落地的「發(fā)動機」

正如作者所言——當前LLM在軟件工程中的應用正處于「黃金發(fā)展期」,但真正能驅動其走向工業(yè)落地、提升工程可信度的,是那些更真實、更多維、更動態(tài)的Benchmark體系。

這項研究不僅填補了LLM軟件工程評估的綜述空白,也為AI4SE研究者、開發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說模型是「馬達」,Benchmark就是「方向盤」。誰能把握住它,誰就能在AI軟件工程的未來之路上走得更遠。

參考資料:

https://arxiv.org/pdf/2505.08903


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3-2,62歲莫耶斯率隊3連勝,29歲曼城舊將格拉利什助攻梅開二度

3-2,62歲莫耶斯率隊3連勝,29歲曼城舊將格拉利什助攻梅開二度

側身凌空斬
2025-08-30 23:58:53
65歲大姐雇46歲男保姆,男保姆:雇主對我很好,每天都很開心

65歲大姐雇46歲男保姆,男保姆:雇主對我很好,每天都很開心

惟來
2025-08-29 07:31:06
小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

解讀熱點事件
2025-08-13 00:10:08
真當中方好惹的?趕在中國九三閱兵前,釣魚島一夜生變

真當中方好惹的?趕在中國九三閱兵前,釣魚島一夜生變

史海無崖
2025-08-27 09:42:01
惡果和形式主義泛濫,央企暫停干部年輕化?

惡果和形式主義泛濫,央企暫停干部年輕化?

環(huán)球通信
2025-08-30 15:34:29
越南“胡志明大炮”首次亮相,號稱國產最強,因造型蠢萌引發(fā)熱議

越南“胡志明大炮”首次亮相,號稱國產最強,因造型蠢萌引發(fā)熱議

碳基生物關懷組織
2025-08-27 18:31:01
泰國內閣任命普坦為代理總理

泰國內閣任命普坦為代理總理

財聯(lián)社
2025-08-30 17:52:17
隨著上海海港客場1:4慘敗成都蓉城,3問主帥穆斯卡特?

隨著上海海港客場1:4慘敗成都蓉城,3問主帥穆斯卡特?

田先生籃球
2025-08-30 21:54:02
中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

詩意世界
2025-08-26 13:31:36
00后女孩紋身畫面曝出:女孩全程微笑,沒有痛苦表情,紋身師驚訝

00后女孩紋身畫面曝出:女孩全程微笑,沒有痛苦表情,紋身師驚訝

胡侃社會百態(tài)
2025-08-30 16:50:53
林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

娛樂領航家
2025-08-29 21:00:03
薩姆納自宣加盟廣東男籃隨后刪除動態(tài),上賽季場均可得36分

薩姆納自宣加盟廣東男籃隨后刪除動態(tài),上賽季場均可得36分

雷速體育
2025-08-31 07:14:18
岡薩雷斯家中出軌女友:用攝像頭看到露骨畫面 還好沒拍臥室

岡薩雷斯家中出軌女友:用攝像頭看到露骨畫面 還好沒拍臥室

直播吧
2025-08-30 12:00:22
年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

下水道男孩
2025-08-30 23:51:00
金正恩赴華方式引熱議:“蒼鷹一號”太舊,韓媒稱可能乘火車出行

金正恩赴華方式引熱議:“蒼鷹一號”太舊,韓媒稱可能乘火車出行

起喜電影
2025-08-31 02:56:03
一個很玄學的現(xiàn)象:心善能通神,德高可鎮(zhèn)鬼

一個很玄學的現(xiàn)象:心善能通神,德高可鎮(zhèn)鬼

金沛的國學筆記
2025-08-29 15:10:50
姆巴佩另類雙響,熊皇一條龍救主!0-1到2-1,皇馬逆轉登頂

姆巴佩另類雙響,熊皇一條龍救主!0-1到2-1,皇馬逆轉登頂

我的護球最獨特
2025-08-31 05:36:04
看到大家分房睡都沒成功。我就放心了

看到大家分房睡都沒成功。我就放心了

特約前排觀眾
2025-08-31 00:05:08
刺激夜:皇馬2-1,巴黎6-3,羅馬1-0,拜仁3-2,曼聯(lián)3-2,馬競1-1

刺激夜:皇馬2-1,巴黎6-3,羅馬1-0,拜仁3-2,曼聯(lián)3-2,馬競1-1

側身凌空斬
2025-08-31 05:32:03
蘇有朋道歉

蘇有朋道歉

中國日報
2025-08-30 16:04:59
2025-08-31 08:07:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
13353文章數(shù) 66140關注度
往期回顧 全部

科技要聞

李斌內部講話:蔚來四季度必須盈利

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強制學生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風波拉出多位明星

財經要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

健康
手機
游戲
房產
時尚

精神科專家解答學習困難七大問題

手機要聞

蘋果iPhone 17系列爆水管 Pro版大漲價8499起

魔獸懷舊服:HICC活躍角色下降,AFK潮出現(xiàn),隱藏內容會開放嗎

房產要聞

顛覆認知!海口真正的豪宅作品,終于出現(xiàn)了!

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

無障礙瀏覽 進入關懷版