成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南大、浙大提出跨平臺(tái)內(nèi)核生成評(píng)測(cè)框架MultiKernelBench

0
分享至



在深度學(xué)習(xí)模型的推理與訓(xùn)練過程中,絕大部分計(jì)算都依賴于底層計(jì)算內(nèi)核(Kernel)來執(zhí)行。計(jì)算內(nèi)核是運(yùn)行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它負(fù)責(zé)完成矩陣乘法、卷積、歸一化等深度學(xué)習(xí)的核心算子運(yùn)算。

當(dāng)前,這些內(nèi)核通常由開發(fā)者使用 CUDA、AscendC、Pallas 等硬件專用并行編程語言手工編寫 —— 這要求開發(fā)者具備精湛的性能調(diào)優(yōu)技巧,并對(duì)底層硬件架構(gòu)有深入理解。

近年來,大語言模型(LLM)在代碼生成領(lǐng)域的突破,使“自動(dòng)生成高性能深度學(xué)習(xí)內(nèi)核”成為新的研究熱點(diǎn)。KernelBench、TritonBench 等評(píng)測(cè)基準(zhǔn)相繼出現(xiàn),主要聚焦于評(píng)估 LLM 在 NVIDIA GPU 內(nèi)核生成上的表現(xiàn)。

已有研究表明,現(xiàn)有 LLM 已具備一定的 GPU 內(nèi)核生成能力。例如,英偉達(dá)工程師基于 DeepSeek-R1 設(shè)計(jì)了一套工作流程,在簡(jiǎn)單的 CUDA 內(nèi)核生成任務(wù)中,該流程生成的內(nèi)核在數(shù)值上全部正確,達(dá)到了 100% 的通過率。

然而,當(dāng)前 AI 加速器架構(gòu)日趨多樣(如 NVIDIA GPU、華為昇騰 NPU、Google TPU、Intel GPU 等),其底層內(nèi)核語言差異顯著?,F(xiàn)有評(píng)測(cè)基準(zhǔn)普遍存在平臺(tái)覆蓋單一、評(píng)估維度粗糙、可擴(kuò)展性不足等局限。在此背景下,關(guān)鍵問題浮現(xiàn):大模型在 CUDA 生態(tài)下的優(yōu)勢(shì)能否有效遷移至異構(gòu)平臺(tái)?我們距離自動(dòng)化生成高性能計(jì)算內(nèi)核究竟還有多遠(yuǎn)?

針對(duì)這些問題,近日,南京大學(xué)與浙江大學(xué)聯(lián)合推出全新開源評(píng)測(cè)框架 MultiKernelBench,打破平臺(tái)、維度與擴(kuò)展性的限制,為 LLM 驅(qū)動(dòng)的高性能內(nèi)核生成提供了新的測(cè)評(píng)標(biāo)準(zhǔn)。



  • 論文鏈接:https://arxiv.org/pdf/2507.17773
  • 代碼鏈接:https://github.com/wzzll123/MultiKernelBench

MultiKernelBench 提出了一個(gè)開放評(píng)測(cè)場(chǎng)景:在 GPU、NPU、TPU 等多平臺(tái)上,LLM 自動(dòng)生成高性能深度學(xué)習(xí)內(nèi)核,并在真實(shí)設(shè)備中完成編譯、運(yùn)行與性能驗(yàn)證。它首次跨越單一硬件生態(tài),推動(dòng) LLM 從 “單平臺(tái)選手” 邁向 “全能型選手”。

值得注意的是,MultiKernelBench 的設(shè)計(jì)充分考慮了算子多后端的可擴(kuò)展性。例如,Intel 工程師基于該框架高效地實(shí)現(xiàn)了 Intel GPU 的適配。



MultiKernelBench 是如何構(gòu)建的?

為了確保任務(wù)覆蓋全面且具有可擴(kuò)展性,研究團(tuán)隊(duì)設(shè)計(jì)了一套模塊化評(píng)測(cè)體系,包含四大核心特性:

1、 跨硬件平臺(tái)支持

首批覆蓋三大主流架構(gòu):

  • NVIDIA GPU(CUDA / Triton)
  • 華為昇騰 NPU(AscendC)
  • Google TPU(Pallas)

通過統(tǒng)一 Backend 接口與裝飾器機(jī)制,實(shí)現(xiàn)無需修改核心邏輯即可快速接入新平臺(tái)。

論文作者后續(xù)計(jì)劃逐步擴(kuò)展對(duì)不同 GPU 和 NPU 廠商架構(gòu)的支持,同時(shí)也誠邀各廠商參與開源生態(tài)的共建。

2、 細(xì)粒度任務(wù)體系

在 Stanford KernelBench 基礎(chǔ)上重構(gòu)分類框架,覆蓋 14 類核心深度學(xué)習(xí)算子(卷積、歸一化、優(yōu)化器、稀疏計(jì)算等),不僅繼承了 250 個(gè)經(jīng)典任務(wù),還新增 35 個(gè)未被現(xiàn)有基準(zhǔn)覆蓋的關(guān)鍵算子,全面反映 LLM 在不同算子類型上的生成能力。



3、 端到端自動(dòng)化評(píng)測(cè)

構(gòu)建標(biāo)準(zhǔn)化流程:內(nèi)核生成 → 編譯 → 硬件執(zhí)行 → 性能分析,確保在真實(shí)硬件環(huán)境中完成全流程驗(yàn)證。



4、 類別感知 One-shot 提示策略

針對(duì)不同算子類別動(dòng)態(tài)選取典型樣例作為上下文提示,顯著提升生成代碼的語義相關(guān)性與功能正確性,尤其在 AscendC、Pallas 等訓(xùn)練語料稀缺的平臺(tái)上效果顯著。

此外,MultiKernelBench 提供插件式提示模板系統(tǒng),方便研究者探索多樣化的提示工程策略。

對(duì)比現(xiàn)有基準(zhǔn),MultiKernelBench 帶來三大突破:

  • 平臺(tái)覆蓋更廣:打破對(duì)單一生態(tài)的依賴,真正實(shí)現(xiàn)跨 GPU / NPU / TPU 的統(tǒng)一評(píng)測(cè)。
  • 評(píng)估維度更細(xì):任務(wù)分類粒度精細(xì)化,可定位 LLM 在不同算子類型上的優(yōu)勢(shì)與短板。
  • 擴(kuò)展性更強(qiáng):模塊化架構(gòu)與統(tǒng)一接口設(shè)計(jì),使其能夠伴隨 AI 硬件生態(tài)快速演進(jìn)。

多模型實(shí)測(cè),模型表現(xiàn)如何?

基于 MultiKernelBench,評(píng)估了包括GPT-4o、Claude、DeepSeek-V3、Qwen 等在內(nèi)的 7 個(gè)主流大模型,參數(shù)規(guī)模涵蓋 32B ~ 681B。

評(píng)估指標(biāo)包括:

  • Compilation@k:生成代碼是否能成功編譯
  • Pass@k:是否輸出功能正確的結(jié)果
  • SpeedUp@k:運(yùn)行時(shí)是否實(shí)現(xiàn)性能優(yōu)化



實(shí)測(cè)結(jié)果顯示:

  • Claude-4-Sonnet 在整體評(píng)測(cè)中表現(xiàn)最佳;推理模型表現(xiàn)優(yōu)異。
  • CUDA 平臺(tái)的 Kernel 執(zhí)行通過率顯著高于 Pallas 與 AscendC,反映出當(dāng)前 LLM 對(duì) CUDA 更具適應(yīng)性。
  • 類別感知式 Prompting 明顯優(yōu)于通用模板,尤其在 AscendC 等訓(xùn)練語料較少的平臺(tái)上,能顯著提升生成效果與成功率。

展望與未來計(jì)劃

MultiKernelBench 的評(píng)測(cè)結(jié)果表明,即便是當(dāng)前最先進(jìn)的大語言模型(LLM),在多平臺(tái)高性能內(nèi)核生成任務(wù)中仍存在明顯短板:在非 CUDA 平臺(tái)上的成功率顯著下降,生成代碼的性能也普遍落后于手工優(yōu)化版本。

未來,論文作者希望與社區(qū)共同推進(jìn) MultiKernelBench 的演進(jìn),重點(diǎn)探索以下方向:

  • 更智能的提示策略:利用已有的插件式提示模板系統(tǒng),開發(fā)反饋式、文檔增強(qiáng)等新型提示方法,提升低資源平臺(tái)的生成質(zhì)量。
  • 跨平臺(tái)協(xié)同生成:實(shí)現(xiàn)多平臺(tái)版本的同步生成與優(yōu)化思路共享,增強(qiáng)跨架構(gòu)泛化能力。
  • 支持更多硬件后端:與社區(qū)合作接入更多新平臺(tái),進(jìn)一步覆蓋異構(gòu)計(jì)算全景。

目前,MultiKernelBench 的全量數(shù)據(jù)集、框架代碼與評(píng)測(cè)流程已全部開源,歡迎研究者與工程師提出新方法、貢獻(xiàn)平臺(tái)支持,共同推動(dòng)多平臺(tái)高性能內(nèi)核自動(dòng)生成的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全智賢罕見出席活動(dòng),法拉利雖然老了但也還是“法拉利”!

全智賢罕見出席活動(dòng),法拉利雖然老了但也還是“法拉利”!

可樂談情感
2025-09-03 17:17:50
海蘭泡啊,海蘭泡!

海蘭泡啊,海蘭泡!

玖奌雜貨鋪
2025-08-24 10:34:51
央視怒批,國務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

央視怒批,國務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

以茶帶書
2025-09-02 17:14:51
薛凱琪演唱會(huì)著裝又火了

薛凱琪演唱會(huì)著裝又火了

章眽八卦
2025-09-03 14:21:22
男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

第四思維
2025-08-27 09:22:11
壓了7年,耗資2億,40集《新神雕》將上映,網(wǎng)友:看劇照就想避雷

壓了7年,耗資2億,40集《新神雕》將上映,網(wǎng)友:看劇照就想避雷

銀河史記
2025-09-01 16:06:11
男子炒股10年傾家蕩產(chǎn),如今妻子病重急需用錢,打開電腦后他傻眼

男子炒股10年傾家蕩產(chǎn),如今妻子病重急需用錢,打開電腦后他傻眼

罪案洞察者
2025-09-02 11:30:12
汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個(gè)異常,可能是心臟在“報(bào)警”!

汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個(gè)異常,可能是心臟在“報(bào)警”!

神奇故事
2025-09-02 22:52:49
九三閱兵,天安門廣場(chǎng)上80根特制旗桿是南通造

九三閱兵,天安門廣場(chǎng)上80根特制旗桿是南通造

現(xiàn)代快報(bào)
2025-09-03 13:51:05
全家移民真相大白2年,享正師級(jí)待遇的潘長江,已走上另一條大道

全家移民真相大白2年,享正師級(jí)待遇的潘長江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
閱兵最帥女機(jī)長,是她!

閱兵最帥女機(jī)長,是她!

新京報(bào)
2025-09-03 17:54:41
不敵U16國少韓媒破防:翻不過中國長城 輸球太令人失望

不敵U16國少韓媒破防:翻不過中國長城 輸球太令人失望

大嘴爵爺侃球
2025-09-03 11:27:36
大家做好準(zhǔn)備,A股大級(jí)別的調(diào)整來了?明天,周四走勢(shì)提前預(yù)測(cè)!

大家做好準(zhǔn)備,A股大級(jí)別的調(diào)整來了?明天,周四走勢(shì)提前預(yù)測(cè)!

明心
2025-09-03 15:10:54
朝鮮第一夫人李雪主:狠心拋棄前任,僅用一招就讓金正恩死心塌地

朝鮮第一夫人李雪主:狠心拋棄前任,僅用一招就讓金正恩死心塌地

尋史奇談
2024-03-18 15:18:53
全國股民懵了:2025年“最強(qiáng)妖股”,狂瀉15個(gè)點(diǎn),套人啦!

全國股民懵了:2025年“最強(qiáng)妖股”,狂瀉15個(gè)點(diǎn),套人啦!

看財(cái)經(jīng)show
2025-09-03 15:45:40
9.3閱兵亮劍,美芯片新禁令公布,中方防了這么久,等的就是今天

9.3閱兵亮劍,美芯片新禁令公布,中方防了這么久,等的就是今天

巷子里的歷史
2025-09-03 15:33:10
宇樹科技IPO定檔,概念龍頭股創(chuàng)新高!杠桿資金加倉這些潛力股

宇樹科技IPO定檔,概念龍頭股創(chuàng)新高!杠桿資金加倉這些潛力股

數(shù)據(jù)寶
2025-09-03 12:49:19
新華社這張圖,刷爆!

新華社這張圖,刷爆!

南方都市報(bào)
2025-09-03 16:27:32
楊昌濟(jì)臨終遺言:救國必倚仗二人,一個(gè)是毛澤東,另一個(gè)是誰?

楊昌濟(jì)臨終遺言:救國必倚仗二人,一個(gè)是毛澤東,另一個(gè)是誰?

好玩的國學(xué)
2025-09-02 11:44:05
36歲單身漢路上撿回個(gè)老婆,5年生2娃后,才得知妻子的真實(shí)身份

36歲單身漢路上撿回個(gè)老婆,5年生2娃后,才得知妻子的真實(shí)身份

蘭姐說故事
2024-11-23 04:00:03
2025-09-03 22:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11224文章數(shù) 142439關(guān)注度
往期回顧 全部

科技要聞

8月車市觀察:價(jià)格戰(zhàn)退潮,價(jià)值感上位

頭條要聞

飛過天安門的鴿子到家洗澡 出發(fā)前主人叮囑"別掉鏈子"

頭條要聞

飛過天安門的鴿子到家洗澡 出發(fā)前主人叮囑"別掉鏈子"

體育要聞

東契奇場(chǎng)均31+8+7 2連敗后2連勝帶隊(duì)晉級(jí)

娛樂要聞

劉尚嫻 最幸運(yùn)的事 就是嫁給初戀丈夫

財(cái)經(jīng)要聞

黃金突破才剛開始!目標(biāo)價(jià)為4000美元?

汽車要聞

一天一個(gè)樣 方程豹鈦3玩轉(zhuǎn)“面部重組”

態(tài)度原創(chuàng)

健康
數(shù)碼
旅游
教育
藝術(shù)

內(nèi)分泌科專家破解身高八大謠言

數(shù)碼要聞

宏碁發(fā)布 QHD@540Hz / HD@720Hz OLED 顯示器 Predator X27U F8

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

山東:新學(xué)期中小學(xué)開展AI通識(shí)教育,一二年級(jí)每學(xué)年不少于6課時(shí)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版