成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

國產AI路由系統(tǒng)開源逆襲!僅用19%成本達到Gemini-2.5-Pro同性能

0
分享至

Avengers-Pro團隊 投稿
量子位 | 公眾號 QbitAI

頂級大模型性能確實很強,但對于預算不高的用戶來說就是:

你很好但我不配。

雖然大模型的優(yōu)越表現令人矚目,但動輒高昂的使用成本也讓不少用戶望而卻步。

為平衡性能與成本,上海人工智能實驗室科研團隊基于前期技術積累,開源推出了Avengers-Pro多模型調度路由方案。



該方案集成了8個行業(yè)領先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6個挑戰(zhàn)性數據集上取得了優(yōu)秀成績:

  1. 性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。
  2. 極致性價比:Avengers-Pro能以降低27%成本的方式,達到與GPT-5-medium同等的頂級性能;更能以僅19%的成本,獲得Gemini-2.5-Pro同等的性能水平。
  3. 帕累托最優(yōu):相比單個模型,Avengers-Pro在任何給定成本水平下都能實現最高準確率;反之,針對任何指定的準確率目標,也能將成本降至最低,實現了性能-成本平衡的帕累托最優(yōu)解。



來看看是如何做到的。

比GPT-5更強,更便宜

研究背景:大模型的智能調度路由

如何平衡大模型的性能表現和推理成本是大模型領域的關鍵問題。

在已經被優(yōu)化到極致的大模型系統(tǒng)的基礎上進一步提升性價比的挑戰(zhàn)性不言而喻。

為解決這一問題,大模型智能調度路由應運而生。其核心思想是將不同任務分配給最適合的大模型,以提升模型回復質量,同時避免”大炮打蚊子“而產生的資源浪費。

OpenAI在最新推出的GPT-5中,首次在商業(yè)模型中引入的多模型調度路由機制:

在推理階段,系統(tǒng)會根據任務特性和用戶需求,動態(tài)切換低成本低性能模型與高成本強推理模型,實現性能與成本的靈活平衡。

這表明GPT-5會通過一個實時的路由器(Router)來動態(tài)決策,可以在保證絕大多數問題得到高效解答的同時,將復雜、困難的推理任務交給能力更強的模型處理,從而在系統(tǒng)層面實現性能與陳本的最佳平衡。

Avengers-Pro多模型調度路由方案則是對GPT-5多模型調度路由機制的進一步拓展。

Avengers-Pro: 兼顧性能與成本,推動降本增效

Avengers-Pro實現了對不同性能與成本的大模型進行統(tǒng)一集成與調度路由,為性能與成本的權衡提供了一站式解決方案,有效推動了大模型的降本增效。

其核心機制是通過對用戶請求進行嵌入(embedding)和聚類(clustering)分析,動態(tài)匹配并分配最適合的模型來處理不同任務

只需依靠少量用戶請求-答案標簽數據,Avengers-Pro框架主要包括以下三個核心步驟:

  1. 嵌入 (Embedding): 首先,該框架使用文本嵌入模型將用戶請求轉換成高維向量,捕捉其深層語義信息。
  2. 聚類 (Clustering): 接著,該框架將這些語義向量進行聚類,將相似的問題或任務歸為一個團簇。這使得系統(tǒng)能夠理解不同類型任務的共性,例如“物理知識問答”、“網頁制作代碼生成”等。
  3. 評分(Scoring): 該框架會預先在每個聚類所得到的團簇(即每類任務)上評估模型池中所有模型的性能和成本?;谝粋€可調節(jié)的性能-成本權衡參數α,系統(tǒng)為每個模型在個團簇上計算一個性能-成本綜合評分。

推理時,Avengers-Pro框架會首先將其歸類到最相關的聚類中,并結合各模型在該聚類上的性能-成本綜合評分,將請求動態(tài)分配給得分最高的模型。

通過調整參數α(范圍在0到1之間),系統(tǒng)可以在追求極致性能(α=1)與極致性價比(α=0)之間靈活切換,滿足不同應用場景下對性能與成本的多樣化需求。

實驗表現:Avengers-Pro比GPT-5更強,更便宜

在實驗中,Avengers-Pro集成了來自4個廠家的8個業(yè)界頂尖模型:

  1. OpenAI:GPT-5-chat, GPT-5-medium;
  2. Anthropic:Claude-4.1-opus, Claude-4-sonnet;
  3. Google:Gemini-2.5-pro, Gemini-2.5-flash;
  4. 阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。

評測場景由6個極具挑戰(zhàn)性的數據集組成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆蓋了代碼生成、科學推理、智能體應用等。

Avengers-Pro的整體性能優(yōu)于任意單一模型。當權衡系數傾向于追求性能時,Avengers-Pro的平均正確率為0.66。

相比之下,模型池中最強的單一模型GPT-5-medium的平均正確率為0.62。也就是說,Avengers-Pro即使與當前性能最強的單模型對比,仍然實現了7%的性能提升。

Avengers-Pro實現了性能-成本平衡,形成了帕累托前沿。通過靈活調整性能-成本權衡系數,當Avengers-Pro與GPT-5-medium性能持平時,能夠節(jié)省高達27%的成本。

如果僅需達到GPT-5-medium 90%的性能,成本更是可降至僅37%。

而在追求與Gemini-2.5-Pro相當的性能時,Avengers-Pro甚至只需19%的超低成本即可實現。

并且,Avengers-Pro在任何給定的成本水平上,都能提供最高的準確率;反之,對于任何給定的準確率目標,都能將成本控制在最低。



性能-成本權衡系數的影響:

對性能-成本平衡系數的分析顯示,隨著系數從0逐漸提升到1(追求性能),模型的性能和成本均逐步上升。



模型選擇:

在不同的性能-成本權衡系數下,Avengers-Pro能夠根據不同模型的性能成本靈活進行任務分配。

當系數更傾向于成本時,Qwen族的模型由于其較低的成本會被更多選擇。

而當系數更傾向于性能時,GPT-5-medium這一性能相對較強的模型會被更多選擇。

在集成了多個大模型后,調度路由能實現大模型的降本增效:在性能上超越了模型池中最強的單一模型,并且在保證相同性能的情況下,能顯著降低成本。

此外,面對不同的性能與成本權衡需求,可針對不同任務,靈活自動選擇最合適的模型,全面滿足多樣化的應用場景。

Avergers-Pro證明了在當前大模型生態(tài)下,智能調度路由方案的突出表現和巨大潛力。

智能路由理念也將在未來大模型應用中帶來更多突破與驚喜。

論文地址:https://arxiv.org/abs/2508.12631
GitHub地址:https://github.com/ZhangYiqun018/AvengersPro

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
抗戰(zhàn)結束羅榮桓去東北,程世才詢問:你什么級別?就帶這么幾個人

抗戰(zhàn)結束羅榮桓去東北,程世才詢問:你什么級別?就帶這么幾個人

言今憶史
2025-09-02 08:48:15
阻撓中國閱兵不成,日本試射高超音速導彈,叫囂:解放軍不是對手

阻撓中國閱兵不成,日本試射高超音速導彈,叫囂:解放軍不是對手

大道無形我有型
2025-09-02 11:13:36
這場面:印尼爆發(fā)的“大回旋鏢”,終于旋回到印尼自己身上了!

這場面:印尼爆發(fā)的“大回旋鏢”,終于旋回到印尼自己身上了!

硬核Deeper
2025-09-02 13:28:23
【酒駕天天查】187、133、106,醉駕!73、39、22,酒駕!

【酒駕天天查】187、133、106,醉駕!73、39、22,酒駕!

上海交警
2025-09-02 14:49:47
孟村女子表姐曝尸檢結果觸目驚心,知情人猜測男方和白某早就相識

孟村女子表姐曝尸檢結果觸目驚心,知情人猜測男方和白某早就相識

古希臘掌管松餅的神
2025-09-01 14:43:14
陰法唐中將帶隊入駐河北,省委書記程維高各種阻撓:我要去上訴

陰法唐中將帶隊入駐河北,省委書記程維高各種阻撓:我要去上訴

史海任我行
2025-08-31 16:07:04
國家終于不再原諒王濛,77枚金牌不是萬能,狂妄自大只會被拋棄

國家終于不再原諒王濛,77枚金牌不是萬能,狂妄自大只會被拋棄

凡知
2025-07-29 02:12:19
苗苗的菜園迎來大豐收!孩子們忙個不停,鄭愷也嘗到了幸福的甜頭

苗苗的菜園迎來大豐收!孩子們忙個不停,鄭愷也嘗到了幸福的甜頭

小咪侃娛圈
2025-09-02 09:02:11
蒙古國總統(tǒng):蒙俄中三國人民在阻止歪曲二戰(zhàn)歷史真相方面的立場一致

蒙古國總統(tǒng):蒙俄中三國人民在阻止歪曲二戰(zhàn)歷史真相方面的立場一致

俄羅斯衛(wèi)星通訊社
2025-09-02 15:23:09
中國武器國產率已是亞洲第一,但技術不先進,戰(zhàn)力還太低了

中國武器國產率已是亞洲第一,但技術不先進,戰(zhàn)力還太低了

顧史
2025-08-22 20:06:56
郎朗夫婦現身火鍋店!郎朗胖出新高度,妻子吉娜穿超短裙好似少女

郎朗夫婦現身火鍋店!郎朗胖出新高度,妻子吉娜穿超短裙好似少女

小徐講八卦
2025-09-02 05:51:54
金正恩還沒抵華,9國高層拒參閱兵,中方送出一句話,信號不簡單

金正恩還沒抵華,9國高層拒參閱兵,中方送出一句話,信號不簡單

荷蘭豆愛健康
2025-08-30 00:49:41
尺度驚艷,這幾部王牌神作終于回歸

尺度驚艷,這幾部王牌神作終于回歸

來看美劇
2025-09-01 20:31:01
【收盤】滬指跌0.45%,創(chuàng)指跌2.85%:兩市成交28750億元,銀行股逆市上漲

【收盤】滬指跌0.45%,創(chuàng)指跌2.85%:兩市成交28750億元,銀行股逆市上漲

澎湃新聞
2025-09-02 15:39:15
激烈交鋒,日本連續(xù)兩天對中國提出抗議,外交部:不接受日方抗議

激烈交鋒,日本連續(xù)兩天對中國提出抗議,外交部:不接受日方抗議

議紀史
2025-09-02 17:30:04
在單位里,領導最怕的“高質量躺平”職工,有以下4個特征

在單位里,領導最怕的“高質量躺平”職工,有以下4個特征

細說職場
2025-09-01 11:59:41
上合貨幣來啦!

上合貨幣來啦!

荊楚寰宇文樞
2025-09-01 22:26:31
澳大利亞爆發(fā)大規(guī)模反移民游行,南澳州長:97.6%州民有移民血統(tǒng)

澳大利亞爆發(fā)大規(guī)模反移民游行,南澳州長:97.6%州民有移民血統(tǒng)

鳳凰衛(wèi)視
2025-09-01 15:22:16
我任副鎮(zhèn)長多年未被提拔,新任縣委書記對我說,我未被提拔可惜了

我任副鎮(zhèn)長多年未被提拔,新任縣委書記對我說,我未被提拔可惜了

喬生桂
2025-09-01 19:54:44
難以置信!網傳深圳小一雙胞胎沒分到一個班,網友:這不要人命呀

難以置信!網傳深圳小一雙胞胎沒分到一個班,網友:這不要人命呀

火山詩話
2025-08-31 09:08:31
2025-09-02 18:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11226文章數 176256關注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

3歲半女童身高1米1體重58斤入學超顯眼 比同學大一圈

頭條要聞

3歲半女童身高1米1體重58斤入學超顯眼 比同學大一圈

體育要聞

等了十年,石宇奇終于說出這句話

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經要聞

一級市場不靈,LP勸我去炒股

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

旅游
本地
教育
手機
時尚

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天 | “中式美學”打開夏日濰坊

教育要聞

家門口的好學校+1+1……北京多區(qū)優(yōu)質教育資源再擴容

手機要聞

AYANEO 確認 Pocket AIR Mini 復古小掌機,定位入門級性價比產品

早秋第一件薄外套!跪求你買這4件,太好看了!

無障礙瀏覽 進入關懷版