成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)AI路由系統(tǒng)開源逆襲!僅用19%成本達到Gemini-2.5-Pro同性能

0
分享至

Avengers-Pro團隊 投稿
量子位 | 公眾號 QbitAI

頂級大模型性能確實很強,但對于預算不高的用戶來說就是:

你很好但我不配。

雖然大模型的優(yōu)越表現(xiàn)令人矚目,但動輒高昂的使用成本也讓不少用戶望而卻步。

為平衡性能與成本,上海人工智能實驗室科研團隊基于前期技術(shù)積累,開源推出了Avengers-Pro多模型調(diào)度路由方案。



該方案集成了8個行業(yè)領(lǐng)先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6個挑戰(zhàn)性數(shù)據(jù)集上取得了優(yōu)秀成績:

  1. 性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。
  2. 極致性價比:Avengers-Pro能以降低27%成本的方式,達到與GPT-5-medium同等的頂級性能;更能以僅19%的成本,獲得Gemini-2.5-Pro同等的性能水平。
  3. 帕累托最優(yōu):相比單個模型,Avengers-Pro在任何給定成本水平下都能實現(xiàn)最高準確率;反之,針對任何指定的準確率目標,也能將成本降至最低,實現(xiàn)了性能-成本平衡的帕累托最優(yōu)解。



來看看是如何做到的。

比GPT-5更強,更便宜

研究背景:大模型的智能調(diào)度路由

如何平衡大模型的性能表現(xiàn)和推理成本是大模型領(lǐng)域的關(guān)鍵問題。

在已經(jīng)被優(yōu)化到極致的大模型系統(tǒng)的基礎(chǔ)上進一步提升性價比的挑戰(zhàn)性不言而喻。

為解決這一問題,大模型智能調(diào)度路由應運而生。其核心思想是將不同任務(wù)分配給最適合的大模型,以提升模型回復質(zhì)量,同時避免”大炮打蚊子“而產(chǎn)生的資源浪費。

OpenAI在最新推出的GPT-5中,首次在商業(yè)模型中引入的多模型調(diào)度路由機制:

在推理階段,系統(tǒng)會根據(jù)任務(wù)特性和用戶需求,動態(tài)切換低成本低性能模型與高成本強推理模型,實現(xiàn)性能與成本的靈活平衡。

這表明GPT-5會通過一個實時的路由器(Router)來動態(tài)決策,可以在保證絕大多數(shù)問題得到高效解答的同時,將復雜、困難的推理任務(wù)交給能力更強的模型處理,從而在系統(tǒng)層面實現(xiàn)性能與陳本的最佳平衡。

Avengers-Pro多模型調(diào)度路由方案則是對GPT-5多模型調(diào)度路由機制的進一步拓展。

Avengers-Pro: 兼顧性能與成本,推動降本增效

Avengers-Pro實現(xiàn)了對不同性能與成本的大模型進行統(tǒng)一集成與調(diào)度路由,為性能與成本的權(quán)衡提供了一站式解決方案,有效推動了大模型的降本增效。

其核心機制是通過對用戶請求進行嵌入(embedding)和聚類(clustering)分析,動態(tài)匹配并分配最適合的模型來處理不同任務(wù)

只需依靠少量用戶請求-答案標簽數(shù)據(jù),Avengers-Pro框架主要包括以下三個核心步驟:

  1. 嵌入 (Embedding): 首先,該框架使用文本嵌入模型將用戶請求轉(zhuǎn)換成高維向量,捕捉其深層語義信息。
  2. 聚類 (Clustering): 接著,該框架將這些語義向量進行聚類,將相似的問題或任務(wù)歸為一個團簇。這使得系統(tǒng)能夠理解不同類型任務(wù)的共性,例如“物理知識問答”、“網(wǎng)頁制作代碼生成”等。
  3. 評分(Scoring): 該框架會預先在每個聚類所得到的團簇(即每類任務(wù))上評估模型池中所有模型的性能和成本?;谝粋€可調(diào)節(jié)的性能-成本權(quán)衡參數(shù)α,系統(tǒng)為每個模型在個團簇上計算一個性能-成本綜合評分。

推理時,Avengers-Pro框架會首先將其歸類到最相關(guān)的聚類中,并結(jié)合各模型在該聚類上的性能-成本綜合評分,將請求動態(tài)分配給得分最高的模型。

通過調(diào)整參數(shù)α(范圍在0到1之間),系統(tǒng)可以在追求極致性能(α=1)與極致性價比(α=0)之間靈活切換,滿足不同應用場景下對性能與成本的多樣化需求。

實驗表現(xiàn):Avengers-Pro比GPT-5更強,更便宜

在實驗中,Avengers-Pro集成了來自4個廠家的8個業(yè)界頂尖模型:

  1. OpenAI:GPT-5-chat, GPT-5-medium;
  2. Anthropic:Claude-4.1-opus, Claude-4-sonnet;
  3. Google:Gemini-2.5-pro, Gemini-2.5-flash;
  4. 阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。

評測場景由6個極具挑戰(zhàn)性的數(shù)據(jù)集組成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆蓋了代碼生成、科學推理、智能體應用等。

Avengers-Pro的整體性能優(yōu)于任意單一模型。當權(quán)衡系數(shù)傾向于追求性能時,Avengers-Pro的平均正確率為0.66。

相比之下,模型池中最強的單一模型GPT-5-medium的平均正確率為0.62。也就是說,Avengers-Pro即使與當前性能最強的單模型對比,仍然實現(xiàn)了7%的性能提升。

Avengers-Pro實現(xiàn)了性能-成本平衡,形成了帕累托前沿。通過靈活調(diào)整性能-成本權(quán)衡系數(shù),當Avengers-Pro與GPT-5-medium性能持平時,能夠節(jié)省高達27%的成本。

如果僅需達到GPT-5-medium 90%的性能,成本更是可降至僅37%。

而在追求與Gemini-2.5-Pro相當?shù)男阅軙r,Avengers-Pro甚至只需19%的超低成本即可實現(xiàn)。

并且,Avengers-Pro在任何給定的成本水平上,都能提供最高的準確率;反之,對于任何給定的準確率目標,都能將成本控制在最低。



性能-成本權(quán)衡系數(shù)的影響:

對性能-成本平衡系數(shù)的分析顯示,隨著系數(shù)從0逐漸提升到1(追求性能),模型的性能和成本均逐步上升。



模型選擇:

在不同的性能-成本權(quán)衡系數(shù)下,Avengers-Pro能夠根據(jù)不同模型的性能成本靈活進行任務(wù)分配。

當系數(shù)更傾向于成本時,Qwen族的模型由于其較低的成本會被更多選擇。

而當系數(shù)更傾向于性能時,GPT-5-medium這一性能相對較強的模型會被更多選擇。

在集成了多個大模型后,調(diào)度路由能實現(xiàn)大模型的降本增效:在性能上超越了模型池中最強的單一模型,并且在保證相同性能的情況下,能顯著降低成本。

此外,面對不同的性能與成本權(quán)衡需求,可針對不同任務(wù),靈活自動選擇最合適的模型,全面滿足多樣化的應用場景。

Avergers-Pro證明了在當前大模型生態(tài)下,智能調(diào)度路由方案的突出表現(xiàn)和巨大潛力。

智能路由理念也將在未來大模型應用中帶來更多突破與驚喜。

論文地址:https://arxiv.org/abs/2508.12631
GitHub地址:https://github.com/ZhangYiqun018/AvengersPro

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳雨菲0-2不敵山口茜,獲得世錦賽女單亞軍

陳雨菲0-2不敵山口茜,獲得世錦賽女單亞軍

懂球帝
2025-08-31 21:14:15
開場閃擊!阿蘇埃2分鐘破門建功,申花1-0領(lǐng)先

開場閃擊!阿蘇埃2分鐘破門建功,申花1-0領(lǐng)先

直播吧
2025-08-31 19:51:05
中國女排輸給法國,球員評價:僅一人表現(xiàn)高分,五人集體發(fā)揮低迷

中國女排輸給法國,球員評價:僅一人表現(xiàn)高分,五人集體發(fā)揮低迷

侃球熊弟
2025-08-31 19:37:39
“我只欺負中國人”,回原產(chǎn)地了!

“我只欺負中國人”,回原產(chǎn)地了!

難得君
2025-08-31 12:51:18
廣東省援藏工作隊領(lǐng)隊林科聰已任林芝市委副書記、常務(wù)副市長

廣東省援藏工作隊領(lǐng)隊林科聰已任林芝市委副書記、常務(wù)副市長

澎湃新聞
2025-08-31 18:32:27
佩通坦被被就罷免,他信家族再次被軍方擊敗,要翻盤只有一條路

佩通坦被被就罷免,他信家族再次被軍方擊敗,要翻盤只有一條路

詩意世界
2025-08-30 19:44:31
罰到你走!川普政府祭出天價罰單,一天998刀,逼非法移民自我驅(qū)逐

罰到你走!川普政府祭出天價罰單,一天998刀,逼非法移民自我驅(qū)逐

華人生活網(wǎng)
2025-08-31 04:36:23
蓬萊二中老師與女學生玩到一起,家長發(fā)現(xiàn)不雅聊天記錄,怒而舉報?

蓬萊二中老師與女學生玩到一起,家長發(fā)現(xiàn)不雅聊天記錄,怒而舉報?

趣筆談
2025-08-31 15:34:54
退休后,他們重新開始上班:“工資不高,圖個開心”

退休后,他們重新開始上班:“工資不高,圖個開心”

時代周報
2025-08-31 18:47:57
中超最新積分榜:蓉城登頂,申花海港均輸球,國安目前大比分落后

中超最新積分榜:蓉城登頂,申花海港均輸球,國安目前大比分落后

直播吧
2025-08-31 21:13:55
剛剛!高血壓逆天新藥來了?專家:科學的勝利,或改變游戲規(guī)則!

剛剛!高血壓逆天新藥來了?專家:科學的勝利,或改變游戲規(guī)則!

徐德文科學頻道
2025-08-31 17:38:56
意大利總理梅洛尼徹底破防,本人被掛黃色網(wǎng)站,70萬用戶付費觀看

意大利總理梅洛尼徹底破防,本人被掛黃色網(wǎng)站,70萬用戶付費觀看

碳基生物關(guān)懷組織
2025-08-30 18:59:38
全網(wǎng)抵制!拿沒教養(yǎng)當個性的他,終于惹了眾怒!難怪連于謙都嫌棄

全網(wǎng)抵制!拿沒教養(yǎng)當個性的他,終于惹了眾怒!難怪連于謙都嫌棄

火之文
2025-08-30 18:04:23
A股:全體股民做好準備,明天大盤,會突破天量天價,再度大漲嗎

A股:全體股民做好準備,明天大盤,會突破天量天價,再度大漲嗎

虎哥閑聊
2025-08-31 12:11:42
就沖這個胸,這個扣子,不頒獎給她,都說不過去!

就沖這個胸,這個扣子,不頒獎給她,都說不過去!

另子維愛讀史
2025-08-31 19:15:27
舔狗經(jīng)濟崩塌,性蕭條時代來臨,2025年的七夕慘淡收場

舔狗經(jīng)濟崩塌,性蕭條時代來臨,2025年的七夕慘淡收場

花心電影
2025-08-31 10:55:26
胡塞武裝高層開會遇襲,沖突以來最高級別成員被殺!以防長:這只是開始

胡塞武裝高層開會遇襲,沖突以來最高級別成員被殺!以防長:這只是開始

紅星新聞
2025-08-31 17:51:39
夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂,家人都想來看看,后備箱塞滿了東西

夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂,家人都想來看看,后備箱塞滿了東西

瀟湘晨報
2025-08-31 17:28:54
香港一名休班警察疑被困柬埔寨詐騙園區(qū) 亮出警察證后才脫困 警務(wù)處處長:他是安全的 已派人飛去救援

香港一名休班警察疑被困柬埔寨詐騙園區(qū) 亮出警察證后才脫困 警務(wù)處處長:他是安全的 已派人飛去救援

閃電新聞
2025-08-31 17:32:55
楊翼:最最讓人失望的一場比賽,奪冠不是沒希望,但精氣神沒有了

楊翼:最最讓人失望的一場比賽,奪冠不是沒希望,但精氣神沒有了

直播吧
2025-08-31 21:23:32
2025-08-31 21:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

時尚
健康
數(shù)碼
本地
公開課

今年秋天最流行的4組搭配,誰穿誰好看!

精神科專家解答學習困難七大問題

數(shù)碼要聞

169 元機械革命 140W 私有協(xié)議電源適配器(充電頭)開售

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版