網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

國產(chǎn)AI路由系統(tǒng)開源逆襲！僅用19%成本達到Gemini-2.5-Pro同性能

2025-08-20 15:41:20　來源: 量子位

北京舉報

分享至

Avengers-Pro團隊投稿
量子位 | 公眾號 QbitAI

頂級大模型性能確實很強，但對于預算不高的用戶來說就是：

你很好但我不配。

雖然大模型的優(yōu)越表現(xiàn)令人矚目，但動輒高昂的使用成本也讓不少用戶望而卻步。

為平衡性能與成本，上海人工智能實驗室科研團隊基于前期技術(shù)積累，開源推出了Avengers-Pro多模型調(diào)度路由方案。

該方案集成了8個行業(yè)領(lǐng)先的大模型，并在Human Last Exam、GPQA-diamond、ARC-AGI等6個挑戰(zhàn)性數(shù)據(jù)集上取得了優(yōu)秀成績：

性能新高：Avengers-Pro的最高性能超越GPT-5-medium 7%，超越Gemini-2.5-Pro 19%。
極致性價比：Avengers-Pro能以降低27%成本的方式，達到與GPT-5-medium同等的頂級性能；更能以僅19%的成本，獲得Gemini-2.5-Pro同等的性能水平。
帕累托最優(yōu)：相比單個模型，Avengers-Pro在任何給定成本水平下都能實現(xiàn)最高準確率；反之，針對任何指定的準確率目標，也能將成本降至最低，實現(xiàn)了性能-成本平衡的帕累托最優(yōu)解。

來看看是如何做到的。

比GPT-5更強，更便宜

研究背景：大模型的智能調(diào)度路由

如何平衡大模型的性能表現(xiàn)和推理成本是大模型領(lǐng)域的關(guān)鍵問題。

在已經(jīng)被優(yōu)化到極致的大模型系統(tǒng)的基礎(chǔ)上進一步提升性價比的挑戰(zhàn)性不言而喻。

為解決這一問題，大模型智能調(diào)度路由應運而生。其核心思想是將不同任務(wù)分配給最適合的大模型，以提升模型回復質(zhì)量，同時避免”大炮打蚊子“而產(chǎn)生的資源浪費。

OpenAI在最新推出的GPT-5中，首次在商業(yè)模型中引入的多模型調(diào)度路由機制：

在推理階段，系統(tǒng)會根據(jù)任務(wù)特性和用戶需求，動態(tài)切換低成本低性能模型與高成本強推理模型，實現(xiàn)性能與成本的靈活平衡。

這表明GPT-5會通過一個實時的路由器（Router）來動態(tài)決策，可以在保證絕大多數(shù)問題得到高效解答的同時，將復雜、困難的推理任務(wù)交給能力更強的模型處理，從而在系統(tǒng)層面實現(xiàn)性能與陳本的最佳平衡。

Avengers-Pro多模型調(diào)度路由方案則是對GPT-5多模型調(diào)度路由機制的進一步拓展。

Avengers-Pro: 兼顧性能與成本，推動降本增效

Avengers-Pro實現(xiàn)了對不同性能與成本的大模型進行統(tǒng)一集成與調(diào)度路由，為性能與成本的權(quán)衡提供了一站式解決方案，有效推動了大模型的降本增效。

其核心機制是通過對用戶請求進行嵌入（embedding）和聚類（clustering）分析，動態(tài)匹配并分配最適合的模型來處理不同任務(wù)

只需依靠少量用戶請求-答案標簽數(shù)據(jù)，Avengers-Pro框架主要包括以下三個核心步驟：

嵌入 (Embedding): 首先，該框架使用文本嵌入模型將用戶請求轉(zhuǎn)換成高維向量，捕捉其深層語義信息。
聚類 (Clustering): 接著，該框架將這些語義向量進行聚類，將相似的問題或任務(wù)歸為一個團簇。這使得系統(tǒng)能夠理解不同類型任務(wù)的共性，例如“物理知識問答”、“網(wǎng)頁制作代碼生成”等。
評分(Scoring): 該框架會預先在每個聚類所得到的團簇（即每類任務(wù)）上評估模型池中所有模型的性能和成本?；谝粋€可調(diào)節(jié)的性能-成本權(quán)衡參數(shù)α，系統(tǒng)為每個模型在個團簇上計算一個性能-成本綜合評分。

推理時，Avengers-Pro框架會首先將其歸類到最相關(guān)的聚類中，并結(jié)合各模型在該聚類上的性能-成本綜合評分，將請求動態(tài)分配給得分最高的模型。

通過調(diào)整參數(shù)α（范圍在0到1之間），系統(tǒng)可以在追求極致性能（α=1）與極致性價比（α=0）之間靈活切換，滿足不同應用場景下對性能與成本的多樣化需求。

實驗表現(xiàn)：Avengers-Pro比GPT-5更強，更便宜

在實驗中，Avengers-Pro集成了來自4個廠家的8個業(yè)界頂尖模型:

OpenAI：GPT-5-chat, GPT-5-medium；
Anthropic：Claude-4.1-opus, Claude-4-sonnet；
Google：Gemini-2.5-pro, Gemini-2.5-flash;
阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。

評測場景由6個極具挑戰(zhàn)性的數(shù)據(jù)集組成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench，覆蓋了代碼生成、科學推理、智能體應用等。

Avengers-Pro的整體性能優(yōu)于任意單一模型。當權(quán)衡系數(shù)傾向于追求性能時，Avengers-Pro的平均正確率為0.66。

相比之下，模型池中最強的單一模型GPT-5-medium的平均正確率為0.62。也就是說，Avengers-Pro即使與當前性能最強的單模型對比，仍然實現(xiàn)了7%的性能提升。

Avengers-Pro實現(xiàn)了性能-成本平衡，形成了帕累托前沿。通過靈活調(diào)整性能-成本權(quán)衡系數(shù)，當Avengers-Pro與GPT-5-medium性能持平時，能夠節(jié)省高達27%的成本。

如果僅需達到GPT-5-medium 90%的性能，成本更是可降至僅37%。

而在追求與Gemini-2.5-Pro相當?shù)男阅軙r，Avengers-Pro甚至只需19%的超低成本即可實現(xiàn)。

并且，Avengers-Pro在任何給定的成本水平上，都能提供最高的準確率；反之，對于任何給定的準確率目標，都能將成本控制在最低。

性能-成本權(quán)衡系數(shù)的影響:

對性能-成本平衡系數(shù)的分析顯示，隨著系數(shù)從0逐漸提升到1（追求性能），模型的性能和成本均逐步上升。

模型選擇:

在不同的性能-成本權(quán)衡系數(shù)下，Avengers-Pro能夠根據(jù)不同模型的性能成本靈活進行任務(wù)分配。

當系數(shù)更傾向于成本時，Qwen族的模型由于其較低的成本會被更多選擇。

而當系數(shù)更傾向于性能時，GPT-5-medium這一性能相對較強的模型會被更多選擇。

在集成了多個大模型后，調(diào)度路由能實現(xiàn)大模型的降本增效：在性能上超越了模型池中最強的單一模型，并且在保證相同性能的情況下，能顯著降低成本。

此外，面對不同的性能與成本權(quán)衡需求，可針對不同任務(wù)，靈活自動選擇最合適的模型，全面滿足多樣化的應用場景。

Avergers-Pro證明了在當前大模型生態(tài)下，智能調(diào)度路由方案的突出表現(xiàn)和巨大潛力。

智能路由理念也將在未來大模型應用中帶來更多突破與驚喜。

論文地址：https://arxiv.org/abs/2508.12631
GitHub地址：https://github.com/ZhangYiqun018/AvengersPro

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.