Avengers-Pro團隊 投稿
量子位 | 公眾號 QbitAI
頂級大模型性能確實很強,但對于預算不高的用戶來說就是:
你很好但我不配。
雖然大模型的優(yōu)越表現(xiàn)令人矚目,但動輒高昂的使用成本也讓不少用戶望而卻步。
為平衡性能與成本,上海人工智能實驗室科研團隊基于前期技術(shù)積累,開源推出了Avengers-Pro多模型調(diào)度路由方案。
該方案集成了8個行業(yè)領(lǐng)先的大模型,并在Human Last Exam、GPQA-diamond、ARC-AGI等6個挑戰(zhàn)性數(shù)據(jù)集上取得了優(yōu)秀成績:
- 性能新高:Avengers-Pro的最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%。
- 極致性價比:Avengers-Pro能以降低27%成本的方式,達到與GPT-5-medium同等的頂級性能;更能以僅19%的成本,獲得Gemini-2.5-Pro同等的性能水平。
- 帕累托最優(yōu):相比單個模型,Avengers-Pro在任何給定成本水平下都能實現(xiàn)最高準確率;反之,針對任何指定的準確率目標,也能將成本降至最低,實現(xiàn)了性能-成本平衡的帕累托最優(yōu)解。
來看看是如何做到的。
比GPT-5更強,更便宜
研究背景:大模型的智能調(diào)度路由
如何平衡大模型的性能表現(xiàn)和推理成本是大模型領(lǐng)域的關(guān)鍵問題。
在已經(jīng)被優(yōu)化到極致的大模型系統(tǒng)的基礎(chǔ)上進一步提升性價比的挑戰(zhàn)性不言而喻。
為解決這一問題,大模型智能調(diào)度路由應運而生。其核心思想是將不同任務(wù)分配給最適合的大模型,以提升模型回復質(zhì)量,同時避免”大炮打蚊子“而產(chǎn)生的資源浪費。
OpenAI在最新推出的GPT-5中,首次在商業(yè)模型中引入的多模型調(diào)度路由機制:
在推理階段,系統(tǒng)會根據(jù)任務(wù)特性和用戶需求,動態(tài)切換低成本低性能模型與高成本強推理模型,實現(xiàn)性能與成本的靈活平衡。
這表明GPT-5會通過一個實時的路由器(Router)來動態(tài)決策,可以在保證絕大多數(shù)問題得到高效解答的同時,將復雜、困難的推理任務(wù)交給能力更強的模型處理,從而在系統(tǒng)層面實現(xiàn)性能與陳本的最佳平衡。
Avengers-Pro多模型調(diào)度路由方案則是對GPT-5多模型調(diào)度路由機制的進一步拓展。
Avengers-Pro: 兼顧性能與成本,推動降本增效
Avengers-Pro實現(xiàn)了對不同性能與成本的大模型進行統(tǒng)一集成與調(diào)度路由,為性能與成本的權(quán)衡提供了一站式解決方案,有效推動了大模型的降本增效。
其核心機制是通過對用戶請求進行嵌入(embedding)和聚類(clustering)分析,動態(tài)匹配并分配最適合的模型來處理不同任務(wù)
只需依靠少量用戶請求-答案標簽數(shù)據(jù),Avengers-Pro框架主要包括以下三個核心步驟:
- 嵌入 (Embedding): 首先,該框架使用文本嵌入模型將用戶請求轉(zhuǎn)換成高維向量,捕捉其深層語義信息。
- 聚類 (Clustering): 接著,該框架將這些語義向量進行聚類,將相似的問題或任務(wù)歸為一個團簇。這使得系統(tǒng)能夠理解不同類型任務(wù)的共性,例如“物理知識問答”、“網(wǎng)頁制作代碼生成”等。
- 評分(Scoring): 該框架會預先在每個聚類所得到的團簇(即每類任務(wù))上評估模型池中所有模型的性能和成本?;谝粋€可調(diào)節(jié)的性能-成本權(quán)衡參數(shù)α,系統(tǒng)為每個模型在個團簇上計算一個性能-成本綜合評分。
推理時,Avengers-Pro框架會首先將其歸類到最相關(guān)的聚類中,并結(jié)合各模型在該聚類上的性能-成本綜合評分,將請求動態(tài)分配給得分最高的模型。
通過調(diào)整參數(shù)α(范圍在0到1之間),系統(tǒng)可以在追求極致性能(α=1)與極致性價比(α=0)之間靈活切換,滿足不同應用場景下對性能與成本的多樣化需求。
實驗表現(xiàn):Avengers-Pro比GPT-5更強,更便宜
在實驗中,Avengers-Pro集成了來自4個廠家的8個業(yè)界頂尖模型:
- OpenAI:GPT-5-chat, GPT-5-medium;
- Anthropic:Claude-4.1-opus, Claude-4-sonnet;
- Google:Gemini-2.5-pro, Gemini-2.5-flash;
- 阿里: Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。
評測場景由6個極具挑戰(zhàn)性的數(shù)據(jù)集組成: GPQA-Diamond, Human’s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ2-bench,覆蓋了代碼生成、科學推理、智能體應用等。
Avengers-Pro的整體性能優(yōu)于任意單一模型。當權(quán)衡系數(shù)傾向于追求性能時,Avengers-Pro的平均正確率為0.66。
相比之下,模型池中最強的單一模型GPT-5-medium的平均正確率為0.62。也就是說,Avengers-Pro即使與當前性能最強的單模型對比,仍然實現(xiàn)了7%的性能提升。
Avengers-Pro實現(xiàn)了性能-成本平衡,形成了帕累托前沿。通過靈活調(diào)整性能-成本權(quán)衡系數(shù),當Avengers-Pro與GPT-5-medium性能持平時,能夠節(jié)省高達27%的成本。
如果僅需達到GPT-5-medium 90%的性能,成本更是可降至僅37%。
而在追求與Gemini-2.5-Pro相當?shù)男阅軙r,Avengers-Pro甚至只需19%的超低成本即可實現(xiàn)。
并且,Avengers-Pro在任何給定的成本水平上,都能提供最高的準確率;反之,對于任何給定的準確率目標,都能將成本控制在最低。
性能-成本權(quán)衡系數(shù)的影響:
對性能-成本平衡系數(shù)的分析顯示,隨著系數(shù)從0逐漸提升到1(追求性能),模型的性能和成本均逐步上升。
模型選擇:
在不同的性能-成本權(quán)衡系數(shù)下,Avengers-Pro能夠根據(jù)不同模型的性能成本靈活進行任務(wù)分配。
當系數(shù)更傾向于成本時,Qwen族的模型由于其較低的成本會被更多選擇。
而當系數(shù)更傾向于性能時,GPT-5-medium這一性能相對較強的模型會被更多選擇。
在集成了多個大模型后,調(diào)度路由能實現(xiàn)大模型的降本增效:在性能上超越了模型池中最強的單一模型,并且在保證相同性能的情況下,能顯著降低成本。
此外,面對不同的性能與成本權(quán)衡需求,可針對不同任務(wù),靈活自動選擇最合適的模型,全面滿足多樣化的應用場景。
Avergers-Pro證明了在當前大模型生態(tài)下,智能調(diào)度路由方案的突出表現(xiàn)和巨大潛力。
智能路由理念也將在未來大模型應用中帶來更多突破與驚喜。
論文地址:https://arxiv.org/abs/2508.12631
GitHub地址:https://github.com/ZhangYiqun018/AvengersPro
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.