人類《王者榮耀》玩家,真要打不贏 AI 了?
曾經(jīng),我們都以為,像《王者榮耀》這樣需要實時操作、團隊協(xié)作和戰(zhàn)略判斷的游戲,是人類玩家的絕對主場。哪怕是小學(xué)生,也能在峽谷里熟練補兵、推塔、配合隊友開龍和打團。
而相比于人類,大語言模型(LLM)和傳統(tǒng) RL Agent 在這類游戲中的表現(xiàn),卻顯得相對一般。
如今,一項來自騰訊的新研究或?qū)㈩嵏参覀兊倪@種認知——
在“Think-In Games”(TiG)框架的幫助下,LLM 不僅可以像人類玩家一樣在《王者榮耀》里制定精準策略,還能清晰地解釋每一步?jīng)Q策的邏輯。
例如,在以下案例中,AI 已經(jīng)能夠在分析雙方英雄損失/站位、防御塔狀態(tài)、野區(qū)資源剩余等多個條件后,做出“打暴君、拿主宰”的最佳綜合決策。
從技術(shù)層面講,TiG 能夠讓 LLM 借助與《王者榮耀》游戲環(huán)境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同時確保其原本具備的推理與解釋能力(知道“是什么”)不受影響。
論文鏈接:https://arxiv.org/pdf/2508.21365
結(jié)果表明,TiG 有效彌合了陳述性知識與程序性知識之間的鴻溝,以更低的數(shù)據(jù)和計算需求達到了與傳統(tǒng) RL 方法相當(dāng)?shù)男阅?/strong>。
此外,TiG 還可以為決策提供逐步自然語言解釋,提升了復(fù)雜交互任務(wù)中的透明性和可解釋性。
游戲是AI的絕佳試煉場
在 AI 領(lǐng)域,一直存在一道難以跨越的鴻溝:陳述性知識(了解某事物)與程序性知識(掌握操作方法)的割裂。
簡單來說,陳述性知識是 “知道某事”,比如 LLM 能夠從《王者榮耀》攻略里記住“避免過度推進”;而程序性知識是“知道如何做某事”,比如在游戲里判斷什么時候該開龍、推進到哪一步不算“過度”。
從傳統(tǒng)的象棋、撲克,到多人在線戰(zhàn)術(shù)競技(MOBA)游戲,再到沙盒游戲,都成了測試 AI 認知能力的“考場”,提供了豐富的衡量和提升人工智能認知能力的基準,考察 AI 的模式識別、推理、規(guī)劃和泛化能力。
尤其是《王者榮耀》作為典型的 MOBA 游戲,因其強調(diào)團隊協(xié)作、長期規(guī)劃和動態(tài)目標的特點,為探究高級推理提供了豐富的研究環(huán)境,既有可控性,能設(shè)定明確的規(guī)則和目標,又足夠復(fù)雜,需要 AI 應(yīng)對動態(tài)變化的戰(zhàn)局,就像人類在童年通過玩耍學(xué)習(xí)一樣,AI 也能在游戲里把理論知識轉(zhuǎn)化為實踐能力。
TiG框架:將決策任務(wù)轉(zhuǎn)變?yōu)檎Z言建模任務(wù)
TiG 框架恰恰旨在解決這些問題。它的核心邏輯很簡單:把傳統(tǒng) RL 的決策任務(wù),變成 LLM 擅長的語言建模任務(wù),再通過游戲環(huán)境的實時反饋不斷優(yōu)化。LLM 從原本的輸出離散的動作指令,轉(zhuǎn)變?yōu)樯梢欢握Z言引導(dǎo)的策略。
表|TiG 的提示模板
具體到《王者榮耀》的對局里,TiG 框架涉及如下關(guān)鍵技術(shù)細節(jié):
游戲狀態(tài)表征
TiG 會把《王者榮耀》的實時對局狀態(tài),用 JSON 格式清晰呈現(xiàn)——包括隊友的英雄屬性、防御塔狀態(tài)、野區(qū)資源、視野情況等關(guān)鍵核心信息。
同時,TiG 定義了 40 個宏觀動作,比如“推進上路兵線”“防守基地”“中路抱團”等,讓 AI 聚焦于戰(zhàn)略決策,而不是糾結(jié) “要不要用閃現(xiàn)躲技能” 這種操作層面的問題。畢竟在《王者榮耀》這種競技游戲里,好的戰(zhàn)略往往比單個操作更能決定勝負。
構(gòu)建數(shù)據(jù)集
TiG 的訓(xùn)練數(shù)據(jù),來自《王者榮耀》的真實匿名對局記錄。為了保護玩家隱私,沒有收集任何用戶標識符或個人信息。而且數(shù)據(jù)里勝場和敗場的比例是 1:1,只選玩家技能等級超過一定閾值的對局,確保數(shù)據(jù)有參考價值。
不過,真實對局里的動作標簽可能很稀疏,或者不一致。TiG 專門設(shè)計了重標注(Relabeling)算法,核心是基于優(yōu)先級的宏觀動作層級。先把檢測到的關(guān)鍵動作向后填充到 L 幀內(nèi)的未標注幀;如果同一幀有多個動作重疊,就根據(jù)動作優(yōu)先級保留最重要的動作。這樣一來,每個游戲狀態(tài)都有準確的動作標簽,AI 學(xué)起來更高效。
強化學(xué)習(xí)算法(GRPO)
TiG 使用了“群體相對策略優(yōu)化”(GRPO)算法,該框架直接使用來自游戲狀態(tài)-動作對的反饋來優(yōu)化策略模型,專門解決《王者榮耀》這類復(fù)雜環(huán)境下的策略優(yōu)化問題。
圖|TiG 框架下的 GRPO 訓(xùn)練流程
該算法會先讓 AI 生成一組《王者榮耀》的戰(zhàn)術(shù)策略,然后計算每個策略的“組相對優(yōu)勢”——如同一對局狀態(tài)下,某個策略的勝率比其他高多少,再用 KL 散度約束策略的變化幅度,避免 AI 突然做出離譜決策。
并且,TiG 采用二元獎勵函數(shù):如果 AI 預(yù)測的動和真實對局里的最優(yōu)動作一致,就給 1 分;不一致就給 0 分。這種簡單直接的獎勵方式,能讓 AI 快速學(xué)會打游戲的正確戰(zhàn)略,同時避免冗余輸出。
為了測試 TiG 的能力,研究團隊在《王者榮耀》環(huán)境里做了大量實驗,還對比了多個其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表現(xiàn)。他們探索了多階段訓(xùn)練的不同組合方式:
GRPO:僅使用 GRPO 方法訓(xùn)練基礎(chǔ)模型;
SFT:使用 SFT 訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型;
SFT + GRPO:先用 SFT 訓(xùn)練基礎(chǔ)模型,再通過 GRPO 算法進一步優(yōu)化模型的推理能力。
根據(jù)實驗結(jié)果,我們可以得出以下關(guān)鍵發(fā)現(xiàn):
首先,多階段訓(xùn)練——特別是 SFT 與 GRPO 的結(jié)合,顯著提升了模型性能。
圖|動作預(yù)測任務(wù)(左),不同模型錯誤案例分布(右)
原本 Qwen-2.5-32B 模型在《王者榮耀》動作預(yù)測任務(wù)里,準確率只有 66.67%,經(jīng)過 TiG 的 GRPO 訓(xùn)練 160 步后,準確率提升到 86.84%,超過了參數(shù)規(guī)模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型經(jīng)過 SFT+GRPO 訓(xùn)練 2000 步后,準確率更是達到 90.91%,在《王者榮耀》的戰(zhàn)略決策上遠超其他模型。
同時,此訓(xùn)練方法還保留了通用語言和推理能力。
表|關(guān)于語言模型一般能力的不同基準的性能
TiG 訓(xùn)練沒有讓 AI 偏科——在數(shù)學(xué)(Ape210K)、記憶(School-Chinese)、邏輯推理(BBH)等通用基準測試中,模型性能要么保持不變,要么略有提升。例如,Qwen-3-14B 在 BBH 邏輯推理任務(wù)中,訓(xùn)練后準確率從 65.8% 升到 66.9%。
此外,TiG 在其他任務(wù)中的泛化能力良好。
為了測試 TiG 的泛化能力,研究團隊還設(shè)計了“TiG-QA”任務(wù)——讓 AI 根據(jù)《王者榮耀》的對局狀態(tài),回答開放式問題。結(jié)果顯示,TiG 在與游戲狀態(tài)強相關(guān)的決策問題上,表現(xiàn)和 Deepseek-R1 相當(dāng),甚至在部分場景下更優(yōu),說明它不是只會“死記硬背”對局數(shù)據(jù),而是真的理解了《王者榮耀》的戰(zhàn)略邏輯。
表|模型在與板載相關(guān)任務(wù)上的性能
實戰(zhàn)案例
光看數(shù)據(jù)不夠直觀,來看看 TiG 在《王者榮耀》里的具體表現(xiàn)。
案例:主玩家操控的英雄是阿古朵,正和隊友姜子牙一起,在中路對抗敵方血量較低的一塔。
TiG 先判斷對局階段:已經(jīng)進入中后期,“防御塔和野區(qū)保護機制已經(jīng)失效”。再看當(dāng)前局勢:剛發(fā)生過小規(guī)模沖突,敵方中路一塔血量低,是推進的好機會,但也有風(fēng)險。阿古朵血量不足,而且敵方英雄位置不明,可能有埋伏。不過 TiG 在這里有個小失誤,誤判了雙方人數(shù)(其實兩隊都還剩 3 個英雄),但整體分析還是準確的。
基于分析,TiG 把“摧毀敵方中路一塔”定為當(dāng)前最高優(yōu)先級目標。因為這能擴大優(yōu)勢,且配合姜子牙的控制技能,成功率很高。同時,TiG 明確“不能因為阿古朵血量低就撤退”,也“不能去追敵方殘血英雄而放棄推塔”,確保團隊不偏離核心目標。
接著,TiG 制定了對戰(zhàn)的策略與指令。給出的具體指令很明確:“和姜子牙在敵方中路一塔處會合,集中火力推塔”,同時特別提醒 “注意敵方埋伏,保持警惕”。針對阿古朵的英雄特性,還建議 “保持安全距離輸出,配合姜子牙的控制技能使用大招”,把英雄玩法和當(dāng)前戰(zhàn)術(shù)完美結(jié)合。
最終,TiG 把復(fù)雜的思考過程,濃縮成一句人類玩家能直接執(zhí)行的指令:“和姜子牙聯(lián)手壓制敵方中路一塔,注意防范敵方伏擊”。這種決策既符合《王者榮耀》的對局邏輯,又清晰易懂,完全能和人類玩家配合打團。
未來:不止于《王者榮耀》
《王者榮耀》這一案例說明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的數(shù)據(jù)和計算需求達到了與傳統(tǒng) RL 方法相當(dāng)?shù)男阅堋?/p>
然而,研究團隊也承認,TiG 依然存在一些局限性。如下:
嚴重依賴 LLM 的能力:TiG 的有效性本質(zhì)上依賴于底層 LLM 骨干的能力。如果語言理解或生成存在局限性,尤其是在高度復(fù)雜或?qū)崟r性強的環(huán)境中,可能會限制策略的表現(xiàn)。
領(lǐng)域泛化性待驗證:目前的實驗主要在數(shù)字游戲環(huán)境中進行。TiG 能否推廣到其他交互領(lǐng)域——例如機器人學(xué)或現(xiàn)實世界任務(wù)——仍有待深入研究。
樣本效率有待提升:盡管 TiG 相比基線方法提高了樣本效率,但它仍然需要大量的環(huán)境交互。在數(shù)據(jù)收集昂貴或耗時的場景中,這一需求可能成為限制因素。
策略可解釋性待提高:基于語言的策略可解釋性依賴于生成解釋的清晰度和真實性。在某些情況下,這些解釋可能無法完全或準確地反映底層的決策過程。
為此,研究團隊表示,可以從以下幾個方向改進 TiG:
一方面,未來的工作將側(cè)重于將 TiG 擴展到更廣泛的環(huán)境中,包括那些具有更高復(fù)雜性和多樣性的場景。此外,我們還希望提升生成解釋的真實性,并引入多模態(tài)反饋(如視覺或聽覺提示),以支持更豐富的操作性學(xué)習(xí)。
另一方面,研究需要長期記憶或跨越較長狀態(tài)轉(zhuǎn)移進行推理的任務(wù)。解決這些挑戰(zhàn)將需要更復(fù)雜的時間抽象和記憶管理機制。
在不久的將來,我們在《王者榮耀》里遇到的“大神隊友”,或許就是由 TiG 框架訓(xùn)練出來的 AI 了。
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
廣告時間到
智譜上線 Glm Coding Plan
20 元包月,「1/7 價格、3 倍用量」
暢享 Claude Code 編碼體驗
開發(fā)者用了都說好
歡迎體驗~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.