成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《王者榮耀》要變天?騰訊TiG框架讓AI大神隊友帶你飛

0
分享至


人類《王者榮耀》玩家,真要打不贏 AI 了?

曾經(jīng),我們都以為,像《王者榮耀》這樣需要實時操作、團隊協(xié)作和戰(zhàn)略判斷的游戲,是人類玩家的絕對主場。哪怕是小學(xué)生,也能在峽谷里熟練補兵、推塔、配合隊友開龍和打團。

而相比于人類,大語言模型(LLM)和傳統(tǒng) RL Agent 在這類游戲中的表現(xiàn),卻顯得相對一般。

如今,一項來自騰訊的新研究或?qū)㈩嵏参覀兊倪@種認知——

在“Think-In Games”(TiG)框架的幫助下,LLM 不僅可以像人類玩家一樣在《王者榮耀》里制定精準策略,還能清晰地解釋每一步?jīng)Q策的邏輯。

例如,在以下案例中,AI 已經(jīng)能夠在分析雙方英雄損失/站位、防御塔狀態(tài)、野區(qū)資源剩余等多個條件后,做出“打暴君、拿主宰”的最佳綜合決策。



從技術(shù)層面講,TiG 能夠讓 LLM 借助與《王者榮耀》游戲環(huán)境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同時確保其原本具備的推理與解釋能力(知道“是什么”)不受影響。


論文鏈接:https://arxiv.org/pdf/2508.21365

結(jié)果表明,TiG 有效彌合了陳述性知識與程序性知識之間的鴻溝,以更低的數(shù)據(jù)和計算需求達到了與傳統(tǒng) RL 方法相當(dāng)?shù)男阅?/strong>。

此外,TiG 還可以為決策提供逐步自然語言解釋,提升了復(fù)雜交互任務(wù)中的透明性和可解釋性。

游戲是AI的絕佳試煉場

在 AI 領(lǐng)域,一直存在一道難以跨越的鴻溝:陳述性知識(了解某事物)與程序性知識(掌握操作方法)的割裂。

簡單來說,陳述性知識是 “知道某事”,比如 LLM 能夠從《王者榮耀》攻略里記住“避免過度推進”;而程序性知識是“知道如何做某事”,比如在游戲里判斷什么時候該開龍、推進到哪一步不算“過度”。

從傳統(tǒng)的象棋、撲克,到多人在線戰(zhàn)術(shù)競技(MOBA)游戲,再到沙盒游戲,都成了測試 AI 認知能力的“考場”,提供了豐富的衡量和提升人工智能認知能力的基準,考察 AI 的模式識別、推理、規(guī)劃和泛化能力。

尤其是《王者榮耀》作為典型的 MOBA 游戲,因其強調(diào)團隊協(xié)作、長期規(guī)劃和動態(tài)目標的特點,為探究高級推理提供了豐富的研究環(huán)境,既有可控性,能設(shè)定明確的規(guī)則和目標,又足夠復(fù)雜,需要 AI 應(yīng)對動態(tài)變化的戰(zhàn)局,就像人類在童年通過玩耍學(xué)習(xí)一樣,AI 也能在游戲里把理論知識轉(zhuǎn)化為實踐能力。

TiG框架:將決策任務(wù)轉(zhuǎn)變?yōu)檎Z言建模任務(wù)

TiG 框架恰恰旨在解決這些問題。它的核心邏輯很簡單:把傳統(tǒng) RL 的決策任務(wù),變成 LLM 擅長的語言建模任務(wù),再通過游戲環(huán)境的實時反饋不斷優(yōu)化。LLM 從原本的輸出離散的動作指令,轉(zhuǎn)變?yōu)樯梢欢握Z言引導(dǎo)的策略。


表|TiG 的提示模板

具體到《王者榮耀》的對局里,TiG 框架涉及如下關(guān)鍵技術(shù)細節(jié):

  1. 游戲狀態(tài)表征

TiG 會把《王者榮耀》的實時對局狀態(tài),用 JSON 格式清晰呈現(xiàn)——包括隊友的英雄屬性、防御塔狀態(tài)、野區(qū)資源、視野情況等關(guān)鍵核心信息。

同時,TiG 定義了 40 個宏觀動作,比如“推進上路兵線”“防守基地”“中路抱團”等,讓 AI 聚焦于戰(zhàn)略決策,而不是糾結(jié) “要不要用閃現(xiàn)躲技能” 這種操作層面的問題。畢竟在《王者榮耀》這種競技游戲里,好的戰(zhàn)略往往比單個操作更能決定勝負。

  1. 構(gòu)建數(shù)據(jù)集

TiG 的訓(xùn)練數(shù)據(jù),來自《王者榮耀》的真實匿名對局記錄。為了保護玩家隱私,沒有收集任何用戶標識符或個人信息。而且數(shù)據(jù)里勝場和敗場的比例是 1:1,只選玩家技能等級超過一定閾值的對局,確保數(shù)據(jù)有參考價值。

不過,真實對局里的動作標簽可能很稀疏,或者不一致。TiG 專門設(shè)計了重標注(Relabeling)算法,核心是基于優(yōu)先級的宏觀動作層級。先把檢測到的關(guān)鍵動作向后填充到 L 幀內(nèi)的未標注幀;如果同一幀有多個動作重疊,就根據(jù)動作優(yōu)先級保留最重要的動作。這樣一來,每個游戲狀態(tài)都有準確的動作標簽,AI 學(xué)起來更高效。

  1. 強化學(xué)習(xí)算法(GRPO)

TiG 使用了“群體相對策略優(yōu)化”(GRPO)算法,該框架直接使用來自游戲狀態(tài)-動作對的反饋來優(yōu)化策略模型,專門解決《王者榮耀》這類復(fù)雜環(huán)境下的策略優(yōu)化問題。


圖|TiG 框架下的 GRPO 訓(xùn)練流程

該算法會先讓 AI 生成一組《王者榮耀》的戰(zhàn)術(shù)策略,然后計算每個策略的“組相對優(yōu)勢”——如同一對局狀態(tài)下,某個策略的勝率比其他高多少,再用 KL 散度約束策略的變化幅度,避免 AI 突然做出離譜決策。

并且,TiG 采用二元獎勵函數(shù):如果 AI 預(yù)測的動和真實對局里的最優(yōu)動作一致,就給 1 分;不一致就給 0 分。這種簡單直接的獎勵方式,能讓 AI 快速學(xué)會打游戲的正確戰(zhàn)略,同時避免冗余輸出。

為了測試 TiG 的能力,研究團隊在《王者榮耀》環(huán)境里做了大量實驗,還對比了多個其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表現(xiàn)。他們探索了多階段訓(xùn)練的不同組合方式:

  • GRPO:僅使用 GRPO 方法訓(xùn)練基礎(chǔ)模型;

  • SFT:使用 SFT 訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型;

  • SFT + GRPO:先用 SFT 訓(xùn)練基礎(chǔ)模型,再通過 GRPO 算法進一步優(yōu)化模型的推理能力。

根據(jù)實驗結(jié)果,我們可以得出以下關(guān)鍵發(fā)現(xiàn):

首先,多階段訓(xùn)練——特別是 SFT 與 GRPO 的結(jié)合,顯著提升了模型性能。


圖|動作預(yù)測任務(wù)(左),不同模型錯誤案例分布(右)

原本 Qwen-2.5-32B 模型在《王者榮耀》動作預(yù)測任務(wù)里,準確率只有 66.67%,經(jīng)過 TiG 的 GRPO 訓(xùn)練 160 步后,準確率提升到 86.84%,超過了參數(shù)規(guī)模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型經(jīng)過 SFT+GRPO 訓(xùn)練 2000 步后,準確率更是達到 90.91%,在《王者榮耀》的戰(zhàn)略決策上遠超其他模型。

同時,此訓(xùn)練方法還保留了通用語言和推理能力


表|關(guān)于語言模型一般能力的不同基準的性能

TiG 訓(xùn)練沒有讓 AI 偏科——在數(shù)學(xué)(Ape210K)、記憶(School-Chinese)、邏輯推理(BBH)等通用基準測試中,模型性能要么保持不變,要么略有提升。例如,Qwen-3-14B 在 BBH 邏輯推理任務(wù)中,訓(xùn)練后準確率從 65.8% 升到 66.9%

此外,TiG 在其他任務(wù)中的泛化能力良好。

為了測試 TiG 的泛化能力,研究團隊還設(shè)計了“TiG-QA”任務(wù)——讓 AI 根據(jù)《王者榮耀》的對局狀態(tài),回答開放式問題。結(jié)果顯示,TiG 在與游戲狀態(tài)強相關(guān)的決策問題上,表現(xiàn)和 Deepseek-R1 相當(dāng),甚至在部分場景下更優(yōu),說明它不是只會“死記硬背”對局數(shù)據(jù),而是真的理解了《王者榮耀》的戰(zhàn)略邏輯。


表|模型在與板載相關(guān)任務(wù)上的性能

實戰(zhàn)案例

光看數(shù)據(jù)不夠直觀,來看看 TiG 在《王者榮耀》里的具體表現(xiàn)。

案例:主玩家操控的英雄是阿古朵,正和隊友姜子牙一起,在中路對抗敵方血量較低的一塔。


TiG 先判斷對局階段:已經(jīng)進入中后期,“防御塔和野區(qū)保護機制已經(jīng)失效”。再看當(dāng)前局勢:剛發(fā)生過小規(guī)模沖突,敵方中路一塔血量低,是推進的好機會,但也有風(fēng)險。阿古朵血量不足,而且敵方英雄位置不明,可能有埋伏。不過 TiG 在這里有個小失誤,誤判了雙方人數(shù)(其實兩隊都還剩 3 個英雄),但整體分析還是準確的。

基于分析,TiG 把“摧毀敵方中路一塔”定為當(dāng)前最高優(yōu)先級目標。因為這能擴大優(yōu)勢,且配合姜子牙的控制技能,成功率很高。同時,TiG 明確“不能因為阿古朵血量低就撤退”,也“不能去追敵方殘血英雄而放棄推塔”,確保團隊不偏離核心目標。

接著,TiG 制定了對戰(zhàn)的策略與指令。給出的具體指令很明確:“和姜子牙在敵方中路一塔處會合,集中火力推塔”,同時特別提醒 “注意敵方埋伏,保持警惕”。針對阿古朵的英雄特性,還建議 “保持安全距離輸出,配合姜子牙的控制技能使用大招”,把英雄玩法和當(dāng)前戰(zhàn)術(shù)完美結(jié)合。

最終,TiG 把復(fù)雜的思考過程,濃縮成一句人類玩家能直接執(zhí)行的指令:“和姜子牙聯(lián)手壓制敵方中路一塔,注意防范敵方伏擊”。這種決策既符合《王者榮耀》的對局邏輯,又清晰易懂,完全能和人類玩家配合打團。

未來:不止于《王者榮耀》

《王者榮耀》這一案例說明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的數(shù)據(jù)和計算需求達到了與傳統(tǒng) RL 方法相當(dāng)?shù)男阅堋?/p>

然而,研究團隊也承認,TiG 依然存在一些局限性。如下:

  • 嚴重依賴 LLM 的能力:TiG 的有效性本質(zhì)上依賴于底層 LLM 骨干的能力。如果語言理解或生成存在局限性,尤其是在高度復(fù)雜或?qū)崟r性強的環(huán)境中,可能會限制策略的表現(xiàn)。

  • 領(lǐng)域泛化性待驗證:目前的實驗主要在數(shù)字游戲環(huán)境中進行。TiG 能否推廣到其他交互領(lǐng)域——例如機器人學(xué)或現(xiàn)實世界任務(wù)——仍有待深入研究。

  • 樣本效率有待提升:盡管 TiG 相比基線方法提高了樣本效率,但它仍然需要大量的環(huán)境交互。在數(shù)據(jù)收集昂貴或耗時的場景中,這一需求可能成為限制因素。

  • 策略可解釋性待提高:基于語言的策略可解釋性依賴于生成解釋的清晰度和真實性。在某些情況下,這些解釋可能無法完全或準確地反映底層的決策過程。

為此,研究團隊表示,可以從以下幾個方向改進 TiG:

一方面,未來的工作將側(cè)重于將 TiG 擴展到更廣泛的環(huán)境中,包括那些具有更高復(fù)雜性和多樣性的場景。此外,我們還希望提升生成解釋的真實性,并引入多模態(tài)反饋(如視覺或聽覺提示),以支持更豐富的操作性學(xué)習(xí)。

另一方面,研究需要長期記憶或跨越較長狀態(tài)轉(zhuǎn)移進行推理的任務(wù)。解決這些挑戰(zhàn)將需要更復(fù)雜的時間抽象和記憶管理機制。

在不久的將來,我們在《王者榮耀》里遇到的“大神隊友”,或許就是由 TiG 框架訓(xùn)練出來的 AI 了。

整理:小瑜

如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言

廣告時間到

智譜上線 Glm Coding Plan

20 元包月,「1/7 價格、3 倍用量」

暢享 Claude Code 編碼體驗

開發(fā)者用了都說好

歡迎體驗~


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
梅西:不會出戰(zhàn)下屆世界杯!和迪馬利亞實現(xiàn)夢想,這一切太美好

梅西:不會出戰(zhàn)下屆世界杯!和迪馬利亞實現(xiàn)夢想,這一切太美好

奧拜爾
2025-09-05 09:54:39
談完不到48小時,印度就在臺灣問題上翻臉,還稱能核打擊中國全境

談完不到48小時,印度就在臺灣問題上翻臉,還稱能核打擊中國全境

boss外傳
2025-09-05 08:15:07
九三閱兵前夕,6名間諜落網(wǎng)!帶1448份機密出逃,泄露尖端武器

九三閱兵前夕,6名間諜落網(wǎng)!帶1448份機密出逃,泄露尖端武器

月凌渡
2025-09-05 08:46:39
每人2000元!河南給這些畢業(yè)生發(fā)補貼

每人2000元!河南給這些畢業(yè)生發(fā)補貼

焦作日報
2025-09-05 18:51:35
南京高管不知閱兵,甲方怒懟是特務(wù),聊天曝光工作要黃,已被舉報

南京高管不知閱兵,甲方怒懟是特務(wù),聊天曝光工作要黃,已被舉報

深析古今
2025-09-05 17:31:09
美媒預(yù)測新賽季7人有望爆發(fā):湖人新援上榜 楊瀚森隊友在列

美媒預(yù)測新賽季7人有望爆發(fā):湖人新援上榜 楊瀚森隊友在列

羅說NBA
2025-09-06 07:10:31
教會徒弟餓死師傅?中國手機份額跌至25%,印度正在橫掃美國市場

教會徒弟餓死師傅?中國手機份額跌至25%,印度正在橫掃美國市場

說宇宙
2025-09-03 09:51:47
韓勝延擔(dān)任九三閱兵總指揮

韓勝延擔(dān)任九三閱兵總指揮

政知新媒體
2025-09-03 10:02:22
中國斯諾克4勝5負!常冰玉橫掃,90后3-0被逆轉(zhuǎn),新人爆冷10冠王

中國斯諾克4勝5負!常冰玉橫掃,90后3-0被逆轉(zhuǎn),新人爆冷10冠王

劉姚堯的文字城堡
2025-09-06 06:07:48
巴基斯坦孤兒,被河南夫婦收養(yǎng)的“小黑妮”結(jié)婚了,結(jié)婚對象曝出

巴基斯坦孤兒,被河南夫婦收養(yǎng)的“小黑妮”結(jié)婚了,結(jié)婚對象曝出

小欣欣聊體育
2025-09-05 16:43:17
電影《731》預(yù)售總票房破1000萬

電影《731》預(yù)售總票房破1000萬

界面新聞
2025-09-05 10:57:51
“男子持水杯砸傷女同事被刑拘”后續(xù):臉部縫20多針的女子已出院,否認搶單惹禍

“男子持水杯砸傷女同事被刑拘”后續(xù):臉部縫20多針的女子已出院,否認搶單惹禍

極目新聞
2025-09-05 21:38:02
“七月十五4不吃,開運添財諸事順”,七月十五中元節(jié),別犯忌諱

“七月十五4不吃,開運添財諸事順”,七月十五中元節(jié),別犯忌諱

神牛
2025-09-04 14:07:20
特訊!土耳其總統(tǒng)發(fā)表罕見涉華言論,罕見言辭引發(fā)西方高度關(guān)注

特訊!土耳其總統(tǒng)發(fā)表罕見涉華言論,罕見言辭引發(fā)西方高度關(guān)注

科技虎虎
2025-09-05 21:17:02
昔日皇馬太子,到本季只值850萬?游蕩PSG失敗29歲就去土耳其掙大錢

昔日皇馬太子,到本季只值850萬?游蕩PSG失敗29歲就去土耳其掙大錢

里芃芃體育
2025-09-06 08:17:43
劉震云:人一味節(jié)省,省下的不是錢,而是一個廉價的人生

劉震云:人一味節(jié)省,省下的不是錢,而是一個廉價的人生

清風(fēng)拂心
2025-09-03 15:15:03
上海明確:部分道路更名!虹橋機場重要調(diào)整

上海明確:部分道路更名!虹橋機場重要調(diào)整

魯中晨報
2025-09-05 18:47:09
無刪減《權(quán)利的游戲》,震撼超出你的想象

無刪減《權(quán)利的游戲》,震撼超出你的想象

暖心萌阿菇?jīng)?/span>
2025-08-12 16:45:55
馬云預(yù)言應(yīng)驗了?2025下半年,手中有存款的人,或面臨2大現(xiàn)實?

馬云預(yù)言應(yīng)驗了?2025下半年,手中有存款的人,或面臨2大現(xiàn)實?

巢客HOME
2025-09-06 05:25:02
15歲練拳男生一拳將同學(xué)打致內(nèi)臟大出血;傷者家屬稱施暴者被判緩刑僅賠4萬,律師分析“傷殘賠償”問題

15歲練拳男生一拳將同學(xué)打致內(nèi)臟大出血;傷者家屬稱施暴者被判緩刑僅賠4萬,律師分析“傷殘賠償”問題

大風(fēng)新聞
2025-09-05 11:06:32
2025-09-06 09:00:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進展。
1366文章數(shù) 5078關(guān)注度
往期回顧 全部

游戲要聞

絲之歌漢化質(zhì)量差:老外卻稱中國玩家事多!亂給差評

頭條要聞

西方26國宣布已準備好向烏克蘭出兵 普京:敢來就打

頭條要聞

西方26國宣布已準備好向烏克蘭出兵 普京:敢來就打

體育要聞

西甲最窮的“草臺班子”,竟然打進歐戰(zhàn)了

娛樂要聞

!被罵“戀愛腦”的董璇玩脫了?

財經(jīng)要聞

拖欠訂單 立訊精密被供應(yīng)商索賠3343萬

科技要聞

超1萬億參數(shù)!阿里史上最大最強模型免費上線

汽車要聞

華為乾崑技術(shù)日 實測ADS4已無限接近人類司機

態(tài)度原創(chuàng)

親子
本地
數(shù)碼
教育
軍事航空

親子要聞

家長一定要引導(dǎo)控制孩子玩手機

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

數(shù)碼要聞

海信炸場 IFA 2025,全球顯示進入RGB-Mini LED時刻

教育要聞

《中學(xué)生學(xué)習(xí)力》課程宣講會 | 麥田推薦

軍事要聞

全網(wǎng)獨家!九三閱兵全圖鑒

無障礙瀏覽 進入關(guān)懷版