機(jī)器之心報(bào)道
機(jī)器之心編輯部
清華大學(xué)、北京中關(guān)村學(xué)院、無問芯穹聯(lián)合北大、伯克利等機(jī)構(gòu)重磅開源RLinf:首個(gè)面向具身智能的“渲訓(xùn)推一體化”大規(guī)模強(qiáng)化學(xué)習(xí)框架。
人工智能正在經(jīng)歷從 “感知” 到 “行動(dòng)” 的跨越式發(fā)展,融合大模型的具身智能被認(rèn)為是人工智能的下一發(fā)展階段,成為學(xué)術(shù)界與工業(yè)界共同關(guān)注的話題。
在大模型領(lǐng)域,隨著 o1/R1 系列推理模型的發(fā)布,模型訓(xùn)練的重心逐漸從數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練 / 后訓(xùn)練轉(zhuǎn)向獎(jiǎng)勵(lì)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。OpenAI 預(yù)測強(qiáng)化學(xué)習(xí)所需要的算力甚至將超過預(yù)訓(xùn)練。與此同時(shí),能夠?qū)⒋笠?guī)模算力高效利用的 RL infra 的重要性也日益凸顯,近期也涌現(xiàn)出一批優(yōu)秀的框架,極大地促進(jìn)了該領(lǐng)域的發(fā)展。
圖1 : OpenAI 在紅杉資本閉門會(huì)上的分享
然而,當(dāng)前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型,具身智能領(lǐng)域存在大腦(側(cè)重推理、長程規(guī)劃,如RoboBrain)、小腦(側(cè)重執(zhí)行、短程操作,如OpenVLA)及大小腦聯(lián)合(快慢系統(tǒng),如pi 0.5)等多樣模型。
其次,具身智能除了包含Agentic AI的多步?jīng)Q策屬性外,他還有一個(gè)獨(dú)特屬性:渲訓(xùn)推一體化。與工具調(diào)用智能體、瀏覽器智能體所交互的仿真器相比,具身仿真器通常需要高效并行物理仿真和3D圖形渲染等,因此當(dāng)前主流仿真器通常采用GPU加速,耦合多步?jīng)Q策帶來了算力和顯存競爭的新挑戰(zhàn)。
總的來說,具身智能領(lǐng)域不僅繼承了推理大模型和數(shù)字智能體的難點(diǎn),同時(shí)還引入了新的渲訓(xùn)推一體化特征,再加上具身智能模型尚未收斂,對框架的靈活性、高效性和易用性提出挑戰(zhàn)。
圖 2:推理大模型與具身智能體對比圖
在這樣的背景下,清華大學(xué)、北京中關(guān)村學(xué)院和無問芯穹聯(lián)合推出了一個(gè)面向具身智能的靈活的、可擴(kuò)展的大規(guī)模強(qiáng)化學(xué)習(xí)框架 RLinf
- 代碼鏈接:https://github.com/RLinf/RLinf
- Hugging Face鏈接:https://huggingface.co/RLinf
- 使用文檔鏈接:https://rlinf.readthedocs.io/en/latest/
RLinf 的 “inf” 不僅代表著 RL “infrastructure”,也代表著 “infinite” scaling,體現(xiàn)了該框架極度靈活的系統(tǒng)設(shè)計(jì)思想。
RLinf 的系統(tǒng)可以抽象為用戶層(統(tǒng)一編程接口)、任務(wù)層(多后端集成方案)、執(zhí)行層(靈活執(zhí)行模式)、調(diào)度層(自動(dòng)化調(diào)度)、通信層(自適應(yīng)通信)和硬件層(異構(gòu)硬件)6 大層級。相比其他框架的分離式執(zhí)行模式,RLinf 提出的混合式執(zhí)行模式,在具身智能訓(xùn)練場景下實(shí)現(xiàn)了超 120% 的系統(tǒng)提速,VLA 模型漲幅 40%-60%。同時(shí),RLinf 高度靈活、可擴(kuò)展的設(shè)計(jì)使其可快速應(yīng)用于其他任務(wù),所訓(xùn)練的 1.5B 和 7B 數(shù)學(xué)推理大模型在 AIME24、AIME25 和 GPQA-diamond 數(shù)據(jù)集上取得 SOTA。
圖 3:RLinf 系統(tǒng)及亮點(diǎn)介紹
設(shè)計(jì) 1:采用基于 Worker 的統(tǒng)一編程接口,
利用微執(zhí)行流實(shí)現(xiàn)宏工作流,實(shí)現(xiàn)一套代碼驅(qū)動(dòng)多種執(zhí)行模式
當(dāng)前已有強(qiáng)化學(xué)習(xí)框架通常采用兩種執(zhí)行模式:共享式(所有卡跑同一個(gè)組件) 和分離式(不同的卡分配不同的組件)。然而,這兩種模式在具身智能 “渲訓(xùn)推一體” 的特點(diǎn)下都存在局限性。主要是:由于具身智能體多步?jīng)Q策的屬性,模型(Actor)要和仿真器(Simulator)頻繁交互,而當(dāng)前框架一方面不支持仿真器狀態(tài)快速卸載和加載,另一方面若用共享式需要頻繁加載卸載組件,切換開銷大,嚴(yán)重降低系統(tǒng)效率。
因此,目前已有的框架在這個(gè)場景下僅支持分離式訓(xùn)練,但分離式采用 on-policy 算法訓(xùn)練時(shí)資源閑置率高,系統(tǒng)氣泡比較大。RLinf 針對這一問題,提出了混合式執(zhí)行模式,如圖 4 所示,這種模式兼具分離式和共享式的優(yōu)勢,再配合上細(xì)粒度流水設(shè)計(jì),使得系統(tǒng)幾乎無氣泡,顯著提升了系統(tǒng)運(yùn)行效率。
圖 4 : 共享式、分離式和混合式執(zhí)行模式對比
然而,要想實(shí)現(xiàn)一套代碼驅(qū)動(dòng)多種執(zhí)行模式(即無需更改代碼,通過配置參數(shù)即可實(shí)現(xiàn)分離、共享或混合)是不容易的,一種標(biāo)準(zhǔn)的解決方案是構(gòu)建計(jì)算流圖,但會(huì)導(dǎo)致編程靈活性降低,debug 難度直線上升,所以當(dāng)前已有框架通常只支持一種模式(分離或者共享),引入新的執(zhí)行模式需要大量的系統(tǒng)開發(fā)。
為此,RLinf 提出了創(chuàng)新的宏工作流到微執(zhí)行流的映射機(jī)制(Macro-to-Micro Flow,M2Flow),實(shí)現(xiàn)從組件級而非任務(wù)級進(jìn)行調(diào)度。M2Flow 允許用戶使用過程式編程方式靈活構(gòu)建復(fù)雜訓(xùn)練流程,解決傳統(tǒng)計(jì)算流圖構(gòu)建編程靈活性低的問題,同時(shí)能夠?qū)⑦^程式的訓(xùn)練流程靈活映射到底層不同的執(zhí)行模式上,為不同的訓(xùn)練流程(如 RLHF、RLVR 等)選擇最優(yōu)執(zhí)行模式(配合自動(dòng)調(diào)度模塊)。
因此,該映射機(jī)制兼具過程式編程(Imperative Programming)的靈活性、易用性、易調(diào)試性和聲明式編程(Declarative Programming)的編譯優(yōu)化能力。具體而言,RLinf 采用基于 Worker 的統(tǒng)一編程接口,允許用戶將訓(xùn)練流程中的不同組件,如模擬器、訓(xùn)練推理引擎,封裝成不同 Worker,然后通過過程式編程將這些 Worker 串起來形成完整的訓(xùn)練流程。M2Flow 通過細(xì)粒度控制微執(zhí)行流,即控制每個(gè) Worker 的運(yùn)行 GPU、執(zhí)行的批大小、執(zhí)行時(shí)機(jī)等,實(shí)現(xiàn)極度靈活的執(zhí)行模式。
總結(jié)來說,RLinf 使用戶能夠以高度可適配的方式編排組件(Actor、Critic、Reward、Simulator 等),組件可以放置在任意 GPU 上,并自動(dòng)配置不同的執(zhí)行模式,目前支持 3 種執(zhí)行模式:
- 共享式(Collocated Mode):用戶可以配置組件是否同時(shí)常駐于 GPU 內(nèi)存,或通過卸載 / 重新加載機(jī)制交替使用 GPU。
- 分離式(Disaggregated Mode):組件既可以順序運(yùn)行(可能導(dǎo)致 GPU 空閑),也可以以流水線方式執(zhí)行,從而確保所有 GPU 都處于忙碌狀態(tài)。
- 混合式(Hybrid Mode):進(jìn)一步擴(kuò)展了靈活性,支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執(zhí)行分離式細(xì)粒度流水,二者與 Inference 和 Trainer 執(zhí)行共享式。
設(shè)計(jì) 2: 面向具身智能大小腦不同訓(xùn)練需求,
采用全新的低侵入式多后端集成方案,兼顧高效性和易用性
如前文提到,具身智能領(lǐng)域的特點(diǎn)是:大小腦同時(shí)存在,且該領(lǐng)域仍處在蓬勃發(fā)展期,技術(shù)路線尚未收斂。因此為了更好地支持具身智能不同用戶(如具身大小腦研究人員)的需求,RLinf 集成了兩套后端:
- Megatron + SGLang/vLLM:針對已收斂的模型架構(gòu)(如具身大腦 VLM),支持已適配模型的快速接入,是大規(guī)模集群訓(xùn)練的首選模式。在這一模式下,RLinf 也采用了全新的低侵入式訓(xùn)推引擎集成方式,有助于快速集成訓(xùn)推引擎的更新版本(用戶可嘗試切換 SGLang 版本,方法見說明文檔 Advanced Feature 章節(jié)),進(jìn)而能夠啟用 Megatron 和 SGLang/vLLM 的所有優(yōu)化能力,如 5D 并行等。
- FSDP + Hugging Face:針對未收斂的模型架構(gòu)(如具身小腦 VLA),支持 Hugging Face 模型開箱即用無需適配,是快速小規(guī)模驗(yàn)證的首選模式。這一模式對于算力受限及新手用戶比較友好,特別為具身智能從業(yè)者打造。
圖 5:RLinf 集成兩套后端
同時(shí) RLinf 也支持多項(xiàng)來自一線從業(yè)者的剛需,包括 LoRA 訓(xùn)練,斷點(diǎn)續(xù)訓(xùn),以及適應(yīng)不同網(wǎng)速用戶的訓(xùn)練可視化(Tensorboard、W&B、SwanLab)等。此外,RLinf 也正在集成 SFT 模塊,致力于提供一站式的服務(wù),通過一套代碼滿足多樣化的訓(xùn)練需求。
設(shè)計(jì) 3: 設(shè)計(jì)面向強(qiáng)化學(xué)習(xí)的自適應(yīng)通信庫和自動(dòng)化調(diào)度模塊,
提升訓(xùn)練穩(wěn)定性和系統(tǒng)效率。
自適應(yīng)通信機(jī)制:
強(qiáng)化學(xué)習(xí)存在多個(gè)組件,且這些組件之間存在大量的數(shù)據(jù)交互。靈活、高效的互通信是支撐強(qiáng)化學(xué)習(xí)框架高效運(yùn)行的關(guān)鍵,也是框架可擴(kuò)展性的重要保證。因此,RLinf 特別設(shè)計(jì)了一套面向強(qiáng)化學(xué)習(xí)的通信庫,其中主要包含四項(xiàng)優(yōu)化技術(shù):自適應(yīng) CUDAIPC/NCCL 通信、負(fù)載均衡傳輸隊(duì)列、多通道并發(fā)通信機(jī)制、快速通信重配置。
- 自適應(yīng) CUDAIPC/NCCL 通信:無需用戶配置,根據(jù)兩個(gè)互通信組件所在 GPU 自動(dòng)選擇使用 CUDAIPC 通信還是使用 NCCL 通信,即兩個(gè)組件位于同一個(gè) GPU 上時(shí)使用 CUDAIPC,位于不同 GPU 上時(shí)使用 NCCL。
- 負(fù)載均衡傳輸隊(duì)列:可以根據(jù)上一個(gè)組件在不同 GPU 上所產(chǎn)生數(shù)據(jù)量的大小,在發(fā)送給下一個(gè)組件的不同 GPU 時(shí)做數(shù)據(jù)量負(fù)載均衡,使得下一個(gè)組件不同 GPU 的計(jì)算量接近,提升系統(tǒng)運(yùn)行效率。
圖 6:負(fù)載均衡傳輸隊(duì)列
- 多通道并發(fā)通信:使用多 CUDA stream 以及多網(wǎng)絡(luò)流并發(fā)的通信,避免隊(duì)頭阻塞(Head-of-Line Blocking),降低通信延遲。
- 快速通信重配置:該功能主要面向大規(guī)模集群訓(xùn)練,是實(shí)現(xiàn)下文秒級動(dòng)態(tài)擴(kuò)縮的支撐技術(shù)之一,可有效解決通信容錯(cuò)和通信調(diào)整的問題。
自動(dòng)化調(diào)度模塊:
大規(guī)模強(qiáng)化學(xué)習(xí)框架的優(yōu)化目標(biāo)是盡量減少系統(tǒng)資源閑置。已有框架通常采用人為指定資源配置的方案,依賴于人工經(jīng)驗(yàn),容易造成系統(tǒng)資源浪費(fèi),RLinf 設(shè)計(jì)了一套自動(dòng)調(diào)度策略,可以針對用戶的訓(xùn)練流以及用戶所使用的計(jì)算資源,選擇最優(yōu)的執(zhí)行模式
具體而言,RLinf 會(huì)對各組件做自動(dòng)化性能分析,獲得各組件對資源的使用效率和特征。然后,構(gòu)建執(zhí)行模式的搜索空間,該搜索空間描述了強(qiáng)化學(xué)習(xí)算法各組件對計(jì)算資源的分配復(fù)用關(guān)系,包括 “時(shí)分復(fù)用”、“空分復(fù)用” 以及二者結(jié)合的資源分配方案;在這樣的建模下,RLinf 的自動(dòng)化調(diào)度不僅支持已有強(qiáng)化學(xué)習(xí)框架中 “共享式” 和 “分離式” 的典型資源分配方式,還支持二者結(jié)合的混合分配方案的建模分析。
最后,基于上述性能分析數(shù)據(jù),在該空間中搜索出最優(yōu)的執(zhí)行模式。除此之外,該自動(dòng)調(diào)度策略還集成 “秒級在線擴(kuò)縮容(Online Scaling)” 能力,70B 模型只需 1 秒即可完成 5D 并行動(dòng)態(tài)擴(kuò)縮,而傳統(tǒng)方案需十幾秒甚至更久。該功能及相關(guān)論文將于 10 月上線開源版本?;谠摷夹g(shù)可進(jìn)一步實(shí)現(xiàn)運(yùn)行時(shí)組件間計(jì)算資源的動(dòng)態(tài)調(diào)度,配合細(xì)粒度流水設(shè)計(jì),可以在保證算法 on-policy 屬性的前提下進(jìn)一步壓縮系統(tǒng)氣泡率,且顯著提升訓(xùn)練穩(wěn)定性。
RLinf 性能快覽
具身性能(采用 FSDP+HuggingFace 后端測試):
在應(yīng)用上,與其他框架相比,RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持,為研究人員探索 VLAs+RL 領(lǐng)域提供了良好的基礎(chǔ)算法性能及測試平臺。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器(具體平臺見說明文檔),支持了百余類具身智能任務(wù),集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。
特別地,團(tuán)隊(duì)率先實(shí)現(xiàn)了對 Pi 0 的大規(guī)模強(qiáng)化學(xué)習(xí)微調(diào),相關(guān)算法及論文將在 9 月底發(fā)布。在量化指標(biāo)上,以 Maniskill3(典型的 GPU-based Simulator )為例進(jìn)行測試,RLinf 采用混合式結(jié)合細(xì)粒度流水的執(zhí)行模式。相比其他框架的分離式執(zhí)行模式,系統(tǒng)效率顯著提速 120% 以上(圖 7)。
OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個(gè)任務(wù) [1] 中采用 PPO 算法和適配具身的 GRPO 算法訓(xùn)練后,成功率曲線如圖 8 所示,可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90%,漲幅 40%-50% 以上。
在公開測試平臺 LIBERO 的 4 個(gè)場景中,OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓(xùn)練后,平均成功率達(dá)到 97.3%,相比 SFT 模型漲幅 62.4%。
團(tuán)隊(duì)前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1],RLinf 將研究進(jìn)一步拓展至大規(guī)模場景下,助力探索具身智能領(lǐng)域的 RL Scaling Law。相關(guān)模型已開源在 https://huggingface.co/RLinf,歡迎下載測試。
圖 7:RLinf 在 “渲訓(xùn)推一體化” 任務(wù)訓(xùn)練中顯著提速 120%+
圖 8:OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個(gè)任務(wù)中采用 PPO 算法及具身版 GRPO 算法的訓(xùn)練曲線
表 1:OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結(jié)果
推理性能(采用 Megtatron+SGLang 后端測試):
面向具身智能是 RLinf 的應(yīng)用特色,但 RLinf 的系統(tǒng)設(shè)計(jì)思想不僅限于具身智能,靈活、可擴(kuò)展的設(shè)計(jì)理念使得其可以快速支持其他應(yīng)用,體現(xiàn)了其通用性。
以 RLinf 支持的推理大模型訓(xùn)練為例,團(tuán)隊(duì)集成優(yōu)化后的 GRPO 算法 [2] 進(jìn)行了數(shù)學(xué)推理大模型的訓(xùn)練,數(shù)據(jù)集為 AReal-boba 數(shù)據(jù)集 [3],基座模型為 DeepSeek-R1-Distill-Qwen。在三個(gè)測試集(AIME24、AIME25、GPQA-diamond)中進(jìn)行測評,32 個(gè)樣本取平均,Pass@1 測試結(jié)果如表 2 和 3 所示,RLinf-math-1.5B 和 RLinf-math-7B 在三個(gè)測試集上均取得 SOTA 性能。
(注:表格中的模型均來自 HuggingFace 開源模型,統(tǒng)一測試腳本 https://github.com/RLinf/LLMEvalKit)
相關(guān)模型已開源在 https://huggingface.co/RLinf,歡迎下載測試。
表 2:1.5B 數(shù)學(xué)推理大模型在多個(gè)數(shù)據(jù)集的測評結(jié)果
表 3:7B 數(shù)學(xué)推理大模型在多個(gè)數(shù)據(jù)集的測評結(jié)果
Last but not least
考慮到框架的易用性,RLinf提供了全面且系統(tǒng)化的使用文檔。RLinf 在開發(fā)之初的目標(biāo)就是開源,因此讓每一個(gè)用戶能夠理解、使用和修改是設(shè)計(jì)原則之一,也是一個(gè)優(yōu)秀開源框架必備的屬性。團(tuán)隊(duì)采用公司級代碼開發(fā)流程,確保文檔內(nèi)容覆蓋從入門到深度開發(fā)的各層次需求。此外,RLinf 還提供完整的 API 文檔與集成 AI 問答機(jī)器人支持,以進(jìn)一步提升開發(fā)體驗(yàn)與支持效率。
圖 9:RLinf 文檔鏈接 https://rlinf.readthedocs.io/en/latest/
RLinf 團(tuán)隊(duì)的開發(fā)成員具有交叉研究背景,包含從系統(tǒng)到算法到應(yīng)用的技術(shù)全棧,例如系統(tǒng)架構(gòu)設(shè)計(jì)、分布式系統(tǒng)、大模型訓(xùn)練推理加速、強(qiáng)化學(xué)習(xí)、具身智能、智能體等。正是由于這樣的交叉背景,使得團(tuán)隊(duì)能夠從應(yīng)用需求驅(qū)動(dòng)算法設(shè)計(jì),算法指導(dǎo)系統(tǒng)設(shè)計(jì),高效系統(tǒng)加速算法迭代,體現(xiàn)了大模型時(shí)代下新型科研形態(tài)。未來 RLinf 團(tuán)隊(duì)也將持續(xù)開發(fā)和維護(hù),具體 Roadmap 見 Github 網(wǎng)站。
RLinf 項(xiàng)目地址 https://github.com/RLinf/RLinf
最后,誠摯地邀請大家體驗(yàn) RLinf 框架,并且與我們交流技術(shù)觀點(diǎn)與潛在合作機(jī)會(huì)。同時(shí),RLinf 團(tuán)隊(duì)持續(xù)招聘博士后、博士、碩士、研究員、工程師及實(shí)習(xí)生,歡迎投遞簡歷,與我們共同推進(jìn)下一代強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的建設(shè)與發(fā)展。
聯(lián)系方式:zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn
參考資料:
[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).
[2] https://github.com/inclusionAI/AReaL
[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.