大規(guī)模強(qiáng)化學(xué)習(xí)框架RLinf!清華、北京中關(guān)村學(xué)院、無問芯穹等開源

2025-09-01 11:27:27　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

清華大學(xué)、北京中關(guān)村學(xué)院、無問芯穹聯(lián)合北大、伯克利等機(jī)構(gòu)重磅開源RLinf：首個(gè)面向具身智能的“渲訓(xùn)推一體化”大規(guī)模強(qiáng)化學(xué)習(xí)框架。

人工智能正在經(jīng)歷從 “感知” 到 “行動(dòng)” 的跨越式發(fā)展，融合大模型的具身智能被認(rèn)為是人工智能的下一發(fā)展階段，成為學(xué)術(shù)界與工業(yè)界共同關(guān)注的話題。

在大模型領(lǐng)域，隨著 o1/R1 系列推理模型的發(fā)布，模型訓(xùn)練的重心逐漸從數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練 / 后訓(xùn)練轉(zhuǎn)向獎(jiǎng)勵(lì)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）。OpenAI 預(yù)測強(qiáng)化學(xué)習(xí)所需要的算力甚至將超過預(yù)訓(xùn)練。與此同時(shí)，能夠?qū)⒋笠?guī)模算力高效利用的 RL infra 的重要性也日益凸顯，近期也涌現(xiàn)出一批優(yōu)秀的框架，極大地促進(jìn)了該領(lǐng)域的發(fā)展。

圖1 : OpenAI 在紅杉資本閉門會(huì)上的分享

然而，當(dāng)前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型，具身智能領(lǐng)域存在大腦（側(cè)重推理、長程規(guī)劃，如RoboBrain）、小腦（側(cè)重執(zhí)行、短程操作，如OpenVLA）及大小腦聯(lián)合（快慢系統(tǒng)，如pi 0.5）等多樣模型。

其次，具身智能除了包含Agentic AI的多步?jīng)Q策屬性外，他還有一個(gè)獨(dú)特屬性：渲訓(xùn)推一體化。與工具調(diào)用智能體、瀏覽器智能體所交互的仿真器相比，具身仿真器通常需要高效并行物理仿真和3D圖形渲染等，因此當(dāng)前主流仿真器通常采用GPU加速，耦合多步?jīng)Q策帶來了算力和顯存競爭的新挑戰(zhàn)。

總的來說，具身智能領(lǐng)域不僅繼承了推理大模型和數(shù)字智能體的難點(diǎn)，同時(shí)還引入了新的渲訓(xùn)推一體化特征，再加上具身智能模型尚未收斂，對框架的靈活性、高效性和易用性提出挑戰(zhàn)。

圖 2：推理大模型與具身智能體對比圖

在這樣的背景下，清華大學(xué)、北京中關(guān)村學(xué)院和無問芯穹聯(lián)合推出了一個(gè)面向具身智能的靈活的、可擴(kuò)展的大規(guī)模強(qiáng)化學(xué)習(xí)框架 RLinf

代碼鏈接：https://github.com/RLinf/RLinf
Hugging Face鏈接：https://huggingface.co/RLinf
使用文檔鏈接：https://rlinf.readthedocs.io/en/latest/

RLinf 的 “inf” 不僅代表著 RL “infrastructure”，也代表著 “infinite” scaling，體現(xiàn)了該框架極度靈活的系統(tǒng)設(shè)計(jì)思想。

RLinf 的系統(tǒng)可以抽象為用戶層（統(tǒng)一編程接口）、任務(wù)層（多后端集成方案）、執(zhí)行層（靈活執(zhí)行模式）、調(diào)度層（自動(dòng)化調(diào)度）、通信層（自適應(yīng)通信）和硬件層（異構(gòu)硬件）6 大層級。相比其他框架的分離式執(zhí)行模式，RLinf 提出的混合式執(zhí)行模式，在具身智能訓(xùn)練場景下實(shí)現(xiàn)了超 120% 的系統(tǒng)提速，VLA 模型漲幅 40%-60%。同時(shí)，RLinf 高度靈活、可擴(kuò)展的設(shè)計(jì)使其可快速應(yīng)用于其他任務(wù)，所訓(xùn)練的 1.5B 和 7B 數(shù)學(xué)推理大模型在 AIME24、AIME25 和 GPQA-diamond 數(shù)據(jù)集上取得 SOTA。

圖 3：RLinf 系統(tǒng)及亮點(diǎn)介紹

設(shè)計(jì) 1：采用基于 Worker 的統(tǒng)一編程接口，

利用微執(zhí)行流實(shí)現(xiàn)宏工作流，實(shí)現(xiàn)一套代碼驅(qū)動(dòng)多種執(zhí)行模式

當(dāng)前已有強(qiáng)化學(xué)習(xí)框架通常采用兩種執(zhí)行模式：共享式（所有卡跑同一個(gè)組件）和分離式（不同的卡分配不同的組件）。然而，這兩種模式在具身智能 “渲訓(xùn)推一體” 的特點(diǎn)下都存在局限性。主要是：由于具身智能體多步?jīng)Q策的屬性，模型（Actor）要和仿真器（Simulator）頻繁交互，而當(dāng)前框架一方面不支持仿真器狀態(tài)快速卸載和加載，另一方面若用共享式需要頻繁加載卸載組件，切換開銷大，嚴(yán)重降低系統(tǒng)效率。

因此，目前已有的框架在這個(gè)場景下僅支持分離式訓(xùn)練，但分離式采用 on-policy 算法訓(xùn)練時(shí)資源閑置率高，系統(tǒng)氣泡比較大。RLinf 針對這一問題，提出了混合式執(zhí)行模式，如圖 4 所示，這種模式兼具分離式和共享式的優(yōu)勢，再配合上細(xì)粒度流水設(shè)計(jì)，使得系統(tǒng)幾乎無氣泡，顯著提升了系統(tǒng)運(yùn)行效率。

圖 4 : 共享式、分離式和混合式執(zhí)行模式對比

然而，要想實(shí)現(xiàn)一套代碼驅(qū)動(dòng)多種執(zhí)行模式（即無需更改代碼，通過配置參數(shù)即可實(shí)現(xiàn)分離、共享或混合）是不容易的，一種標(biāo)準(zhǔn)的解決方案是構(gòu)建計(jì)算流圖，但會(huì)導(dǎo)致編程靈活性降低，debug 難度直線上升，所以當(dāng)前已有框架通常只支持一種模式（分離或者共享），引入新的執(zhí)行模式需要大量的系統(tǒng)開發(fā)。

為此，RLinf 提出了創(chuàng)新的宏工作流到微執(zhí)行流的映射機(jī)制（Macro-to-Micro Flow，M2Flow），實(shí)現(xiàn)從組件級而非任務(wù)級進(jìn)行調(diào)度。M2Flow 允許用戶使用過程式編程方式靈活構(gòu)建復(fù)雜訓(xùn)練流程，解決傳統(tǒng)計(jì)算流圖構(gòu)建編程靈活性低的問題，同時(shí)能夠?qū)⑦^程式的訓(xùn)練流程靈活映射到底層不同的執(zhí)行模式上，為不同的訓(xùn)練流程（如 RLHF、RLVR 等）選擇最優(yōu)執(zhí)行模式（配合自動(dòng)調(diào)度模塊）。

因此，該映射機(jī)制兼具過程式編程（Imperative Programming）的靈活性、易用性、易調(diào)試性和聲明式編程（Declarative Programming）的編譯優(yōu)化能力。具體而言，RLinf 采用基于 Worker 的統(tǒng)一編程接口，允許用戶將訓(xùn)練流程中的不同組件，如模擬器、訓(xùn)練推理引擎，封裝成不同 Worker，然后通過過程式編程將這些 Worker 串起來形成完整的訓(xùn)練流程。M2Flow 通過細(xì)粒度控制微執(zhí)行流，即控制每個(gè) Worker 的運(yùn)行 GPU、執(zhí)行的批大小、執(zhí)行時(shí)機(jī)等，實(shí)現(xiàn)極度靈活的執(zhí)行模式。

總結(jié)來說，RLinf 使用戶能夠以高度可適配的方式編排組件（Actor、Critic、Reward、Simulator 等），組件可以放置在任意 GPU 上，并自動(dòng)配置不同的執(zhí)行模式，目前支持 3 種執(zhí)行模式：

共享式（Collocated Mode）：用戶可以配置組件是否同時(shí)常駐于 GPU 內(nèi)存，或通過卸載 / 重新加載機(jī)制交替使用 GPU。
分離式（Disaggregated Mode）：組件既可以順序運(yùn)行（可能導(dǎo)致 GPU 空閑），也可以以流水線方式執(zhí)行，從而確保所有 GPU 都處于忙碌狀態(tài)。
混合式（Hybrid Mode）：進(jìn)一步擴(kuò)展了靈活性，支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執(zhí)行分離式細(xì)粒度流水，二者與 Inference 和 Trainer 執(zhí)行共享式。

設(shè)計(jì) 2: 面向具身智能大小腦不同訓(xùn)練需求，

采用全新的低侵入式多后端集成方案，兼顧高效性和易用性

如前文提到，具身智能領(lǐng)域的特點(diǎn)是：大小腦同時(shí)存在，且該領(lǐng)域仍處在蓬勃發(fā)展期，技術(shù)路線尚未收斂。因此為了更好地支持具身智能不同用戶（如具身大小腦研究人員）的需求，RLinf 集成了兩套后端：

Megatron + SGLang/vLLM：針對已收斂的模型架構(gòu)（如具身大腦 VLM），支持已適配模型的快速接入，是大規(guī)模集群訓(xùn)練的首選模式。在這一模式下，RLinf 也采用了全新的低侵入式訓(xùn)推引擎集成方式，有助于快速集成訓(xùn)推引擎的更新版本（用戶可嘗試切換 SGLang 版本，方法見說明文檔 Advanced Feature 章節(jié)），進(jìn)而能夠啟用 Megatron 和 SGLang/vLLM 的所有優(yōu)化能力，如 5D 并行等。
FSDP + Hugging Face：針對未收斂的模型架構(gòu)（如具身小腦 VLA），支持 Hugging Face 模型開箱即用無需適配，是快速小規(guī)模驗(yàn)證的首選模式。這一模式對于算力受限及新手用戶比較友好，特別為具身智能從業(yè)者打造。

圖 5：RLinf 集成兩套后端

同時(shí) RLinf 也支持多項(xiàng)來自一線從業(yè)者的剛需，包括 LoRA 訓(xùn)練，斷點(diǎn)續(xù)訓(xùn)，以及適應(yīng)不同網(wǎng)速用戶的訓(xùn)練可視化（Tensorboard、W&B、SwanLab）等。此外，RLinf 也正在集成 SFT 模塊，致力于提供一站式的服務(wù)，通過一套代碼滿足多樣化的訓(xùn)練需求。

設(shè)計(jì) 3: 設(shè)計(jì)面向強(qiáng)化學(xué)習(xí)的自適應(yīng)通信庫和自動(dòng)化調(diào)度模塊，

提升訓(xùn)練穩(wěn)定性和系統(tǒng)效率。

自適應(yīng)通信機(jī)制：

強(qiáng)化學(xué)習(xí)存在多個(gè)組件，且這些組件之間存在大量的數(shù)據(jù)交互。靈活、高效的互通信是支撐強(qiáng)化學(xué)習(xí)框架高效運(yùn)行的關(guān)鍵，也是框架可擴(kuò)展性的重要保證。因此，RLinf 特別設(shè)計(jì)了一套面向強(qiáng)化學(xué)習(xí)的通信庫，其中主要包含四項(xiàng)優(yōu)化技術(shù)：自適應(yīng) CUDAIPC/NCCL 通信、負(fù)載均衡傳輸隊(duì)列、多通道并發(fā)通信機(jī)制、快速通信重配置。

自適應(yīng) CUDAIPC/NCCL 通信：無需用戶配置，根據(jù)兩個(gè)互通信組件所在 GPU 自動(dòng)選擇使用 CUDAIPC 通信還是使用 NCCL 通信，即兩個(gè)組件位于同一個(gè) GPU 上時(shí)使用 CUDAIPC，位于不同 GPU 上時(shí)使用 NCCL。
負(fù)載均衡傳輸隊(duì)列：可以根據(jù)上一個(gè)組件在不同 GPU 上所產(chǎn)生數(shù)據(jù)量的大小，在發(fā)送給下一個(gè)組件的不同 GPU 時(shí)做數(shù)據(jù)量負(fù)載均衡，使得下一個(gè)組件不同 GPU 的計(jì)算量接近，提升系統(tǒng)運(yùn)行效率。

圖 6：負(fù)載均衡傳輸隊(duì)列

多通道并發(fā)通信：使用多 CUDA stream 以及多網(wǎng)絡(luò)流并發(fā)的通信，避免隊(duì)頭阻塞（Head-of-Line Blocking），降低通信延遲。
快速通信重配置：該功能主要面向大規(guī)模集群訓(xùn)練，是實(shí)現(xiàn)下文秒級動(dòng)態(tài)擴(kuò)縮的支撐技術(shù)之一，可有效解決通信容錯(cuò)和通信調(diào)整的問題。

自動(dòng)化調(diào)度模塊：

大規(guī)模強(qiáng)化學(xué)習(xí)框架的優(yōu)化目標(biāo)是盡量減少系統(tǒng)資源閑置。已有框架通常采用人為指定資源配置的方案，依賴于人工經(jīng)驗(yàn)，容易造成系統(tǒng)資源浪費(fèi)，RLinf 設(shè)計(jì)了一套自動(dòng)調(diào)度策略，可以針對用戶的訓(xùn)練流以及用戶所使用的計(jì)算資源，選擇最優(yōu)的執(zhí)行模式

具體而言，RLinf 會(huì)對各組件做自動(dòng)化性能分析，獲得各組件對資源的使用效率和特征。然后，構(gòu)建執(zhí)行模式的搜索空間，該搜索空間描述了強(qiáng)化學(xué)習(xí)算法各組件對計(jì)算資源的分配復(fù)用關(guān)系，包括 “時(shí)分復(fù)用”、“空分復(fù)用” 以及二者結(jié)合的資源分配方案；在這樣的建模下，RLinf 的自動(dòng)化調(diào)度不僅支持已有強(qiáng)化學(xué)習(xí)框架中 “共享式” 和 “分離式” 的典型資源分配方式，還支持二者結(jié)合的混合分配方案的建模分析。

最后，基于上述性能分析數(shù)據(jù)，在該空間中搜索出最優(yōu)的執(zhí)行模式。除此之外，該自動(dòng)調(diào)度策略還集成 “秒級在線擴(kuò)縮容（Online Scaling）” 能力，70B 模型只需 1 秒即可完成 5D 并行動(dòng)態(tài)擴(kuò)縮，而傳統(tǒng)方案需十幾秒甚至更久。該功能及相關(guān)論文將于 10 月上線開源版本?；谠摷夹g(shù)可進(jìn)一步實(shí)現(xiàn)運(yùn)行時(shí)組件間計(jì)算資源的動(dòng)態(tài)調(diào)度，配合細(xì)粒度流水設(shè)計(jì)，可以在保證算法 on-policy 屬性的前提下進(jìn)一步壓縮系統(tǒng)氣泡率，且顯著提升訓(xùn)練穩(wěn)定性。

RLinf 性能快覽

具身性能（采用 FSDP+HuggingFace 后端測試）：

在應(yīng)用上，與其他框架相比，RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持，為研究人員探索 VLAs+RL 領(lǐng)域提供了良好的基礎(chǔ)算法性能及測試平臺。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器（具體平臺見說明文檔），支持了百余類具身智能任務(wù)，集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。

特別地，團(tuán)隊(duì)率先實(shí)現(xiàn)了對 Pi 0 的大規(guī)模強(qiáng)化學(xué)習(xí)微調(diào)，相關(guān)算法及論文將在 9 月底發(fā)布。在量化指標(biāo)上，以 Maniskill3（典型的 GPU-based Simulator ）為例進(jìn)行測試，RLinf 采用混合式結(jié)合細(xì)粒度流水的執(zhí)行模式。相比其他框架的分離式執(zhí)行模式，系統(tǒng)效率顯著提速 120% 以上（圖 7）。

OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個(gè)任務(wù) [1] 中采用 PPO 算法和適配具身的 GRPO 算法訓(xùn)練后，成功率曲線如圖 8 所示，可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90%，漲幅 40%-50% 以上。

在公開測試平臺 LIBERO 的 4 個(gè)場景中，OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓(xùn)練后，平均成功率達(dá)到 97.3%，相比 SFT 模型漲幅 62.4%。

團(tuán)隊(duì)前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1]，RLinf 將研究進(jìn)一步拓展至大規(guī)模場景下，助力探索具身智能領(lǐng)域的 RL Scaling Law。相關(guān)模型已開源在 https://huggingface.co/RLinf，歡迎下載測試。

圖 7：RLinf 在 “渲訓(xùn)推一體化” 任務(wù)訓(xùn)練中顯著提速 120%+

圖 8：OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個(gè)任務(wù)中采用 PPO 算法及具身版 GRPO 算法的訓(xùn)練曲線

表 1：OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結(jié)果

推理性能（采用 Megtatron+SGLang 后端測試）：

面向具身智能是 RLinf 的應(yīng)用特色，但 RLinf 的系統(tǒng)設(shè)計(jì)思想不僅限于具身智能，靈活、可擴(kuò)展的設(shè)計(jì)理念使得其可以快速支持其他應(yīng)用，體現(xiàn)了其通用性。

以 RLinf 支持的推理大模型訓(xùn)練為例，團(tuán)隊(duì)集成優(yōu)化后的 GRPO 算法 [2] 進(jìn)行了數(shù)學(xué)推理大模型的訓(xùn)練，數(shù)據(jù)集為 AReal-boba 數(shù)據(jù)集 [3]，基座模型為 DeepSeek-R1-Distill-Qwen。在三個(gè)測試集（AIME24、AIME25、GPQA-diamond）中進(jìn)行測評，32 個(gè)樣本取平均，Pass@1 測試結(jié)果如表 2 和 3 所示，RLinf-math-1.5B 和 RLinf-math-7B 在三個(gè)測試集上均取得 SOTA 性能。

（注：表格中的模型均來自 HuggingFace 開源模型，統(tǒng)一測試腳本 https://github.com/RLinf/LLMEvalKit）

相關(guān)模型已開源在 https://huggingface.co/RLinf，歡迎下載測試。

表 2：1.5B 數(shù)學(xué)推理大模型在多個(gè)數(shù)據(jù)集的測評結(jié)果

表 3：7B 數(shù)學(xué)推理大模型在多個(gè)數(shù)據(jù)集的測評結(jié)果

Last but not least

考慮到框架的易用性，RLinf提供了全面且系統(tǒng)化的使用文檔。RLinf 在開發(fā)之初的目標(biāo)就是開源，因此讓每一個(gè)用戶能夠理解、使用和修改是設(shè)計(jì)原則之一，也是一個(gè)優(yōu)秀開源框架必備的屬性。團(tuán)隊(duì)采用公司級代碼開發(fā)流程，確保文檔內(nèi)容覆蓋從入門到深度開發(fā)的各層次需求。此外，RLinf 還提供完整的 API 文檔與集成 AI 問答機(jī)器人支持，以進(jìn)一步提升開發(fā)體驗(yàn)與支持效率。

圖 9：RLinf 文檔鏈接 https://rlinf.readthedocs.io/en/latest/

RLinf 團(tuán)隊(duì)的開發(fā)成員具有交叉研究背景，包含從系統(tǒng)到算法到應(yīng)用的技術(shù)全棧，例如系統(tǒng)架構(gòu)設(shè)計(jì)、分布式系統(tǒng)、大模型訓(xùn)練推理加速、強(qiáng)化學(xué)習(xí)、具身智能、智能體等。正是由于這樣的交叉背景，使得團(tuán)隊(duì)能夠從應(yīng)用需求驅(qū)動(dòng)算法設(shè)計(jì)，算法指導(dǎo)系統(tǒng)設(shè)計(jì)，高效系統(tǒng)加速算法迭代，體現(xiàn)了大模型時(shí)代下新型科研形態(tài)。未來 RLinf 團(tuán)隊(duì)也將持續(xù)開發(fā)和維護(hù)，具體 Roadmap 見 Github 網(wǎng)站。

RLinf 項(xiàng)目地址 https://github.com/RLinf/RLinf

最后，誠摯地邀請大家體驗(yàn) RLinf 框架，并且與我們交流技術(shù)觀點(diǎn)與潛在合作機(jī)會(huì)。同時(shí)，RLinf 團(tuán)隊(duì)持續(xù)招聘博士后、博士、碩士、研究員、工程師及實(shí)習(xí)生，歡迎投遞簡歷，與我們共同推進(jìn)下一代強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的建設(shè)與發(fā)展。

聯(lián)系方式：zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn

參考資料：

[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).

[2] https://github.com/inclusionAI/AReaL

[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.