成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Karpathy盛贊「環(huán)境中心」!AGI最后一塊拼圖開源,大廠豪擲百萬鎖死

0
分享至


新智元報道

編輯:桃子 艾倫

【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)核心是什么?Karpathy一語道破——環(huán)境。全新開源Environments Hub橫空出世,為強(qiáng)化學(xué)習(xí)訓(xùn)練帶去革命性突破。

強(qiáng)化學(xué)習(xí)時代,什么最重要?

Karpathy給出了答案,環(huán)境!只有環(huán)境,才能讓LLM真正進(jìn)行交互、執(zhí)行動作、觀察結(jié)果。


如今,一個開源的環(huán)境中心——Environments Hub正式登場了,它由一家專注于去中心化AI開發(fā)公司Prime Intellect發(fā)布。


一直以來,RL環(huán)境是割裂的、封閉的,甚至難以共享。

但有且只有環(huán)境,定義了世界、規(guī)則,以及「狀態(tài)—動作—獎勵」的反饋閉環(huán)。

從游戲到編程,再到聊天對話,它們是AI學(xué)習(xí)發(fā)生的場景。沒有它們,RL只是一套無從著力的算法。


Environments Hub的誕生,能夠讓任何人模擬出各種各樣、高質(zhì)量的環(huán)境,為開源AGI做出貢獻(xiàn)。

AI智能體交互,缺的是環(huán)境

RL環(huán)境,是智能體學(xué)習(xí)的試驗場。

回想一下,在預(yù)訓(xùn)練時代,互聯(lián)網(wǎng)數(shù)據(jù)是核心。LLM主要通過大量多樣,且高質(zhì)量的數(shù)據(jù)來學(xué)習(xí)。

到了監(jiān)督微調(diào)階段,重點變成了「對話數(shù)據(jù)」。

人們會雇傭外包團(tuán)隊,來為問題創(chuàng)建答案,類似Stack Overflow、Quora平臺的模式,但又專為LLM使用場景而設(shè)計。

如今到了強(qiáng)化學(xué)習(xí)時代,前兩個階段不會消失,但不同的是,環(huán)境成為了重心。

這些環(huán)境,可以用于模型訓(xùn)練,也可用于評估。不過,問題在于,如何創(chuàng)建出豐富多樣的環(huán)境?

Karpathy回憶道,OpenAI最早的一個項目Gym,一個希望用統(tǒng)一框架去構(gòu)建大規(guī)模環(huán)境集合。


GitHub地址:https://github.com/openai/gym

不過,這都是近十年前,大模型還未興起的項目了。所以,當(dāng)時的環(huán)境,都是一些簡單的經(jīng)典控制任務(wù),比如cartpole、ATARI之類的。

而現(xiàn)在,Environments Hub是一個專門針對LLM構(gòu)建的版本。

Karpathy激動地表示,「這是個非常棒的努力和想法」。今年初,他還發(fā)文建議過有人應(yīng)該做類似的事情。


Environments Hub有個特點,一旦框架構(gòu)建完成,原則上社區(qū)和行業(yè)就可以在不同領(lǐng)域并行開發(fā)。

而且,環(huán)境和智能體交互的方向,是下一個未來。


大廠斥資幾百萬,搞出圍墻花園

為什么需要打造一個Environments Hub呢?

目前,多數(shù)強(qiáng)化學(xué)習(xí)環(huán)境是由初創(chuàng)公司構(gòu)建,并將其出售給少數(shù)幾家不對外開放的大型實驗室。

如果高質(zhì)量的學(xué)習(xí)環(huán)境一直保持封閉且昂貴,開源模型將進(jìn)一步落后于閉源模型。

要想扭轉(zhuǎn)這種局勢,需要有一個強(qiáng)大的開源學(xué)習(xí)環(huán)境和訓(xùn)練工具生態(tài)系統(tǒng)能崛起。


Environments Hub正是承載著這個使命應(yīng)運(yùn)而生,旨在讓下一波初創(chuàng)公司和AI的發(fā)展能夠構(gòu)建于開放的基礎(chǔ)設(shè)施和開源模型之上。

核心功能,一鍵生成評估報告

總結(jié)來說,Environments Hub具備了以下功能亮點:

  • 通過Hub或CLI(命令行)拉取、推送并管理環(huán)境

  • 生成跨模型的評測報告

  • 與verifiers框架深度集成

  • prime-rl訓(xùn)練器原生支持環(huán)境

  • 提供用于代碼執(zhí)行的原生沙箱支持

你可以創(chuàng)建、管理和共享用于強(qiáng)化學(xué)習(xí)及評估的環(huán)境:


可以為不同模型創(chuàng)建和瀏覽環(huán)境評估報告:


可擴(kuò)展訓(xùn)練器prime-rl原生支持這些環(huán)境:


還有沙盒功能,可直接與Verifier Environments對接,以實現(xiàn)安全的代碼執(zhí)行。


如果還有你需求的功能沒有滿足,你也可以親自作為該開源項目開發(fā)者去貢獻(xiàn)代碼。

下一步:全棧式開源AGI基礎(chǔ)設(shè)施

過去幾個月中,Environments Hub將基于Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到規(guī)模最大的開源模型,并取得了顯著進(jìn)展。

隨著眾多眾包環(huán)境被引入INTELLECT-3,訓(xùn)練出一個完全開放、最先進(jìn)的Agent模型將成為可能。

除此之外,Environments Hub關(guān)心的重點是,讓人人都能用上這套基礎(chǔ)設(shè)施,使研究人員和初創(chuàng)公司都能為自己的任務(wù)訓(xùn)練模型、集成工具、運(yùn)行強(qiáng)化微調(diào),以及優(yōu)化Agent支撐框架。

prime-rl的整個技術(shù)棧都是開源的,正在擴(kuò)展到全球的計算資源上無縫運(yùn)行。

強(qiáng)化學(xué)習(xí)不僅是通往AGI的必經(jīng)之路,也是構(gòu)建AI原生產(chǎn)品的基礎(chǔ)。

未來最成功的初創(chuàng)公司,將是那些能根據(jù)自身需求,創(chuàng)造出差異化環(huán)境的公司。


如今,最大的障礙并非獲取強(qiáng)大模型,而在于大規(guī)模訓(xùn)練和部署它們所需的基礎(chǔ)設(shè)施及成本。

通過降低這一門檻,Environments Hub旨在為所有AI構(gòu)建者提供廉價、無縫的計算、推理和訓(xùn)練資源,以及全套的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。

參考資料:

https://www.primeintellect.ai/blog/environments

https://x.com/karpathy/status/1960803117689397543


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這是毛主席重回井岡山25張照,見袁文才遺孀,脫口而出“袁嫂子”

這是毛主席重回井岡山25張照,見袁文才遺孀,脫口而出“袁嫂子”

博古通今天下事
2025-08-31 07:05:08
日本成人影視界05后新星,你知道幾個,誰最火?

日本成人影視界05后新星,你知道幾個,誰最火?

素然追光
2025-08-31 04:35:02
重磅賽事!8月31日晚20:00!中央5套CCTV5、CCTV5+直播節(jié)目表

重磅賽事!8月31日晚20:00!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-08-31 11:01:49
團(tuán)滅胡賽總理及多名部長,哈馬斯真主黨伊朗之后、以軍重點打胡賽

團(tuán)滅胡賽總理及多名部長,哈馬斯真主黨伊朗之后、以軍重點打胡賽

邵旭峰域
2025-08-31 10:48:28
恭喜!社保沒繳滿15年的有福了?9月新規(guī)出爐,全都這樣辦!

恭喜!社保沒繳滿15年的有福了?9月新規(guī)出爐,全都這樣辦!

慧眼看世界哈哈
2025-08-30 09:50:37
江蘇三名干部,任上被查

江蘇三名干部,任上被查

魯中晨報
2025-08-29 17:45:35
男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

第四思維
2025-08-27 09:22:11
62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

柴叔帶你看電影
2025-08-29 15:40:28
痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

英國報姐
2025-08-15 21:55:58
事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

優(yōu)趣紀(jì)史記
2025-08-13 18:46:36
定了!澳大利亞,參加中國閱兵!

定了!澳大利亞,參加中國閱兵!

澳洲財經(jīng)見聞
2025-08-30 16:41:32
大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺停用

大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺停用

軒逸阿II
2025-08-30 15:52:54
今日!CCTV5直播中國女排+國羽陳雨菲PK山口茜,CCTV16轉(zhuǎn)中超國安

今日!CCTV5直播中國女排+國羽陳雨菲PK山口茜,CCTV16轉(zhuǎn)中超國安

晚池
2025-08-31 03:05:05
92年陶斯亮與李訥重逢,兩人談到一話題,李訥笑問:你能跟我比嗎

92年陶斯亮與李訥重逢,兩人談到一話題,李訥笑問:你能跟我比嗎

南書房
2025-08-30 17:35:06
《兵臨城下》沒拍透的斯大林格勒,真實比電影狠 10 倍

《兵臨城下》沒拍透的斯大林格勒,真實比電影狠 10 倍

陳天宇
2025-08-29 11:20:18
國家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

國家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

陌識
2025-08-30 16:17:10
弗朗西斯科32+7+5 東契奇空砍39+8+9 斯洛文尼亞46罰仍負(fù)法國

弗朗西斯科32+7+5 東契奇空砍39+8+9 斯洛文尼亞46罰仍負(fù)法國

直播吧
2025-08-31 01:49:12
廣西這座城市即將迎來高鐵站!

廣西這座城市即將迎來高鐵站!

南國今報
2025-08-31 14:09:58
林達(dá):仇恨教育是砸自己腳的石頭!

林達(dá):仇恨教育是砸自己腳的石頭!

深度報
2025-08-30 23:17:25
明天務(wù)必提早15分鐘出門!剛剛,杭州重要提醒!

明天務(wù)必提早15分鐘出門!剛剛,杭州重要提醒!

魯中晨報
2025-08-31 12:17:46
2025-08-31 16:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13357文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對比

頭條要聞

考生考出691分超高分 拒絕多校邀請選南大"冷門絕學(xué)"

頭條要聞

考生考出691分超高分 拒絕多校邀請選南大"冷門絕學(xué)"

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

旅游
健康
游戲
親子
家居

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

精神科專家解答學(xué)習(xí)困難七大問題

學(xué)Switch?PS6掌機(jī)被曝主機(jī)與便攜雙模式自由切換

親子要聞

我才30歲卵巢早衰怎么辦?還能懷孕嗎?

家居要聞

提升功能 靈活居住環(huán)境

無障礙瀏覽 進(jìn)入關(guān)懷版