小扎在這頭瘋狂挖人,結(jié)果家里的老員工紛紛跑路了??
最新消息,Meta萬引強(qiáng)化學(xué)習(xí)大佬Rishabh Agarwal即將離職,還留下了一篇讓人浮想聯(lián)翩的小作文:
- 這是我在Meta的最后一周。
- 決定不加入新的超級(jí)智能實(shí)驗(yàn)室并不容易,畢竟那里人才濟(jì)濟(jì)、算力爆棚。但在Google Brain、DeepMind和Meta度過了7年半之后,我更想冒險(xiǎn)去嘗試一條完全不同的路。
- Meta組建超級(jí)智能團(tuán)隊(duì)的想法非常引人注目,但我最終選擇聽從扎克伯格的建議:“在這個(gè)瞬息萬變的世界里,最大的風(fēng)險(xiǎn)就是不去冒險(xiǎn)。”
雖然表面上看起來雙方是“和平分手”,但網(wǎng)友們還是從中嗅出了一絲不同尋常的味道:
- 把小扎的原話甩回他自己臉上,這操作絕了,瑞思拜!
- 十億可以為你買一棟房子,但買不到你的夢(mèng)想。
不過猜測也好,吐槽也罷。對(duì)于Rishabh Agarwal的離職,谷歌、Meta的同事們都清一色地送上了祝福,而且還順帶回顧了他在工作期間作出的貢獻(xiàn)。
據(jù)了解,他參與了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后訓(xùn)練方面的重要工作,2021年還以一篇RL算法評(píng)估論文拿下了NeurIPS杰出論文獎(jiǎng)。
所以,Rishabh Agarwals是誰?他的離職又為何在這個(gè)節(jié)骨眼掀起波瀾?
曾被Hinton勸退“不要做強(qiáng)化學(xué)習(xí)”,下一站未定
Rishabh Agarwals,一直以來從事強(qiáng)化學(xué)習(xí)和推理研究,谷歌學(xué)術(shù)論文被上萬次引用,h-index也有34。
本科畢業(yè)于印度理工學(xué)院孟買分校計(jì)算機(jī)科學(xué)與工程專業(yè),成績屬于系前幾名那種。
2018年,他以AI Resident的身份加入Google Brain多倫多團(tuán)隊(duì),在Geoffrey Hinton團(tuán)隊(duì)里工作了一年。
頗具戲劇性的是,Hinton還曾建議他“不要做強(qiáng)化學(xué)習(xí)(RL)”,不過話鋒一轉(zhuǎn),老爺子也留有余地——應(yīng)該做自己認(rèn)為最好的事情(畢竟他本人當(dāng)年做的事也不被所有人看好)。
于是,Rishabh Agarwals義無反顧地投身強(qiáng)化學(xué)習(xí),并決定繼續(xù)攻讀博士學(xué)位。
第二年,他就前往蒙特利爾的Mila研究所申請(qǐng)PhD,由于和面試官之一Aaron Courville(和Bengio等人合著了《深度學(xué)習(xí)》這本經(jīng)典教材)在強(qiáng)化學(xué)習(xí)領(lǐng)域的研究方向“完全相同”,當(dāng)場就被邀請(qǐng)并加入其團(tuán)隊(duì)。
接下來的四年時(shí)間,他在Aaron Courvilleh和Marc Bellemare兩位頂尖導(dǎo)師的指導(dǎo)下繼續(xù)深耕強(qiáng)化學(xué)習(xí),同時(shí)還保留著在Google Brain的全職工作。
直到2023年,Marc Bellemare發(fā)了一條提前慶祝他通過博士畢業(yè)答辯的推文,連谷歌首席科學(xué)家Jeff Dean這樣的大佬也趕來祝賀。
在這之后,他順理成章地加入蒙特利爾谷歌DeepMind團(tuán)隊(duì),擔(dān)任研究科學(xué)家,同時(shí)在麥吉爾大學(xué)做兼職教授。
而在谷歌工作期間,他參與了Gemini 1.5(當(dāng)時(shí)號(hào)稱最強(qiáng)多模態(tài)、上下文突破100萬)、Gemma 2(新一代輕量級(jí)開源模型)、Gemma 3等重要模型的發(fā)布工作。
2021年,他還發(fā)表了論文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》,一舉斬獲NeurIPS杰出論文獎(jiǎng)。
簡單來說,這篇論文分析了深度強(qiáng)化學(xué)習(xí)中的統(tǒng)計(jì)不穩(wěn)定性問題,指出在有限實(shí)驗(yàn)下評(píng)估算法可能產(chǎn)生誤導(dǎo)性結(jié)果。由于系統(tǒng)性揭示了RL中的方差問題與過擬合風(fēng)險(xiǎn),被認(rèn)為是評(píng)價(jià)RL算法的里程碑工作。
后來他才從谷歌跑去了Meta,并著手推進(jìn)Meta推理模型的后訓(xùn)練工作,具體包括:
- 用RL規(guī)模化訓(xùn)練,把8B稠密模型推到接近DeepSeek-R1的水平;
- 在訓(xùn)練中途引入合成數(shù)據(jù),為RL提供熱啟動(dòng);
- 提出更高效的on-policy蒸餾方法。
如今隨著Rishabh Agarwals的離開,網(wǎng)友們也紛紛替Meta惋惜又損失了一員大將。
目前Rishabh Agarwals的下一站并未明確,不過按照他“想要嘗試完全不同的一條路”的說法,人們推測大概率會(huì)是創(chuàng)業(yè)。
Meta老員工開始出逃了?
其實(shí)不止Rishabh Agarwals,幾乎同一時(shí)間,一位在Meta工作了12年的老員工也宣布離職了。
而且下一站還是Anthropic的推理團(tuán)隊(duì)(屬于直接擁抱曾經(jīng)的競爭對(duì)手了)。
有一說一,Meta這波漸起的老員工出逃趨勢并不出人意料。
此前就有消息稱,Meta新老員工之間因薪酬待遇懸殊而產(chǎn)生摩擦,其中一些研究人員甚至威脅要辭職。
合理推測,招聘熱潮帶來的內(nèi)部矛盾,可能是導(dǎo)致這些資深員工選擇離開的重要原因之一。
嗯,小扎這波也屬于一邊蓄水,一邊開閘了(doge)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.