明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
哦豁,OpenAI奧特曼又痛失一員大將。
Kevin Lu,領(lǐng)導(dǎo)4o-mini發(fā)布,并參與o1-mini、o3發(fā)布,主要研究強化學(xué)習、小模型和合成數(shù)據(jù)。
下一站是Thinking Machine Lab,OpenAI前CTO Mira Murati出走后新創(chuàng)立的AI公司,估值已達120億美元。
不完全統(tǒng)計,Thinking Machine Lab已經(jīng)集結(jié)數(shù)位OpenAI前核心研究員,包括John Schulman、Barrett Zoph、翁荔等。
從Meta到OpenAI,再離開
Kevin Lu畢業(yè)于UC伯克利,主要研究強化學(xué)習和離線序列數(shù)據(jù)建模。
畢業(yè)后先后加入Hudson River Trading和Meta,2024年3月加入OpenAI。
入職3個月后領(lǐng)導(dǎo)團隊完成了4o-mini,這是一個多模態(tài)推理小模型。支持圖文輸入、長上下文,適合復(fù)雜任務(wù);同時速度更快、成本更低。
此外還參與了o1-mini和o3的模型開發(fā)。主要擅長的領(lǐng)域應(yīng)該是小模型和強化學(xué)習。
其引用量最高的一篇論文是《決策Transformer:通過序列建模進行強化學(xué)習》,引用量2254。
這篇論文發(fā)表于2021年,研究團隊集結(jié)了UC伯克利、Meta AI、UCLA、OpenAI和Google Brain。
這是一個將強化學(xué)習問題視為條件序列建模的架構(gòu),通過將自回歸模型基于期望回報(獎勵)、過去的狀態(tài)和動作進行條件化,決策Transformer能夠生成期望回報的未來動作。
近期,Kevin Lu的一篇與他主要研究領(lǐng)域相關(guān)的博客還有點出圈:互聯(lián)網(wǎng)才是唯一重要的技術(shù)。
他認為現(xiàn)在對Transformer架構(gòu)的關(guān)注有點過高了,真正重要的還是數(shù)據(jù)。研究者們應(yīng)該關(guān)注如何從互聯(lián)網(wǎng)這樣的數(shù)據(jù)源中學(xué)習和預(yù)測,因為互聯(lián)網(wǎng)提供了大量序列相關(guān)數(shù)據(jù),非常適合進行“下一個token預(yù)測”。
在少量數(shù)據(jù)的環(huán)境里,Transformer將失去價值。
以及現(xiàn)在強化學(xué)習難以實現(xiàn)從GPT-1到GPT-4般的重大突破,應(yīng)該停止進行強化學(xué)習研究,將注意力放在產(chǎn)品開發(fā)上。
強化學(xué)習的未來可能涉及到新的數(shù)據(jù)源和獎勵機制創(chuàng)新,這可能是AI研究的新方向。
剛剛完成20億美元種子輪融資
Kevin Lu的下一站Thinking Machine Lab,也是AI領(lǐng)域近期討論度最高的初創(chuàng)公司之一。
它由OpenAI前CTO Mira Murati聯(lián)合多位OpenAI前成員成立。
除了Mira本人外,團隊核心成員已經(jīng)覆蓋AI領(lǐng)域目前的主要方向:
- John Schulman,OpenAI聯(lián)創(chuàng),ChatGPT架構(gòu)師
- Barrett Zoph,OpenAI前研究副總裁,后訓(xùn)練專家
- 翁荔,OpenAI前AI安全系統(tǒng)負責人,專長AI安全
- Andrew Tulloch,擅長預(yù)訓(xùn)練&推理
- Luke Metz,專注后訓(xùn)練
- Alexander Kirillov,OpenAI前多模態(tài)研究負責人
以及新加入的Kevin Lu,擅長小模型和強化學(xué)習。
根據(jù)LinkedIn信息,Kevin Lu已于7月正式從OpenAI離職。幾乎同時,Thinking Machine Lab完成破紀錄種子輪融資,估值飆升到120億美元。
而且在最近激烈的硅谷人才大戰(zhàn)中,Thinking Machine Lab獨善其身,十幾名成員無人接受小扎offer,10億美元薪酬都拒絕。
不過Thinking Machine Lab目前還未公開任何成果,倒是讓人更加期待了。
[1]https://x.com/miramurati/status/1945166365834535247
[2]https://kevinlu.ai/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.