新智元報道
編輯:定慧
【新智元導(dǎo)讀】前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資,估值約120億美元。Kevin Lu曾主導(dǎo)GPT-4o mini,長期研究強化學(xué)習(xí)、小模型與合成數(shù)據(jù)。
剛剛,OpenAI又離職一名華人大佬。
前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab。
Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布,并參與o*-mini、o3等模型工作。
Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。
2025年7月,公司創(chuàng)歷史完成約20億美元的超大額早期融資(a16z領(lǐng)投),估值約120億美元。
隨后團隊核心成員在社交平臺上互動表示歡迎。
Kevin Lu是強化學(xué)習(xí)與小模型方向的研究者,本科就讀于加州大學(xué)伯克利分校,在OpenAI期間專注強化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。
加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。
真正推動AI進步的是互聯(lián)網(wǎng)
Kevin Lu在小模型與合成數(shù)據(jù)上的實踐經(jīng)驗,有助于Thinking Machines縮短從論文到用戶價值的距離。
尤其是他7月的一篇博客非常出圈:真正推動AI進步是互聯(lián)網(wǎng)。
深入淺出的講明白一個事情:與其反復(fù)摳架構(gòu),不如擴大、豐富、貼近現(xiàn)實的數(shù)據(jù)來源(如互聯(lián)網(wǎng))與數(shù)據(jù)消耗方式,否則模型始終「見得少、懂得少」。
博客地址:https://kevinlu.ai/the-only-important-technology-is-the-internet
以下為博客的部分截取翻譯:
雖然AI的進步常被歸功于一些里程碑論文——比如transformers、RNNs、diffusion——但這忽略了AI最根本的瓶頸:數(shù)據(jù)。
那么,「好數(shù)據(jù)」究竟意味著什么?
如果我們真想推進AI,與其研究深度學(xué)習(xí)優(yōu)化,不如研究「互聯(lián)網(wǎng)」。
互聯(lián)網(wǎng)才是讓我們的AI模型實現(xiàn)規(guī)?;瘮U展的那項關(guān)鍵技術(shù)。
· Transformers是一種「分散注意力」
受架構(gòu)創(chuàng)新帶來的快速進展啟發(fā)(5年間從AlexNet到Transformer),許多研究者一直在尋找更好的架構(gòu)先驗,寄望于設(shè)計出「優(yōu)于Transformer」的新架構(gòu)。
事實上,Transformer之后確實出現(xiàn)了一些更好的架構(gòu);但為什么自GPT-4以來,我們很難「切身感到」這種改進?
· 范式更迭
算力受限(compute-bound)。
曾經(jīng),方法隨算力擴展,更高效的方法就更好。
真正重要的是把數(shù)據(jù)盡可能高效地塞進模型里;這些方法不僅效果更好,而且似乎「越大越靈」。
然后,數(shù)據(jù)受限(data-bound)。
研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法,比如SSMs與Mamba等。
但它們并非「免費的勝利」:在給定訓(xùn)練算力下,訓(xùn)練一個Transformer往往能得到更優(yōu)性能。
但數(shù)據(jù)綁定的范式是自由的:反正各種方法最終都差不多!
因此應(yīng)選擇推理階段更優(yōu)的方法,可能是某種「次二次注意力變體」(subquadratic attention variant)。
這些方法很可能會再度走到臺前。
· 研究者該做什么?
設(shè)想我們不只關(guān)心推理(可以理解為「產(chǎn)品」),而是關(guān)心漸近性能(可以理解為朝著AGI邁進):
顯然,只優(yōu)化架構(gòu)是錯的。
調(diào)整Q-function軌跡裁剪也不對。
手工打造新數(shù)據(jù)集無法擴展。
花哨的「時間高斯探索」(new temporal Gaussian exploration method)也大概率不具擴展性。
社區(qū)的許多成員已經(jīng)達成共識:應(yīng)研究新的「數(shù)據(jù)消費」方式。
目前兩大主流范式是:(1)下一個token預(yù)測(NTP)與(2)強化學(xué)習(xí)(RL)。
(顯然,我們在「新范式」上并沒取得太多突破)
AI的本質(zhì)就是「消耗數(shù)據(jù)」
目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑:
AlexNet(2012):用「下一個token預(yù)測」的視角來「消化」ImageNet。
GPT-2(2019):用下一個詞預(yù)測來學(xué)習(xí)互聯(lián)網(wǎng)文本。
原生多模態(tài)(如GPT-4o、Gemini 1.5):用下一個詞預(yù)測吸收互聯(lián)網(wǎng)的圖像與音頻。
ChatGPT:在聊天場景中用強化學(xué)習(xí)攝取隨機的人類偏好獎勵。
DeepSeek-R1:在狹窄領(lǐng)域用強化學(xué)習(xí)攝取確定且可驗證的獎勵。
就「下一個token預(yù)測」而言,互聯(lián)網(wǎng)是完美的解決方案:它提供了極其豐富的、按序相關(guān)的數(shù)據(jù),正好適合序列建模去學(xué)習(xí)。
互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」,天生適配下一個token預(yù)測;按不同順序重構(gòu),可以涌現(xiàn)多種有用能力。
這不是巧合:這種「序列數(shù)據(jù)」對下一個token預(yù)測近乎完美;互聯(lián)網(wǎng)與下一個token預(yù)測相輔相成。
「行星級」數(shù)據(jù)
Alec Radford在2020年的一個先見之明的演講中指出:盡管當(dāng)時提出了很多新方法,但都不如「擴大與整理數(shù)據(jù)」重要。
我們從「寄望更好方法帶來神奇泛化(比如損失函數(shù)暗含句法樹)」,轉(zhuǎn)向一個樸素原則:模型沒被告知的事,它當(dāng)然不知道。
與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測目標(biāo)」,不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進行預(yù)測。
每次我們做一個數(shù)據(jù)集,就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。
可憐的模型!它們知道的太少,仍有太多被隱藏。
自GPT-2之后,全球開始關(guān)注OpenAI,而時間也證明了其影響力。
如果有Transformer但沒有互聯(lián)網(wǎng)?
低數(shù)據(jù)。在低數(shù)據(jù)范式里,Transformer可能一文不值:其「架構(gòu)先驗」不如CNN或RNN,因此表現(xiàn)應(yīng)更差。
書籍。較不極端的情況是:若無互聯(lián)網(wǎng),我們可能用書籍/教材進行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰:作者受過良好教育,字斟句酌。這代表一種信念:「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。
教材與Phi。Phi系列(「Textbooks Are All You Need」)在小模型上表現(xiàn)出色,但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。
總體看,Phi很不錯,但尚未證明能達到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能;且教材缺少大量現(xiàn)實世界與多語言知識(不過在算力受限下它們很強)。
「數(shù)據(jù)類別」的類比
可把「教材」視作可驗證獎勵(表述幾乎總是真),而「書籍」(尤其是創(chuàng)作類)更像是「人類偏好」,能賦予學(xué)生模型更強的風(fēng)格多樣性。
就像我們可能不會讓o3或Sonnet 3.7替我們寫作一樣,只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。
因此Phi的PMF(產(chǎn)品市場契合)并不理想:需要知識時,人們偏好大模型;要本地「角色寫作」,人們也不太會選Phi。
互聯(lián)網(wǎng)之美
書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮(背后或許有強大智能在做壓縮)。
更上一層看,互聯(lián)網(wǎng)是極其多樣化的監(jiān)督源,也是人類的映射。
展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長期、持續(xù)增長
一些研究者可能覺得「為了研究進步要轉(zhuǎn)向產(chǎn)品」很奇怪(甚至是干擾),但如果我們關(guān)心AGI對人類有益(而不是像AlphaZero那樣在真空中聰明),就該考慮AGI的形態(tài)(產(chǎn)品)。
我認(rèn)為研究(預(yù)訓(xùn)練)與產(chǎn)品(互聯(lián)網(wǎng))的協(xié)同設(shè)計非常優(yōu)雅。
去中心化與多樣性
互聯(lián)網(wǎng)是去中心化的,任何人都能民主地添加知識;不存在單一真理源。
它承載了大量視角、文化模因和低資源語言;若用大模型在其上預(yù)訓(xùn)練,便能得到理解廣博知識的智能。
這意味著,互聯(lián)網(wǎng)的管理者(產(chǎn)品「管家」)對AGI的設(shè)計舉足輕重!
若削弱互聯(lián)網(wǎng)多樣性,模型在做RL時的「熵」(信息多樣度)會顯著變差;若刪除數(shù)據(jù),AGI中的整個亞文化都可能被抹去。
對齊。有非常有趣的結(jié)果表明:為了得到對齊的模型,必須同時在對齊與未對齊數(shù)據(jù)上預(yù)訓(xùn)練,因為預(yù)訓(xùn)練會學(xué)到二者之間線性可分的方向。
如果去除未對齊數(shù)據(jù),模型就難以理解「什么是不對齊,以及為何這是不好的數(shù)據(jù)」。(有點善惡共存,無善無惡的味道了)
上圖指標(biāo)越高(「Toxigen」)表示毒性越強。
在含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型,比在0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。
特別是,上述「有毒」數(shù)據(jù)來自4chan,這是一個匿名在線論壇,以其無限制的討論和有害內(nèi)容而聞名。
盡管這是一個產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例(我們需要這種無限制討論來實現(xiàn)對齊的研究模型),但我認(rèn)為你可以想到更多類似的案例,其中互聯(lián)網(wǎng)的設(shè)計決策在訓(xùn)練后影響了最終結(jié)果。
非對齊的另一個例子:Improving Image Generation with Better Captions推動了DALL·E 3的發(fā)展。
通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」,如今已廣泛用于生成模型。
這與RLHF的「點贊/點踩」在精神上相似。
「苦澀的教訓(xùn)」
必須牢記:人們確實想使用互聯(lián)網(wǎng),而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動的涌現(xiàn)結(jié)果。
如果我們總是手工整理數(shù)據(jù),就會出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對立。
有用的技能不應(yīng)由研究者來拍腦袋選,用戶會告訴你答案。
「人們想使用互聯(lián)網(wǎng)」的另一半原因是:人均成本足夠低,才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱,就不會有大規(guī)模數(shù)據(jù)貢獻。
人們常在「擴展性」討論里忽略這一點:互聯(lián)網(wǎng)是那個能擴展學(xué)習(xí)與搜索(數(shù)據(jù)與計算)的簡單理念。
若你找到這種「簡單理念」并把它做大,就會收獲卓越成果。
要點。互聯(lián)網(wǎng)之所以對訓(xùn)練極有用,是因為:
1)多樣,蘊含大量有用知識;
2)形成天然課程;
3)有產(chǎn)品市場契合,用戶持續(xù)供數(shù);
4)經(jīng)濟可行,單人成本低、可普及。
互聯(lián)網(wǎng)是「下一個token預(yù)測」的「對偶」
互聯(lián)網(wǎng)對監(jiān)督式的下一個token預(yù)測是如此完美的補充,以致我們甚至可以強說:給定互聯(lián)網(wǎng)這個「底座」,研究者幾乎必然會收斂到下一個token預(yù)測。
因此我會說:互聯(lián)網(wǎng)就是「下一個token預(yù)測」的對偶。
如上所述,盡管我們做了大量研究,當(dāng)下仍只有兩大范式。
因此,提出新的「產(chǎn)品」點子可能比提出新的「學(xué)習(xí)范式」更容易。這引出問題:那強化學(xué)習(xí)的「對偶」是什么?
現(xiàn)在有一些想法,但各有缺陷。它們都不算「純研究」,都涉及圍繞RL打造產(chǎn)品。
我們期望的屬性是:多樣性、天然課程、PMF、經(jīng)濟可行性。
最后一評:先犧牲一些多樣性也可以——在自家產(chǎn)品里用RL優(yōu)化指標(biāo)(游戲、自動售貨機、留存/利潤/參與度等)。
這可能有效,但難點在于:如何把它「升格」為一種多樣化、可擴展的獎勵宇宙,從而引發(fā)范式級躍遷。
總之,我們還遠未找到一個像「互聯(lián)網(wǎng)之于NTP」那樣優(yōu)雅且高產(chǎn)的「RL對偶」。
最后,Kevin Lu再次強調(diào),在訓(xùn)練里,模型只「看到」數(shù)據(jù)集里的東西;集外的世界等于被忽略(0 權(quán)重)。
希望有朝一日我們將找到方法來解決這個問題。
參考資料:
https://x.com/_kevinlu/status/1942977315031687460
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.