成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT 4o-mini華人領(lǐng)隊離開OpenAI:真正推動AI進步不是模型架構(gòu),而是互聯(lián)網(wǎng)

0
分享至


新智元報道

編輯:定慧

【新智元導(dǎo)讀】前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資,估值約120億美元。Kevin Lu曾主導(dǎo)GPT-4o mini,長期研究強化學(xué)習(xí)、小模型與合成數(shù)據(jù)。

剛剛,OpenAI又離職一名華人大佬。

前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab


Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布,并參與o*-mini、o3等模型工作。

Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。

2025年7月,公司創(chuàng)歷史完成20億美元的超大額早期融資(a16z領(lǐng)投),估值約120億美元。

隨后團隊核心成員在社交平臺上互動表示歡迎。



Kevin Lu是強化學(xué)習(xí)與小模型方向的研究者,本科就讀于加州大學(xué)伯克利分校,在OpenAI期間專注強化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。


加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。

真正推動AI進步的是互聯(lián)網(wǎng)

Kevin Lu在小模型與合成數(shù)據(jù)上的實踐經(jīng)驗,有助于Thinking Machines縮短從論文到用戶價值的距離。

尤其是他7月的一篇博客非常出圈:真正推動AI進步是互聯(lián)網(wǎng)。

深入淺出的講明白一個事情:與其反復(fù)摳架構(gòu),不如擴大、豐富、貼近現(xiàn)實的數(shù)據(jù)來源(如互聯(lián)網(wǎng))與數(shù)據(jù)消耗方式,否則模型始終「見得少、懂得少」。


博客地址:https://kevinlu.ai/the-only-important-technology-is-the-internet

以下為博客的部分截取翻譯:

雖然AI的進步常被歸功于一些里程碑論文——比如transformers、RNNs、diffusion——但這忽略了AI最根本的瓶頸:數(shù)據(jù)。

那么,「好數(shù)據(jù)」究竟意味著什么?

如果我們真想推進AI,與其研究深度學(xué)習(xí)優(yōu)化,不如研究「互聯(lián)網(wǎng)」。

互聯(lián)網(wǎng)才是讓我們的AI模型實現(xiàn)規(guī)?;瘮U展的那項關(guān)鍵技術(shù)。

· Transformers是一種「分散注意力」

受架構(gòu)創(chuàng)新帶來的快速進展啟發(fā)(5年間從AlexNet到Transformer),許多研究者一直在尋找更好的架構(gòu)先驗,寄望于設(shè)計出「優(yōu)于Transformer」的新架構(gòu)。

事實上,Transformer之后確實出現(xiàn)了一些更好的架構(gòu);但為什么自GPT-4以來,我們很難「切身感到」這種改進?


· 范式更迭

算力受限(compute-bound)。

曾經(jīng),方法隨算力擴展,更高效的方法就更好。

真正重要的是把數(shù)據(jù)盡可能高效地塞進模型里;這些方法不僅效果更好,而且似乎「越大越靈」。


然后,數(shù)據(jù)受限(data-bound)。

研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法,比如SSMs與Mamba等。

但它們并非「免費的勝利」:在給定訓(xùn)練算力下,訓(xùn)練一個Transformer往往能得到更優(yōu)性能。

數(shù)據(jù)綁定的范式是自由的:反正各種方法最終都差不多!

因此應(yīng)選擇推理階段更優(yōu)的方法,可能是某種「次二次注意力變體」(subquadratic attention variant)。

這些方法很可能會再度走到臺前。

· 研究者該做什么?

設(shè)想我們不只關(guān)心推理(可以理解為「產(chǎn)品」),而是關(guān)心漸近性能(可以理解為朝著AGI邁進):

  • 顯然,只優(yōu)化架構(gòu)是錯的。

  • 調(diào)整Q-function軌跡裁剪也不對。

  • 手工打造新數(shù)據(jù)集無法擴展。

  • 花哨的「時間高斯探索」(new temporal Gaussian exploration method)也大概率不具擴展性。

社區(qū)的許多成員已經(jīng)達成共識:應(yīng)研究新的「數(shù)據(jù)消費」方式。

目前兩大主流范式是:(1)下一個token預(yù)測(NTP)與(2)強化學(xué)習(xí)(RL)

(顯然,我們在「新范式」上并沒取得太多突破)

AI的本質(zhì)就是「消耗數(shù)據(jù)」

目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑:

  • AlexNet(2012):用「下一個token預(yù)測」的視角來「消化」ImageNet。

  • GPT-2(2019):用下一個詞預(yù)測來學(xué)習(xí)互聯(lián)網(wǎng)文本。

  • 原生多模態(tài)(如GPT-4o、Gemini 1.5):用下一個詞預(yù)測吸收互聯(lián)網(wǎng)的圖像與音頻。

  • ChatGPT:在聊天場景中用強化學(xué)習(xí)攝取隨機的人類偏好獎勵。

  • DeepSeek-R1在狹窄領(lǐng)域用強化學(xué)習(xí)攝取確定且可驗證的獎勵

「下一個token預(yù)測」而言,互聯(lián)網(wǎng)是完美的解決方案:它提供了極其豐富的、按序相關(guān)的數(shù)據(jù),正好適合序列建模去學(xué)習(xí)。


互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」,天生適配下一個token預(yù)測;按不同順序重構(gòu),可以涌現(xiàn)多種有用能力。

這不是巧合:這種「序列數(shù)據(jù)」對下一個token預(yù)測近乎完美;互聯(lián)網(wǎng)與下一個token預(yù)測相輔相成

「行星級」數(shù)據(jù)

Alec Radford在2020年的一個先見之明的演講中指出:盡管當(dāng)時提出了很多新方法,但都不如「擴大與整理數(shù)據(jù)」重要。


我們從「寄望更好方法帶來神奇泛化(比如損失函數(shù)暗含句法樹)」,轉(zhuǎn)向一個樸素原則:模型沒被告知的事,它當(dāng)然不知道

與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測目標(biāo)」,不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進行預(yù)測。

每次我們做一個數(shù)據(jù)集,就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。

可憐的模型!它們知道的太少,仍有太多被隱藏。


自GPT-2之后,全球開始關(guān)注OpenAI,而時間也證明了其影響力。

如果有Transformer但沒有互聯(lián)網(wǎng)?

低數(shù)據(jù)。在低數(shù)據(jù)范式里,Transformer可能一文不值:其「架構(gòu)先驗」不如CNN或RNN,因此表現(xiàn)應(yīng)更差。

書籍。較不極端的情況是:若無互聯(lián)網(wǎng),我們可能用書籍/教材進行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰:作者受過良好教育,字斟句酌。這代表一種信念:「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。


教材與Phi。Phi系列(「Textbooks Are All You Need」)在小模型上表現(xiàn)出色,但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。

總體看,Phi很不錯,但尚未證明能達到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能;且教材缺少大量現(xiàn)實世界與多語言知識(不過在算力受限下它們很強)。

「數(shù)據(jù)類別」的類比

可把「教材」視作可驗證獎勵(表述幾乎總是真),而「書籍」(尤其是創(chuàng)作類)更像是「人類偏好」,能賦予學(xué)生模型更強的風(fēng)格多樣性。

就像我們可能不會讓o3或Sonnet 3.7替我們寫作一樣,只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。

因此Phi的PMF(產(chǎn)品市場契合)并不理想:需要知識時,人們偏好大模型;要本地「角色寫作」,人們也不太會選Phi。

互聯(lián)網(wǎng)之美

書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮(背后或許有強大智能在做壓縮)。

更上一層看,互聯(lián)網(wǎng)極其多樣化的監(jiān)督源,也人類的映射


展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長期、持續(xù)增長

一些研究者可能覺得「為了研究進步要轉(zhuǎn)向產(chǎn)品」很奇怪(甚至是干擾),但如果我們關(guān)心AGI對人類有益(而不是像AlphaZero那樣在真空中聰明),就該考慮AGI的形態(tài)(產(chǎn)品)

我認(rèn)為研究(預(yù)訓(xùn)練)與產(chǎn)品(互聯(lián)網(wǎng))的協(xié)同設(shè)計非常優(yōu)雅。


去中心化與多樣性

互聯(lián)網(wǎng)是去中心化的,任何人都能民主地添加知識;不存在單一真理源。

它承載了大量視角、文化模因和低資源語言;若用大模型在其上預(yù)訓(xùn)練,便能得到理解廣博知識的智能。

這意味著,互聯(lián)網(wǎng)的管理者(產(chǎn)品「管家」)對AGI的設(shè)計舉足輕重!

若削弱互聯(lián)網(wǎng)多樣性,模型在做RL時的「熵」(信息多樣度)會顯著變差;若刪除數(shù)據(jù),AGI中的整個亞文化都可能被抹去。

對齊。有非常有趣的結(jié)果表明:為了得到對齊的模型,必須同時在對齊與未對齊數(shù)據(jù)上預(yù)訓(xùn)練,因為預(yù)訓(xùn)練會學(xué)到二者之間線性可分的方向。

如果去除未對齊數(shù)據(jù),模型就難以理解「什么是不對齊,以及為何這是不好的數(shù)據(jù)」。(有點善惡共存,無善無惡的味道了)


上圖指標(biāo)越高(「Toxigen」)表示毒性越強。

含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型,0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。

特別是,上述「有毒」數(shù)據(jù)來自4chan,這是一個匿名在線論壇,以其無限制的討論和有害內(nèi)容而聞名。

盡管這是一個產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例(我們需要這種無限制討論來實現(xiàn)對齊的研究模型),但我認(rèn)為你可以想到更多類似的案例,其中互聯(lián)網(wǎng)的設(shè)計決策在訓(xùn)練后影響了最終結(jié)果。


非對齊的另一個例子:Improving Image Generation with Better Captions推動了DALL·E 3的發(fā)展。

通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」,如今已廣泛用于生成模型。

這與RLHF的「點贊/點踩」在精神上相似。

「苦澀的教訓(xùn)」

必須牢記:人們確實想使用互聯(lián)網(wǎng),而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動的涌現(xiàn)結(jié)果。

如果我們總是手工整理數(shù)據(jù)就會出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對立。

有用的技能不應(yīng)由研究者來拍腦袋選,用戶會告訴你答案。

「人們想使用互聯(lián)網(wǎng)」的另一半原因是:人均成本足夠低,才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱,就不會有大規(guī)模數(shù)據(jù)貢獻。

人們常在「擴展性」討論里忽略這一點:互聯(lián)網(wǎng)是那個能擴展學(xué)習(xí)與搜索(數(shù)據(jù)與計算)的簡單理念。

若你找到這種「簡單理念」并把它做大,就會收獲卓越成果。

要點。互聯(lián)網(wǎng)之所以對訓(xùn)練極有用,是因為:

1)多樣,蘊含大量有用知識;

2)形成天然課程;

3)有產(chǎn)品市場契合,用戶持續(xù)供數(shù);

4)經(jīng)濟可行,單人成本低、可普及。

互聯(lián)網(wǎng)是「下一個token預(yù)測」的「對偶」

互聯(lián)網(wǎng)對監(jiān)督式的下一個token預(yù)測是如此完美的補充,以致我們甚至可以強說:給定互聯(lián)網(wǎng)這個「底座」,研究者幾乎必然會收斂到下一個token預(yù)測。

因此我會說:互聯(lián)網(wǎng)就是「下一個token預(yù)測」的對偶


如上所述,盡管我們做了大量研究,當(dāng)下仍只有兩大范式。

因此,提出新的「產(chǎn)品」點子可能比提出新的「學(xué)習(xí)范式」更容易。這引出問題:強化學(xué)習(xí)的「對偶」是什么?

現(xiàn)在有一些想法,但各有缺陷。它們都不算「純研究」,都涉及圍繞RL打造產(chǎn)品

我們期望的屬性是:多樣性、天然課程、PMF、經(jīng)濟可行性。

最后一評:犧牲一些多樣性也可以——在自家產(chǎn)品里用RL優(yōu)化指標(biāo)(游戲、自動售貨機、留存/利潤/參與度等)。

這可能有效,但難點在于:如何把它「升格」為一種多樣化、可擴展的獎勵宇宙,從而引發(fā)范式級躍遷

總之,我們還遠未找到一個像「互聯(lián)網(wǎng)之于NTP」那樣優(yōu)雅且高產(chǎn)的「RL對偶」。


最后,Kevin Lu再次強調(diào),在訓(xùn)練里,模型只「看到」數(shù)據(jù)集里的東西;集外的世界等于被忽略(0 權(quán)重)。

希望有朝一日我們將找到方法來解決這個問題。

參考資料:

https://x.com/_kevinlu/status/1942977315031687460


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
楊穎罕見參加閨蜜生日宴,與陳妍希罕見同框,把對方比得像素人

楊穎罕見參加閨蜜生日宴,與陳妍希罕見同框,把對方比得像素人

農(nóng)村娛樂光哥
2025-09-02 12:48:01
壓了7年,耗資2億,40集《新神雕》將上映,網(wǎng)友:看劇照就想避雷

壓了7年,耗資2億,40集《新神雕》將上映,網(wǎng)友:看劇照就想避雷

銀河史記
2025-09-01 16:06:11
腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點

腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點

荷蘭豆愛健康
2025-08-30 08:55:46
中國兩天重錘四家,力度前所未見!美專家:中國將會是新的領(lǐng)導(dǎo)者

中國兩天重錘四家,力度前所未見!美專家:中國將會是新的領(lǐng)導(dǎo)者

boss外傳
2025-09-01 18:30:03
又一對明星在海外棄養(yǎng)孩子,背后瓜太爆了!

又一對明星在海外棄養(yǎng)孩子,背后瓜太爆了!

毒舌八卦
2025-09-01 23:17:07
DeepSeek預(yù)測:2030年,300萬的房子還值多少錢?終于答案揭曉了

DeepSeek預(yù)測:2030年,300萬的房子還值多少錢?終于答案揭曉了

巢客HOME
2025-08-31 06:30:03
現(xiàn)場觀看京魯大戰(zhàn),郭田雨更新社媒:可惜沒如果

現(xiàn)場觀看京魯大戰(zhàn),郭田雨更新社媒:可惜沒如果

雷速體育
2025-09-02 14:38:09
“假愛國”風(fēng)波3年后,51歲吳京又傳壞消息,多位明星都被牽連

“假愛國”風(fēng)波3年后,51歲吳京又傳壞消息,多位明星都被牽連

素衣讀史
2025-09-02 16:19:53
最快護士喊話領(lǐng)導(dǎo)后續(xù)!被批謊話連篇,賬號曝光已關(guān)評,同行發(fā)聲

最快護士喊話領(lǐng)導(dǎo)后續(xù)!被批謊話連篇,賬號曝光已關(guān)評,同行發(fā)聲

法老不說教
2025-09-01 19:33:57
凈賺1億!英超“黑店”誕生:賣4大主力重建 2連勝力壓曼聯(lián)

凈賺1億!英超“黑店”誕生:賣4大主力重建 2連勝力壓曼聯(lián)

葉青足球世界
2025-09-02 11:35:20
你見過的土豪是什么樣子的?網(wǎng)友:前臺小姐直接跟著他走了

你見過的土豪是什么樣子的?網(wǎng)友:前臺小姐直接跟著他走了

特約前排觀眾
2025-08-19 00:20:03
韓國反華狂熱是政治精英的勝利,卻是國家利益的失敗

韓國反華狂熱是政治精英的勝利,卻是國家利益的失敗

觀察者網(wǎng)
2025-09-02 09:23:05
事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

優(yōu)趣紀(jì)史記
2025-08-13 18:46:36
U16亞洲杯中國男籃大勝韓國:3戰(zhàn)狂勝130分直通八強 張子一21+20

U16亞洲杯中國男籃大勝韓國:3戰(zhàn)狂勝130分直通八強 張子一21+20

醉臥浮生
2025-09-02 18:17:05
哈爾濱馬拉松比賽女護士奪冠后哭求領(lǐng)導(dǎo)支持調(diào)休,當(dāng)事人賬號發(fā)布情況說明后又刪除

哈爾濱馬拉松比賽女護士奪冠后哭求領(lǐng)導(dǎo)支持調(diào)休,當(dāng)事人賬號發(fā)布情況說明后又刪除

大象新聞
2025-09-02 00:47:06
或有變故!臺島受邀93閱兵人士名單曝光,首位明確拒絕的人出現(xiàn)

或有變故!臺島受邀93閱兵人士名單曝光,首位明確拒絕的人出現(xiàn)

林子說事
2025-09-02 16:10:40
1.4億運動手環(huán)項目突然叫停!上海教育局遭遇了什么?

1.4億運動手環(huán)項目突然叫停!上海教育局遭遇了什么?

視界面面觀
2025-09-02 12:26:01
“最快女護士”哭訴調(diào)休難,跑友發(fā)聲!主辦方稱未給其發(fā)獎金

“最快女護士”哭訴調(diào)休難,跑友發(fā)聲!主辦方稱未給其發(fā)獎金

南方都市報
2025-09-02 16:47:05
女人在發(fā)生關(guān)系時,最想聽到的“下流話”你知道嗎?

女人在發(fā)生關(guān)系時,最想聽到的“下流話”你知道嗎?

思絮
2025-08-29 08:23:08
是誰的天塌了?特斯拉Model Y L開啟交付

是誰的天塌了?特斯拉Model Y L開啟交付

一同選車
2025-09-02 17:02:54
2025-09-02 18:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13369文章數(shù) 66141關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

3歲半女童身高1米1體重58斤入學(xué)超顯眼 比同學(xué)大一圈

頭條要聞

3歲半女童身高1米1體重58斤入學(xué)超顯眼 比同學(xué)大一圈

體育要聞

等了十年,石宇奇終于說出這句話

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經(jīng)要聞

一級市場不靈,LP勸我去炒股

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
公開課
軍事航空

家居要聞

簡約清新 暖色宜居小家

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | “中式美學(xué)”打開夏日濰坊

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進入關(guān)懷版