新智元報道
編輯:KingHZ
【新智元導讀】OpenAI宮變之日,奧特曼突遭解雇,兩位關鍵人物Jakub Pachocki與Szymon Sidor挺身而出、力助奧特曼翻盤!而隨著AI能力的不斷增強,OpenAI波蘭雙雄對技術進步與安全問題的雙重關注,將引領AI走向更有意義的發(fā)展。
OpenAI早期,據說午餐時大家太緊張,以至于不敢說話,現在的氛圍輕松許多。
甚至OpenAI早期有個「波蘭幫」,比如聯合創(chuàng)始人Wojciech Zaremba(下圖左),后來在編程競賽擊敗ChatGPT的信息學奧賽金牌選手Przemys?aw Debiak(下圖右)。
還有兩位黃金級搭檔Jakub Pachocki和Szymon Sidor:
現首席科學家Jakub Pachocki,奧特曼稱贊為「我們這一代最杰出的頭腦之一」;
OpenAI技術Fellow、前者的高中同學Szymon Sidor。
最近,在《Before AGI》播客節(jié)目中,兩人一起回憶了OpenAI的崢嶸歲月。
兩位還和MIT教授、OpenAI前小組負責人Aleksander M?dry討論了ChatGPT時代、推理模型、可擴展的安全。
這對OpenAI「雙子星」分享了他們的合作模式:
Jakub通常會在辦公室或公寓里走來走去,陷入深度思考,探索如何理解某個現象;而Szymon則更傾向于立刻動手,采集數據,試試各種實驗。
有時候,解決問題最難的地方,其實「要相信它真的能被解決」。而Szymon擁有一種樂觀、果斷的氣質,他總是愿意動手干、愿意去采集數據。
而這次節(jié)目中,最珍貴的是OpenAI「宮變」當日的個人回憶。
OpenAI宮變當日
2023年11月17日中午,OpenAI董事會突然宣布罷免奧特曼的CEO職位。
當時,午飯時間Szymon Sidor突然看到了這個消息,他第一反應是去找Jakub。
Szymon Sidor直接打斷了正埋頭跟別人討論研究問題的Jakub。
Jakub馬上走出大樓,直接給奧特曼打電話,詢問發(fā)生了什么?
這個決定太突然了,也沒有任何事先解釋或預警。
接下來的幾天,大家都處于混亂中,試圖搞清楚:董事會為什么會做出這種決定?它對我們未來意味著什么?
順便插入一句,在奧特曼被解雇后,Jakub Pachocki、Szymon Sidor和Aleksander M?dry隨即追隨奧特曼,一起辭職。
回過頭看,這件事最重要的教訓是:治理結構真的很重要。
我們花了接近十年時間建設的OpenAI,居然可以因為一次治理決策而差點完全偏離軌道。
如果治理沒有提前規(guī)劃清楚,哪怕你技術再領先,也很脆弱。
雖然在設立機構結構時已經很認真了,但后來證明,OpenAI仍然低估了它真正的重要性。
在公司剛起步時做出的決定,即便當下看起來無關緊要,將來也可能影響深遠。
高中已相識
OpenAI再聚首
他們在波蘭高中相識,因為熱愛編程參加同一所計算機夏令營。
在到美國留學后,兩人友情升溫,分別求學于哈佛、MIT、CMU;2017年,再于OpenAI 重聚,成為橫跨算法、系統(tǒng)、推理研究的最佳搭檔。
倆人加入OpenAI的契機都因為AlphaGo的沖擊。
從高中起,Jakub Pachocki就非常沉迷于探索「計算機能力的極限」。
加入OpenAI前,他認為要實現具有推理能力的AI,條件并不成熟。
但AlphaGo的成功讓他意識到:AI的潛力遠超原先的判斷,原來我們真的已經進入一個新AI階段了。
從那一刻起,他就知道:是時候行動了。
早在OpenAI成立前,聯合創(chuàng)始人Wojciech Zaremba就試圖拉Jakub入坑深度學習。當時OpenAI還有其他熟人,而且面試也很順利,所以Jakub在8年前下定決心加入OpenAI,順利入職。
Szymon Sidor則起步于機器人系統(tǒng),最初的興趣竟源于電影《鋼鐵俠》。
他申請過美國一堆大學的機器人項目,最后因為英語考試,只有MIT沒有拒絕他。
雖然被錄取了,但他對機器人逐漸感到失望,甚至一度想退學。唯一讓他堅持下來的是:他開始對深度學習感興趣,全情投入AI前沿。后來又接觸了強化學習(RL)。
AlphaGo更是堅定了他要做AI的決心。
Szymon原本想去DeepMind,但面試時被一堆理論機器學習問題給刷下來了。而OpenAI更「工程務實」,加上朋友們都去,就一門心思奔OpenAI而去。
不過,最初他對「短期就能實現AGI」的時間線完全不信。
ChatGPT并非臨時起意
雖然現在的氛圍明顯更輕松了,但我還是覺得早期那種「笨拙」的感覺有一種特別的魅力。
當時大家說話都很慎重,一句句地在腦子里排練,最后說出來的通常都非常深刻,有時甚至挺有意思的。
在OpenAI, Jakub參與的第一個大項目是Dota 2。他們直接Scaling現有R算法,無腦放大最后竟然奏效了!
他們花了兩年,主要是解決工程瓶頸,而不是算法瓶頸。
Szymon則介紹了OpenAI早期的「集體冒名頂替綜合征」:
午飯時大家安靜如雞,每個人都在腦子里把要說的話排練十遍,然后才開口。
現在回頭看,那種「尷尬」也體現在技術路線:OpenAI東戳一下、西試一下,遲遲找不到聚焦點,直到GPT范式出現。
外界常說關于GPT的誕生,是Alec「偶然」發(fā)現。
真相是,Ilya和Alec早就盯上語言模型。
真正的跳躍是2017年的《情感神經元》論文。
當時,還沒有沒Transformer,但他們發(fā)現:只要用大量影評無監(jiān)督訓練,模型就能自發(fā)學會「正面/負面」情感概念。
那一刻大家意識到:原來不用語法規(guī)則,只靠數據也能捕捉到語義。此后,Alec持續(xù)在語言模型上深耕,最終發(fā)明了GPT。
Alec Radford:GPT開山論文作者,AI領域最強本科生之一
這個實驗顛覆了大家對語言建模的看法:此前大家還停留在「基于語法規(guī)則」的思路上。而這個結果表明,模型可以完全靠數據就學出語義。
不過,大部分OpenAI的研究員是在修bug。
OpenAI研究員
每天都在找bug
深度學習獨特之處在于:我們既完全掌控代碼與架構,卻又無法徹底理解網絡內部的優(yōu)化機制。于是哪怕一個小小的實現錯誤,模型也會「強行學出來」,導致結果看起來還行,實則偏差很大。
像研究自然現象一樣,兩人設計實驗:每一步都得驗證「是不是我們以為的那樣」。
比如,他們在訓練深度強學習算法DQN時,由于將游戲畫面轉成灰度圖,錯誤地校準了綠色通道的系數,結果游戲中的魚「消失」了,導致模型性能顯著下降。
比如,之前他們發(fā)現網絡偶爾會莫名其妙地「數值爆炸」。有一天他倆決定死磕,把每一個標量都打印出來,最后發(fā)現是某個梯度裁剪閾值在極端batch下失效。
從此之后,OpenAI招了一批「debug狂魔」,專門啃這種幽靈bug。
向推理模型的范式轉移
如果說GPT-3展現的是「語言生成能力」,那過去兩年,Jakub和Shimon領導團隊,正在推動「推理能力」。
他們的目標不是讓模型模仿人類的解題步驟,而是教模型學會用它自己的方式來思考。
這是「Chain of Thought」(思維鏈)范式的本質突破 —— 不再只是預測「人類怎么說」,而是嘗試生成「它自己該怎么想」。
雖然推理模型的實用性在提升,但離最終目標還有距離。
預計未來幾年進展會更快。
鋸齒智能:不斷定義的AGI
在過去,「AGI」是理想主義者口中的「智能奇點」。、
2017年,OpenAI對AGI的描述:「一個能完成絕大多數經濟價值任務的AI」。
看似是可衡量的技術目標,其實是一種情緒目標。
而現在,他們更傾向于把它視為:
一組不斷出現的新能力;
一條從「能聊天」到「能做科研」的技術演進路徑。
Jakub提出,「能自主進行科學研究的系統(tǒng)」是他心中最像AGI的形態(tài),而這種能力將在未來幾年內出現。
如果AGI定義為「引發(fā)大規(guī)模經濟轉型的AI」,那么它很快就要來了。
AGI 不僅是技術目標,也是一種情緒目標,是一直追逐的星辰大海。
而「自動研究員」正是我們這個推理方向的核心終點。
當然,越接近這個終點,「對齊問題」也就變得越重要。
未來
他們強調,對齊問題(AI Alignment)不僅是「技術問題」,更是「哲學難題」。
隨著模型越來越復雜,規(guī)則、監(jiān)督、懲罰這套體系將逐步失效。
他們舉了一個現實例子:社交媒體推薦系統(tǒng)。
AI不斷優(yōu)化「用戶參與感」,結果可能導致信息繭房、社會撕裂 —— 即便一開始的目標聽起來沒毛病。
我們如何確保模型真正做的是我們希望它做的事?這是一個巨大的挑戰(zhàn)。
而在那之前,其實還有一個更緊迫的問題: 如果一套極具研發(fā)能力的系統(tǒng)可以由少數人掌控,它能自己發(fā)明新技術……
那它對治理結構和權力平衡的影響,將是空前的。
最意外的是:原本懷疑「AI安全可行性」的Szymon,現在對安全問題最樂觀。
我們現在必須同時解決「能力」與「安全」,否則連有用的產品都做不出來。
他們用謹慎與熱忱提醒我們:
真正的AI進步,不只是「智能」,而是「讓世界更美好」。
參考資料:
https://x.com/aleks_madry/status/1950934417591181430
https://www.youtube.com/watch?v=LauSf7HoxwM
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.