機(jī)器之心報(bào)道
編輯:澤南、Panda
AI 也要「考古」式科研?
人工智能的「第一性原理」擴(kuò)展定律(Scaling Laws),把模型性能與算力等資源投入聯(lián)系在了一起,是如今人們構(gòu)建更先進(jìn)大模型重要的參考標(biāo)尺。
有關(guān)擴(kuò)展定律的起源,存在很多種說(shuō)法,有人認(rèn)為是 2020 年 OpenAI 提出的,有人認(rèn)為是 2017 年百度發(fā)現(xiàn)的,詳情可參閱我們之前的報(bào)道《遺憾不?原來(lái)百度 2017 年就研究過(guò) Scaling Law,連 Anthropic CEO 靈感都來(lái)自百度》。
前些天,康奈爾大學(xué)博士生、Meta 研究員 Jack Morris 發(fā)推稱 Scaling Law 的真正探索者其實(shí)是貝爾實(shí)驗(yàn)室,這又進(jìn)一步將歷史向前推到了 1993 年。
他進(jìn)一步解釋說(shuō),這篇論文其實(shí)是一篇 NeurIPS 論文。貝爾實(shí)驗(yàn)室的研究者「在不同大小的數(shù)據(jù)集、不同大小的模型上訓(xùn)練了分類器并擬合了冪律」。這讓 Morris 不禁感嘆:「不敢相信這已經(jīng)是 32 年前的事了?!?/p>
近日,OpenAI 聯(lián)合創(chuàng)始人、總裁 Greg Brockman 也轉(zhuǎn)發(fā)了這一消息,并表示這些結(jié)果跨越了多個(gè)數(shù)量級(jí)和幾十年的時(shí)間,經(jīng)歷了時(shí)間的考驗(yàn),可以說(shuō)揭示了深度學(xué)習(xí)的根本。
這也不得不讓人贊嘆貝爾實(shí)驗(yàn)室的前瞻性和眾多開(kāi)創(chuàng)貢獻(xiàn):
貝爾實(shí)驗(yàn)室的 Scaling Law
回到人們正在討論的這篇論文本身。它是一篇 AI 頂會(huì) NeurIPS 論文:
- 論文標(biāo)題:Learning Curves: Asymptotic Values and Rate of Convergence
- 論文鏈接:https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf
這篇論文介紹說(shuō),基于大規(guī)模數(shù)據(jù)訓(xùn)練分類方法是相當(dāng)耗費(fèi)算力的工作。因此,開(kāi)發(fā)高效的程序來(lái)可靠地預(yù)測(cè)分類器是否適合執(zhí)行給定任務(wù)至關(guān)重要,這樣才能將資源分配給最有潛力的候選分類器,或騰出資源來(lái)探索新的候選分類器。
作者提出了一種實(shí)用且有原則的預(yù)測(cè)方法,避免了在整個(gè)訓(xùn)練集上訓(xùn)練性能較差的分類器的高成本過(guò)程,同時(shí)擁有堅(jiān)實(shí)的理論基礎(chǔ)。作者證明了所提方法的有效性,以及適用于單層和多層網(wǎng)絡(luò)。
在該工作中,作者研究了自動(dòng)分類的算法,隨著訓(xùn)練數(shù)據(jù)逐步增加,分類器的能力(模型出錯(cuò)的概率)被持續(xù)標(biāo)記。在測(cè)量了多個(gè)數(shù)據(jù)點(diǎn)后,可以發(fā)現(xiàn)模型的錯(cuò)誤率對(duì)比訓(xùn)練數(shù)據(jù)的數(shù)量,在對(duì)數(shù)曲線上呈現(xiàn)出了一定的規(guī)律。
作者進(jìn)而得出結(jié)論:「經(jīng)過(guò) 12000 種模式的訓(xùn)練后,很明顯新網(wǎng)絡(luò)的表現(xiàn)將優(yōu)于舊網(wǎng)絡(luò)…… 如果我們的預(yù)測(cè)方法能夠?qū)W(wǎng)絡(luò)的測(cè)試誤差做出良好的定量估計(jì),我們就可以決定是否應(yīng)該對(duì)新架構(gòu)進(jìn)行三周的訓(xùn)練?!?/p>
這就意味著模型的規(guī)模擴(kuò)大,AI 的智能會(huì)越來(lái)越強(qiáng);而這就是 Scaling Law(擴(kuò)展定律)!
從幾萬(wàn)條數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型開(kāi)始,到去年 GPT-4 上萬(wàn)億巨量數(shù)據(jù)集、萬(wàn)億參數(shù)的規(guī)模,幾十年來(lái),擴(kuò)展定律一直有效。
作者介紹:從「國(guó)寶」到「瘋狂科學(xué)家」
這篇論文一共有 5 位作者:Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的傳奇經(jīng)歷。
Corinna Cortes
這篇論文的一作 Corinna Cortes 已經(jīng)擁有超過(guò) 10 萬(wàn)引用!她與四作 Vladimir Vapnik 也是經(jīng)典論文《Support-vector networks》(引用量超過(guò)了 7.7 萬(wàn))的兩位作者。這篇論文提出了大家熟知的現(xiàn)代意義上的支持向量機(jī)。
另外,她還與 LeCun 等人一起構(gòu)建了著名的 MNIST 數(shù)據(jù)集,而這也成為了后續(xù)大量研究的重要基礎(chǔ)數(shù)據(jù)集。
也無(wú)怪乎有人在評(píng)論區(qū)稱她是「國(guó)寶」:
Corinna Cortes 的職業(yè)履歷很簡(jiǎn)單:先在貝爾實(shí)驗(yàn)室工作了 14 年,之后于 2003 年加入谷歌,領(lǐng)導(dǎo) Google Research NY 達(dá) 21 年之久?,F(xiàn)在她是 NeurIPS 的董事會(huì)成員之一。她同時(shí)也是一名競(jìng)技跑步運(yùn)動(dòng)員。
Lawrence D Jackel
這篇論文的二作 Lawrence D Jackel 是時(shí)任的貝爾實(shí)驗(yàn)室應(yīng)用系統(tǒng)研究部門負(fù)責(zé)人。1988 年 Yann LeCun 加入該實(shí)驗(yàn)室后,與他合作完成了多項(xiàng)高引用研究成果,其中包括一篇重要的反向傳播論文《Backpropagation applied to handwritten zip code recognition》。
Sara A. Solla
Sara A. Solla 則是一名物理學(xué)家和神經(jīng)科學(xué)家。她最高引用的論文也是與 Yann LeCun 合著的《Optimal brain damage》。
該論文運(yùn)用信息論的思想,推導(dǎo)出了一類用于調(diào)整神經(jīng)網(wǎng)絡(luò)規(guī)模的實(shí)用且近乎最優(yōu)的方案。通過(guò)從網(wǎng)絡(luò)中移除不重要的權(quán)重,可以預(yù)期實(shí)現(xiàn)多項(xiàng)改進(jìn):更好的泛化能力、更少的訓(xùn)練樣本需求以及更快的學(xué)習(xí)和 / 或分類速度。其基本思想是利用二階導(dǎo)數(shù)信息在網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練集誤差之間進(jìn)行權(quán)衡。
Vladimir Vapnik
前文我們已經(jīng)見(jiàn)到過(guò) Vladimir Vapnik 的名字,即支持向量機(jī)的作者之一。除此之外,這位擁有超過(guò) 33.5 萬(wàn)引用的大佬還是統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域著名的 Vapnik–Chervonenkis 理論的提出者之一 —— 是的,這個(gè)理論就是以他和蘇聯(lián)數(shù)學(xué)家 Alexey Chervonenkis 的名字命名的。
Vladimir Vapnik 在 1995 年出版的 《The Nature of Statistical Learning Theory》是系統(tǒng)化提出統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory, SLT)的代表作,堪稱機(jī)器學(xué)習(xí)領(lǐng)域的里程碑。
John S. Denker
John S. Denker 則更是一位多才多藝的研究者,涉足過(guò)大量不同領(lǐng)域,甚至可以說(shuō)是天才(Genius)的代名詞。
他曾就讀于加州理工學(xué)院。大三時(shí),他創(chuàng)辦了一家成功的小型軟件和電子公司,在安防系統(tǒng)、好萊塢特效、手持電子游戲和視頻游戲等多個(gè)領(lǐng)域做出了開(kāi)創(chuàng)性的工作。此外,在讀本科期間,他還在加州理工學(xué)院創(chuàng)建并教授了一門課程:「微處理器設(shè)計(jì)」。
他在康奈爾大學(xué)的博士研究考察了氫原子氣體在僅比絕對(duì)零度高千分之幾攝氏度的溫度下的性質(zhì),并表明在這種稀薄的玻色氣體中存在量子自旋輸運(yùn)和長(zhǎng)壽命的「自旋波」共振。他的其他研究涉及超低噪聲測(cè)量設(shè)備的設(shè)計(jì) —— 其中基本的量子力學(xué)限制起著重要作用。
Denker 博士加入過(guò) AT&T 貝爾實(shí)驗(yàn)室多年時(shí)間,曾擔(dān)任杰出技術(shù)人員、部門主管和部門經(jīng)理等職務(wù)。他的研究興趣包括計(jì)算機(jī)安全、選舉安全、網(wǎng)絡(luò)電話和神經(jīng)網(wǎng)絡(luò)。他還發(fā)明了新型低能耗「絕熱」計(jì)算系統(tǒng)。
1986 年至 1987 年,他擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所客座教授。他曾擔(dān)任多個(gè)重要科學(xué)會(huì)議的組委會(huì)委員。
他擁有多項(xiàng)專利,撰寫(xiě)了 50 多篇研究論文和一本書(shū)的章節(jié),并編輯了 《Neural Networks for Computing》一書(shū)。他的演講范圍廣泛。
他以愛(ài)惡作劇和典型的瘋狂科學(xué)家而聞名。他的一些事跡曾被改編成電影《Real Genius》和《The Age Seeking for Genius》,并刊登在《時(shí)代》和《IEEE Spectrum》等刊物上。
John Denker 還擁有商用飛行員、飛行教練和地面教練資格。他是美國(guó)聯(lián)邦航空管理局(FAA)的航空安全顧問(wèn)。他曾任蒙茅斯地區(qū)飛行俱樂(lè)部董事會(huì)成員,以及美國(guó)國(guó)家研究委員會(huì)商用航空安全委員會(huì)成員。
Scaling Law 的歷史可能還能繼續(xù)向前追溯
有意思的是,在相關(guān)推文的評(píng)論區(qū),有不少研究者評(píng)論認(rèn)為貝爾實(shí)驗(yàn)室的這篇論文其實(shí)也不是 Scaling Law 的最早論文。
比如著名研究者、科技作家 Pedro Domingos 表示其實(shí)心理學(xué)領(lǐng)域才是最早探索「學(xué)習(xí)曲線」的領(lǐng)域。
研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世紀(jì) 60 年代就已經(jīng)研究過(guò)樣本大小方面的 Scaling Law。
而 @guillefix 則表示 Frank Rosenblatt 在 1958 年發(fā)表的感知器論文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已經(jīng)給出了非常清晰的學(xué)習(xí)曲線。
此外, 用戶 @lu_sichu 提出了 1992 年日本工程師和神經(jīng)科學(xué)家甘利俊一(Shun-ichi Amari)寫(xiě)的論文《A Universal Theorem on Learning Curves》也比貝爾實(shí)驗(yàn)室的上述論文更早一些。
其中證明了一類普適的學(xué)習(xí)曲線漸近行為,適用于一般的無(wú)噪聲二分機(jī)器或神經(jīng)網(wǎng)絡(luò)。結(jié)果表明:無(wú)論機(jī)器的架構(gòu)如何,其平均預(yù)測(cè)熵或信息增益
都會(huì)在訓(xùn)練樣本數(shù) t 增加時(shí)收斂至零,并滿足
~d/t 的規(guī)律,其中 d 為機(jī)器的可調(diào)參數(shù)的個(gè)數(shù)。
縱觀數(shù)十年的研究脈絡(luò),Scaling Law 的提出并非靈光乍現(xiàn)的頓悟,而是跨越學(xué)科、跨越時(shí)代的逐步累積。從心理學(xué)的學(xué)習(xí)曲線,到感知器的早期探索,再到 Vapnik、Amari、貝爾實(shí)驗(yàn)室的系統(tǒng)化研究,最后發(fā)展到 OpenAI 等機(jī)構(gòu)在大規(guī)模實(shí)驗(yàn)中驗(yàn)證和推廣,每一代學(xué)者都在為這條「經(jīng)驗(yàn)定律」添磚加瓦。
今天我們所說(shuō)的 Scaling Law,看似清晰而堅(jiān)固,但它背后蘊(yùn)含的是數(shù)十年理論與實(shí)踐的反復(fù)印證。正如 Brockman 所言,它揭示了深度學(xué)習(xí)的根本,而這一「根本」并不是一蹴而就的,而是科學(xué)探索在時(shí)間長(zhǎng)河中的積累與沉淀。
對(duì)此,你怎么看?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.