網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Scaling Laws起源于1993年？OpenAI總裁：深度學(xué)習(xí)的根本已揭秘

2025-09-02 14:44:36　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：澤南、Panda

AI 也要「考古」式科研？

人工智能的「第一性原理」擴(kuò)展定律（Scaling Laws），把模型性能與算力等資源投入聯(lián)系在了一起，是如今人們構(gòu)建更先進(jìn)大模型重要的參考標(biāo)尺。

有關(guān)擴(kuò)展定律的起源，存在很多種說(shuō)法，有人認(rèn)為是 2020 年 OpenAI 提出的，有人認(rèn)為是 2017 年百度發(fā)現(xiàn)的，詳情可參閱我們之前的報(bào)道《遺憾不？原來(lái)百度 2017 年就研究過(guò) Scaling Law，連 Anthropic CEO 靈感都來(lái)自百度》。

前些天，康奈爾大學(xué)博士生、Meta 研究員 Jack Morris 發(fā)推稱 Scaling Law 的真正探索者其實(shí)是貝爾實(shí)驗(yàn)室，這又進(jìn)一步將歷史向前推到了 1993 年。

他進(jìn)一步解釋說(shuō)，這篇論文其實(shí)是一篇 NeurIPS 論文。貝爾實(shí)驗(yàn)室的研究者「在不同大小的數(shù)據(jù)集、不同大小的模型上訓(xùn)練了分類器并擬合了冪律」。這讓 Morris 不禁感嘆：「不敢相信這已經(jīng)是 32 年前的事了?！?/p>

近日，OpenAI 聯(lián)合創(chuàng)始人、總裁 Greg Brockman 也轉(zhuǎn)發(fā)了這一消息，并表示這些結(jié)果跨越了多個(gè)數(shù)量級(jí)和幾十年的時(shí)間，經(jīng)歷了時(shí)間的考驗(yàn)，可以說(shuō)揭示了深度學(xué)習(xí)的根本。

這也不得不讓人贊嘆貝爾實(shí)驗(yàn)室的前瞻性和眾多開(kāi)創(chuàng)貢獻(xiàn)：

貝爾實(shí)驗(yàn)室的 Scaling Law

回到人們正在討論的這篇論文本身。它是一篇 AI 頂會(huì) NeurIPS 論文：

論文標(biāo)題：Learning Curves: Asymptotic Values and Rate of Convergence
論文鏈接：https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

這篇論文介紹說(shuō)，基于大規(guī)模數(shù)據(jù)訓(xùn)練分類方法是相當(dāng)耗費(fèi)算力的工作。因此，開(kāi)發(fā)高效的程序來(lái)可靠地預(yù)測(cè)分類器是否適合執(zhí)行給定任務(wù)至關(guān)重要，這樣才能將資源分配給最有潛力的候選分類器，或騰出資源來(lái)探索新的候選分類器。

作者提出了一種實(shí)用且有原則的預(yù)測(cè)方法，避免了在整個(gè)訓(xùn)練集上訓(xùn)練性能較差的分類器的高成本過(guò)程，同時(shí)擁有堅(jiān)實(shí)的理論基礎(chǔ)。作者證明了所提方法的有效性，以及適用于單層和多層網(wǎng)絡(luò)。

在該工作中，作者研究了自動(dòng)分類的算法，隨著訓(xùn)練數(shù)據(jù)逐步增加，分類器的能力（模型出錯(cuò)的概率）被持續(xù)標(biāo)記。在測(cè)量了多個(gè)數(shù)據(jù)點(diǎn)后，可以發(fā)現(xiàn)模型的錯(cuò)誤率對(duì)比訓(xùn)練數(shù)據(jù)的數(shù)量，在對(duì)數(shù)曲線上呈現(xiàn)出了一定的規(guī)律。

作者進(jìn)而得出結(jié)論：「經(jīng)過(guò) 12000 種模式的訓(xùn)練后，很明顯新網(wǎng)絡(luò)的表現(xiàn)將優(yōu)于舊網(wǎng)絡(luò)…… 如果我們的預(yù)測(cè)方法能夠?qū)W(wǎng)絡(luò)的測(cè)試誤差做出良好的定量估計(jì)，我們就可以決定是否應(yīng)該對(duì)新架構(gòu)進(jìn)行三周的訓(xùn)練?！?/p>

這就意味著模型的規(guī)模擴(kuò)大，AI 的智能會(huì)越來(lái)越強(qiáng)；而這就是 Scaling Law（擴(kuò)展定律）！

從幾萬(wàn)條數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型開(kāi)始，到去年 GPT-4 上萬(wàn)億巨量數(shù)據(jù)集、萬(wàn)億參數(shù)的規(guī)模，幾十年來(lái)，擴(kuò)展定律一直有效。

作者介紹：從「國(guó)寶」到「瘋狂科學(xué)家」

這篇論文一共有 5 位作者：Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的傳奇經(jīng)歷。

Corinna Cortes

這篇論文的一作 Corinna Cortes 已經(jīng)擁有超過(guò) 10 萬(wàn)引用！她與四作 Vladimir Vapnik 也是經(jīng)典論文《Support-vector networks》（引用量超過(guò)了 7.7 萬(wàn)）的兩位作者。這篇論文提出了大家熟知的現(xiàn)代意義上的支持向量機(jī)。

另外，她還與 LeCun 等人一起構(gòu)建了著名的 MNIST 數(shù)據(jù)集，而這也成為了后續(xù)大量研究的重要基礎(chǔ)數(shù)據(jù)集。

也無(wú)怪乎有人在評(píng)論區(qū)稱她是「國(guó)寶」：

Corinna Cortes 的職業(yè)履歷很簡(jiǎn)單：先在貝爾實(shí)驗(yàn)室工作了 14 年，之后于 2003 年加入谷歌，領(lǐng)導(dǎo) Google Research NY 達(dá) 21 年之久?，F(xiàn)在她是 NeurIPS 的董事會(huì)成員之一。她同時(shí)也是一名競(jìng)技跑步運(yùn)動(dòng)員。

Lawrence D Jackel

這篇論文的二作 Lawrence D Jackel 是時(shí)任的貝爾實(shí)驗(yàn)室應(yīng)用系統(tǒng)研究部門負(fù)責(zé)人。1988 年 Yann LeCun 加入該實(shí)驗(yàn)室后，與他合作完成了多項(xiàng)高引用研究成果，其中包括一篇重要的反向傳播論文《Backpropagation applied to handwritten zip code recognition》。

Sara A. Solla

Sara A. Solla 則是一名物理學(xué)家和神經(jīng)科學(xué)家。她最高引用的論文也是與 Yann LeCun 合著的《Optimal brain damage》。

該論文運(yùn)用信息論的思想，推導(dǎo)出了一類用于調(diào)整神經(jīng)網(wǎng)絡(luò)規(guī)模的實(shí)用且近乎最優(yōu)的方案。通過(guò)從網(wǎng)絡(luò)中移除不重要的權(quán)重，可以預(yù)期實(shí)現(xiàn)多項(xiàng)改進(jìn)：更好的泛化能力、更少的訓(xùn)練樣本需求以及更快的學(xué)習(xí)和 / 或分類速度。其基本思想是利用二階導(dǎo)數(shù)信息在網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練集誤差之間進(jìn)行權(quán)衡。

Vladimir Vapnik

前文我們已經(jīng)見(jiàn)到過(guò) Vladimir Vapnik 的名字，即支持向量機(jī)的作者之一。除此之外，這位擁有超過(guò) 33.5 萬(wàn)引用的大佬還是統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域著名的 Vapnik–Chervonenkis 理論的提出者之一 —— 是的，這個(gè)理論就是以他和蘇聯(lián)數(shù)學(xué)家 Alexey Chervonenkis 的名字命名的。

Vladimir Vapnik 在 1995 年出版的《The Nature of Statistical Learning Theory》是系統(tǒng)化提出統(tǒng)計(jì)學(xué)習(xí)理論（Statistical Learning Theory, SLT）的代表作，堪稱機(jī)器學(xué)習(xí)領(lǐng)域的里程碑。

John S. Denker

John S. Denker 則更是一位多才多藝的研究者，涉足過(guò)大量不同領(lǐng)域，甚至可以說(shuō)是天才（Genius）的代名詞。

他曾就讀于加州理工學(xué)院。大三時(shí)，他創(chuàng)辦了一家成功的小型軟件和電子公司，在安防系統(tǒng)、好萊塢特效、手持電子游戲和視頻游戲等多個(gè)領(lǐng)域做出了開(kāi)創(chuàng)性的工作。此外，在讀本科期間，他還在加州理工學(xué)院創(chuàng)建并教授了一門課程：「微處理器設(shè)計(jì)」。

他在康奈爾大學(xué)的博士研究考察了氫原子氣體在僅比絕對(duì)零度高千分之幾攝氏度的溫度下的性質(zhì)，并表明在這種稀薄的玻色氣體中存在量子自旋輸運(yùn)和長(zhǎng)壽命的「自旋波」共振。他的其他研究涉及超低噪聲測(cè)量設(shè)備的設(shè)計(jì) —— 其中基本的量子力學(xué)限制起著重要作用。

Denker 博士加入過(guò) AT&T 貝爾實(shí)驗(yàn)室多年時(shí)間，曾擔(dān)任杰出技術(shù)人員、部門主管和部門經(jīng)理等職務(wù)。他的研究興趣包括計(jì)算機(jī)安全、選舉安全、網(wǎng)絡(luò)電話和神經(jīng)網(wǎng)絡(luò)。他還發(fā)明了新型低能耗「絕熱」計(jì)算系統(tǒng)。

1986 年至 1987 年，他擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所客座教授。他曾擔(dān)任多個(gè)重要科學(xué)會(huì)議的組委會(huì)委員。

他擁有多項(xiàng)專利，撰寫(xiě)了 50 多篇研究論文和一本書(shū)的章節(jié)，并編輯了《Neural Networks for Computing》一書(shū)。他的演講范圍廣泛。

他以愛(ài)惡作劇和典型的瘋狂科學(xué)家而聞名。他的一些事跡曾被改編成電影《Real Genius》和《The Age Seeking for Genius》，并刊登在《時(shí)代》和《IEEE Spectrum》等刊物上。

John Denker 還擁有商用飛行員、飛行教練和地面教練資格。他是美國(guó)聯(lián)邦航空管理局（FAA）的航空安全顧問(wèn)。他曾任蒙茅斯地區(qū)飛行俱樂(lè)部董事會(huì)成員，以及美國(guó)國(guó)家研究委員會(huì)商用航空安全委員會(huì)成員。

Scaling Law 的歷史可能還能繼續(xù)向前追溯

有意思的是，在相關(guān)推文的評(píng)論區(qū)，有不少研究者評(píng)論認(rèn)為貝爾實(shí)驗(yàn)室的這篇論文其實(shí)也不是 Scaling Law 的最早論文。

比如著名研究者、科技作家 Pedro Domingos 表示其實(shí)心理學(xué)領(lǐng)域才是最早探索「學(xué)習(xí)曲線」的領(lǐng)域。

研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世紀(jì) 60 年代就已經(jīng)研究過(guò)樣本大小方面的 Scaling Law。

而 @guillefix 則表示 Frank Rosenblatt 在 1958 年發(fā)表的感知器論文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已經(jīng)給出了非常清晰的學(xué)習(xí)曲線。

此外，用戶 @lu_sichu 提出了 1992 年日本工程師和神經(jīng)科學(xué)家甘利俊一（Shun-ichi Amari）寫(xiě)的論文《A Universal Theorem on Learning Curves》也比貝爾實(shí)驗(yàn)室的上述論文更早一些。

其中證明了一類普適的學(xué)習(xí)曲線漸近行為，適用于一般的無(wú)噪聲二分機(jī)器或神經(jīng)網(wǎng)絡(luò)。結(jié)果表明：無(wú)論機(jī)器的架構(gòu)如何，其平均預(yù)測(cè)熵或信息增益

都會(huì)在訓(xùn)練樣本數(shù) t 增加時(shí)收斂至零，并滿足

~d/t 的規(guī)律，其中 d 為機(jī)器的可調(diào)參數(shù)的個(gè)數(shù)。

縱觀數(shù)十年的研究脈絡(luò)，Scaling Law 的提出并非靈光乍現(xiàn)的頓悟，而是跨越學(xué)科、跨越時(shí)代的逐步累積。從心理學(xué)的學(xué)習(xí)曲線，到感知器的早期探索，再到 Vapnik、Amari、貝爾實(shí)驗(yàn)室的系統(tǒng)化研究，最后發(fā)展到 OpenAI 等機(jī)構(gòu)在大規(guī)模實(shí)驗(yàn)中驗(yàn)證和推廣，每一代學(xué)者都在為這條「經(jīng)驗(yàn)定律」添磚加瓦。

今天我們所說(shuō)的 Scaling Law，看似清晰而堅(jiān)固，但它背后蘊(yùn)含的是數(shù)十年理論與實(shí)踐的反復(fù)印證。正如 Brockman 所言，它揭示了深度學(xué)習(xí)的根本，而這一「根本」并不是一蹴而就的，而是科學(xué)探索在時(shí)間長(zhǎng)河中的積累與沉淀。

對(duì)此，你怎么看？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.