網易首頁 > 網易號 > 正文申請入駐

他們在1993年就提出了Scaling Law

2025-09-03 10:24:41　來源: 量子位

北京舉報

分享至

明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

原來，Scaling Law在32年前就被提出了！

不是2020年的OpenAI、不是2017年的百度，而是1993年的貝爾實驗室。

在一篇名為《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一種預測方法：

訓練誤差和測試誤差隨訓練規(guī)模增加，都會收斂到同一個漸近誤差值，這種收斂符合冪律形式。

通過這種方法，研究人員可以預測模型在更大數(shù)據集上的表現(xiàn)。

這和現(xiàn)在大家常提的Scaling Law幾乎一致：

在合理的范圍內，通過簡單地增加模型參數(shù)量（N）、訓練數(shù)據量（D）和計算量（FLOPS，C），可以以一種可預測的、平滑的方式顯著提升模型性能。

而1993年的這篇論文來頭也不小，作者一共5位，其中包含了支持向量機的提出者Vladimir Vapnik和Corinna Cortes。

為省算力提出預測曲線

這篇論文的研究初衷是為了節(jié)省訓練分類器（classifiers）的計算資源（果然啥時候都缺算力）。

當時的機器學習算法能實現(xiàn)將輸入數(shù)據分配到某個類別里，比如輸入一張手寫數(shù)字的像素點，判斷它是不是某一個數(shù)組。

為了讓分類器更可靠，往往需要使用大規(guī)模數(shù)據庫訓練。但是研究人員并不確定分類器是否適合給定任務，因此開發(fā)高效的預測程序非常有必要。

這項研究就是提出了一種預測方法，先在中等規(guī)模的數(shù)據集上訓練，然后通過提出的學習曲線建模外推，預測其在大數(shù)據集上的表現(xiàn)。這樣就不用對分類器進行完整訓練，從而節(jié)省計算資源。

它首先在幾個中等規(guī)模訓練集上分別計算測試誤差、訓練誤差，然后他們發(fā)現(xiàn)，隨著訓練集的規(guī)模變大，訓練誤差和測試誤差都會收斂到一個相同的漸近值a，這個指數(shù)a在0.5-1之間。

a：漸近誤差（最終無法消除的誤差，比如任務不可實現(xiàn)性導致的殘余錯誤）。
b,c：幅度參數(shù)。
α：收斂速率指數(shù)（通常在 0.5~1 之間）

然后變換為對數(shù)線性關系，在對數(shù)坐標下得到兩條直線。

通過擬合這兩條直線能得到a,b,α。

將估計出的冪律曲線外推到更大的訓練集規(guī)模上（比如60000），預測分類器在完整數(shù)據上的誤差。

實驗結果表明，在線性分類器（布爾分類任務）中預測非常準確。

在多層神經網絡（如LeNet）中，即便在任務不可實現(xiàn)（non-realizable）的情況下，外推結果也能很好地預測大規(guī)模訓練的最終表現(xiàn)。

比如僅用12000樣本訓練，就能預測新CNN在60000樣本上會優(yōu)于舊CNN。

此外作者還發(fā)現(xiàn)，任務越困難，漸近誤差越高，收斂速率越小，即學習越慢。

這個理論放在當時可以用來淘汰差的模型，將有限的計算資源放在更值得訓練的模型上。

作者也是支持向量機提出者

最后不得不提一下這篇研究的幾位作者。

首先來看Vladimir Vapnik，他因在統(tǒng)計學習理論和支持向量機方面的貢獻而聞名。

他于1958年在烏茲別克國立大學獲得數(shù)學碩士學位，并于1964年在莫斯科控制科學研究所獲得統(tǒng)計學博士學位。1961年至1990年期間，他一直在該研究所工作，并擔任計算機科學研究部門的負責人。

Vapnik與Alexey Chervonenkis在1960年至1990年間共同開發(fā)了Vapnik-Chervonenkis理論（也稱為VC理論）。該理論是計算學習理論的一種形式，旨在從統(tǒng)計學角度解釋學習過程。

它是統(tǒng)計學習理論的基石，為學習算法的泛化條件提供了理論基礎，并量化了模型的復雜性（通過VC維）。VC理論在無需定義任何先驗分布的情況下，為機器學習提供了一種更通用的方法，與貝葉斯理論形成了對比。

同時Vapnik也是支持向量機（SVM）的主要發(fā)明者。這是一種監(jiān)督學習模型，用于數(shù)據分類和回歸分析。1964年，Vapnik和Chervonenkis首次提出了原始的SVM算法。

1990年代，Vapnik加入貝爾實驗室開始進行機器學習方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通過應用“核技巧”（kernel trick）來創(chuàng)建非線性分類器的方法，極大地擴展了SVM的應用范圍，使其能夠處理非線性可分問題。

1995年Vapnik和Corinna Cortes提出了軟邊距的非線性SVM并將其應用于手寫字符識別問題，因為性能表現(xiàn)出色，這篇論文引發(fā)廣泛關注，也成為機器學習發(fā)展中的一塊重要基石。

他撰寫的《統(tǒng)計學理論的本質》也是機器學習領域的必讀著作之一。

以及他2014年還給Facebook當過顧問。

另一位重要作者是Corinna Cortes。她現(xiàn)在是Google Research紐約分部的副總裁，負責廣泛的理論和應用大規(guī)模機器學習問題研究。

她于1989年在哥本哈根大學尼爾斯·玻爾研究所獲得物理學碩士學位。隨后，她于1993年在羅切斯特大學獲得計算機科學博士學位。

在加入Google之前，Cortes在貝爾實驗室工作了十多年。

2022年她被任命為ACM Fellow，以表彰她對機器學習領域的貢獻。

其余幾位作者分別是：L. D. Jackel、Sara A. Solla和John S. Denker

其中John S. Denker還和LeCun在手寫識別上合作過多篇論文，也都是機器學習經典大作了。

而他本人也相當全能，涉獵領域包括機器學習、系統(tǒng)安全、好萊塢特效、電子游戲和視頻游戲等，完成了很多開創(chuàng)性工作。還曾在加州理工學院創(chuàng)建并教授“微處理器設計”課程（硅谷之所以成為硅谷，和當時美國高校中開始推行芯片設計課程有很大關系）。

甚至，他還是一個飛行員，是FFA的航空安全顧問，并寫了一本對飛行原理解釋透徹的行業(yè)教科書。

Denker還曾于1986-87年擔任加州大學圣巴巴拉分校理論物理研究所的訪問教授。他以幽默感和“原型瘋狂科學家”的形象而聞名，他的一些事跡甚至在一些電影中有所體現(xiàn)。

One More Thing

值得一提的是，卷積神經網絡和支持向量機都誕生于貝爾實驗室。它們之間過一段“分庭抗禮”的時期。

在深度學習興起之前，CNN因為“黑盒”以及需要大規(guī)模訓練，一些研究者對其持有保留態(tài)度；相比之下支持向量機的理論清晰、易于收斂到全局最優(yōu)解。到底誰是正確路線？一時爭論不休。

1995年，Vapnik還和當時的上司Larry Jackel以一頓豪華晚餐打賭，到2000年時，人們能不能解釋清楚大型神經網絡為什么在大規(guī)模訓練中表現(xiàn)很好？

Vapnik覺得不能。2000年他贏了；隨后他們又賭，再過5年結果如何？這一次Vapnik錯了：

在2005年任何頭腦清醒的人都不會再用和1995年時完全相同的模型了。

這場賭局，LeCun是見證人。

論文地址：
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

清華等團隊深度分析200+文章，系統(tǒng)解析「雞尾酒會問題」研究

機器之心Pro 2025-09-03 15:34:11
0 跟貼 0
科學家驗證強柏拉圖表征假說，證明模型會收斂于相同通用意義幾何

DeepTech深科技 2025-05-27 18:40:11
1 跟貼 1

2025 年青 A、青 B（原杰青、優(yōu)青）最新名單

生物學霸 2025-09-03 17:18:24
0 跟貼 0

70% 復現(xiàn)不了別人的實驗，50% 連自己的成果都重復不出來

生物學霸 2025-09-03 17:20:13
0 跟貼 0
ICCV 2025 | 基于時序增強關系敏感知識遷移弱監(jiān)督動態(tài)場景圖生成

機器之心Pro 2025-09-03 17:20:21
0 跟貼 0

開學了：入門AI，可以從這第一課開始

機器之心Pro 2025-09-01 17:12:09
6 跟貼 6

機器學習臨床預測模型構建的一般流程

醫(yī)咖會 2025-08-11 19:56:31
0 跟貼 0
多模態(tài)大模型存在「內心預警」，無需訓練，就能識別越獄攻擊

機器之心Pro 2025-07-21 18:39:52
0 跟貼 0

Scaling Laws起源于1993年？OpenAI總裁：深度學習的根本已揭秘

機器之心Pro 2025-09-02 14:44:36
6 跟貼 6
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1
丈夫出軌人贓并獲，妻子上前理論，下秒老公的做法亮了！

搞笑拖延癥 2025-09-02 12:11:02
14 跟貼 14
特斯拉FSD國內實裝，視覺算法功力如何，這是特斯拉的極限嘛

小夢沒煩惱 2025-09-01 16:54:30
11 跟貼 11
花1.27億給大山裝扶梯，行不行？

中國新聞周刊 2025-08-31 13:37:11
10156 跟貼 10156
淺談包含算法特征的專利申請的創(chuàng)造性

知產力 2025-09-02 18:22:28
0 跟貼 0
WEWA、VLA、世界模型，輔助駕駛進入GPT時代

HiEV 2025-09-02 15:31:34
0 跟貼 0
牛彈琴：26國領導人齊聚北京最晚到的印尼總統(tǒng)是驚喜

現(xiàn)代快報 2025-09-03 11:12:38
566 跟貼 566
蘋果看上的公司，靠量子“邪修”給模型“瘦身”

虎嗅APP 2025-09-02 23:17:06
2 跟貼 2
龍哥家的技術性誤差深得大戶的喜歡

包子同學呀 2025-08-30 11:10:41
16 跟貼 16
“東風-5C”液體洲際戰(zhàn)略核導彈亮相

環(huán)球網 2025-09-03 10:42:06
5453 跟貼 5453
夫妻騎電瓶車帶兩娃17天跨越2000公里：孩子們很享受

極目新聞 2025-09-02 19:59:22
3817 跟貼 3817
2025大數(shù)據時代哪些證書可以考

敏敏上岸1 2025-09-02 17:53:55
0 跟貼 0
人工智能提出七十載！從百度CTO到NVIDIA副總裁，十年共啟ASI新智元

新智元 2025-09-03 12:52:46
0 跟貼 0
國產AI路由系統(tǒng)開源逆襲！僅用19%成本達到Gemini-2.5-Pro同性能

量子位 2025-08-20 15:41:20
51 跟貼 51
小球走直線快還是曲線快？結局顛覆認知，這是什么原理？

繪生繪攝 2025-08-30 07:51:34
0 跟貼 0
閱兵場上的裝備，是真槍實彈還是模型？解開了多年疑惑

萌一萌笑笑 2025-09-03 14:08:41
1 跟貼 1
死水效應是什么？平靜的水面卻能讓船只寸步難行，什么原理？

繪生繪攝 2025-08-30 07:51:34
0 跟貼 0
世界模型，騰訊混元卷到了榜首

量子位 2025-09-03 15:59:58
0 跟貼 0
蘋果十年華人AI大佬又被Meta挖跑，多人被OpenAI和Anthropic瓜分

智東西 2025-09-03 10:05:06
2 跟貼 2
從復刻魔術開始，RoboMirage打開了機器人仿真的新世界

機器之心Pro 2025-09-03 14:56:54
0 跟貼 0
LY-1艦載激光武器首次亮相

環(huán)球時報 2025-09-03 12:23:31
795 跟貼 795
金魚損失隨機剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
華為乾崑智駕系統(tǒng)：數(shù)據與算法的革命，汽車工業(yè)的新篇章

我是李小七23 2025-09-01 17:00:54
0 跟貼 0
九三閱兵亮紅旗-29！上千公里攔截誤差小于1米，能擋美國導彈

防務新聞 2025-09-03 17:43:06
0 跟貼 0
東風-5C有多大？網友：三輛軍車才能拉得下

大象新聞 2025-09-03 16:03:20
956 跟貼 956
黑高領基礎，建模就不基礎！張凌赫的季節(jié)要到了！

遼寧老年報全搜索 2025-09-01 15:14:14
0 跟貼 0
從超時罰款到得分激勵算法更新能否改變速度焦慮？

看看新聞Knews 2025-09-01 10:20:22
0 跟貼 0
圖像編輯太慢太粗糙？全新開源自回歸模型實現(xiàn)精準秒級修改

量子位 2025-09-03 14:29:46
0 跟貼 0
深度科普：愛因斯坦真的錯了，“觀測”真的可以決定事物是否存在

宇宙時空 2025-09-03 09:17:42
8 跟貼 8
咱家飛機再也不用飛兩遍

央視新聞 2025-09-03 11:27:05
1063 跟貼 1063
紀念抗戰(zhàn)勝利80周年招待會隆重舉行

央視新聞 2025-09-03 13:47:25
985 跟貼 985

量子位

追蹤人工智能動態(tài)

11235文章數(shù) 176258關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

旅游

房產

手機

手機 / 數(shù)碼

房產 / 家居

他們在1993年就提出了Scaling Law

8月車市觀察：價格戰(zhàn)退潮，價值感上位

23歲雙胞胎亮相閱兵裝備方隊 父母：沒找到他們在哪

23歲雙胞胎亮相閱兵裝備方隊 父母：沒找到他們在哪

東契奇場均31+8+7 2連敗后2連勝帶隊晉級

劉尚嫻 最幸運的事 就是嫁給初戀丈夫

高盛高管：中國股市仍有上漲空間

一天一個樣 方程豹鈦3玩轉“面部重組”

態(tài)度原創(chuàng)

換個城市過夏天 | “中式美學”打開夏日濰坊

“老娘當年旗袍開叉到肩膀！”上了大學才知道，原來父母這么生猛

熱聞|清明假期將至，熱門目的地有哪些?

海南樓市，最新榜單發(fā)布！有盤單月狂賣11.7億！

iPhone 17 Pro版本或漲價，首配VC均熱板設計！

23歲雙胞胎亮相閱兵裝備方隊父母：沒找到他們在哪

23歲雙胞胎亮相閱兵裝備方隊父母：沒找到他們在哪

劉尚嫻最幸運的事就是嫁給初戀丈夫

一天一個樣方程豹鈦3玩轉“面部重組”

“老娘當年旗袍開叉到肩膀！”上了大學才知道，原來父母這么生猛

熱聞|清明假期將至，熱門目的地有哪些?

海南樓市，最新榜單發(fā)布！有盤單月狂賣11.7億！

iPhone 17 Pro版本或漲價，首配VC均熱板設計！