明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
原來,Scaling Law在32年前就被提出了!
不是2020年的OpenAI、不是2017年的百度,而是1993年的貝爾實驗室。
在一篇名為《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一種預測方法:
訓練誤差和測試誤差隨訓練規(guī)模增加,都會收斂到同一個漸近誤差值,這種收斂符合冪律形式。
通過這種方法,研究人員可以預測模型在更大數(shù)據集上的表現(xiàn)。
這和現(xiàn)在大家常提的Scaling Law幾乎一致:
在合理的范圍內,通過簡單地增加模型參數(shù)量(N)、訓練數(shù)據量(D)和計算量(FLOPS,C),可以以一種可預測的、平滑的方式顯著提升模型性能。
而1993年的這篇論文來頭也不小,作者一共5位,其中包含了支持向量機的提出者Vladimir Vapnik和Corinna Cortes。
為省算力提出預測曲線
這篇論文的研究初衷是為了節(jié)省訓練分類器(classifiers)的計算資源(果然啥時候都缺算力)。
當時的機器學習算法能實現(xiàn)將輸入數(shù)據分配到某個類別里,比如輸入一張手寫數(shù)字的像素點,判斷它是不是某一個數(shù)組。
為了讓分類器更可靠,往往需要使用大規(guī)模數(shù)據庫訓練。但是研究人員并不確定分類器是否適合給定任務,因此開發(fā)高效的預測程序非常有必要。
這項研究就是提出了一種預測方法,先在中等規(guī)模的數(shù)據集上訓練,然后通過提出的學習曲線建模外推,預測其在大數(shù)據集上的表現(xiàn)。這樣就不用對分類器進行完整訓練,從而節(jié)省計算資源。
它首先在幾個中等規(guī)模訓練集上分別計算測試誤差、訓練誤差,然后他們發(fā)現(xiàn),隨著訓練集的規(guī)模變大,訓練誤差和測試誤差都會收斂到一個相同的漸近值a,這個指數(shù)a在0.5-1之間。
- a:漸近誤差(最終無法消除的誤差,比如任務不可實現(xiàn)性導致的殘余錯誤)。
- b,c:幅度參數(shù)。
- α:收斂速率指數(shù)(通常在 0.5~1 之間)
然后變換為對數(shù)線性關系,在對數(shù)坐標下得到兩條直線。
通過擬合這兩條直線能得到a,b,α。
將估計出的冪律曲線外推到更大的訓練集規(guī)模上(比如60000),預測分類器在完整數(shù)據上的誤差。
實驗結果表明,在線性分類器(布爾分類任務)中預測非常準確。
在多層神經網絡(如LeNet)中,即便在任務不可實現(xiàn)(non-realizable)的情況下,外推結果也能很好地預測大規(guī)模訓練的最終表現(xiàn)。
比如僅用12000樣本訓練,就能預測新CNN在60000樣本上會優(yōu)于舊CNN。
此外作者還發(fā)現(xiàn),任務越困難,漸近誤差越高,收斂速率越小,即學習越慢。
這個理論放在當時可以用來淘汰差的模型,將有限的計算資源放在更值得訓練的模型上。
作者也是支持向量機提出者
最后不得不提一下這篇研究的幾位作者。
首先來看Vladimir Vapnik,他因在統(tǒng)計學習理論和支持向量機方面的貢獻而聞名。
他于1958年在烏茲別克國立大學獲得數(shù)學碩士學位,并于1964年在莫斯科控制科學研究所獲得統(tǒng)計學博士學位。1961年至1990年期間,他一直在該研究所工作,并擔任計算機科學研究部門的負責人。
Vapnik與Alexey Chervonenkis在1960年至1990年間共同開發(fā)了Vapnik-Chervonenkis理論(也稱為VC理論)。該理論是計算學習理論的一種形式,旨在從統(tǒng)計學角度解釋學習過程。
它是統(tǒng)計學習理論的基石,為學習算法的泛化條件提供了理論基礎,并量化了模型的復雜性(通過VC維)。VC理論在無需定義任何先驗分布的情況下,為機器學習提供了一種更通用的方法,與貝葉斯理論形成了對比。
同時Vapnik也是支持向量機(SVM)的主要發(fā)明者。這是一種監(jiān)督學習模型,用于數(shù)據分類和回歸分析。1964年,Vapnik和Chervonenkis首次提出了原始的SVM算法。
1990年代,Vapnik加入貝爾實驗室開始進行機器學習方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通過應用“核技巧”(kernel trick)來創(chuàng)建非線性分類器的方法,極大地擴展了SVM的應用范圍,使其能夠處理非線性可分問題。
1995年Vapnik和Corinna Cortes提出了軟邊距的非線性SVM并將其應用于手寫字符識別問題,因為性能表現(xiàn)出色,這篇論文引發(fā)廣泛關注,也成為機器學習發(fā)展中的一塊重要基石。
他撰寫的《統(tǒng)計學理論的本質》也是機器學習領域的必讀著作之一。
以及他2014年還給Facebook當過顧問。
另一位重要作者是Corinna Cortes。她現(xiàn)在是Google Research紐約分部的副總裁,負責廣泛的理論和應用大規(guī)模機器學習問題研究。
她于1989年在哥本哈根大學尼爾斯·玻爾研究所獲得物理學碩士學位。隨后,她于1993年在羅切斯特大學獲得計算機科學博士學位。
在加入Google之前,Cortes在貝爾實驗室工作了十多年。
2022年她被任命為ACM Fellow,以表彰她對機器學習領域的貢獻。
其余幾位作者分別是:L. D. Jackel、Sara A. Solla和John S. Denker
其中John S. Denker還和LeCun在手寫識別上合作過多篇論文,也都是機器學習經典大作了。
而他本人也相當全能,涉獵領域包括機器學習、系統(tǒng)安全、好萊塢特效、電子游戲和視頻游戲等,完成了很多開創(chuàng)性工作。還曾在加州理工學院創(chuàng)建并教授“微處理器設計”課程(硅谷之所以成為硅谷,和當時美國高校中開始推行芯片設計課程有很大關系)。
甚至,他還是一個飛行員,是FFA的航空安全顧問,并寫了一本對飛行原理解釋透徹的行業(yè)教科書。
Denker還曾于1986-87年擔任加州大學圣巴巴拉分校理論物理研究所的訪問教授。 他以幽默感和“原型瘋狂科學家”的形象而聞名,他的一些事跡甚至在一些電影中有所體現(xiàn)。
One More Thing
值得一提的是,卷積神經網絡和支持向量機都誕生于貝爾實驗室。它們之間過一段“分庭抗禮”的時期。
在深度學習興起之前,CNN因為“黑盒”以及需要大規(guī)模訓練,一些研究者對其持有保留態(tài)度;相比之下支持向量機的理論清晰、易于收斂到全局最優(yōu)解。到底誰是正確路線?一時爭論不休。
1995年,Vapnik還和當時的上司Larry Jackel以一頓豪華晚餐打賭,到2000年時,人們能不能解釋清楚大型神經網絡為什么在大規(guī)模訓練中表現(xiàn)很好?
Vapnik覺得不能。2000年他贏了;隨后他們又賭,再過5年結果如何?這一次Vapnik錯了:
在2005年任何頭腦清醒的人都不會再用和1995年時完全相同的模型了。
這場賭局,LeCun是見證人。
論文地址:
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf
[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.