成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Scaling Laws起源于1993年?OpenAI總裁:深度學(xué)習(xí)的根本已揭秘

0
分享至



機(jī)器之心報(bào)道

編輯:澤南、Panda

AI 也要「考古」式科研?

人工智能的「第一性原理」擴(kuò)展定律(Scaling Laws),把模型性能與算力等資源投入聯(lián)系在了一起,是如今人們構(gòu)建更先進(jìn)大模型重要的參考標(biāo)尺。

有關(guān)擴(kuò)展定律的起源,存在很多種說(shuō)法,有人認(rèn)為是 2020 年 OpenAI 提出的,有人認(rèn)為是 2017 年百度發(fā)現(xiàn)的,詳情可參閱我們之前的報(bào)道《遺憾不?原來(lái)百度 2017 年就研究過(guò) Scaling Law,連 Anthropic CEO 靈感都來(lái)自百度》。

前些天,康奈爾大學(xué)博士生、Meta 研究員 Jack Morris 發(fā)推稱 Scaling Law 的真正探索者其實(shí)是貝爾實(shí)驗(yàn)室,這又進(jìn)一步將歷史向前推到了 1993 年。



他進(jìn)一步解釋說(shuō),這篇論文其實(shí)是一篇 NeurIPS 論文。貝爾實(shí)驗(yàn)室的研究者「在不同大小的數(shù)據(jù)集、不同大小的模型上訓(xùn)練了分類器并擬合了冪律」。這讓 Morris 不禁感嘆:「不敢相信這已經(jīng)是 32 年前的事了?!?/p>



近日,OpenAI 聯(lián)合創(chuàng)始人、總裁 Greg Brockman 也轉(zhuǎn)發(fā)了這一消息,并表示這些結(jié)果跨越了多個(gè)數(shù)量級(jí)和幾十年的時(shí)間,經(jīng)歷了時(shí)間的考驗(yàn),可以說(shuō)揭示了深度學(xué)習(xí)的根本。



這也不得不讓人贊嘆貝爾實(shí)驗(yàn)室的前瞻性和眾多開(kāi)創(chuàng)貢獻(xiàn):



貝爾實(shí)驗(yàn)室的 Scaling Law

回到人們正在討論的這篇論文本身。它是一篇 AI 頂會(huì) NeurIPS 論文:



  • 論文標(biāo)題:Learning Curves: Asymptotic Values and Rate of Convergence
  • 論文鏈接:https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

這篇論文介紹說(shuō),基于大規(guī)模數(shù)據(jù)訓(xùn)練分類方法是相當(dāng)耗費(fèi)算力的工作。因此,開(kāi)發(fā)高效的程序來(lái)可靠地預(yù)測(cè)分類器是否適合執(zhí)行給定任務(wù)至關(guān)重要,這樣才能將資源分配給最有潛力的候選分類器,或騰出資源來(lái)探索新的候選分類器。

作者提出了一種實(shí)用且有原則的預(yù)測(cè)方法,避免了在整個(gè)訓(xùn)練集上訓(xùn)練性能較差的分類器的高成本過(guò)程,同時(shí)擁有堅(jiān)實(shí)的理論基礎(chǔ)。作者證明了所提方法的有效性,以及適用于單層和多層網(wǎng)絡(luò)。

在該工作中,作者研究了自動(dòng)分類的算法,隨著訓(xùn)練數(shù)據(jù)逐步增加,分類器的能力(模型出錯(cuò)的概率)被持續(xù)標(biāo)記。在測(cè)量了多個(gè)數(shù)據(jù)點(diǎn)后,可以發(fā)現(xiàn)模型的錯(cuò)誤率對(duì)比訓(xùn)練數(shù)據(jù)的數(shù)量,在對(duì)數(shù)曲線上呈現(xiàn)出了一定的規(guī)律。



作者進(jìn)而得出結(jié)論:「經(jīng)過(guò) 12000 種模式的訓(xùn)練后,很明顯新網(wǎng)絡(luò)的表現(xiàn)將優(yōu)于舊網(wǎng)絡(luò)…… 如果我們的預(yù)測(cè)方法能夠?qū)W(wǎng)絡(luò)的測(cè)試誤差做出良好的定量估計(jì),我們就可以決定是否應(yīng)該對(duì)新架構(gòu)進(jìn)行三周的訓(xùn)練?!?/p>

這就意味著模型的規(guī)模擴(kuò)大,AI 的智能會(huì)越來(lái)越強(qiáng);而這就是 Scaling Law(擴(kuò)展定律)!

從幾萬(wàn)條數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型開(kāi)始,到去年 GPT-4 上萬(wàn)億巨量數(shù)據(jù)集、萬(wàn)億參數(shù)的規(guī)模,幾十年來(lái),擴(kuò)展定律一直有效。

作者介紹:從「國(guó)寶」到「瘋狂科學(xué)家」

這篇論文一共有 5 位作者:Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的傳奇經(jīng)歷。

Corinna Cortes

這篇論文的一作 Corinna Cortes 已經(jīng)擁有超過(guò) 10 萬(wàn)引用!她與四作 Vladimir Vapnik 也是經(jīng)典論文《Support-vector networks》(引用量超過(guò)了 7.7 萬(wàn))的兩位作者。這篇論文提出了大家熟知的現(xiàn)代意義上的支持向量機(jī)。



另外,她還與 LeCun 等人一起構(gòu)建了著名的 MNIST 數(shù)據(jù)集,而這也成為了后續(xù)大量研究的重要基礎(chǔ)數(shù)據(jù)集。

也無(wú)怪乎有人在評(píng)論區(qū)稱她是「國(guó)寶」:



Corinna Cortes 的職業(yè)履歷很簡(jiǎn)單:先在貝爾實(shí)驗(yàn)室工作了 14 年,之后于 2003 年加入谷歌,領(lǐng)導(dǎo) Google Research NY 達(dá) 21 年之久?,F(xiàn)在她是 NeurIPS 的董事會(huì)成員之一。她同時(shí)也是一名競(jìng)技跑步運(yùn)動(dòng)員。

Lawrence D Jackel

這篇論文的二作 Lawrence D Jackel 是時(shí)任的貝爾實(shí)驗(yàn)室應(yīng)用系統(tǒng)研究部門負(fù)責(zé)人。1988 年 Yann LeCun 加入該實(shí)驗(yàn)室后,與他合作完成了多項(xiàng)高引用研究成果,其中包括一篇重要的反向傳播論文《Backpropagation applied to handwritten zip code recognition》。



Sara A. Solla

Sara A. Solla 則是一名物理學(xué)家和神經(jīng)科學(xué)家。她最高引用的論文也是與 Yann LeCun 合著的《Optimal brain damage》。

該論文運(yùn)用信息論的思想,推導(dǎo)出了一類用于調(diào)整神經(jīng)網(wǎng)絡(luò)規(guī)模的實(shí)用且近乎最優(yōu)的方案。通過(guò)從網(wǎng)絡(luò)中移除不重要的權(quán)重,可以預(yù)期實(shí)現(xiàn)多項(xiàng)改進(jìn):更好的泛化能力、更少的訓(xùn)練樣本需求以及更快的學(xué)習(xí)和 / 或分類速度。其基本思想是利用二階導(dǎo)數(shù)信息在網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練集誤差之間進(jìn)行權(quán)衡。



Vladimir Vapnik

前文我們已經(jīng)見(jiàn)到過(guò) Vladimir Vapnik 的名字,即支持向量機(jī)的作者之一。除此之外,這位擁有超過(guò) 33.5 萬(wàn)引用的大佬還是統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域著名的 Vapnik–Chervonenkis 理論的提出者之一 —— 是的,這個(gè)理論就是以他和蘇聯(lián)數(shù)學(xué)家 Alexey Chervonenkis 的名字命名的。

Vladimir Vapnik 在 1995 年出版的 《The Nature of Statistical Learning Theory》是系統(tǒng)化提出統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory, SLT)的代表作,堪稱機(jī)器學(xué)習(xí)領(lǐng)域的里程碑。



John S. Denker

John S. Denker 則更是一位多才多藝的研究者,涉足過(guò)大量不同領(lǐng)域,甚至可以說(shuō)是天才(Genius)的代名詞。



他曾就讀于加州理工學(xué)院。大三時(shí),他創(chuàng)辦了一家成功的小型軟件和電子公司,在安防系統(tǒng)、好萊塢特效、手持電子游戲和視頻游戲等多個(gè)領(lǐng)域做出了開(kāi)創(chuàng)性的工作。此外,在讀本科期間,他還在加州理工學(xué)院創(chuàng)建并教授了一門課程:「微處理器設(shè)計(jì)」。

他在康奈爾大學(xué)的博士研究考察了氫原子氣體在僅比絕對(duì)零度高千分之幾攝氏度的溫度下的性質(zhì),并表明在這種稀薄的玻色氣體中存在量子自旋輸運(yùn)和長(zhǎng)壽命的「自旋波」共振。他的其他研究涉及超低噪聲測(cè)量設(shè)備的設(shè)計(jì) —— 其中基本的量子力學(xué)限制起著重要作用。

Denker 博士加入過(guò) AT&T 貝爾實(shí)驗(yàn)室多年時(shí)間,曾擔(dān)任杰出技術(shù)人員、部門主管和部門經(jīng)理等職務(wù)。他的研究興趣包括計(jì)算機(jī)安全、選舉安全、網(wǎng)絡(luò)電話和神經(jīng)網(wǎng)絡(luò)。他還發(fā)明了新型低能耗「絕熱」計(jì)算系統(tǒng)。

1986 年至 1987 年,他擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所客座教授。他曾擔(dān)任多個(gè)重要科學(xué)會(huì)議的組委會(huì)委員。

他擁有多項(xiàng)專利,撰寫(xiě)了 50 多篇研究論文和一本書(shū)的章節(jié),并編輯了 《Neural Networks for Computing》一書(shū)。他的演講范圍廣泛。

他以愛(ài)惡作劇和典型的瘋狂科學(xué)家而聞名。他的一些事跡曾被改編成電影《Real Genius》和《The Age Seeking for Genius》,并刊登在《時(shí)代》和《IEEE Spectrum》等刊物上。



John Denker 還擁有商用飛行員、飛行教練和地面教練資格。他是美國(guó)聯(lián)邦航空管理局(FAA)的航空安全顧問(wèn)。他曾任蒙茅斯地區(qū)飛行俱樂(lè)部董事會(huì)成員,以及美國(guó)國(guó)家研究委員會(huì)商用航空安全委員會(huì)成員。

Scaling Law 的歷史可能還能繼續(xù)向前追溯

有意思的是,在相關(guān)推文的評(píng)論區(qū),有不少研究者評(píng)論認(rèn)為貝爾實(shí)驗(yàn)室的這篇論文其實(shí)也不是 Scaling Law 的最早論文。

比如著名研究者、科技作家 Pedro Domingos 表示其實(shí)心理學(xué)領(lǐng)域才是最早探索「學(xué)習(xí)曲線」的領(lǐng)域。



研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世紀(jì) 60 年代就已經(jīng)研究過(guò)樣本大小方面的 Scaling Law。



而 @guillefix 則表示 Frank Rosenblatt 在 1958 年發(fā)表的感知器論文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已經(jīng)給出了非常清晰的學(xué)習(xí)曲線。



此外, 用戶 @lu_sichu 提出了 1992 年日本工程師和神經(jīng)科學(xué)家甘利俊一(Shun-ichi Amari)寫(xiě)的論文《A Universal Theorem on Learning Curves》也比貝爾實(shí)驗(yàn)室的上述論文更早一些。



其中證明了一類普適的學(xué)習(xí)曲線漸近行為,適用于一般的無(wú)噪聲二分機(jī)器或神經(jīng)網(wǎng)絡(luò)。結(jié)果表明:無(wú)論機(jī)器的架構(gòu)如何,其平均預(yù)測(cè)熵或信息增益

都會(huì)在訓(xùn)練樣本數(shù) t 增加時(shí)收斂至零,并滿足

~d/t 的規(guī)律,其中 d 為機(jī)器的可調(diào)參數(shù)的個(gè)數(shù)。



縱觀數(shù)十年的研究脈絡(luò),Scaling Law 的提出并非靈光乍現(xiàn)的頓悟,而是跨越學(xué)科、跨越時(shí)代的逐步累積。從心理學(xué)的學(xué)習(xí)曲線,到感知器的早期探索,再到 Vapnik、Amari、貝爾實(shí)驗(yàn)室的系統(tǒng)化研究,最后發(fā)展到 OpenAI 等機(jī)構(gòu)在大規(guī)模實(shí)驗(yàn)中驗(yàn)證和推廣,每一代學(xué)者都在為這條「經(jīng)驗(yàn)定律」添磚加瓦。

今天我們所說(shuō)的 Scaling Law,看似清晰而堅(jiān)固,但它背后蘊(yùn)含的是數(shù)十年理論與實(shí)踐的反復(fù)印證。正如 Brockman 所言,它揭示了深度學(xué)習(xí)的根本,而這一「根本」并不是一蹴而就的,而是科學(xué)探索在時(shí)間長(zhǎng)河中的積累與沉淀。

對(duì)此,你怎么看?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全球第一經(jīng)濟(jì)大省誕生!GDP4萬(wàn)億美元,超190個(gè)國(guó)家,躋身世界第4

全球第一經(jīng)濟(jì)大省誕生!GDP4萬(wàn)億美元,超190個(gè)國(guó)家,躋身世界第4

巢客HOME
2025-09-02 08:45:03
男籃15歲天才被NBA“盯上”?下一個(gè)丁彥雨航:中國(guó)未來(lái)鋒線靠他

男籃15歲天才被NBA“盯上”?下一個(gè)丁彥雨航:中國(guó)未來(lái)鋒線靠他

籃球快餐車
2025-09-04 05:33:46
李艾高速口被查身份證,因太年輕遭質(zhì)疑年齡,本尊開(kāi)心到飛起

李艾高速口被查身份證,因太年輕遭質(zhì)疑年齡,本尊開(kāi)心到飛起

胖松松與瘦二毛
2025-09-02 15:36:31
中國(guó)的軍事實(shí)力真的是世界第二嗎?

中國(guó)的軍事實(shí)力真的是世界第二嗎?

朝不慵
2025-05-08 11:23:24
主席唯一曾孫子毛東東,今年22歲身高1米87,出生日期很有寓意!

主席唯一曾孫子毛東東,今年22歲身高1米87,出生日期很有寓意!

霽寒飄雪
2025-08-22 09:20:08
俄羅斯沒(méi)想到,美國(guó)更沒(méi)想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

俄羅斯沒(méi)想到,美國(guó)更沒(méi)想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

泠泠說(shuō)史
2025-07-25 09:19:30
星二代出道也該“卡顏”了,歪瓜裂棗靠邊站,網(wǎng)友票選的是真好看

星二代出道也該“卡顏”了,歪瓜裂棗靠邊站,網(wǎng)友票選的是真好看

大鐵貓娛樂(lè)
2025-08-30 18:22:27
一個(gè)人最大的愚蠢,就是輕易公開(kāi)這四件事!

一個(gè)人最大的愚蠢,就是輕易公開(kāi)這四件事!

娛樂(lè)洞察點(diǎn)點(diǎn)
2025-08-31 22:55:32
千萬(wàn)男網(wǎng)紅自稱男模身材,結(jié)果遭到網(wǎng)友一致吐槽!

千萬(wàn)男網(wǎng)紅自稱男模身材,結(jié)果遭到網(wǎng)友一致吐槽!

有仁有娛
2025-09-03 22:09:25
王李丹妮豐滿圓潤(rùn),實(shí)力吸睛

王李丹妮豐滿圓潤(rùn),實(shí)力吸睛

動(dòng)物奇奇怪怪
2025-09-03 04:00:20
為什么我感受不到 1500 元的手機(jī)比四五千的差?網(wǎng)友的回答太真實(shí)

為什么我感受不到 1500 元的手機(jī)比四五千的差?網(wǎng)友的回答太真實(shí)

墻頭草
2025-08-24 08:14:46
瞞不住了?李湘被扒不止王詩(shī)齡一個(gè)孩子,孩子生父疑是楊姓富豪

瞞不住了?李湘被扒不止王詩(shī)齡一個(gè)孩子,孩子生父疑是楊姓富豪

TVB的四小花
2025-08-31 03:44:31
美國(guó)最害怕的不是殲20,也不是高超音速導(dǎo)彈,而是中國(guó)的電動(dòng)汽車

美國(guó)最害怕的不是殲20,也不是高超音速導(dǎo)彈,而是中國(guó)的電動(dòng)汽車

文史達(dá)觀
2024-06-26 14:39:39
怒噴領(lǐng)導(dǎo)的女護(hù)士不敢辭職了!目前疑被簽約的兩方拋棄,欲哭無(wú)淚

怒噴領(lǐng)導(dǎo)的女護(hù)士不敢辭職了!目前疑被簽約的兩方拋棄,欲哭無(wú)淚

火山詩(shī)話
2025-09-03 07:33:59
女網(wǎng)紅浴室內(nèi)放大招!濕身洗澡照引粉絲熱議

女網(wǎng)紅浴室內(nèi)放大招!濕身洗澡照引粉絲熱議

葫蘆哥愛(ài)吐槽
2025-09-04 00:05:13
比亞迪:2024年、2025年上半年國(guó)內(nèi)納稅總額分別約510億元、271億元

比亞迪:2024年、2025年上半年國(guó)內(nèi)納稅總額分別約510億元、271億元

證券時(shí)報(bào)
2025-09-03 20:55:06
男籃歐錦賽戰(zhàn)報(bào):德國(guó)男籃91-61芬蘭男籃取男籃歐錦賽5連勝,弗蘭茨-瓦格納23+7+3

男籃歐錦賽戰(zhàn)報(bào):德國(guó)男籃91-61芬蘭男籃取男籃歐錦賽5連勝,弗蘭茨-瓦格納23+7+3

懂球帝
2025-09-04 03:24:04
8萬(wàn)變3000萬(wàn),他卻倒在40歲:錢有了,可1歲的孩子卻沒(méi)了爸爸

8萬(wàn)變3000萬(wàn),他卻倒在40歲:錢有了,可1歲的孩子卻沒(méi)了爸爸

非常好
2025-08-26 08:23:37
上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開(kāi)冰箱后才知啥叫生活

上海大叔55歲未婚,住垃圾堆卻要穿名牌,打開(kāi)冰箱后才知啥叫生活

探源歷史
2025-09-03 14:11:20
李政道曾公開(kāi)表示,與楊振寧決裂是中華民族的一大悲劇,無(wú)法回避

李政道曾公開(kāi)表示,與楊振寧決裂是中華民族的一大悲劇,無(wú)法回避

說(shuō)歷史的老牢
2025-09-03 09:14:51
2025-09-04 06:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11224文章數(shù) 142440關(guān)注度
往期回顧 全部

科技要聞

疑似理想i9諜照首曝!尾部或采用全新造型

頭條要聞

普京和金正恩北京長(zhǎng)談兩個(gè)半小時(shí)

頭條要聞

普京和金正恩北京長(zhǎng)談兩個(gè)半小時(shí)

體育要聞

排面!德國(guó)大使館盛贊樊振東:世界級(jí)巨星

娛樂(lè)要聞

劉尚嫻 最幸運(yùn)的事 就是嫁給初戀丈夫

財(cái)經(jīng)要聞

A股,2015與2025

汽車要聞

一天一個(gè)樣 方程豹鈦3玩轉(zhuǎn)“面部重組”

態(tài)度原創(chuàng)

時(shí)尚
旅游
家居
藝術(shù)
公開(kāi)課

“老頭衫”爆火出圈!今年流行的老錢風(fēng)、運(yùn)動(dòng)混搭風(fēng)都離不開(kāi)它

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

與光同塵 居于自然空間

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版