關(guān)于近期人工智能技術(shù)的發(fā)展,我想和大家分享幾個(gè)看法。這些看法是我在今年六月的一次演講中提出的,最近兩個(gè)多月,技術(shù)又發(fā)生了不少變化,但當(dāng)時(shí)的觀點(diǎn)基本都適用。
首先,支撐大語言模型發(fā)展的“規(guī)模定律(scaling law)”是否可持續(xù)?
其次,大模型如何推動(dòng)整個(gè)AI生態(tài)的規(guī)?;l(fā)展?
再次,人工智能的核心技術(shù)方向是什么?AI智能體和智能體經(jīng)濟(jì)會(huì)走向何方?未來的可能性在哪里?
可持續(xù)的規(guī)模定律
今天的大型AI模型的本質(zhì)在于由規(guī)模提升而涌現(xiàn)出來的能力,這是模型在達(dá)到一定規(guī)模、一定性能參數(shù)臨界點(diǎn)時(shí),突然具備的能力,也可以說是拐點(diǎn)。我們?cè)贕PT-3上觀察到了這種現(xiàn)象,后來的ChatGPT以及過去兩年快速發(fā)展的其他模型也都體現(xiàn)了這一點(diǎn)。
一般來說,參數(shù)越多,性能就越好——這一“規(guī)模定律”目前仍然成立。
盡管業(yè)內(nèi)普遍感覺預(yù)訓(xùn)練模型(pretraining model)的規(guī)模定律在逐漸放緩,但它依然非常重要:隨著訓(xùn)練時(shí)間和模型規(guī)模的增加,模型的準(zhǔn)確率在提高,只是提高的速度沒有以前那么快了。
與此同時(shí)的好消息是,在OpenAI的o1模型發(fā)布后,我們看到了一個(gè)重要的拐點(diǎn),那就是規(guī)模定律可以被拓展到推理模型(reasoning model)。這意味著在推理階段,模型所獲得的時(shí)間越多,它的表現(xiàn)就越好,結(jié)果就越準(zhǔn)確。我們稱這種現(xiàn)象為“推理規(guī)模定律(reasoning scaling)”,或“測(cè)試時(shí)規(guī)模定律(test-time scaling)”。這是過去六個(gè)月中推動(dòng)模型性能提升的重要力量,同時(shí)也是拉動(dòng)算力需求迅速上升的重要因素。
這將我們引向一種新的提升模型性能的路徑。我們以前主要依賴轉(zhuǎn)換器(transformer)來做預(yù)訓(xùn)練,現(xiàn)在則進(jìn)入了強(qiáng)化學(xué)習(xí)(reinforcement learning)階段。我敢大膽預(yù)測(cè),未來不僅僅是預(yù)訓(xùn)練和推理階段存在規(guī)模定律,我們將看到更多新的規(guī)模定律持續(xù)驅(qū)動(dòng)模型性能的提升,同時(shí)也會(huì)對(duì)算力提出更高的要求。也就是說,盡管預(yù)訓(xùn)練的規(guī)模定律有所減緩,但后訓(xùn)練(post-training)階段、強(qiáng)化學(xué)習(xí)階段的規(guī)模定律則開始顯現(xiàn)。
另一個(gè)好消息是所謂的“大語言模型通縮(LLMflation)”:模型的使用價(jià)格(即單位token的價(jià)格)在過去三年中以非??斓乃俣认陆?。我們看到基本上每年token的價(jià)格下降約10倍,三年總計(jì)下降約1000倍。從主流模型的發(fā)布可以看到,每一代模型發(fā)布時(shí),token價(jià)格下降了,但性能卻更好了。
所以我要強(qiáng)調(diào)的是:規(guī)模定律依然有效,token價(jià)格在持續(xù)下降,我們因此可以把它看作一種新的“摩爾定律(Moore’s Law)”——模型能力持續(xù)提升的同時(shí),使用成本在不斷降低。
AI產(chǎn)業(yè)規(guī)模化升級(jí)
我講的第二點(diǎn)是AI正在大規(guī)模產(chǎn)業(yè)化。這不僅是模型本身的規(guī)模提升,更是整個(gè)產(chǎn)業(yè)生態(tài)體系的規(guī)模擴(kuò)展。
大家看到OpenAI、Anthropic這些初創(chuàng)公司提供的是“模型即服務(wù)(Model-as-a-Service)”,同時(shí)大型平臺(tái)和云計(jì)算公司在持續(xù)提供“平臺(tái)即模型(Platform-as-a-Service)”。我們應(yīng)該意識(shí)到,AI模型不僅是模型,它將會(huì)成為一個(gè)平臺(tái),平臺(tái)將會(huì)進(jìn)一步構(gòu)建自身的生態(tài)體系:平臺(tái)的上層會(huì)出現(xiàn)越來越多的應(yīng)用程序,而在下層則是云計(jì)算,再往下一層是計(jì)算的硬件,其中最關(guān)鍵的是GPU。
為什么在過去兩年里,GPU在AI領(lǐng)域中處于絕對(duì)主導(dǎo)地位?因?yàn)榇蠹易罱K認(rèn)識(shí)到,不論是模型訓(xùn)練還是模型使用,雖然token價(jià)格下降了,但用戶越來越多、應(yīng)用場(chǎng)景越來越豐富,這都將消耗越來越多的算力。
因此,我們看到AI基礎(chǔ)設(shè)施建設(shè)正以前所未有的速度快速擴(kuò)張。
比如OpenAI宣布的Stargate項(xiàng)目,計(jì)劃投入約1000億美元和上千名工人在德克薩斯建設(shè)數(shù)據(jù)中心,未來可能將投資規(guī)模進(jìn)一步上漲至5000億美元,預(yù)計(jì)部署10萬個(gè)——甚至擴(kuò)展至50萬個(gè)——GPU。
另外,馬斯克的Colossus項(xiàng)目,在前四個(gè)月就已經(jīng)部署了10萬個(gè)GPU,計(jì)劃最終包括20萬個(gè)GPU。我算了一下,10萬個(gè)GPU的運(yùn)行功耗大約是150兆瓦;如果擴(kuò)展到100萬個(gè)GPU,則將消耗約1.5吉瓦。這意味著什么?整個(gè)北京市的耗電量約為13吉瓦。也就是說,僅僅一個(gè)擁有100萬個(gè)GPU的數(shù)據(jù)中心,就會(huì)消耗北京市總用電量的八分之一。由此可見AI基礎(chǔ)設(shè)施的投建規(guī)模之大。
正是這種對(duì)GPU的大量需求使得英偉達(dá)股價(jià)持續(xù)上漲。除了OpenAI和馬斯克之外,Google、Microsoft、Amazon等公司也都在加大投資,僅2025年他們?cè)贏I相關(guān)的資本開支上就預(yù)計(jì)投入超過3000億美元。這將直接導(dǎo)致美國出現(xiàn)電力緊張的問題。如果這種速度持續(xù)下去,美國的電網(wǎng)明年就將不堪重負(fù)。
這也解釋了為什么過去一年里大家又開始關(guān)注核能——尤其是小型核電站技術(shù)——相關(guān)的股票也漲勢(shì)強(qiáng)勁。整個(gè)AI數(shù)據(jù)中心產(chǎn)業(yè)鏈,在過去一年經(jīng)歷了大規(guī)模的建設(shè)潮,并且還將持續(xù)下去。這不僅僅是GPU、數(shù)據(jù)中心,還包括能源。這就是我們所說的AI產(chǎn)業(yè)規(guī)?;?/p>
核心技術(shù)方向
我想更深入地談?wù)劶夹g(shù)方向的問題。
技術(shù)發(fā)展路徑的第一階段主要還是“預(yù)訓(xùn)練(pretraining)”,這是核心。一個(gè)公司如果沒有能力構(gòu)建強(qiáng)大的基礎(chǔ)模型,它就無法開發(fā)出優(yōu)秀的推理模型,更不可能構(gòu)建出高質(zhì)量的智能體。
接下去的整個(gè)路線圖非常清晰:預(yù)訓(xùn)練→微調(diào)(fine tuning)→強(qiáng)化學(xué)習(xí)→智能體(agent)→具體應(yīng)用場(chǎng)景(specific domain)。這是為什么我們看到OpenAI在發(fā)布GPT-4之后,又發(fā)布了o1,并在整合了GPT-4.5和o3后推出GPT-5。這樣,他們的預(yù)訓(xùn)練模型和推理模型已經(jīng)趨于統(tǒng)一,其他大模型開發(fā)者也都會(huì)走這條路徑。
當(dāng)AI模型既具備預(yù)訓(xùn)練能力,又擁有強(qiáng)化學(xué)習(xí)能力后,就會(huì)走向“測(cè)試時(shí)推理模型(test-time reasoning model)”。也就是說,AI模型不再只是“快思維”(快速提取知識(shí)),它現(xiàn)在也具備“慢思維”(理性推理)的能力。
“慢思維”能力的增強(qiáng)是AI解決更復(fù)雜問題的關(guān)鍵。換句話說,如今的AI模型已經(jīng)不再是靜態(tài)的,不再只是一個(gè)知識(shí)庫,也不再是靜態(tài)的網(wǎng)絡(luò)。以前我們說,如果今天沒有給模型訓(xùn)練新知識(shí),那模型就沒有長進(jìn)。但現(xiàn)在,模型自身具備了持續(xù)學(xué)習(xí)的能力,它可以根據(jù)我們提供的數(shù)據(jù),從網(wǎng)絡(luò)中不斷學(xué)習(xí)。我們已經(jīng)開始看到計(jì)算機(jī)科學(xué)和AI奠基人圖靈所設(shè)想的那種能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。
過去在預(yù)訓(xùn)練時(shí),訓(xùn)練模型的主要方式是人類提供數(shù)據(jù)給它學(xué)習(xí),例如AlphaGo就是從人類下棋的經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)的。目前訓(xùn)練基礎(chǔ)模型——尤其是訓(xùn)練推理模型——的主流方法已經(jīng)變?yōu)閺?qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)階段,我們并不直接提供數(shù)據(jù),而是提供規(guī)則和目標(biāo),并教模型如何從數(shù)據(jù)中學(xué)習(xí)。這不僅是“授人以魚”,而是“授人以漁”。
接下來,我們不僅要教模型怎么釣魚,還將賦予它“饑餓感”,讓它自己明白魚是好吃的,然后讓它自己感到餓,這樣模型就會(huì)主動(dòng)去找魚吃。所謂“饑餓感”,就是要為模型設(shè)置更高層次的目標(biāo)函數(shù),讓它不僅滿足于完成單一任務(wù),而是持續(xù)自我優(yōu)化、避免“餓死”。只有目標(biāo)驅(qū)動(dòng)、持續(xù)迭代,模型才能真正突破。
也就是說,模型要自己學(xué)會(huì)如何釣魚,而不再需要人類去教;它將不僅會(huì)使用數(shù)據(jù),還知道去哪里獲取數(shù)據(jù),甚至如何自己構(gòu)建數(shù)據(jù)集。這就是我們目前所處的階段,我們正在邁入一個(gè)全新的AI智能體時(shí)代。
人們經(jīng)常談?wù)搹?qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練和推理之間的關(guān)系。過去我們談?wù)摿撕芏囝A(yù)訓(xùn)練(比如GPT),但現(xiàn)在我們進(jìn)入了后訓(xùn)練、強(qiáng)化學(xué)習(xí)和推理階段。強(qiáng)化學(xué)習(xí)曾經(jīng)只是整個(gè)模型訓(xùn)練中的一小部分。但從OpenAI的o3模型開始,強(qiáng)化學(xué)習(xí)變成了很重要的一部分,并且在未來會(huì)進(jìn)一步擴(kuò)大比重。可以說,強(qiáng)化學(xué)習(xí)和推理在過去就像蛋糕上的櫻桃,在未來則將成為模型性能的主要驅(qū)動(dòng)因素,也將成為計(jì)算資源消耗的主要部分。
今天我們已經(jīng)擁有能夠長時(shí)間思考的模型,就像圍棋大師一樣,它邁出一步的時(shí)間更長,解決一個(gè)復(fù)雜問題甚至需要非常聰明的人花很長時(shí)間。你可能會(huì)問,時(shí)間更長就一定更好嗎?我的觀點(diǎn)是,當(dāng)一個(gè)推理模型花更多時(shí)間思考時(shí),它實(shí)際上是在問自己更多的問題,它在思考中提出更多假設(shè),搜索更多路徑,甚至在這個(gè)過程中構(gòu)建自己的工具。
未來我們將看到一個(gè)模型就像科學(xué)家一樣,可以花上數(shù)天、數(shù)月時(shí)間思考一個(gè)特定問題并找到解決方案。
AI智能體與智能體經(jīng)濟(jì)
現(xiàn)在大家都在談?wù)摗爸悄荏w(agent)”。如果我們借用OpenAI創(chuàng)始人Sam Altman關(guān)于人工智能五個(gè)階段的劃分,我們現(xiàn)在正處于第二和第三階段之間,但很快將進(jìn)入第三階段,也就是所謂的智能體階段。在這個(gè)階段,AI系統(tǒng)能夠采取行動(dòng),能夠自我學(xué)習(xí)。
從這個(gè)角度看,人類與工具的關(guān)系正在發(fā)生變化。以前我們把計(jì)算機(jī)、AI視為人的工具?,F(xiàn)在我們已經(jīng)把AI看作助手或副駕駛(copilot)。而在不久的將來,人類與工具將會(huì)進(jìn)入一個(gè)新的共生階段:人和機(jī)器網(wǎng)絡(luò)的共生。那時(shí)會(huì)有更多的自主AI智能體,并將受人類控制——但愿我們成為控制者,否則就可能變成它的奴隸,或者被它們同化。
舉例而言,OpenAI的一個(gè)前沿項(xiàng)目Deep Research,它是在推理模型基礎(chǔ)上構(gòu)建的智能體。你給它一個(gè)任務(wù),它會(huì)首先分析這個(gè)任務(wù),然后意識(shí)到需要一些數(shù)據(jù),它會(huì)自己去搜索。接著它意識(shí)到需要一些分析工具,它會(huì)去尋找這些工具。它可能還意識(shí)到有些工具根本不存在,于是它自己編程開發(fā)這個(gè)工具,然后再使用這些工具完成任務(wù)。所以你可以看到,它既可以使用現(xiàn)有工具,也可以自己構(gòu)建工具來完成任務(wù)。
今天我們已經(jīng)開始有智能體能夠執(zhí)行任務(wù),并在復(fù)雜的工作流中工作。未來,每一個(gè)任務(wù)、每一個(gè)工作流程都有可能由智能體來完成。這些智能體將組成一個(gè)系統(tǒng),形成企業(yè)決策的完整閉環(huán),運(yùn)行整個(gè)操作流程。這一天很快就會(huì)到來。我們正在進(jìn)入一個(gè)階段,叫“智能體群(agent swarm)”時(shí)代,也就是數(shù)量龐大的智能體之間彼此交互、執(zhí)行任務(wù)、交換數(shù)據(jù)、交換信息,甚至交換任務(wù)。而人類與這些智能體群的交互,將構(gòu)成我們所謂的“智能體經(jīng)濟(jì)(agent economy)”。
設(shè)想一下,現(xiàn)在的大模型是由海量的神經(jīng)元構(gòu)成的。未來,這些智能體會(huì)像今天神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元一樣,而未來的社會(huì)和經(jīng)濟(jì)系統(tǒng)將由大量的智能體構(gòu)成,就像今天的神經(jīng)網(wǎng)絡(luò)。那將是我們的未來。
我想說,未來是自主的(autonomous):自主的智能體、智能體群和智能體經(jīng)濟(jì)。如果僅看模型的智商測(cè)試結(jié)果,今天不少大語言模型的IQ測(cè)試分?jǐn)?shù)已經(jīng)高于人類平均水平。這意味著什么?我們還記得當(dāng)年AlphaGo戰(zhàn)勝人類圍棋大師的那一刻,尤其是它的下棋方式是前所未見的,那時(shí)我們才突然意識(shí)到AlphaGo已經(jīng)具備了所謂的“上帝視角(God’s angle)”:人類下了兩千年圍棋,其實(shí)只是站在一座小山上看風(fēng)景,而AlphaGo看到的是整個(gè)地貌。
我們?cè)诖笳Z言模型中看到的就是這種潛力。當(dāng)我們談到奇點(diǎn)是否到來,其實(shí)就是說兩條曲線是否交匯:一條是人類的適應(yīng)能力或?qū)W習(xí)能力,這條曲線幾乎是平的;另一條是技術(shù)或機(jī)器的學(xué)習(xí)能力,這條曲線增長得非???。當(dāng)這兩條曲線交匯時(shí),就意味著機(jī)器已經(jīng)比人類更聰明了。人類能做的一切,最終都可以由機(jī)器完成,而且機(jī)器學(xué)習(xí)得更快。這就可能意味著,雖然新技術(shù)總是會(huì)創(chuàng)造新工作崗位、淘汰舊工作崗位,但這些新工作可能不一定是給人類的,而是給智能體的。這就是令人擔(dān)憂的部分。
因此,未來組織的核心資產(chǎn)將會(huì)完全不同。GPU,也就是算力,會(huì)成為核心資產(chǎn)。模型,也就是智能,也會(huì)成為資產(chǎn)。未來我們不斷訓(xùn)練模型,而不是不斷培訓(xùn)員工。今天我們要擴(kuò)展業(yè)務(wù),會(huì)去招聘新員工,建立新組織,建設(shè)新辦公室。未來,我們只需要獲取更多的算力,改進(jìn)模型,獲得更多的數(shù)據(jù)。這是一種巨大的結(jié)構(gòu)性變革,前所未見,只在科幻小說中出現(xiàn)過。
隨著智能體變得越來越強(qiáng)大,我們會(huì)看到智能體會(huì)替代企業(yè)或機(jī)構(gòu)中許多流程和決策點(diǎn)。這將會(huì)提高生產(chǎn)率,但也會(huì)帶來一些大的結(jié)構(gòu)性變化。未來企業(yè)的規(guī)模,如果以人員數(shù)量來衡量,會(huì)出現(xiàn)一些小規(guī)模的大企業(yè),就像“單人獨(dú)角獸”(one person unicorn)。這些企業(yè)的銷售額和利潤可能非常大,但員工人數(shù)卻很少。
可以想象,當(dāng)智能體能夠自動(dòng)編程,甚至自動(dòng)生成工具時(shí),這個(gè)趨勢(shì)是顯而易見的。小公司會(huì)大量涌現(xiàn),而大公司則裁員更多。所以,未來是人和一群智能體的合作。智能體會(huì)變得越來越主動(dòng),越來越自動(dòng)化。我們不能指望未來機(jī)器永遠(yuǎn)只是人的助手。
最后講一個(gè)我從網(wǎng)上看到的笑話。一家公司有三位C-level的高管。CFO關(guān)心錢:“如果我們花了很多錢培養(yǎng)員工,他們卻離職了怎么辦?”CEO說:“那如果我們不培養(yǎng)他們,他們卻留下來呢?”然后CTO說:“機(jī)器人從來不會(huì)離職?!边@也許就是我們即將面對(duì)的場(chǎng)景,它要求我們必須制定應(yīng)對(duì)計(jì)劃和采取行動(dòng),去面對(duì)可能的結(jié)構(gòu)性轉(zhuǎn)型及其風(fēng)險(xiǎn)。
作者 張宏江|投稿 tougao99999
作者:美國國家工程院外籍院士、北京智源人工智能研究院創(chuàng)始理事長。曾任微軟亞洲研究院副院長、微軟亞洲工程院院長。
本文是作者基于今年6月的一次演講
整理而成,原載“羅漢堂觀點(diǎn)”公
眾號(hào)。
歡迎點(diǎn)看【秦朔朋友圈】
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.