網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

朱松純：什么時候才能出現(xiàn)人工智能的“中國時刻”？

2025-02-18 14:27:02　來源: 知識分子

廣東舉報

分享至

圖15紋理合成：多層神經(jīng)網(wǎng)絡(luò)的產(chǎn)生式模型圖22爬樹與撈月能否登月？

2.18

知識分子

The Intellectual

圖源：Pixabay

編者按

·為什么AlphaGo、ChatGPT沒有在中國誕生？

·為什么中國只能出現(xiàn)“百模大戰(zhàn)”？

·什么時候才能出現(xiàn)人工智能的“中國時刻”？

這是朱松純教授提出的關(guān)于人工智能的“中國之問”，在當(dāng)前通用人工智能（AGI）發(fā)展進程中，西方主導(dǎo)的”大數(shù)據(jù)+大算力+大模型”的模式被認為是唯一正確的發(fā)展路徑。直到最近中國本土的大模型deepseek的出現(xiàn)才打破了這一根深蒂固的思維定式。

北京通用人工智能研究院院長、北京?學(xué)智能學(xué)院院長、清華?學(xué)基礎(chǔ)科學(xué)講席教授朱松純在蓮花山研究院成立20周年學(xué)術(shù)思想研討會和第四屆智能計算創(chuàng)新會議上回顧了數(shù)據(jù)驅(qū)動的人工智能研究的起源；2009年之后的技術(shù)范式從數(shù)據(jù)驅(qū)動轉(zhuǎn)變?yōu)橐蚬c價值驅(qū)動的根本原因；更提出了我們要突破西方主導(dǎo)的敘事框架，發(fā)展中國特色的AGI道路的關(guān)鍵——基于中國思想、突破單純的數(shù)據(jù)驅(qū)動轉(zhuǎn)向更綜合的范式、構(gòu)建融合”心”與”理"的通用智能體系、注重人機共生的智能社會構(gòu)建。

撰文 | 朱松純

{ 目錄 }

一、引言：直面人工智能的“中國之問”

二、探源：大數(shù)據(jù)驅(qū)動的人工智能熱潮
三、局限：數(shù)據(jù)與統(tǒng)計方法驅(qū)動的局限
四、出路：探索數(shù)據(jù)背后的因果與價值
五、新標：全球首個AGI評級測試標準

六、思考：思想自主與敘事權(quán)爭奪

引言：

直面人工智能的“中國之問”

2022年底以來，以Chat GPT為代表的大模型進入公眾視野，并引發(fā)社會廣泛的關(guān)注。通用人工智能已經(jīng)超越了純粹的學(xué)術(shù)研究層面，成為了國家間科技爭奪的前沿焦點。要知道2020年我剛回國時，提出要建立我國第一個通用人工智能研究院，那時還有人覺得談通用人工智能太遙遠，僅僅4年后的現(xiàn)在，很多人又覺得通用人工智能可以馬上實現(xiàn)。資本和流量擠進這個熱門賽道，聲稱他們已經(jīng)“超英趕美”，故意激化國內(nèi)的“百模大戰(zhàn)”……要么冒進，要么悲觀，就像很多人對通用人工智能的搖擺一樣。作為人工智能領(lǐng)域?qū)W者，我覺得自己有責(zé)任去做一個解釋說明，幫助大家去偽存真，讓人們能夠看到真實的通用人工智能。

《國家創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略綱要》指出，我國到2050年要建成世界科技創(chuàng)新強國，成為世界主要科學(xué)中心和創(chuàng)新高地。中國人能否在人工智能領(lǐng)域建立自主的、原創(chuàng)的獨立思想和流派，關(guān)系到能不能在人工智能的前沿科技中搶占制高點。

每每站在國家命運的十字路口，中國人總會聽到來自歷史的叩問。無論是“李約瑟難題”“錢學(xué)森之問”“楊振寧三問”，還是今天的人工智能“中國之問”，都考驗著我們國家戰(zhàn)略方向的確立和科學(xué)家的使命感。我想，要交出一份滿意的答卷，就要走出一條屬于我們自己的路，走底層邏輯自主可控的創(chuàng)新之路，走人工智能與人類價值觀對齊的創(chuàng)新之路，走不隨大流、堅信人工智能的“中國時代”必將到來的創(chuàng)新之路。

2025年春節(jié)前夕，中國本土公司的人工智能創(chuàng)業(yè)公司，用更低的成本，做出了不遜于國外頂尖大模型的deepseek，就是很好的證明。

這就有必要從源頭捋清一條發(fā)展脈絡(luò)，說明我們的先進性。許多成果明明由我們先開始，卻被誤以為是別人先做出來的。這就像在體育場里跑馬拉松經(jīng)常出現(xiàn)的“套圈”現(xiàn)象，我們已經(jīng)領(lǐng)先了10圈，其他選手雖然看起來像是在我們前面，實際上卻忽略了我們已經(jīng)遠遠超越了他們。

所以，我今天講的故事里，既有我從圖像大數(shù)據(jù)研究這個源頭出發(fā)，經(jīng)歷人工智能逐漸興起的經(jīng)歷，也有發(fā)現(xiàn)數(shù)據(jù)驅(qū)動人工智能存在巨大局限性的思考；有突破邊界，追求價值驅(qū)動通用人工智能道路的堅持，還有將“UV理論”應(yīng)用在建立全球首個AGI評級測試標準的創(chuàng)新嘗試。

探源：

大數(shù)據(jù)驅(qū)動的人工智能熱潮

人工智能現(xiàn)在是全國乃至全世界都關(guān)注的熱門領(lǐng)域，這種“熱度”來自于大語言模型的流行，是在這幾年的資本炒作中帶來的。但實際上，在這股熱潮之外，人工智能已經(jīng)在科學(xué)家們的艱辛探索下，走過了幾十年的發(fā)展路程。對技術(shù)發(fā)展溯源，其實也就是對人工智能進行探源，將有助于我們在熱鬧和喧囂背后進行清醒思考，并真正理性地選擇人工智能的未來之路。

探源是一個非常復(fù)雜的問題。以長江為例，儒家經(jīng)典《禹貢》記載，長江的源頭是四川岷江，這種觀念持續(xù)千年，直到明末徐霞客才通過探源并在《江源考》中提出，金沙江是長江的源頭。我國科考隊在1976年，才論證了長江源是沱沱河和唐古拉山。歷史證明，盡管明代沒有地圖和導(dǎo)航，盡管科考要冒著風(fēng)險、付出超乎尋常的代價，人們卻著迷于追求源頭對人類帶來非凡意義。

圖1 對數(shù)據(jù)的溯源就像對長江探源的過程，探索源頭能夠讓我們了解事物的歷史、本源，幫助我們更好地理解現(xiàn)在、展望未來

所以，我今天的報告是想追溯大數(shù)據(jù)的起源，做一次“數(shù)據(jù)溯源”的科學(xué)考察。首先，此處說的大數(shù)據(jù)尤其指在計算機視覺領(lǐng)域的數(shù)據(jù)，也就是圖像數(shù)據(jù)。為什么要從視覺說起呢？視覺是“五感”中接收信息量最豐富、系統(tǒng)最復(fù)雜、范圍最廣闊的覺知能力，人的大腦皮層的活動，大約70%是在處理視覺相關(guān)信息。我和團隊也是從視覺大數(shù)據(jù)開始，在技術(shù)創(chuàng)新的路上艱難突進，才走到今天，所以視覺大數(shù)據(jù)是我們的起點，是我們的“初心”。

其次，我希望大家能夠記得幾個時間節(jié)點：20世紀70年代、1999年、2001年、2003年、2004年，我還希望大家能記住幾個簡單的詞：PG0、PG+和PG++。這些關(guān)鍵時間發(fā)生的幾件大事，值得銘記，這幾個關(guān)鍵詞代表了我與團隊探索智能極限、不斷邁向通用人工智能的過程。下面我為大家展開講一講。

實現(xiàn)通用人工智能是全人類的夢想。要完成這個目標，有三個可以稱為哲學(xué)層面的問題需要回答：

到底多“通用”才算是通用人工智能？

通用人工智能需要完成多少項任務(wù)？

如何評估智能體的進步？

我從20世紀60年代到80年代期間說起。那時陸續(xù)出現(xiàn)了基于視覺的人工智能研究，但限于當(dāng)時的條件，缺乏有效的數(shù)據(jù)支持。60年代早期研究中使用的線圖是由采樣人員手繪的。到了70年代，這些線圖被用于幫助理解和判斷物品。即使到了1994年，技術(shù)也沒有本質(zhì)上變革，對于視覺數(shù)據(jù)的收集依然不盡人意。

圖21990s年代，2D形狀的表達與物體識別解譯（朱松純1994）

當(dāng)我開始籌備我的第一篇關(guān)于計算機視覺的論文時，那時候是在做關(guān)于2D形狀的對稱中軸（media axis）表達，我們從明信片、拍照或書籍中掃描照片，然后手工將其轉(zhuǎn)化為二維照片來研究。研究團隊想建立一個葉子數(shù)據(jù)庫，需要我們?nèi)齑罅咳~子進行掃描。那時我常在波士頓的路上邊撿葉子，有一次撿得太專注，直到被近處一聲呼喊嚇了一跳，原來我不小心誤入了別人的院子，被當(dāng)作了小偷。

圖31960-1980年代主要是線畫的解釋（Line drawing interpretation，Waltz 1960s）和塊狀物體的解譯（傅京孫先生，block world parsing）

這個時期，研究主要是對線畫的解釋和塊狀物體的圖像解譯。傅京孫先生構(gòu)建了這類研究方法。輸入線畫圖像就會出現(xiàn)線畫解譯圖（Parse Graph，簡稱PG）,在結(jié)果中不僅能展示物體本身，還能標注物體之間的關(guān)系，例如“連接關(guān)系”“遮擋關(guān)系”等。

那時候?qū)D像的分析只能用線圖表示，圖像數(shù)據(jù)非常匱乏。為什么沒有數(shù)據(jù)呢？我認為主要有兩個原因：第一個原因是那時候的計算機資源有限。那時候的微機的速度只有640K，這是什么概念呢？現(xiàn)在手機拍一張照片也有好幾兆。手機拍照只要一瞬間，如果用那時的微機處理今天的一張圖片，可能就要花很長時間，更不要提處理大數(shù)據(jù)了。

圖4 左圖：微機的內(nèi)存只有640K；右圖：世界上第一只數(shù)字攝像頭誕生于1975年

第二個原因是那個時候還沒有數(shù)字照相機。1992年，我所在的哈佛實驗室花費25萬美元構(gòu)建了一個圖像采集系統(tǒng)。這樣的“天價”設(shè)備，從帶寬、內(nèi)存等方面仍然無法滿足基本要求。即便到了1995年，我所在的實驗室給我配置了當(dāng)時最先進的32兆內(nèi)存工作站，處理圖片依然是個難題。編程時經(jīng)常要讀盤，將中間數(shù)據(jù)載入并保存下來，系統(tǒng)崩潰、數(shù)據(jù)丟失仍是家常便飯?？梢哉f，一直到90年代中期，人類的硬件條件和數(shù)據(jù)條件無法支撐大規(guī)模視覺數(shù)據(jù)研究，視覺研究只能做最簡單的幾何研究。直到在90年代的末期，感知器技術(shù)革命的到來，才帶動了大數(shù)據(jù)和機器學(xué)習(xí)的蓬勃發(fā)展。

90年代末，出現(xiàn)了大量圖像集，例如索爾比（Sowerby Image Database，簡稱SID）和科立爾（CorelDRAW）數(shù)據(jù)集。一些攝影師還會將自己的作品刻進光盤售賣，我把他們買回來嘗試讀取、研究，只是那時只有圖片，還沒有標注，算不上是數(shù)據(jù)集。

圖5 90年代末，感知器革命帶來了大數(shù)據(jù)處理能力的變化，出現(xiàn)了大量圖像集。例如，那時出現(xiàn)的索爾比數(shù)據(jù)集（Sowerby Dataset）就是其中之一

圖6世界上第一次被標注的數(shù)據(jù)集，正式發(fā)表于1999年的CVPR。它的作者是斯科特·小西博士

時間來到了1999年，它的重要性在于，這一年出現(xiàn)了世界上最早的標注數(shù)據(jù)集。這個標注數(shù)據(jù)集來自日裔科學(xué)家斯科特·小西（Scott Konishi）。他在1998年的研究工作中完成了最早的標注數(shù)據(jù)集，他的成果后來在論文《邊緣檢測的基本邊界：不同邊緣線索的信息論評估》（《Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues》）中有體現(xiàn)，這篇文章是做邊緣檢測。當(dāng)時還有一些任務(wù)數(shù)據(jù)集，比如手寫體識別，從0到9標十個數(shù)字，我認為那是分類，不是標注。

說起來我和小西還有一段故事。那時他是加州大學(xué)伯克利分校的博士生，沒人帶他，就跟了艾倫·尤利（Alan Yullie）做研究。小西博士當(dāng)時在舊金山一所研究機構(gòu)里做著枯燥的數(shù)據(jù)標注工作，經(jīng)費捉襟見肘。我當(dāng)時在斯坦福大學(xué)當(dāng)講師，斯坦福系主任從保羅·艾倫（Paul Allen）那里要到了一筆六萬美元的經(jīng)費（Paul Allen是微軟的聯(lián)合創(chuàng)始人之一）。我正準備辭職，沒用完的錢就資助了小西博士，也是第一次用統(tǒng)計的方法來做邊緣檢測數(shù)據(jù)集。

圖7統(tǒng)計建模與隨機計算首次進入CVPR。以此為起點，用統(tǒng)計方法來做邊緣檢測數(shù)據(jù)集成為一種新的趨勢。后來，在我們舉辦的“首屆統(tǒng)計建模與隨機計算工作坊”中，來的也多是統(tǒng)計學(xué)出身的學(xué)者

后來該成果發(fā)表在“計算機視覺與模式識別”會議（Conference on Computer Vision and Pattern Recognition，簡稱CVPR）上，隨后我們舉辦了首屆統(tǒng)計建模與隨機計算工作坊（First Int'l Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling），來者也多是學(xué)統(tǒng)計出身的學(xué)者。

圖8 2001年大衛(wèi)·馬?。―avid Martin）提出圖片分割（Image Segmentation）數(shù)據(jù)集，科學(xué)家們又向著更高層級圖像解析邁出了一步。左下圖為屠卓文的論文，意為《數(shù)據(jù)驅(qū)動馬爾可夫鏈蒙特卡羅圖像分割》

2001年，人工智能的重要時刻又到來了。加州大學(xué)伯克利分校的大衛(wèi)·馬?。―avid Martin）提出了圖像分割（Image Segmentation）數(shù)據(jù)集。我?guī)У牡谝粋€博士生屠卓文在這個數(shù)據(jù)集上用馬爾可夫鏈蒙特卡洛MCMC方法取得了最佳成績，遠遠超過了他們當(dāng)初提出的算法。2003年，李飛飛提出了Caltech 101數(shù)據(jù)集，其實這個數(shù)據(jù)集沒有標注，只是包含了包括“狗”“飛機”“汽車”等在內(nèi)的101個分類。

圖92003年Li Fei-Fei團隊提出Caltech 101數(shù)據(jù)集，但該數(shù)據(jù)集沒有標注，只是分類

到這里，源頭階段的脈絡(luò)就很清晰了，此時的我們已經(jīng)身處“PG時代”?；仡欉@幾個對人工智能來說重要的時間節(jié)點，從20世紀70年代到1999年中間跨越了幾十年，從1999年到2001年、2003年僅僅只有幾年時間，我作為身在這個領(lǐng)域的學(xué)者，能夠深刻感覺到人工智能發(fā)展的“加速度”，成果誕生的時間周期越來越短，“奇點臨近”的感受愈發(fā)明顯，激動人心的未來似乎在向我們招手。

局限：

數(shù)據(jù)與統(tǒng)計方法驅(qū)動的局限

盡管早在20多年前就感受到了人工智能的“奇點臨近”，但我必須強調(diào)的是，幾十年的探索讓我們清醒地認識到，數(shù)據(jù)與統(tǒng)計方法驅(qū)動的人工智能發(fā)展道路存在自身的局限性，當(dāng)時對人工智能的認知與開發(fā)還遠遠不足，到今天證明了，我的想法是對的。為了說清楚這個問題，讓我繼續(xù)從本世紀初的科研實踐講起。

2003年，我們開始超越線畫，做真正的圖像解譯（Image Parsing），這個工作在2003年國際計算機視覺大會上獲得了計算機視覺研究的馬爾獎。獲獎并沒有讓團隊停下思考的腳步，因為從上個世紀90年代最早將統(tǒng)計建模與學(xué)習(xí)方法引入計算機視覺，我們團隊發(fā)現(xiàn)統(tǒng)計在對圖像理解方面有著越來越重要的作用，所以我決定在湖北鄂州創(chuàng)立蓮花山研究院，開啟大規(guī)模、顆粒度極高的數(shù)據(jù)標注工作。

2004年，蓮花山研究院在湖北鄂州成立，是世界首個大型圖像/視頻解譯數(shù)據(jù)庫，也是中國首家民辦非營利性機構(gòu)，具有劃時代的意義。這不僅對我個人的科研生涯至關(guān)重要，在人工智能發(fā)展史上具有標桿意義的存在，制定了圖像視頻標注的標準圖像解譯的測試集，為我國人工智能人才的啟蒙、乃至全球此輪由數(shù)據(jù)驅(qū)動的人工智能浪潮，起到了開創(chuàng)性的推動作用。

這個階段的圖像解譯不同于以前的單點分割和圖像分類，它需要解譯整個圖像的結(jié)構(gòu)。舉個例子，如果給蓮花標記，我們不僅給蓮花分類，還要標注花瓣、花蕊等所有結(jié)構(gòu)。此外，圖像解譯還關(guān)注物體之間的關(guān)系，例如標記一輛被柱子擋住的車時，我們會標記遮擋關(guān)系，還會生成圖像標簽圖、子圖和三維標記。這是一個非常復(fù)雜的過程，所以我們還制定了標注標準，并產(chǎn)生了手冊、定義了怎么解析圖像的細節(jié)。團隊后來承接了來自世界各地科研機構(gòu)數(shù)據(jù)標注的業(yè)務(wù)，簽訂了不少合同。

圖10蓮花山圖像解譯操作手冊，圖像的分割、識別與解譯。對PG0階段，即對圖像本身的開發(fā)程度已經(jīng)到了完整的程度

到這個階段，也就是我們現(xiàn)在可以稱之為“PG0時代”的時期，人工智能技術(shù)對圖像本身的解譯可以說是非常成熟了。大家可以看圖中的這個小三角形，其中的紅色節(jié)點（nodes）都已經(jīng)被填滿了，這表示，此時技術(shù)能夠達到對圖片本身的解譯沒有“死角”的程度，通過“分割”（segmentation）“對象檢測”（object detection）和“三維構(gòu)建”（3D construction）等技術(shù)，已經(jīng)能夠?qū)D片畫面有充分理解。

圖11 對圖像的三維解譯。這個時期，技術(shù)對畫面上包括物體、場景等要素的“理解”已經(jīng)很充分

值得一提的是，蓮花山研究院還是人工智能生成內(nèi)容（AIGC）應(yīng)用的誕生地之一。我們開發(fā)了一種將結(jié)婚照轉(zhuǎn)化為油畫的技術(shù)。我們想，每年有數(shù)百萬對新人結(jié)婚，可以將油畫作為獨特的紀念品或禮品。這也是我們最早的產(chǎn)業(yè)創(chuàng)新之一。

圖12圖片意為“從圖像解析到繪畫渲染”。將結(jié)婚照轉(zhuǎn)化為油畫作為新婚夫婦的結(jié)婚紀念，成為我們最早的產(chǎn)業(yè)化嘗試之一

將結(jié)婚照轉(zhuǎn)化為油畫的技術(shù)依賴于我們在30年前提出的、用于紋理合成的模型，這可以算是世界上最早的生成式模型。目前流行的大模型GPT是pre-trained model（預(yù)訓(xùn)練模型），在30年前我們將其稱之為prior learning（先前學(xué)習(xí)）?，F(xiàn)在廣受關(guān)注的生成式對抗網(wǎng)絡(luò)（GAN），最早也是由我的學(xué)生屠卓文開發(fā)，后來被國外一些研究團隊聲勢浩大地推廣，并更名為“GAN”。

圖13世界最早的生成式模型：（Generative Model）紋理合成

圖14 論文題目意為《先前學(xué)習(xí)與吉布斯反應(yīng)擴散》。先驗?zāi)Ｐ停≒rior Model）最近被改稱為“生成式預(yù)訓(xùn)練”（Generative Pre-trained）。最早叫做先前學(xué)習(xí)（prior learning）和生成圖片的“郎之萬動力學(xué)”（Langevin dynamics for generating images）

蓮花山研究院作為中國第一個“科民非”，可以理解為現(xiàn)在的新型研發(fā)機構(gòu)。蓮花山研究院的建立開創(chuàng)了國際交流的盛況，當(dāng)時很多青年學(xué)者后來陸陸續(xù)續(xù)都成了人工智能領(lǐng)域的中流砥柱。

圖16第一屆蓮花山研究院研討會合影。很多青年學(xué)者后來陸陸續(xù)續(xù)都成了人工智能領(lǐng)域的中流砥柱

到了2005年，歐洲出現(xiàn)了一個叫“帕斯卡（PASCAL）”的數(shù)據(jù)集（全稱Pattern Analysis, Statistical Modelling and Computational Learning，意為“模式分析、統(tǒng)計建模和計算學(xué)習(xí)”縮寫），它專注于圖像分類和分割，是一個非常有名的數(shù)據(jù)集。這里有個插曲是在2005年，我們開始對外接訂單，為美國一些公司標注數(shù)據(jù)，我們標注得非常準確，價格也比較便宜。當(dāng)時這個數(shù)據(jù)集的人找到我們，希望我們標注他們的數(shù)據(jù)。按照我們的標法，每張圖片標注一千多個點，報價是每張照片一歐元。因為對方有數(shù)萬張照片，所以覺得價格太貴，最后沒談成，他們不再做圖像解譯，只做分割和分類。

大約也是這個節(jié)點，科研風(fēng)氣發(fā)生了變化。在后來做單純的分割和分類這波人中，一部分是傳統(tǒng)20世紀70-90年代研究幾何的，因為1999年統(tǒng)計建模出現(xiàn)后，這些人陷入了危機，點云（Point Cloud）等技術(shù)難以繼續(xù)，所以他們轉(zhuǎn)向做大數(shù)據(jù)集分割和分類，組織競賽和刷榜。2004年之后，“刷榜”文化開始盛行，所謂刷榜，就是一般下載了人家的代碼，改進、調(diào)整、搭建更快的模塊，用一個數(shù)據(jù)集在不同場景下進行測試、評估和排名，不斷地在排行榜上拿名次。但是，這個代碼不是自主創(chuàng)新的，實際上對技術(shù)進步無益。

記得我們2006年在加州大學(xué)伯克利分校召開了一次會議，很多數(shù)學(xué)家在場，這波專門做大數(shù)據(jù)的人站起來說：“你不用管有的沒的，只需在我的數(shù)據(jù)集上測試就可以了?！蔽业膶?dǎo)師，獲得過菲爾茲獎的知名數(shù)學(xué)家大衛(wèi)·曼福德(David Mumford)當(dāng)時在場，感到了很強的冒犯。這其實背后反映的是深層次的、用經(jīng)驗主義還是理性主義來解決問題的爭論。

經(jīng)驗主義和理性主義有什么不同呢？經(jīng)驗主義完全依賴于數(shù)據(jù)驅(qū)動，但數(shù)據(jù)之外總有例外，世界的復(fù)雜性可能遠超數(shù)據(jù)所能涵蓋的信息。數(shù)據(jù)可以幫助我們窺見事物的一部分，但卻無法呈現(xiàn)完整的圖景。而理性主義則強調(diào)科學(xué)的美感，比如愛因斯坦所倡導(dǎo)的第一性原理，即通過對復(fù)雜世界的簡化，找到事物本質(zhì)，形成普遍適用的理論框架，也就是“大一統(tǒng)理論”。

圖17經(jīng)驗主義的審稿人和理性主義的審稿人產(chǎn)生了對立，凸顯了當(dāng)時解決問題的研究路徑出現(xiàn)分歧

說到這里，我講一個非常典型的故事。2010年，我在一次發(fā)言中討論了理性主義和經(jīng)驗主義的爭論。我們當(dāng)時投論文的時候大概有兩類審稿人：經(jīng)驗主義審稿人和理性主義審稿人。經(jīng)驗主義的審稿人通常會要求你在不同數(shù)據(jù)集上運行你的方法，這些審稿人迷信模型，對理論本身是不感興趣的、質(zhì)疑的。就像“如果你真聰明，怎么會不富有呢？”他們會說“如果你的研究方法真的好，那么為什么比不上現(xiàn)在的模型呢？”這種簡單粗暴的標準將評判科學(xué)成果“是否帶來創(chuàng)新、進步”變成了成果“是否符合模型”。其實，就像聰明和富有并無直接關(guān)聯(lián)，能不能在數(shù)據(jù)集上運行成功，跟成果的創(chuàng)新性也沒有必然關(guān)系。

對于那些偏好運行數(shù)據(jù)集的文章，理性主義的審稿人則會說：“你的算法只是在你選定的有限數(shù)據(jù)集上有效，但對解決真實問題沒有幫助?！眻猿掷硇灾髁x的研究者會從理論上證明某個問題不可解，以此作為拒掉文章的標準。因此，經(jīng)驗主義和理性主義的分歧，導(dǎo)致了一個現(xiàn)象，就是當(dāng)時論文能否被接受，很大程度上取決于論文被送到哪派審稿人手里?，F(xiàn)在，經(jīng)驗主義審稿人占據(jù)了主導(dǎo)地位，堅持理性主義的研究者就逐漸退出了計算機視覺領(lǐng)域。

我更傾向于理性主義，同時結(jié)合一定的經(jīng)驗數(shù)據(jù)。用通俗簡單的話來比較，經(jīng)驗主義就是立足于前人經(jīng)驗，在現(xiàn)有的地基上“壘磚”，我堅持的理性主義更偏向于“輕裝上陣”，從一開始就抱定對世界本源、本真、本質(zhì)的極致探索。明明是在前人經(jīng)驗上“壘磚”更容易，就像做大模型，更容易出成果，為什么我還是這么執(zhí)著于理性主義、堅持價值驅(qū)動的研究道路呢？因為，我認為我們國家已經(jīng)到了鼓勵顛覆式創(chuàng)新的階段。什么是顛覆式創(chuàng)新？就是你這個技術(shù)一出來，之前的很多技術(shù)都直接歸零了。想要在人工智能這種絕對的前沿領(lǐng)域達到這種結(jié)果，你追求的不能是在別人的范式之下做科研，漸進地從1到3，從3到n。我們現(xiàn)在希望實現(xiàn)做“從0到1”的成果，只有這樣的技術(shù)突破多涌現(xiàn)在這個國家，中國才能成為真正意義上的世界科技強國。

出路：

探索數(shù)據(jù)背后的因果與價值

接下來我解釋PG+和PG++這兩個關(guān)鍵概念，這也是我們?nèi)〉每缭绞桨l(fā)展、找到出路的重要原因。

到了2008年，科學(xué)家在PG0階段對圖像的探索和創(chuàng)造到了一個“百花齊放”的時代。我曾經(jīng)的同事、來自麻省理工大學(xué)（MIT）的安東尼·托拉爾巴（Antonio Torralba）曾經(jīng)創(chuàng)建了一個網(wǎng)站叫做LabelMe，意為“給我打標簽”，這個網(wǎng)站讓人們在上面打標簽，他們只在乎兩種標簽：場景類數(shù)據(jù)（Scene category）和物體類數(shù)據(jù)（Object category）。每一個節(jié)點其實就是一個任務(wù)，這在當(dāng)時是頗具影響力的一項研究。

圖18 來自麻省理工大學(xué)（MIT）的安東尼·托拉爾巴（Antonio Torralba）曾經(jīng)創(chuàng)建LabelMe，意為“給我打標簽”，用來收集場景和物品數(shù)據(jù)

另一個例子是“圖網(wǎng)”（ImageNet）。他們在圖片本身的解譯工作中更加看重對物體的分類，大約分了1000個類別。這項嘗試后來也變得很流行。

圖19對圖片解譯的探索已經(jīng)到了一個瓶頸期，研究只能在PG0框架內(nèi)“打轉(zhuǎn)”

但是我想強調(diào)的是，這些努力都是在一個PG0的框架內(nèi)做嘗試，科學(xué)家們此時并沒有跳出對圖片里內(nèi)容的解譯，頂多是從不同角度在“場景”“物體”“物體關(guān)系”上著力，這個階段對“智能”的認知在今天看來確實比較狹隘，如何走向通用人工智能，需要從更深刻的角度去思考。

當(dāng)技術(shù)來到一個瓶頸期，科學(xué)界就會存在大量的爭論和分歧。這就好比科學(xué)家們的面前有一扇門，大家都想要跨過這扇“通用人工智能”之門，需要正確的鑰匙。我認為，想要找到通往“通用人工智能”的大門鑰匙，需要先知道困住當(dāng)下的究竟是什么，需要認識到當(dāng)時圖片解譯這一套邏輯的局限性。

第一個局限性是大量物理和社會變量該如何標注的問題。物理學(xué)家認為，我們可觀察的物質(zhì)和能量只占宇宙總體的5%，剩下的95%是觀察不到的暗物質(zhì)（Dark Matter）和能量。這些變量包括在社會現(xiàn)象中，人的意圖和想法等。且不同于統(tǒng)計學(xué)中的潛在變量（latent variables），潛在變量是客觀的隱藏變量，而“暗物質(zhì)”常常是主觀的、唯心的、內(nèi)化在社會環(huán)境中的。人類能夠感知到這些變量，但機器無法識別，更無法直接標注這些內(nèi)容。

圖20用傳統(tǒng)打標簽方式無法滿足多樣的標注需求。當(dāng)標注了“電話”一詞，系統(tǒng)就會自動認定圖片中的物體就是電話，但現(xiàn)實生活中，電話不僅僅是個物體，圖片中的人會展示拿起電話、撥號、接聽等任務(wù)，此時系統(tǒng)可能沒法精準識別電話

第二個局限性是圖像和場景的解譯與具體任務(wù)高度相關(guān)，光靠標注這種“一刀切”的方法，是沒法應(yīng)對復(fù)雜多樣的現(xiàn)實場景的。任務(wù)是無限的，并且與智能體的具身性有關(guān)，因此標注變得非常困難。正如馬爾所說，“the more you look, the more you see”，也就是說，感知到的內(nèi)容取決于觀察者想做什么，也就是觀察者的價值，中國古話更簡明扼要，即“相由心生”。例如，標記一個電話，簡單地用一個框?qū)㈦娫捒蛑?、打個標簽，系統(tǒng)就記錄和認定該物體是“電話”——這是傳統(tǒng)大數(shù)據(jù)驅(qū)動范式的做法，但在真實場景中，具體的標注方式取決于任務(wù)，比如撥號或接電話時，人需要接觸電話的不同位置，接觸的位置不同，標注方式也理應(yīng)不同。傳統(tǒng)方法無法滿足這種多樣的標注需求。

第三個局限性是我們不僅希望進行簡單的標注，更希望實現(xiàn)圖像的理解。理解(Understanding)這一過程非常復(fù)雜，不同學(xué)者對此有不同的討論。一些學(xué)者認為需要定義語義，而語義依賴于任務(wù)、因果關(guān)系和價值系統(tǒng)等。

圖21計算機視覺的三種表達方式

計算機視覺中有三種和“理解”相關(guān)的表達方式：

第一種是以視圖為中心的（view-centered），基于二維圖像的外觀；

第二種是以物體為中心的（object-centered），即基于幾何進入三維場景；

第三種是基于任務(wù)的（task-centered），即從智能體的角度來理解世界。

當(dāng)時大多數(shù)研究以視圖為中心，依賴數(shù)據(jù)驅(qū)動。我們希望能夠轉(zhuǎn)向任務(wù)驅(qū)動，以智能體為中心。

認識到現(xiàn)有方法的局限性還不夠，還需要提出解決方案。當(dāng)時就“如何實現(xiàn)通用人工智能”這一問題，領(lǐng)域內(nèi)不同學(xué)者各執(zhí)一詞，一定程度上也反映了經(jīng)驗主義和理性主義之間的矛盾。2010年，在美國自然科學(xué)基金委的推動下，就這一問題召開了一場學(xué)術(shù)會議，我應(yīng)邀發(fā)言。發(fā)言之前，我讓我的大女兒畫了一幅畫。

如果說，實現(xiàn)通用人工智能就相當(dāng)于登月，是一個非常困難的任務(wù)。有人會說“只要我爬得足夠高，我就能夠到月亮”，所以這些人去爬世界上最高的樹，去登世界上最高的山，試圖夠到月亮。資助者看到這些人每天都能在樹上、山上快速上升，就會很高興。但是因為無論樹還是山，都是有盡頭的，這個盡頭離月亮還是十萬八千里的。當(dāng)然也有人會去選擇水中撈月、乘坐熱氣球，但是真正實現(xiàn)人工智能，去達到“登月”的高度，肯定是要造航天飛機的。只不過在現(xiàn)實生活中，制造航天飛機去登月，經(jīng)常被短視的人們誤以為是“不靠譜”的，很難獲取信任，還要坐很多年“冷板凳”。

實際上，通用人工智能“航天飛船”的構(gòu)建，不是單一部件、單一路徑去實現(xiàn)的。人工智能技術(shù)經(jīng)過幾十年發(fā)展與分化，形成了計算機視覺、自然語言處理、認知推理、機器學(xué)習(xí)、機器人學(xué)與多智能體六大核心領(lǐng)域為主構(gòu)成的復(fù)雜系統(tǒng)。其內(nèi)部結(jié)構(gòu)之復(fù)雜，其研發(fā)道路之艱難，不是“大數(shù)據(jù)”+“大模型”+“大算力”這種純經(jīng)驗主義路線能夠解決的。如果把實現(xiàn)通用人工智能比作“登月”，目前大數(shù)據(jù)路線正在前進的方向相當(dāng)于“攀登珠峰”，雖然有機會登上珠峰也是很了不起的成就，但是這和達成登月的目標相差甚遠。

圖23“小數(shù)據(jù)、大任務(wù)”范式獲得了學(xué)術(shù)界的廣泛認同

后來，我提出了“小數(shù)據(jù)、大任務(wù)”范式，獲得了學(xué)術(shù)界的廣泛認同。我認為，人工智能研究中存在兩種范式，一種是“大數(shù)據(jù)，小任務(wù)”，目前基于深度學(xué)習(xí)的很多大語言模型即屬于此類，其特點是需要極大的數(shù)據(jù)，但只能完成有限任務(wù)，不能對應(yīng)現(xiàn)實的因果邏輯，無法泛化，類似善于學(xué)舌但無法進行認知推理的鸚鵡，你教一只鸚鵡大量內(nèi)容，它才能說有限的幾句話；另一種是“小數(shù)據(jù)，大任務(wù)”，其特點是小數(shù)據(jù)、無監(jiān)督，可以泛化，類似能在復(fù)雜情境中進行認知推理的烏鴉，僅僅靠示范幾次，就能完成一整套任務(wù)。

因為此范式的提出，我們還獲得了一些項目。我們的第一個DARPA（美國國防部高級研究計劃局，簡稱DARPA）項目（2010-2015年）專注于圖像解譯。通過層層解譯圖像，我們成功生成了文本，用自然語言描述圖像。這一項目成為后來視覺問答（VQA）模型的原型。

圖24美國-英國聯(lián)合AI研究團隊 MURI 2010-2015，MURI 2015-2020 （美國國防部部長辦公室資助），跨多個人工智能學(xué)科：計算機視覺、機器人、機器學(xué)習(xí)、認知科學(xué)、神經(jīng)科學(xué)、統(tǒng)計學(xué)、應(yīng)用數(shù)學(xué)。團隊來自：Berkeley, CMU, MIT, Stanford, Oxford, UCLA, UIUC, Yale 等大學(xué)

第二個DARPA項目（2015-2020年）則聚焦于場景理解，涵蓋語義解譯，并進一步探討了對物理和心智的理解。我們的主要目標就是通過一系列跨學(xué)科交叉研究，將計算機視覺、機器人、機器學(xué)習(xí)、應(yīng)用數(shù)學(xué)、神經(jīng)科學(xué)、統(tǒng)計與應(yīng)用等各個領(lǐng)域?qū)＜揖鄣揭黄?，探索出一條通用人工智能的統(tǒng)一理論。

我們很快發(fā)現(xiàn)PG0階段的技術(shù)已經(jīng)不夠“智能”了。因為我們意識到，在現(xiàn)實中，當(dāng)人看向一張圖片的時候，可能想到的并不是只有眼睛看到的，其中包含了很多“想象”成分。上面這張圖片中有人在做“倒水”這個動作，雖然看圖的人并沒有看見水，但是他能因此想象得到，水壺里是有水的，圖片中的人想要喝水，這些信息量都沒有在圖片中直接體現(xiàn)來，而是隱含在圖片背后，并且能夠廣泛被人們理解。

圖25在IEEE上發(fā)表的論文《從圖像解析到文本生成（From Image parsing to text generation）》,Proceedings of IEEE, （Yao et al,2010）

圖26 看圖的人即便沒有看到水，但是因為看到了倒水的動作，
所以人會判斷“水壺有水”“圖片中的人要喝水”這些信息

這對圖片解譯的意義非常重大。從此開啟了PG+時代。

在“PG+”的解釋框架中，很多圖片中不能肉眼可見的“暗物質(zhì)”（dark matter）蘊含其中。例如物體的功能（functionality）、物質(zhì)的機理（physics）、意圖（intent）、因果關(guān)系（causality）和價值觀（values）。你看不到人的價值觀，看不到物理世界的因果關(guān)系，而這些都是深植在世界的運行中，是人類社會的“約定俗成”。

圖27 在原有的PG0基礎(chǔ)上，圖像解譯的維度和空間被拓展，圖像解譯新時代到來

圖28 在“砸核桃”這張圖片中，有對空間、時間和因果的感知

在我們看來，圖片雖然是一個平面，但是蘊含了超越圖片本身的信息量。以這個“砸核桃”圖為例，看圖的人不難想象到，在這個瞬間發(fā)生之前，核桃要被拿起、放下、對準、砸碎，這是一種對時間的感知；榔頭的抬起、落下，這是對空間的感知；因為“砸”這個動作的發(fā)生，導(dǎo)致核桃碎了，這其中有對因果的感知。

圖29社會智能包含能夠?qū)ΜF(xiàn)象或行為進行推理的能力

到了PG+階段，我們覺得還不夠，最終延展到了社會智能（social intelligence），它被我們稱為PG++，其范圍遠超出了PG0和PG+。人是社會性的動物，人會與他人、與外界環(huán)境產(chǎn)生交互，認知也會由此發(fā)生變化，在這個過程中，人會產(chǎn)生對某些行為或現(xiàn)象的推理。

想象一下，當(dāng)你在教室里演講，這時候有人舉起了倒計時牌子，提醒你時間快要到了，但你沒有看見，這時有位看見倒計時的觀眾沖你揮揮手并將手勢指向了倒計時牌。你可能會下意識地去看他手勢指向的方向，從而看到了倒計時牌。這樣一個過程至少包含了你腦內(nèi)以下推理過程：“他對我揮手”“他指向了一個方向”“他在提醒我什么”“那是倒計時牌”“我演講剩下的時間不多了”“我要加快速度了”。所以，這個過程分解來看，是個很復(fù)雜的過程。

社會智能一般包括信念（belief）、意圖（intention）和社會性推理（social reasoning）等。可以說，人類作為智能體在“看”這樣一個看似簡單的過程中，其實在內(nèi)部做了很多自上而下的決策，從高層次的認知出發(fā)，看圖或者分析場景時做了很多從社會智能到暗物質(zhì)，再到場景和物體本身的思考。關(guān)于PG++的研究是很匱乏的，也是我們進行進一步探索的動力。

圖30PG++是比PG0、PG+更高一層的階段

我們認為，在這個包含PG0、PG+、PG++的系統(tǒng)中去構(gòu)建智能，才是把智能的“版圖”拼完整了，即除了考慮視覺本身，還要考慮隱藏在背后的、人的內(nèi)在要素和社會的內(nèi)在機制，才能真正邁向通用人工智能，才能在時間、空間、因果上構(gòu)成一個完整的智能體任務(wù)體系。

圖31 通用智能體的構(gòu)建必須考慮暗物質(zhì)和社會智能的存在，要在時間、空間和因果上構(gòu)成一個完整的體系

沿著這條通路，我和研究團隊不斷拓展著對視覺大數(shù)據(jù)、對人工智能、對通用人工智能的邊界，完成了對個體意義上通用人工智能體的底層邏輯搭建。然而，這就像爬一棵樹，世界上有那么多樹，那怎么辦呢？在這個從PG0到PG+、再到PG++的框架下，搭建一個可以被廣泛使用的平臺，自然成為了我和團隊的下一個任務(wù)。

新標：

全球首個AGI評級測試標準

2024年，我們研發(fā)了首個通用智能體"通通"，這一成果入選"中關(guān)村論壇重大科技成果"。通通突破了傳統(tǒng)人工智能系統(tǒng)僅關(guān)注具體任務(wù)的局限，展現(xiàn)出更接近人類的認知特征。她具備基本的物理常識和社會認知，能在價值驅(qū)動下完成無限任務(wù)，并具有自主定義任務(wù)的能力。這種能力是通用智能的核心特征，也是人類從兒童時期就開始發(fā)展的基本能力。

圖32全球首個通用智能人“通通”入選中關(guān)村論壇重大科技成果

以通通為基準，我們進一步開發(fā)了全球首個通用人工智能測試評級標準與平臺——通智測試（Tong Test）。該平臺借鑒人類嬰幼兒發(fā)育評估標準，構(gòu)建了基于能力（U系統(tǒng)）和價值（V系統(tǒng)）的評測框架，同時開發(fā)了復(fù)雜的物理場景模擬和社會交互測試環(huán)境。

圖33研究團隊在2016-2019年之間，將豐富數(shù)據(jù)導(dǎo)入VR環(huán)境，用來搭建虛擬場景

圖34運用語言評估系統(tǒng)和以任務(wù)為導(dǎo)向的模擬器，構(gòu)建對智能體的測試

平臺建設(shè)經(jīng)歷了系統(tǒng)性的發(fā)展過程。2016年至2019年間，研究團隊致力于構(gòu)建高度逼真的虛擬場景。我們將豐富的環(huán)境數(shù)據(jù)導(dǎo)入VR系統(tǒng)，通過深度學(xué)習(xí)和任務(wù)規(guī)劃實現(xiàn)智能體與虛擬環(huán)境的有效互動。同時，建立了完整的語言評估系統(tǒng)和任務(wù)導(dǎo)向型模擬器，形成了智能體測試的基礎(chǔ)框架。目前，該系統(tǒng)能夠模擬多樣化的現(xiàn)實場景，包括辦公樓、社區(qū)、學(xué)校等復(fù)雜環(huán)境，為智能體提供全面的測試條件。

圖35在2024年中關(guān)村通用人工智能論壇上發(fā)布的通智測試（TongTest）

通智測試的核心是其評價體系，即"V系統(tǒng)"和"U系統(tǒng)"。這一評價體系的設(shè)計深深植根于對人類智能發(fā)展的研究。實驗表明，人類的價值體系是與生俱來的，在嬰幼兒身上就能觀察到其雛形。例如，3-4個月大的嬰兒已經(jīng)具備基本的因果推理能力，能夠識別魔術(shù)，即不滿足因果常識的物理現(xiàn)象；18個月大的嬰兒能夠識別他人意圖并做出回應(yīng)。此外，研究還發(fā)現(xiàn)，人類能進化出大量的價值判斷。比如圖中這個實驗，12個月的嬰兒看到了兩個成人在分配玩具，會傾向于選擇分配“公平”的成人一起玩。8-12個月大的嬰幼兒對于相似族裔的偏好要勝過對“公平”這一價值的偏好。也就是這個階段的嬰幼兒會在“公平的人”和與自己族裔相同的成人之間選擇相同族裔者。這些研究發(fā)現(xiàn)為構(gòu)建人工智能的價值評估體系提供了重要依據(jù)。

圖3612個月的嬰兒參與測試，傾向于選擇更加具有“公平”特征的成人

圖378-12 月大的嬰幼兒參與測試，相對具有“公平”特征的成人，更愿意選擇相同族裔成人

圖38人的需求既包括生理和安全這類基礎(chǔ)需求，也包含著的人類價值和社會因素，構(gòu)建智能體價值體系時，需要以人類價值為基準，構(gòu)建分層分級的價值體系

在價值體系（V系統(tǒng)）的構(gòu)建中，我們采用了分層分級的架構(gòu)，借鑒了馬斯洛需求層次理論和施瓦茨價值觀理論等經(jīng)典心理學(xué)理論。價值系統(tǒng)分為五個層級：基礎(chǔ)自我價值、高級自我價值、多智能體交互價值、基礎(chǔ)社會價值和高級社會價值，涵蓋了從基本生存需求到高階社會價值的完整譜系。

圖39價值驅(qū)動：除了關(guān)于自身的價值驅(qū)動，人還具有與他人相互作用產(chǎn)生的價值，以及在社會中作為利益共同體的價值

圖40通智測試的能力測評系統(tǒng)，按照從L1到L5的順序，對能力要求的難度逐漸增加

能力評估系統(tǒng)（U系統(tǒng)）則構(gòu)建了視覺、語言、認知、運動和學(xué)習(xí)五個維度的評估框架。每個維度設(shè)置了五個能力層級，隨著層級提升，任務(wù)復(fù)雜度逐漸增加，對智能體的要求也隨之提高。例如，在語言能力評估中，從最基礎(chǔ)的詞語理解發(fā)展到復(fù)雜的多主體交互推理；在運動能力評估中，則從基本的自主運動發(fā)展到高級的社會互動能力。

舉個例子，評估智能體語言能力時，第一層級就是理解詞語，第五層級就得實現(xiàn)推理和理解多人、多智能體交互；評估運動能力時，第一層級需要智能體控制自身運動，到了第五層級就包括社會交互與價值流動。這只是一個簡單說明，實際基于通智測試出版的書籍《通用人工智能：標準、評級、測試與架構(gòu)》超過200頁，其中設(shè)置了86項能力測試，并進一步衍生出更大量的任務(wù)測試，累計任務(wù)指標多達上百項。

圖41《通用人工智能：標準、評級、測試與架構(gòu)》形成了標準化、定量化和客觀化的完備評估體系

圖42能力系統(tǒng)與價值系統(tǒng)相互作用，價值驅(qū)動能力系統(tǒng)產(chǎn)生行為，能力產(chǎn)生的行為與外界相互作用，又能夠構(gòu)建價值系統(tǒng)

在這個評估體系中，價值系統(tǒng)和能力系統(tǒng)緊密關(guān)聯(lián)、相互促進。智能體基于內(nèi)在價值驅(qū)動外在能力，通過與環(huán)境的互動反過來強化和完善其價值體系。這種動態(tài)平衡與人類認知發(fā)展過程高度類似：價值導(dǎo)向推動行為表現(xiàn)，行為體驗反饋強化價值認知。

圖43 通智測試UV評價系統(tǒng)，兩個系統(tǒng)又各自分5個評價等級，構(gòu)建了完整的“雙輪驅(qū)動”評價體系

至此，通智測試完成了它“價值”與“能力”的“雙驅(qū)動評價體系”。這個體系將能力空間和價值空間進行聯(lián)合考慮，設(shè)置了5個通智測試等級（Level 1-5），進而形成了一套基于能力與價值雙系統(tǒng)的通智測試評級理論。它建立的任務(wù)強調(diào)實用性、可測量性及與人類智能發(fā)展一致性，成為挑戰(zhàn)傳統(tǒng)理論的范式，彌補了傳統(tǒng)理論缺陷的典范。智能體能夠在通智測試中通過完成任務(wù)進行測評，能完成的難度越高，最終就能夠?qū)崿F(xiàn)U（能力）和V（價值）越高的融合程度，就越接近真正的通用智能體。

不僅如此，我們還提出一套標準來闡釋我們的UV評級框架，即“四論標準”，在人類社會中，我們常會因評價標準單一而陷入困惑：是看“他做了什么”，還是看“他為何這么做”？這種“論跡不論心”的爭論，不僅存在于對人的評價中，也同樣適用于人工智能的評估。一個 AI 系統(tǒng)即便表現(xiàn)優(yōu)異，但如果其動機不明、推理不合理，能否信任就會成為問題。為解決這些困擾，TongTest 提出了“四論”標準闡釋 UV 評級框架，從“論績、論跡、論理、論心”四個層次出發(fā)：

第一個層次是"論績"，也就是考察最基本的結(jié)果。這就像考試打分一樣，首先要看答案對不對。

第二個層次是"論跡"，關(guān)注行為過程。比如，一個AI系統(tǒng)即使給出了正確答案，如果是靠隨機猜測得出的，那么這個過程就值得打問號。這就像老師不僅要看學(xué)生的考試成績，還要觀察他們平時的學(xué)習(xí)態(tài)度和解題思路。

第三個層次是"論理"，檢驗推理過程是否合理。舉個例子：解數(shù)學(xué)題時，即使最后答案對了，如果計算步驟錯誤，就說明這個解題過程不可靠。現(xiàn)在很多AI模型就存在這樣的問題 - 雖然能得出正確答案，但中間的推理步驟卻常常出錯。

第四個層次是"論心"，審視AI系統(tǒng)的價值觀和動機。這是Tong Test最高層次的評估。因為即使一個AI系統(tǒng)能得出正確結(jié)果，推理過程也很嚴謹，但如果它的價值取向有問題，可能會帶來嚴重后果。

TongTest 的“四論”標準通過“論績”夯實基礎(chǔ)，“論跡”剖析行為，“論理”保障推理可信，“論心”聚焦價值觀正確，層層遞進、環(huán)環(huán)相扣。這一標準不僅是技術(shù)突破，更是倫理實踐的積極探索。它就像為 AI 量身打造的“體檢報告”，不僅關(guān)注身體健康（結(jié)果與行為），還深入檢查大腦（推理能力）和心靈（價值觀）。只有在“四論”都達標的情況下，AI 系統(tǒng)才能真正令人信任，并在未來社會中實現(xiàn)長期可持續(xù)發(fā)展。

從生物進化的角度看，智能體的發(fā)展遵循一定規(guī)律：大腦容量的增加往往帶來智能水平的提升。這背后是基因選擇、物種演化等復(fù)雜過程的結(jié)果。一個智能體的智能水平由三個系統(tǒng)決定：認知架構(gòu)（Cognitive architecture, 字母C表示）、能力系統(tǒng)（Potential Functions, 字母U表示）和價值系統(tǒng)（Value System, 字母V表示）。盡管人類在某些具體能力上可能不及其他物種，但正是這三個系統(tǒng)的綜合優(yōu)勢使人類成為最高級的智能體。基于此，通智測試致力于構(gòu)建一個能夠涵蓋并超越現(xiàn)有智能體能力上限的評估系統(tǒng)。

圖44從數(shù)學(xué)的角度，可以將所有智能體看作CUV作為變量的函數(shù)。C代表認知架構(gòu)，U代表能力系統(tǒng)，V代表價值系統(tǒng)。人比黑猩猩、猴子這樣的動物要高級，盡管人類的運動能力可能不如黑猩猩和猴子，但是從整體上來說人的CUV比黑猩猩、猴子的CUV整體上要高，所以綜合來看人的智能程度是要高于這些動物的。要達到能測試智能體這個目標，就要站在最外圈這個“點”上，即認知架構(gòu)、能力系統(tǒng)、價值系統(tǒng)都超越現(xiàn)有智能體上限的這個位置去建構(gòu)，去尋找智能體的“公倍數(shù)”

通智測試的創(chuàng)新性主要體現(xiàn)在三個方面：

首先，它采用無限任務(wù)框架。無限任務(wù)指的是在通智測試中，任務(wù)的數(shù)量是無限的。我認為，一個智能體需要完成無窮無盡的任務(wù)才能稱之為“通用”，真正的標準應(yīng)該是在復(fù)雜環(huán)境中處理無限多項沒有預(yù)先設(shè)定的任務(wù)。在以往傳統(tǒng)大模型的設(shè)計中，智能體任務(wù)是由專一任務(wù)轉(zhuǎn)向多任務(wù)處理的，任務(wù)的數(shù)量是“疊加”起來的，這種疊加的方式帶來一個問題：要疊加到多少任務(wù)，才算真正的“通用人工智能”呢?如果100項任務(wù)算是“通用人工智能”，那么出現(xiàn)第101項任務(wù)怎么辦？所以任務(wù)的數(shù)量不能是絕對數(shù)，而是要滿足任務(wù)“無限”涌現(xiàn)才可以，只有像通智測試一樣，任務(wù)是無限的，才能夠?qū)崿F(xiàn)真正優(yōu)秀的泛化能力。

其次，它重視自主任務(wù)生成能力。人們憧憬著有朝一日智能體能夠很好地融入人類日常生活，這就需要智能體可以根據(jù)外部環(huán)境事件和自我內(nèi)在狀態(tài)的變化，隨時隨地自動產(chǎn)生各種各樣的任務(wù)，這也意味著在投入實際場景前，智能體能夠應(yīng)對和現(xiàn)實生活一樣的隨機要求。但是，如果智能體的運行完全依賴人類預(yù)設(shè)的任務(wù)目標，即便擁有海量訓(xùn)練數(shù)據(jù)和全面規(guī)則，仍然無法很好地應(yīng)對未經(jīng)訓(xùn)練的特殊情況和意外事件。例如，當(dāng)孩子正拿著一個對他來說頗具危險性的小物件，沒有經(jīng)受過該物件數(shù)據(jù)訓(xùn)練的智能體能否自主識別出該任務(wù)的不合理之處并形成保護孩子安全的新任務(wù)？

為了應(yīng)對這種情況，智能體需要具備自主定義任務(wù)的能力。當(dāng)智能體處于開放環(huán)境時，它需要依據(jù)自身價值判斷并自主設(shè)定任務(wù)，甚至可以進一步通過實際觀察和體驗來學(xué)習(xí)，逐步累積經(jīng)驗并塑造認知。這是通智測試的第二個特點。

最后，它強調(diào)價值驅(qū)動和人類對齊。通智測試的價值體系（V系統(tǒng)）是它的核心組成部分。為了讓智能體自主生成并完成符合人類需求的任務(wù)，通智測試融入了人類的基本價值觀，使智能體有能力學(xué)習(xí)和理解人類的價值偏好，并最終實現(xiàn)與人類價值的對齊。這意味著通智測試不但從功能上完成對智能體的測試和評級，同時還能保證被測試的智能體有足夠的、能通過人類社會安全“紅線”的能力。

圖45 通智測試與其他測試對比優(yōu)勢明顯

這些創(chuàng)新點對通用人工智能領(lǐng)域意義非凡，也讓通智測試具有明顯比較優(yōu)勢。

其他智能體測試往往有以下缺點：

第一，任務(wù)復(fù)雜度不足，主要基于在特殊設(shè)計的環(huán)境中的對話/圖像/操作，而沒有在人類世界中復(fù)制物理和社會互動。第二，主觀偏見與缺乏量化。不同的人有不同的主觀判斷標準，缺乏對不同智能體之間的量化評估。第三，缺乏價值測試，只有能力測試。第四，缺乏對自主任務(wù)生成的測試，只有人類指定的任務(wù)。

現(xiàn)在我們再來討論討論AGI的現(xiàn)狀，近些年，隨著人工智能的迅猛發(fā)展，尤其是自ChatGPT4發(fā)布以來，社會各界人士對人工智能的未來形態(tài)或者說通用人工智能愈發(fā)關(guān)注，行業(yè)內(nèi)的高校與企業(yè)也頻頻聚焦通用人工智能，然而 AGI的定義、評級與測試依舊沒有達成共識并嚴格提出。制訂一個嚴格的 AGI 定義和定量評級標準與測試平臺是一個世界性的科學(xué)難題，我們列出了近年來國內(nèi)外知名團隊所提出的AGI內(nèi)容并進行比較。

表國際知名平臺在通用人工智能定義、分級與測試的比較

現(xiàn)階段，圍繞AGI定義、分級與測試的內(nèi)容有以下三種情況：

①傳播廣但淺嘗輒止，如OpenAI提出的AGI五階段，然而我去搜索時發(fā)現(xiàn)OpenAI官方并未發(fā)布相關(guān)報告，所有消息來自2024年7月彭博社(Bloomberg)報道了OpenAI的內(nèi)部傳聞，只給出了五行話以粗糙概括AGI的五個階段；

②嚴謹深入但仍無法給出答案，如Google DeepMind在2024年發(fā)布了一篇paper，它比OpenAI更全面地對AGI定義、分層與測試進行了闡述，深刻分析了其中的困難性，原文認為remains an open research question。舉一個例子，Google DeepMind對AGI分級時對第二級的定義是“熟練成年人的第50百分位”，這是不能直接拿來用的，光是這項層級指標就涉及兩類模糊問題：如何定義并建模熟練成年人？機器與熟練成年人如何比較（即它提出的50百分位）？

③給出了可行的方案但只解決單點問題，如之前走紅的ARC-AGI任務(wù)，建設(shè)性地提出簡潔的任務(wù)，評估復(fù)雜的抽象與推理能力，引發(fā)了人們對通用人工智能的思考。然而，它的著眼點相對單一，這一測試還不足以全面覆蓋通用人工智能測試的所有維度。

對比后我們發(fā)現(xiàn)，盡管國內(nèi)外多個平臺已從不同視角對通用人工智能的定義、分級和測試進行了探索，但并未解決“給出嚴格的AGI定義和定量評級標準與測試平臺”這一世界性的科學(xué)難題。

通智測試則采取了一種全新的策略，為通用智能體的實現(xiàn)設(shè)計了一套頂層測試方案。通智測試的設(shè)計全面考慮了通用人工智能的關(guān)鍵特征，填補了通用人工智能評測的空白。這不但有助于指導(dǎo)研究者為通用人工智能構(gòu)建綜合的設(shè)計架構(gòu)與完善的評估體系，而且能夠為人工智能的安全治理問題提供積極的解決方案。

圖46 圖靈測試無法準確衡量人工智能的智能程度，通智測試彌補了圖靈測試方法的局限性

從實用性來說，在通智測試標準化、定量化和客觀化的評估體系下，政府可針對不同水平的智能體制定不同的監(jiān)管準入機制，對于規(guī)范化通用人工智能的發(fā)展具有重要參考意義。另外，通智測試的評級機制還可以為通用人工智能的科研路徑提供明晰可靠的路線圖，協(xié)助相關(guān)領(lǐng)域的研究者找準科研道路上的前進方向。

構(gòu)建通智測試平臺，形成全球首個AGI評級測試標準體系，就是對我開頭提到的那幾個問題的“答卷”：

到底多“通用”才算是通用人工智能？

我的回答是“能力與價值都與人類對齊”。

通用人工智能需要完成多少項任務(wù)？

我的回答是“無限任務(wù)”。

如何評估智能體的進步？

我的回答是“能力與價值雙驅(qū)動，分級評估”。

以什么標準評估智能體的能力與價值水平？

我的回答是“基于四論標準：論績、論跡、論理、論心”。

到2024年，蓮花山研究院已經(jīng)成立20年了。我們從圖像大數(shù)據(jù)出發(fā)，現(xiàn)在火熱的大數(shù)據(jù)、大模型這條路我們也走過，但我們最終還是堅定地選擇和踐行了“小數(shù)據(jù)、大任務(wù)”的研究范式。我堅信這一份在科學(xué)創(chuàng)新中的理智和冷靜：堅持不“隨大流”，堅持長期主義，堅持人工智能與人類價值對齊的本質(zhì)，做困難且正確的事。

我們在實現(xiàn)通用人工智能路上一直在不斷探索，不斷重構(gòu)，不斷創(chuàng)造，不斷再出發(fā)。賡續(xù)“蓮花山”精神，建立基于價值的通用人工智能體系，獨立自主地實現(xiàn)中國通用人工智能，將是包括我在內(nèi)的中國科學(xué)家的責(zé)任和不懈追求。

思考：

思想自主與敘事權(quán)爭奪

在當(dāng)前通用人工智能（AGI）發(fā)展進程中，"大數(shù)據(jù)+大算力+大模型"的發(fā)展路徑已成為一種根深蒂固的思維定式。這種認知框架的形成源于深度學(xué)習(xí)在多個領(lǐng)域的成功實踐，同時也受到大型科技公司持續(xù)投入和商業(yè)成功案例的強化。隨著GPT系列、DALL-E等大模型的出現(xiàn)，這種發(fā)展路徑似乎獲得了更多支持。然而，這種思維定式可能過度簡化了AGI發(fā)展的復(fù)雜性。

西方主導(dǎo)的敘事與戰(zhàn)略布局

在這種思維定式下，一種特定的敘事體系逐漸形成。芯片算力被視為決定性要素，數(shù)據(jù)規(guī)模被認為是核心競爭力，模型參數(shù)量成為衡量技術(shù)進步的關(guān)鍵指標。資本市場將算力基礎(chǔ)設(shè)施投入作為重要的估值參考，媒體持續(xù)關(guān)注算力規(guī)模和硬件升級，企業(yè)則競相發(fā)布更大規(guī)模的語言模型。這種敘事不斷強化著既有的發(fā)展路徑。

這種敘事背后是西方主導(dǎo)的戰(zhàn)略布局。美國通過政府與企業(yè)的協(xié)同行動，構(gòu)建了一個系統(tǒng)性的敘事框架。在政策層面，2023年4月設(shè)立"白宮人工智能特別顧問"統(tǒng)籌國家AI戰(zhàn)略，9月國防部啟動"AI曼哈頓計劃"整合科研資源。在產(chǎn)業(yè)層面，OpenAI、Google等科技巨頭不斷強調(diào)其在算力芯片與AGI研發(fā)的優(yōu)勢地位，將技術(shù)門檻塑造為"難以逾越的鴻溝"。這種敘事得到資本市場的積極響應(yīng)，進一步鞏固了美國在全球AI領(lǐng)域的主導(dǎo)地位。

在學(xué)術(shù)領(lǐng)域，西方的話語主導(dǎo)權(quán)同樣顯著。NIPS、ICML等高水平學(xué)術(shù)會議的投稿和評審長期由歐美學(xué)者主導(dǎo)。2024年諾貝爾物理學(xué)獎授予神經(jīng)網(wǎng)絡(luò)領(lǐng)域的開創(chuàng)性研究，不僅是對Hopfield和Hinton個人成就的肯定，也強化了西方在AI基礎(chǔ)研究方面的學(xué)術(shù)影響力。這種學(xué)術(shù)話語權(quán)的集中，某種程度上限制了全球AI研究的多樣性發(fā)展。這種西方主導(dǎo)的敘事通過主流媒體和社交平臺得到廣泛傳播，國內(nèi)媒體的跟風(fēng)報道更強化了這種影響。

思想自主是科技創(chuàng)新的前提

面對這種情況，中國需要建立獨特的發(fā)展路徑。中國思想體系是在五千年文明發(fā)展中積淀而成的智慧結(jié)晶，其特點是"心"與"理"的統(tǒng)一，強調(diào)推己及人的價值判斷。這種思維方式為AGI發(fā)展提供了獨特視角：不僅關(guān)注技術(shù)本身，更重視其與人文價值的融合。從上古時期的河圖洛書，到儒、道、法等各家學(xué)說，再到理學(xué)、心學(xué)的發(fā)展，形成了一個完整的價值認知體系。

圖47中國思想的“五彩線”模型

注：最上層列出了時間標尺，以 1000 年為刻度，中國有超過 5000 年的文明史，這里顯示從公元前 3000 年到公元 2000 年。接下來的一層是中國的朝代，再下面是典型的思想，如上古時期的河圖、洛書，之后的周易，儒、墨、道、法，禪宗，理學(xué)，心學(xué)等。再下面是代表性人物，如伏羲、孔子等。再下一層是一個“五彩線”的模型，其中一些關(guān)鍵時間點做了標識，如公元前134 年出現(xiàn)董仲舒以及“罷黜百家、獨尊儒術(shù)”。最下面列出的是其他文明對中華文明的影響：它們對中華文明的影響不是一蹴而就的，而是有個過程，用不同顏色的曲線表示；線條的長短近似表示思想流傳的時間，但不能也無需過分精確，線條的顏色是隨機選擇的；公元前 800 年—公元前200年的所謂的軸心時代特意標示了出來。

基于中國思想的AGI發(fā)展模式，應(yīng)該突破單純的數(shù)據(jù)驅(qū)動，轉(zhuǎn)向更綜合的范式。這包括提出"小數(shù)據(jù)、大任務(wù)"的技術(shù)路線，強調(diào)效率與價值；構(gòu)建融合"心"與"理"的通用智能體系；注重人機共生的智能社會構(gòu)建。在具體實踐中，如北京大學(xué)武漢人工智能研究院開發(fā)的社會模擬器，通過"價值驅(qū)動"算法研究不同治理模式的效能，開創(chuàng)了人文社科研究的新方法。

圖48 全球首個大型社會模擬器（大科學(xué)裝置）

發(fā)展中國特色的AGI道路需要強大的文化自信。這種自信體現(xiàn)在深入挖掘中華傳統(tǒng)文化中的科學(xué)智慧，推動古今中西的深度對話與融合，構(gòu)建具有中國特色的技術(shù)評價體系。通過這種方式，中國能夠在AGI發(fā)展中提供獨特的價值主張：不是簡單追求技術(shù)領(lǐng)先，而是致力于構(gòu)建一個更富人文關(guān)懷、更具普世價值的智能文明范式。

此外，中國還應(yīng)該充分發(fā)揮自身優(yōu)勢。龐大的應(yīng)用市場、豐富的場景需求、完整的產(chǎn)業(yè)鏈，這些都是發(fā)展人工智能的重要基礎(chǔ)。通過建立獨特的發(fā)展范式和價值體系，中國能夠在AGI發(fā)展中貢獻獨特的方案。

構(gòu)建自主的發(fā)展道路并非意味著封閉。相反，中國應(yīng)該在保持技術(shù)自主的同時，積極參與國際對話與合作，推動全球AI發(fā)展的多元化。這不僅有利于打破現(xiàn)有的敘事壟斷，也能促進人工智能技術(shù)的健康發(fā)展。

總的來說，突破西方主導(dǎo)的敘事框架，建立思想自主的發(fā)展道路，是中國AGI發(fā)展的關(guān)鍵。這需要學(xué)術(shù)界、產(chǎn)業(yè)界和政策制定者的共同努力，在認清現(xiàn)實的基礎(chǔ)上，探索符合中國特色的人工智能發(fā)展之路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.