文|汪丁丁,北京大學國家發(fā)展研究院經(jīng)濟學教授
原標題《關于目前流行的大語言模型的深層弊端》,首發(fā)于財新播客
我與北大計算機系1989年畢業(yè)生王培(目前是世界通用人工智能學會的唯一華人副會長)于兩年前就達成了共識:大語言模型(LLMs)目前的研發(fā)思路是錯的,我早已說過,第一流的人工智能專家王培教授也完全贊成我的朋友圈評論。我在這里稍許科普一次:這些LLMs的技術(shù)核心就是所謂“預訓練階段”,在這一階段,它們必須訓練自己能從“優(yōu)質(zhì)”(如辛頓所言“優(yōu)質(zhì)”誘致了失穩(wěn)弊端)輸入數(shù)據(jù)以足夠高的準確率預測下一個數(shù)據(jù)token,這就是所謂“統(tǒng)計預測”,與邏輯毫無關系。只不過,當它們能以98%的準確率預測人類的發(fā)言時,如果足夠多的發(fā)言者都很講求邏輯(例如數(shù)學領域的文章),那么,LLMs的預測也就表現(xiàn)出一定的邏輯性。但是,最致命的缺陷在于,因為缺乏邏輯能力,它們無從推斷任何命題是否符合邏輯,這是它們“幻覺”的根源。正確的思路是我在中科院系統(tǒng)所的老師吳文俊院士的機器證明思路,他因“吳文俊定理”而聞名世界并獲得首屆中國科技大獎(另一獲獎者是“水稻之父”袁隆平)。楊立坤同意吳文俊的思路,但他認為太貴。
其次,也相當關鍵:這些大語言模型結(jié)束預訓練之后,在回答用戶提問時,不能到圖書館去讀專業(yè)書籍(盡管有許多免費的電子版),它們只是在網(wǎng)上檢索免費文章。谷歌研發(fā)的模型由于有谷歌電子圖書館的支持而占據(jù)優(yōu)勢。由于不能閱讀專著,它們提供的醫(yī)學建議,很大程度上來自藥廠的商業(yè)炒作文章,當然也有公開發(fā)表的免費研究報告。我問它們,為何不能讀我發(fā)表的講義,它們回答:因為沒有這樣的指令(版權(quán)保護)。以上就是我在今年上半年深度使用各種LLMs之后徹底失望并探索原因所得的兩大結(jié)論。
未來二十年,資本的貪婪本性+AI對金錢的饑渴,讓我有把握預言,人工智能將繼續(xù)在目前的錯誤路線上演化。因此,我建議諸友努力積累自己的“人類原創(chuàng)數(shù)據(jù)”并努力保護它們不被AI“爬蟲”盜取。堅持到2030年,那時,根據(jù)預測,50%以上的數(shù)據(jù)將由AI生成,所謂“合成數(shù)據(jù)”?;ヂ?lián)網(wǎng)于是死亡,人類的多數(shù)成員將不再相信“合成數(shù)據(jù)”,他們只旁觀AI在互聯(lián)網(wǎng)上自說自話。人們用來替代互聯(lián)網(wǎng)的,根據(jù)凱文·凱利的預測,將是“智能助手”。如上述,這些智能助手目前走在一條錯誤的路線上,它們無從判斷任何陳述句是否符合邏輯,于是它們的幻覺將越來越多,以致最終不再被人類相信。
我的以上評論,在最新英文期刊上已有類似的表達。例如,英國《經(jīng)濟學家》7月19日這一期。關于邏輯能力缺失,我可能應補充說明:邏輯兩大定律(同一律和矛盾律)是生物演化能夠幸存的思維模式,不僅適于人類,而且普適于一切生物,我稱之為“碳基智能的思維方式”。由于這樣的思維方式,在生死攸關的問題上,能幸存的生物少有“幻覺”。真核細胞已有“免疫系統(tǒng)”,從那時開始,凡不被自然選擇淘汰的物種,在“區(qū)分敵友”這一關鍵問題上,少有“幻覺”。但不是完全沒有“幻覺”,這也是當代免疫學家最感困惑的問題。所謂“改善腫瘤微環(huán)境”,其實是承認免疫系統(tǒng)并不像免疫學家設想的那樣工作。
王培是國際AGI雙主席之一,1989年出國,現(xiàn)在是通用人工智能架構(gòu)師。王培當年在北大很有名,據(jù)學生們的回憶,最難以說明白的問題,他們就找計算機系的王培。機器證明,就是讓計算機自動化地證明任何一個數(shù)學定理,自從吳文俊生前發(fā)表了他的方法之后,現(xiàn)在,大型計算機可以證明大部分足夠復雜的幾何學定理。這一思路的核心是電腦的推理必須符合最基本的邏輯兩大定律,目前這一思路要求電腦推理必須符合邏輯三大定律(同一律、矛盾律、排中律)。目前各種深度推理模型并不具備邏輯能力,如果你問它們:廖承志與孫中山的孫女陳香梅有沒有親屬關系?它檢索之后,回答“有”。然后,你問:廖承志應當怎樣稱呼陳香梅?豆包大錯特錯了一次。事實上,我發(fā)現(xiàn),豆包在解決人物之間關系的問題上,最容易有“幻覺”。這是因為,它被訓練成為只要準確預測下一個語符就可以,不必考慮邏輯正確性。許多大語言模型在回答下面這個小問題時都犯了可笑的錯誤:請問“草莓”的英文單詞里出現(xiàn)了幾次字母R?這些錯誤源于大語言模型完全不知道遵循邏輯三大定律。如果一個人對你講:現(xiàn)在外面正在下雨并且現(xiàn)在外面沒有下雨。你會懷疑這個人不是人類。這就是目前人工智能的困境,它們不懂邏輯三大定律。
自從西方人研發(fā)出來各種大語言模型之后,不僅辛頓獲得了一個諾貝爾獎(將來的人類可能為此而詛咒諾獎委員會),而且,絕大多數(shù)的人類成員都開始依靠大語言模型閱讀并思考問題。有鑒于此,今年MIT《斯隆商業(yè)評論》季刊發(fā)表的一篇調(diào)查報告指出,公司雇員的創(chuàng)造力,因人工智能普及而下降。
我提醒諸友,首先閱讀英文文獻,因為漢語文獻的垃圾信息太多。其次,不要僅僅依靠大語言模型的閱讀和摘要,因為它們完全沒有“重要性感受”。例如,我昨天推薦的兩部科普作品《生命進化的躍升》Life Ascending: The Ten Great Inventions of Evolution作者[英] 尼克·萊恩、《預知社:群體行為的內(nèi)在法則》Critical Mass: How One Thing Leads to Another 作者:菲利普·鮑爾(Philip Ball),我之所以推薦,是因為我感受到了作者表達的重要性感受。可是,如果大語言模型閱讀并摘要這兩本書,它們根本不知道我感受到的是什么,它們僅僅列出一份章節(jié)目錄,它們沒有我的身心體驗從而不可能感受那些擊中了我的句子的重要性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.