財聯(lián)社8月30日訊(記者郭松嶠)“在實際應(yīng)用中,建議鑒于大模型訓(xùn)練成本高,且部分問題無需復(fù)雜模型,部分企業(yè)和行業(yè)可優(yōu)先采用統(tǒng)計模型,再根據(jù)需求引入 CNN 等復(fù)雜人工智能模型?!?/p>
2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會召開期間,中國科學(xué)院院士、清華大學(xué)講席教授陳松蹊接受財聯(lián)社記者采訪時表示。
在智能時代,海量復(fù)雜的數(shù)據(jù)成為推動各行各業(yè)發(fā)展的關(guān)鍵要素,陳松蹊表示,各領(lǐng)域的數(shù)據(jù)存在顯著共性,統(tǒng)計學(xué)是串聯(lián)不同領(lǐng)域數(shù)據(jù)應(yīng)用的核心基礎(chǔ)。
在多年深入各行各業(yè)的研究中,陳松蹊發(fā)現(xiàn):“數(shù)據(jù)是相通的,我們可以統(tǒng)計學(xué)作為基礎(chǔ),把很多領(lǐng)域研究都串起來。”在大氣環(huán)境研究中,陳松蹊團(tuán)隊通過密集空氣質(zhì)量監(jiān)測站點的 PM10、PM2.5、二氧化硫、二氧化氮、臭氧等數(shù)據(jù)溯源沙塵暴變化;在醫(yī)療領(lǐng)域,陳松蹊團(tuán)隊發(fā)現(xiàn)腦電圖是癲癇診斷與治療的 A 類標(biāo)準(zhǔn),研究發(fā)現(xiàn)沙塵暴發(fā)作與癲癇發(fā)作的數(shù)據(jù)雖有區(qū)別但在統(tǒng)計分析上具有共性。
統(tǒng)計學(xué)與人工智能,二者存在聯(lián)系但又互補。陳松蹊分析道,人工智能與統(tǒng)計學(xué)均基于數(shù)據(jù),模型存在天然聯(lián)系。人工智能模型的表示能力強于傳統(tǒng)統(tǒng)計學(xué)中的基函數(shù)、核函數(shù),但存在不確定性;統(tǒng)計學(xué)不僅能給出估計結(jié)果,還可提供不確定性的度量。目前,清華大學(xué)統(tǒng)計數(shù)據(jù)科學(xué)系將人工智能的統(tǒng)計學(xué)基礎(chǔ)作為重要研究方向,核心是解決人工智能與統(tǒng)計方法的不確定性度量問題,通過區(qū)間估計等方式呈現(xiàn)不確定性,若估計不確定性過大,則結(jié)果無實際意義。
在實際應(yīng)用中,陳松蹊建議鑒于大模型訓(xùn)練成本高,且部分問題無需復(fù)雜模型,部分企業(yè)和行業(yè)可優(yōu)先采用統(tǒng)計模型,再根據(jù)需求引入 CNN 等復(fù)雜人工智能模型。
高質(zhì)量數(shù)據(jù)集構(gòu)建是一項復(fù)雜而關(guān)鍵的任務(wù),需要了解模型應(yīng)用場景和需求,進(jìn)而開發(fā)、構(gòu)建和維護(hù)數(shù)據(jù)資源,提供持續(xù)有效的高質(zhì)量數(shù)據(jù)集。目前,陳松蹊團(tuán)隊正在構(gòu)建的西太平洋高質(zhì)量海洋數(shù)據(jù)集,取得了關(guān)鍵突破,并在測試中達(dá)到了國際水平,部分指標(biāo)優(yōu)于歐美國家。
“在統(tǒng)計學(xué)上來講,現(xiàn)在中國的研究實力已經(jīng)基本上達(dá)到世界前沿了,從學(xué)理上、從應(yīng)用場景上,我們不比其他國家差,所以我們現(xiàn)在有能力來做這個高質(zhì)量數(shù)據(jù)集?!标愃甚璞硎荆壳皣鴥?nèi)很多科學(xué)家依賴國外數(shù)據(jù)集,且面臨西方國家限制。但中國在統(tǒng)計學(xué)研究的學(xué)理與應(yīng)用場景上已達(dá)世界前沿,具備自主構(gòu)建高質(zhì)量數(shù)據(jù)集的能力。
此次參加數(shù)博會,陳松蹊表示,他很關(guān)心數(shù)據(jù)分析人才培養(yǎng)和隱私計算、隱私保護(hù)相關(guān)問題。在智能時代,海量復(fù)雜的數(shù)據(jù)成為推動各行各業(yè)發(fā)展的關(guān)鍵要素,學(xué)界對統(tǒng)計學(xué)人才培養(yǎng)問題也越發(fā)重視。統(tǒng)計學(xué)不僅用于政府統(tǒng)計,還廣泛應(yīng)用于商業(yè)、醫(yī)學(xué)、工程、社會科學(xué)等領(lǐng)域。它以數(shù)據(jù)為研究對象,研究數(shù)據(jù)的采集、分析、推理等,數(shù)據(jù)科學(xué)即“統(tǒng)計學(xué)+應(yīng)用場景”。因此,現(xiàn)在數(shù)據(jù)分析人才培養(yǎng)有很大缺口。2024年7月10日,清華大學(xué)成立統(tǒng)計與數(shù)據(jù)科學(xué)系,聚焦統(tǒng)計學(xué)核心課程體系與教材建設(shè),培養(yǎng)統(tǒng)計學(xué)領(lǐng)域的拔尖創(chuàng)新人才。
學(xué)界基于統(tǒng)計學(xué)假設(shè)檢驗方法提出差分隱私概念,通過加噪算法保護(hù)數(shù)據(jù)隱私,但加噪量與數(shù)據(jù)可用性存在矛盾 —— 加噪越多,隱私保護(hù)越強,但數(shù)據(jù)越可能失去意義,反之則隱私風(fēng)險升高。對此,陳松蹊團(tuán)隊根據(jù)統(tǒng)計科學(xué),提出一次性加噪算法(實際為兩次加噪,涉及特殊技術(shù)原理),只需發(fā)布數(shù)據(jù)時告知噪音分布,即可普遍適用,且能在非光滑的目標(biāo)函數(shù)、損失函數(shù)場景中應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.