通信世界網消息(CWW)8月14日,在“高質量完成‘十四五’規(guī)劃”系列主題新聞發(fā)布會上,國家發(fā)展改革委黨組成員、國家數據局局長劉烈宏針對國家層面在圍繞人工智能高質量數據提質擴量方面開展了哪些工作答記者問。
劉烈宏表示,作為人工智能發(fā)展的三大核心要素之一,數據在推動“人工智能+”過程中發(fā)揮著關鍵作用,特別是高質量數據集的建設至關重要,比如在醫(yī)療健康領域,通過標注的醫(yī)學影像高質量數據集,模型的疾病診斷準確率可以提升15%以上。在人工智能時代,Token,也就是大家通常所說的詞元,作為處理文本的最小數據單元,如同互聯(lián)網時代大家所說的“流量”。2024年初,我國日均Token的消耗量為1千億,截至今年6月底,日均Token消耗量已經突破30萬億,1年半時間增長了300多倍,這反映了我國人工智能應用規(guī)模的快速增長。
我國人工智能的快速發(fā)展,與我國高度重視數據工作密不可分。
劉烈宏指出,我國是第一個把數據作為生產要素的國家,多措并舉促進數據資源的開發(fā)利用。國家數據局強調“人工智能+”行動到哪里,高質量數據集的建設和推廣就要到哪里。國家數據局大力推動高質量數據的供給,出臺了高質量數據集建設相關文件,多部門聯(lián)合推動相關工作。國家數據局指導全國數據標準化技術委員會研究制定了相關標準和技術文件,組織了高質量數據集建設先行先試工作和典型案例征集活動,分行業(yè)、分領域樹立了一批典型的解決方案。
國家數據局持續(xù)推進高質量數據集建設工作。截至今年6月底,我國已經建設高質量數據集超過3.5萬個,總體量超過了400PB(1PB可存儲約5億張2MB大小的高清照片,400PB的總量相當于中國國家圖書館數字資源總量的140倍左右)。人工智能模型的訓練也推動了數據交易需求的攀升,截至今年6月底,各地高質量數據集累計交易額近40億元,數據交易機構掛牌的高質量數據集總規(guī)模達到了246PB。
以北京數交所為例,高質量數據集占交易總量的比例從去年的10%躍升到目前的近80%。上海、天津、安徽等地正在試點“數據語料作價入股”等新模式,引導企業(yè)將高質量數據集折算為股權投入到相關企業(yè)。高質量數據集的發(fā)展需要數據標注產業(yè)的支撐,國家數據局已布局了成都、沈陽、合肥等7個數據標注基地,助力高質量數據集的建設。
劉烈宏介紹,中文數據在國內大模型的訓練性能提升方面發(fā)揮著重要作用。經過一段時間的努力,國內多數模型訓練使用的中文數據占比已經超過了60%,有的模型已達到80%。中文高質量數據的開發(fā)和供給能力持續(xù)增強,推動我國人工智能模型性能的快速提升。
下一步,國家數據局將通過體系化布局持續(xù)推進高質量數據集建設,加快打造具身智能、低空經濟、生物制造等重點領域數據高地。也將推動全社會強化數據要素價值認同,加快推進數據要素價值共創(chuàng),培育“為優(yōu)質數據買單”的市場共識。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.