成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人工智能生物模型背后訓練數(shù)據(jù)的安全風險

0
分享至


2025年6月30日,蘭德公司(RAND)發(fā)布了題為《數(shù)據(jù)與人工智能驅(qū)動的生物設(shè)計:生物訓練數(shù)據(jù)的相關(guān)風險與治理機遇》(Data and AI-Enabled Biological Design:Risks Related to Biological Training Data and Opportunities for Governance)的專家洞察報告。該報告系統(tǒng)評估了生物訓練數(shù)據(jù)與人工智能模型能力之間的內(nèi)在聯(lián)系,深入剖析了特定生物數(shù)據(jù)在催生危險能力(如設(shè)計新型病原體)方面的潛在風險,并為全球政策制定者、人工智能模型開發(fā)者和生物安全研究機構(gòu)提出了一系列數(shù)據(jù)治理的戰(zhàn)略選擇與具體建議。啟元洞見編譯整理了其中的核心內(nèi)容,以供讀者參考。

一、人工智能與生物學結(jié)合
的“雙刃劍”

當前,通過對海量生物數(shù)據(jù)的學習,人工智能模型正展現(xiàn)出前所未有的強大能力。這些被稱為“人工智能-生物模型”(AI-bio models)的系統(tǒng),在蛋白質(zhì)折疊預測、基因序列生成及高階功能推演等領(lǐng)域取得了革命性突破,深刻改變著生命科學的研究范式。基因組測序與計算資源成本的持續(xù)下降,共同推動了生物數(shù)據(jù)量的爆炸式增長,使得在更大規(guī)模數(shù)據(jù)集上訓練模型成為可能。

人工智能-生物模型無疑為科學研究與人類健康帶來了巨大福祉,例如協(xié)助發(fā)現(xiàn)新療法,或是在基礎(chǔ)科研中預測復雜的分子行為。然而,其中一些模型具有典型的“雙重用途”屬性,其潛在的危險能力不容忽視。這些能力包括設(shè)計毒素、改造現(xiàn)有病原體以增強其毒力,甚至是“從頭”設(shè)計一個全新的病毒。正如美國國家科學院等權(quán)威機構(gòu)所警示的,一個掌握了前沿人工智能生物模型的不法分子,或許有能力設(shè)計出具有更強傳播性等有害表型特征的病原體。

盡管已有研究對人工智能-生物模型的危險能力進行了評估,但一個關(guān)鍵環(huán)節(jié)常被忽視:模型的各項能力與其所使用的訓練數(shù)據(jù)緊密相關(guān)。訓練數(shù)據(jù)的內(nèi)容直接決定了模型的能力邊界與知識盲區(qū)。因此,對用于訓練人工智能-生物模型的數(shù)據(jù)進行有效治理,可能是在推動有益科學研究的同時,防范潛在危險能力的核心途徑。本報告旨在深入探討生物數(shù)據(jù)與人工智能-生物模型能力之間的關(guān)聯(lián),并在此基礎(chǔ)上提出一系列旨在限制這些危險能力的戰(zhàn)略建議。

二、生物數(shù)據(jù)與人工智能-生物
模型:能力、風險與挑戰(zhàn)

生物數(shù)據(jù)通常包括序列、結(jié)構(gòu)和功能三個核心類別,它們是訓練人工智能-生物模型的基礎(chǔ)。全球各大公共生物數(shù)據(jù)庫正以前所未有的速度擴張,為人工智能-生物模型提供了源源不斷的“養(yǎng)料”。

(一)數(shù)據(jù)如何塑造模型能力?

模型的能力隨著訓練數(shù)據(jù)量的增加而提升,這似乎已成為一種共識。更重要的是,訓練數(shù)據(jù)的多樣性和類型對模型能力的塑造起著決定性作用。以下幾個人工智能模型的實例清晰地揭示了這一點:

1. AlphaFold系列(蛋白質(zhì)結(jié)構(gòu)預測):AlphaFold2通過學習數(shù)萬個已知蛋白質(zhì)結(jié)構(gòu),實現(xiàn)了原子級的精準預測。但由于其訓練數(shù)據(jù)排除了非蛋白質(zhì)成分,它最初無法預測蛋白質(zhì)與DNA/RNA復合物的結(jié)構(gòu)。直到后續(xù)版本在更復雜的數(shù)據(jù)上進行專門訓練后,才彌補了這些能力“缺口”。這表明,訓練數(shù)據(jù)的局限性會直接導致模型能力出現(xiàn)空白區(qū)。

2. Evo系列(基因組語言模型):其前身Evo 1僅在微生物基因組上訓練,而Evo 2的訓練集擴展至涵蓋所有生命領(lǐng)域的超過12.8萬個基因組。這種數(shù)據(jù)廣度的巨大提升,使得Evo 2具備了Evo 1所不具備的新能力,例如分析人類基因變異和設(shè)計真核生物基因。這個例子有力地證明,更廣泛、更多樣的訓練數(shù)據(jù)能夠直接轉(zhuǎn)化為更強大的模型能力。

3. ProGen(蛋白質(zhì)序列生成):ProGen在約2.8億個自然蛋白質(zhì)序列上訓練后,經(jīng)過對特定酶家族序列的微調(diào),成功設(shè)計出了與任何已知蛋白質(zhì)僅有約30%同源性的人工酶,但這些人工酶卻能表現(xiàn)出與天然酶相近的催化活性。這說明,海量的進化序列數(shù)據(jù)能賦予生成模型創(chuàng)造全新且功能正常的蛋白質(zhì)的能力。

4. RoseTTAFold diffusion(結(jié)構(gòu)引導的蛋白質(zhì)設(shè)計):該模型通過學習大量已知蛋白質(zhì)結(jié)構(gòu),能夠設(shè)計出滿足特定結(jié)構(gòu)標準的新型蛋白質(zhì)。相較于早期僅在序列上訓練的模型,RFdiffusion的設(shè)計效率實現(xiàn)了巨大飛躍,這彰顯了結(jié)構(gòu)信息在指導蛋白質(zhì)三維結(jié)構(gòu)設(shè)計中的關(guān)鍵作用。

(二)生物安全視角下的“雙重用途
關(guān)切研究”

生命科學領(lǐng)域中,一些成果可能被濫用的研究被稱為“雙重用途關(guān)切研究”(Dual-Use Research,DURC)我們可以借助DURC的框架來審視人工智能-生物模型可能帶來的危險能力。例如,能夠預測病原體毒力、傳播性的人工智能工具,可能被用于設(shè)計更危險的病原體。這類預測能力本身是雙重用途的——它既可以幫助我們指導疫苗開發(fā),也可能被惡意利用。

要實現(xiàn)對病原體能力的預測,模型需要從已知病原體的特征中學習。因此,在包含病原體信息(如序列、結(jié)構(gòu)或功能注釋)的數(shù)據(jù)集上訓練模型,是其獲得雙重用途應(yīng)用的前提。一個令人擔憂的可能性是,如果一個模型在除了天花病毒之外的所有痘病毒數(shù)據(jù)上都進行了充分訓練,它或許有能力推斷并預測出天花病毒的功能性變異。

(三)賦予危險能力的數(shù)據(jù)特征

并非所有數(shù)據(jù)都具有同等的風險。某些類型的數(shù)據(jù)子集因其特定屬性,在催生人工智能-生物模型危險能力方面扮演著更直接的角色。這些屬性包括:

1. 獨特性(Unique)數(shù)據(jù)難以在公開領(lǐng)域獲取,也難以通過其他數(shù)據(jù)推斷。掌握這類數(shù)據(jù)將賦予使用者獨特的預測優(yōu)勢。

2. 功能準確性(Functionally accurate):數(shù)據(jù)被精確地功能標記,并與實驗驗證結(jié)果高度相關(guān)。這類數(shù)據(jù)可能使快速、準確地預測功能成為現(xiàn)實,從而簡化制造危險病原體的過程。

3. 高致病性(Highly pathogenic):數(shù)據(jù)本身涉及高風險病原體。從一個危險病原體出發(fā)進行設(shè)計,其產(chǎn)物是危險的可能性遠高于從一個無害的起始物出發(fā)。

4. 能力增強性(Capability-enhancing):數(shù)據(jù)的加入能顯著提升模型預測的準確性和特異性。例如,一個能精準預測哪個特定的點突變會增加傳播性的模型,其危險性遠大于只能模糊預測的模型。

值得注意的是,盡管已經(jīng)開始嘗試限制模型接觸特定數(shù)據(jù)集,但其效果仍有待評估,且可能被后續(xù)的“微調(diào)”所規(guī)避。

三、數(shù)據(jù)治理:降低危險能力
的備選方案

鑒于數(shù)據(jù)在人工智能-生物模型能力發(fā)展中的核心地位,數(shù)據(jù)治理成為一個關(guān)鍵的干預點。以下是幾個主要的治理方案類別。

(一)對實驗和數(shù)據(jù)創(chuàng)造過程的治理

這是從源頭上控制危險數(shù)據(jù)產(chǎn)生的方法,旨在通過限制特定類型的實驗或數(shù)據(jù)收集活動,防止有潛在危險的生物數(shù)據(jù)被用于訓練人工智能模型。

限制創(chuàng)造新數(shù)據(jù)或新病原體的科學實驗:這種治理方式已有先例,可通過經(jīng)費控制(如限制對“功能增益”研究的資助)、法律法規(guī)(如多國禁止人類胚胎基因研究)和國際公約(如《禁止生物武器公約》)等手段實現(xiàn)。例如,美國曾因安全和濫用風險的爭議終止了旨在搜尋新病毒的DEEP VZN項目,這引發(fā)了關(guān)于如何監(jiān)管此類潛在危險實驗的廣泛討論。

限制從非實驗樣本中生成數(shù)據(jù):大規(guī)模生物監(jiān)測項目旨在對病原體提供預警,但其產(chǎn)生的病原體數(shù)據(jù)也可能被用于訓練人工智能模型。因此,對此類項目產(chǎn)生的數(shù)據(jù)進行發(fā)布限制,是另一種潛在的治理方式。

(二)對現(xiàn)有數(shù)據(jù)的訪問、整理和
使用的治理

對于已經(jīng)存在的數(shù)據(jù),治理的重點在于控制其訪問、聚合與使用。

1. 控制對現(xiàn)有數(shù)據(jù)集的訪問:限制對敏感數(shù)據(jù)的訪問已有成熟先例,如人類基因組數(shù)據(jù)。在新冠大流行期間,GISAID數(shù)據(jù)庫就要求用戶注冊并提供機構(gòu)信息才能訪問。對于包含特定敏感數(shù)據(jù)的數(shù)據(jù)庫,可借鑒金融領(lǐng)域的“了解你的客戶”(KYC)原則,設(shè)立訪問控制,對用戶的身份和意圖進行驗證。然而,控制當前已完全公開數(shù)據(jù)庫的訪問將面臨巨大挑戰(zhàn)。

2. 對數(shù)據(jù)整理和聚合的治理:即使單個數(shù)據(jù)集本身不構(gòu)成威脅,但當多個數(shù)據(jù)集被組合時也可能產(chǎn)生危險能力。因此,一種治理思路是限制不同數(shù)據(jù)集的聚合。然而,對限制現(xiàn)有非管制數(shù)據(jù)聚合的定義和執(zhí)行將非常困難。

3. 對模型訓練使用數(shù)據(jù)的治理:這是治理的最后一道防線,旨在規(guī)范數(shù)據(jù)在模型訓練中的使用??梢砸竽P烷_發(fā)者披露其訓練數(shù)據(jù),或設(shè)置模型規(guī)模上限并禁止超限模型在特定類型的數(shù)據(jù)(如毒素結(jié)構(gòu))上訓練。

四、給開發(fā)者與政策制定者
的建議

基于以上分析,我們?yōu)槿斯ぶ悄苣P烷_發(fā)者和政策制定者提出以下核心建議。

(一)對開發(fā)者的建議

人工智能模型開發(fā)者應(yīng)主動探索和明確訓練數(shù)據(jù)與模型能力之間的關(guān)系,并實施與數(shù)據(jù)相關(guān)的風險緩解措施。具體包括:深入研究生物數(shù)據(jù)類型與危險能力之間的關(guān)聯(lián);開展限制性測試,評估移除特定數(shù)據(jù)對模型能力的影響;監(jiān)控病原體序列、結(jié)構(gòu)和功能數(shù)據(jù)的收集與聚合情況,建立態(tài)勢感知。

(二)對政策制定者的建議

政策制定者應(yīng)為使用政府資助的生物數(shù)據(jù)集訓練人工智能模型的行為制定使用指南。具體包括:評估控制使用公共資助數(shù)據(jù)集的成本與收益;為使用政府資金或數(shù)據(jù)的研究人員提供指南,建議其避免產(chǎn)生雙重用途能力;響應(yīng)NASEM報告的號召,加強對生物數(shù)據(jù)集作為戰(zhàn)略資產(chǎn)的管理,保護其在人工智能訓練中的使用和質(zhì)量。

(三)對開發(fā)者和政策制定者的共同建議

在收集、聚合病原體數(shù)據(jù)以及利用這些數(shù)據(jù)訓練模型時,雙方都應(yīng)聯(lián)合進行能力評估。這項評估應(yīng)包括對模型能力的預測,以及對將功能性病原體數(shù)據(jù)公之于眾可能產(chǎn)生后果的分析。

需要特別關(guān)注那些最有可能促進DURC能力發(fā)展的數(shù)據(jù),包括:潛在高致病性病原體(PEPP)的序列數(shù)據(jù)、將基因型與危險表型相關(guān)聯(lián)的功能數(shù)據(jù),以及涉及“關(guān)切序列”的數(shù)據(jù)庫。應(yīng)監(jiān)控此類數(shù)據(jù)的創(chuàng)建和聚合,并在必要時實施訪問控制。同時,在收集、聚合或使用這些數(shù)據(jù)訓練人工智能模型時進行風險評估。

總之,人工智能與生物學的深度融合正開啟一個充滿希望與挑戰(zhàn)的新時代。要駕馭這股強大的力量,確保其始終為人類福祉服務(wù)而非構(gòu)成威脅,對作為其能力基石的“生物訓練數(shù)據(jù)”進行審慎而有效的前瞻性治理,將是我們無法回避的核心議題。

免責聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點,本公眾號編譯/轉(zhuǎn)載僅為分享、傳達不同觀點,如有任何異議,歡迎聯(lián)系我們!

轉(zhuǎn)自丨啟元洞見

研究所簡介

國際技術(shù)經(jīng)濟研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機構(gòu),主要職能是研究我國經(jīng)濟、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟發(fā)展態(tài)勢,為中央和有關(guān)部委提供決策咨詢服務(wù)?!叭蚣夹g(shù)地圖”為國際技術(shù)經(jīng)濟研究所官方微信賬號,致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址:北京市海淀區(qū)小南莊20號樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見前沿,引領(lǐng)未來
3929文章數(shù) 13401關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關(guān)懷版