機(jī)器之心報道
機(jī)器之心編輯部
AI 加速科學(xué)和藥物研發(fā),已經(jīng)不是什么新鮮事,但它的潛力遠(yuǎn)未被完全釋放。
就在剛剛過去的一天,OpenAI 宣布他們與生物科技初創(chuàng)公司 Retro Bio 合作,研發(fā)的新模型GPT-4b micro,設(shè)計出了新型且顯著增強(qiáng)的山中因子變體。
山中因子是一組蛋白質(zhì),由諾獎得主、日本科學(xué)家山中伸彌在 2006 年提出,其包括 Oct4、Sox2、Klf4 和 c - Myc4 種因子,又稱 OSKM。當(dāng)它們被添加到人類皮膚細(xì)胞中時,會使其轉(zhuǎn)變?yōu)榭此颇贻p的干細(xì)胞,這種干細(xì)胞可以分化成體內(nèi)任何其他組織。Retro 認(rèn)為,這一現(xiàn)象可能是實現(xiàn)構(gòu)建人體器官或提供替代細(xì)胞的起點。
然而,山中因子也存在一個重大局限:重編程效率極低,它需要數(shù)周時間,而且在實驗室培養(yǎng)皿中,只有不到 1% 的細(xì)胞能夠完成再生之旅。這意味著在實際應(yīng)用中,只有極少數(shù)細(xì)胞能夠成功被重編程,這大大限制了其在臨床和科研上的推廣與應(yīng)用價值。
OpenAI 與 Retro Bio 團(tuán)隊借助 GPT-4b micro,一起設(shè)計出山中因子新變體,與標(biāo)準(zhǔn) OSKM 蛋白相比,這些因子在體外的重編程效率提高了 50 倍,這是一項突破性的改進(jìn)。
其實,OpenAI 與 Retro Bio 的合作始于一年前,此前, Sam Altman 個人向 Retro 注資 1.8 億美元。
對于這一發(fā)現(xiàn),Sam Altman、Greg Brockman 紛紛進(jìn)行了轉(zhuǎn)發(fā)并評論:
不過遺憾的是,這個模型并沒公開:
OpenAI 表示,GPT-4b micro 與 GPT-4o 具有相同的架構(gòu),但使用了一種新的訓(xùn)練方法和自定義生物學(xué)數(shù)據(jù)集,目的是使科學(xué)家能夠根據(jù)自己的需求重新設(shè)計蛋白質(zhì)。
山中因子 KLF4(左)和 SOX2(右)的 3D 結(jié)構(gòu)可視化。
模型在推理過程中能夠處理上下文長度達(dá) 64000 個 token ,盡管這種規(guī)模在文本大語言模型中已較為常見,但在蛋白質(zhì)序列模型中尚屬首次。
另外,值得一提的是,在開發(fā)過程中,研究者觀察到 GPT-4b micro 出現(xiàn)了與語言模型類似的 scaling laws,在更大的數(shù)據(jù)集上訓(xùn)練的模型在困惑度和下游蛋白質(zhì)基準(zhǔn)方面取得了可預(yù)測的提升。然而,蛋白質(zhì) AI 模型的計算機(jī)模擬評估通常價值有限,因為尚不清楚此類改進(jìn)是否能轉(zhuǎn)化為現(xiàn)實世界中效用的提升。
用 AI 輔助對 SOX2 和 KLF4 重新設(shè)計
顯著提升干細(xì)胞重編程效率
OpenAI 展示了是如何借助 GPT-4b micro 來提升 SOX2 和 KLF4 重編程效率的。
眾所周知,直接對蛋白質(zhì)序列進(jìn)行優(yōu)化非常困難,因為 SOX2 含有 317 個氨基酸、KLF4 含有 513 個氨基酸,可能產(chǎn)生的變體數(shù)量幾乎達(dá)到 10^1000,所以傳統(tǒng)的「定向進(jìn)化」篩選技術(shù)每次僅能對少量殘基進(jìn)行突變,所能探索的設(shè)計空間可謂是微不足道。
幾年前的一項權(quán)威學(xué)術(shù)研究成果《通過細(xì)胞選擇和測序?qū)崿F(xiàn)重編程因子的定向進(jìn)化》測試了數(shù)千種 SOX2 突變體,只發(fā)現(xiàn)少數(shù)具有適度增益的三重突變體,而 15 年來對嵌合 SOX?蛋白的不懈研究所獲得的變體,與天然 SOX 僅有 5 個殘基的差異。
為此,Retro 團(tuán)隊使用人類成纖維細(xì)胞(皮膚和結(jié)締組織)搭建了一個濕實驗室篩選平臺,在初步篩選階段,使用 Retro 科學(xué)家手動設(shè)計的 OSKM 和 SOX2 變體作為基線對其進(jìn)行驗證,如圖 3 所示。
然后,研究者要求 GPT-4b micro 提出一組多樣化的「RetroSOX」序列。結(jié)果發(fā)現(xiàn),盡管模型提出的序列平均與野生型 SOX2(wild?type SOX2)之間相差超過 100 個氨基酸,但在表達(dá)關(guān)鍵多能性標(biāo)記物方面,該模型提出的序列中超過 30% 的序列都要優(yōu)于野生型 SOX2。而相比之下,傳統(tǒng)篩選方法的命中率通常低于 10%。
隨后,研究團(tuán)隊對山中因子中最大的 KLF4 進(jìn)行重新改造。已知 KLF4 可以被其他 KLF 家族因子替代,但不會提高重編程效率。此前,在通過專家指導(dǎo)的單氨基酸替換方案對 KLF4 進(jìn)行改進(jìn)嘗試時,19 次嘗試中僅成功一次。
與對 RetroSOX 的改進(jìn)方法類似,研究者要求模型生成一組增強(qiáng)型 RetroKLF 變體。結(jié)果就是,在模型生成的變體中,有 14 種變體要優(yōu)于 RetroSOX 篩選中的最佳組合 —— 命中率接近 50%,如圖 4 所示。
該研究發(fā)現(xiàn),將表現(xiàn)最優(yōu)的 RetroSOX 和 RetroKLF 變體組合在一起可獲得最顯著的成效。而在三次獨(dú)立實驗中,成纖維細(xì)胞早期 (SSEA-4) 和晚期 (TRA-1-60、NANOG) 標(biāo)志物均顯著增加,且晚期標(biāo)志物的出現(xiàn)時間比野生型 OSKM 組合方案提前了幾天,如圖 5 所示。
此外,在第 10 天通過堿性磷酸酶 (AP) 染色驗證時發(fā)現(xiàn),RetroSOX 和 RetroKLF 變體不僅表達(dá)晚期多能性標(biāo)記,還表現(xiàn)出強(qiáng)勁得到 AP 活性,而這是多能性的重要指標(biāo),如圖 6 所示。
為了進(jìn)一步證實重編程效率的提升并探索其臨床潛力,研究者采用不同的遞送方式驗證 —— 用 mRNA 替代病毒載體,以及另一種細(xì)胞類型 —— 間充質(zhì)基質(zhì)細(xì)胞 (MSC),進(jìn)行驗證。(注:這些細(xì)胞來自三位年齡超過 50 歲的中年人類捐贈者)
結(jié)果發(fā)現(xiàn),僅僅 7 天內(nèi),超過 30% 的細(xì)胞開始表達(dá)關(guān)鍵多能性標(biāo)志物(SSEA4 和 TRA-1-60),等到第 12 天時,出現(xiàn)了大量形態(tài)與典型誘導(dǎo)性多能干細(xì)胞(iPSC)相似的細(xì)胞集落,如圖 7 的左側(cè)和中間所示。這些細(xì)胞中有超過 85% 激活了關(guān)鍵干細(xì)胞標(biāo)志物的內(nèi)源性表達(dá),包括 OCT4、NANOG、SOX2 和 TRA-1-60。
隨后,研究者驗證了這些 RetroFactor 衍生的 iPSC 能夠成功分化為所有三個原始胚層 —— 內(nèi)胚層、外胚層和中胚層。此外,他們擴(kuò)增了多個單克隆 iPSC 細(xì)胞系,并進(jìn)行了多次傳代,證實了其具有健康的核型(如圖 7 的右側(cè)所示),且基因組穩(wěn)定性適合細(xì)胞治療。
這些結(jié)果進(jìn)一步佐證了工程化變體的穩(wěn)健性,還為跨不同遞送方式和細(xì)胞類型增強(qiáng) iPSC 生成能力提供了實證依據(jù)。
根據(jù)研究結(jié)果綜合來看,高命中率、深度序列編輯、加速標(biāo)記出現(xiàn)和 AP + 菌落形成等證據(jù)初步表明:AI 指導(dǎo)的蛋白質(zhì)設(shè)計可以顯著加速干細(xì)胞重編程研究的研究發(fā)展進(jìn)展。
重組變體增強(qiáng) DNA 損傷修復(fù)
在 DNA 損傷修復(fù)試驗中,用 RetroSOX/KLF 混合物處理的細(xì)胞表現(xiàn)出明顯低于用標(biāo)準(zhǔn) OSKM 或熒光對照重編程的細(xì)胞的 γ-H2AX 強(qiáng)度(雙鏈斷裂的標(biāo)志)(圖 8)。
這些結(jié)果表明,RetroSOX/KLF 混合物比原始的山中因子更有效地減少 DNA 損傷。
未來展望
對 OpenAI 來說,這項工作證明了,在特定領(lǐng)域,專業(yè)化模型能夠更快地在科學(xué)問題上取得突破性進(jìn)展。
「當(dāng)研究人員將深厚的領(lǐng)域知識與語言模型工具結(jié)合時,以前需要數(shù)年才能解決的問題,可能在數(shù)天之內(nèi)就會取得進(jìn)展。」OpenAI 研究合作負(fù)責(zé)人 Boris Power 說道。
參考鏈接:https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.