撰文丨王聰
編輯丨王多魚
排版丨水成文
基因組學的迅速發(fā)展使眾多新蛋白質(zhì)得以探索,這為表征生物體中蛋白質(zhì)的功能帶來了前所未有的機遇和新的挑戰(zhàn)。盡管傳統(tǒng)的生化實驗方法在研究蛋白質(zhì)功能方面發(fā)揮了重要作用,但這些方法存在明顯的局限性,因為它們通常耗時費力,而且難以擴大規(guī)模以實現(xiàn)高效篩選。
蛋白質(zhì)的一級序列(即氨基酸序列)對于預測蛋白質(zhì)的功能至關(guān)重要,蛋白質(zhì)序列分析能夠識別功能基序和保守結(jié)構(gòu)域,而序列比對則能揭示出可能具有功能參考價值的同源蛋白質(zhì)。AlphaFold2的發(fā)展使得基于結(jié)構(gòu)(而非序列)同源性的聚類方法得以應用,從而能夠?qū)⒋罅靠赡芫哂邢嗨乒δ艿牡鞍踪|(zhì)進行分組。然而,這些方法無法對復雜且可能具有多種功能的蛋白質(zhì)進行全面評估。
因此,迫切需要高精度、定量的方法來高效表征蛋白質(zhì)的功能,以克服當前精度較低、定性的方法所帶來的障礙。
2025 年 8 月 18 日,中國農(nóng)業(yè)科學院深圳農(nóng)業(yè)基因組研究所左二偉團隊在Cell Research期刊發(fā)表了題為:AlphaCD: a machine learning model capable of highly accurate characterization for 21,335 cytidine deaminases 的研究論文。
該研究構(gòu)建了一個機器學習模型——AlphaCD,該模型在預測胞嘧啶脫氨酶(CD)的催化效率、脫靶活性、靶位點窗口和催化基序方面均表現(xiàn)出高精度,并利用預測結(jié)構(gòu)構(gòu)建了一個兼具超高保真度和高效率的胞嘧啶堿基編輯器(CBE)。
序列數(shù)據(jù)庫涵蓋范圍廣泛但支持性證據(jù)有限,這阻礙了具有特定功能蛋白質(zhì)的鑒定。在這項最新研究中,研究團隊在 HEK293T 細胞中實驗表征了 1100 個與 nCas9 融合的APOBEC 樣家族胞嘧啶脫氨酶(CD)的催化效率、靶位點窗口、基序偏好和脫靶活性,從而生成了迄今為止最大的單個蛋白家族的實驗驗證功能數(shù)據(jù)集。
基于這些數(shù)據(jù),結(jié)合氨基酸序列、三維蛋白質(zhì)結(jié)構(gòu)和 8 個附加特征,研究團隊構(gòu)建了機器學習模型——AlphaCD。該模型在預測催化效率(0.92)、脫靶活性(0.84)、靶位點窗口(0.73)和催化基序(0.78)方面均表現(xiàn)出高精度。研究團隊將訓練后的模型應用于預測 Uniprot 數(shù)據(jù)庫中 21335 個胞嘧啶脫氨酶(CD)的上述催化特征,并對其中 28 個胞嘧啶脫氨酶進行子抽樣驗證,其預測精度分別為 0.84、0.87、0.75 和 0.73。
最后,研究團隊通過基于丙氨酸掃描的誘變技術(shù)對其中一個胞嘧啶脫氨酶 A0A2R2Z4E4 的脫靶位點進行優(yōu)化,構(gòu)建了 A0A2R2Z4E4E100A 變體,進而構(gòu)建了兼具超高保真度和高效率的胞嘧啶堿基編輯器(CBE)。該案例不僅證明了 AlphaCD 在高精度、高通量蛋白質(zhì)功能表征中的應用價值,還為其他蛋白質(zhì)的加速功能解析提供了策略范式。
論文鏈接:
https://www.nature.com/articles/s41422-025-01164-x
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.