不圓 時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
GPT-4o蛋白質(zhì)專用版,已成功改進諾貝爾獎獲獎蛋白的變體。
科學(xué)家利用GPT?4b micro成功設(shè)計了新型且顯著增強的山中伸彌因子變體,將干細胞重編程標(biāo)記物的表達量提升了50倍。
重新設(shè)計的蛋白質(zhì)還表現(xiàn)出增強的DNA損傷修復(fù)能力。
這一發(fā)現(xiàn)已在多個供體、細胞類型和遞送方法中得到了驗證,確認了衍生iPSC系的全多能性和基因組穩(wěn)定性。
有網(wǎng)友評價,借著AI發(fā)展的東風(fēng),我們這一代可能是首次有機會通過AI的進步實現(xiàn)長壽的一代。
目前,研究團隊公布了更多的突破細節(jié)。
前所未有的上下文長度
GPT?4b micro是一款OpenAI與生物技術(shù)初創(chuàng)公司Retro Bio合作開發(fā)的,專為蛋白質(zhì)工程設(shè)計的GPT-4o微型版本。
OpenAI官方表示,該模型具備廣泛的生物學(xué)知識基礎(chǔ)和技能,特別注重可控性和靈活性,以支持蛋白質(zhì)工程等高級應(yīng)用場景。
在模型設(shè)計上,他們首先基于GPT-4o的精簡版進行系統(tǒng)初始化,以便充分利用GPT模型現(xiàn)有的知識儲備。
然后,他們在一個主要由蛋白質(zhì)序列、生物文本和標(biāo)記化的3D結(jié)構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集上對其進行了進一步訓(xùn)練,這些元素是大多數(shù)蛋白質(zhì)語言模型所忽略的。
團隊繼續(xù)對大部分訓(xùn)練數(shù)據(jù)進行了豐富化處理,為其增添了額外的上下文信息,如文本描述、共同進化的同源序列以及已知相互作用的蛋白質(zhì)組合。
有了這些上下文信息,研究者就可以促使GPT-4b micro生成具有特定期望屬性的序列。
此外,由于大多數(shù)數(shù)據(jù)是無結(jié)構(gòu)的,該模型處理具有內(nèi)在無序區(qū)域的蛋白質(zhì)與處理結(jié)構(gòu)化蛋白質(zhì)同樣有效。
上述特性對于山中伸彌因子這類不穩(wěn)定的蛋白質(zhì)尤其有用,它們的結(jié)構(gòu)不像穩(wěn)定的積木,而像靈活的“軟體動物”,通過與許多不同的分子進行短暫相互作用來產(chǎn)生效應(yīng)。
△山中伸彌蛋白KLF4(左)和SOX2(右)
通過使用富含額外上下文信息的蛋白質(zhì)數(shù)據(jù)進行訓(xùn)練,訓(xùn)練樣本的有效上下文長度得到了顯著擴展,遠超獨立序列。
最終,研究團隊發(fā)現(xiàn),即使輸入長達64000個token的超長提示,模型的可控性和輸出質(zhì)量仍在持續(xù)提升。
雖然這種上下文長度在文本大語言模型中很常見,但在蛋白質(zhì)序列模型中前所未有。
在開發(fā)過程中,研究團隊還觀察到了與LLM中類似的scaling laws的出現(xiàn)——即在更大的數(shù)據(jù)集上訓(xùn)練的模型,在困惑度和下游蛋白質(zhì)基準測試中的表現(xiàn)都有所提升。
這種特性使得研究人員能夠在小規(guī)模下進行迭代,最終訓(xùn)練出GPT-4b micro。
已改進諾貝爾獲獎蛋白變體
為了證明GPT?4b micro能夠加速藥物開發(fā),Retro Bio的科學(xué)家使用該模型重新設(shè)計了與細胞重編程研究項目相關(guān)的蛋白質(zhì)。
在體外,這些重新設(shè)計的蛋白質(zhì)比野生型對照組的干細胞重編程標(biāo)志物表達量高出50倍以上。它們還表現(xiàn)出增強的DNA損傷修復(fù)能力,與基線相比顯示出更高的恢復(fù)年輕狀態(tài)的潛力。
這一發(fā)現(xiàn)是在2025年初做出的,現(xiàn)在已經(jīng)在多個供體、細胞類型和遞送方法中得到了驗證,確認了衍生iPSC系的全多能性和基因組穩(wěn)定性。
山中伸彌因子——OCT4、SOX2、KLF4和MYC(OSKM)是再生生物學(xué)中目前最重要的蛋白質(zhì)之一,它們以發(fā)現(xiàn)這些因子能夠?qū)⒊赡昙毎鼐幊虨槎嗄芨杉毎?/strong>的山中伸彌(Yamanaka Shin’ya)的名字命名,這一發(fā)現(xiàn)使他在2012年獲得了諾貝爾生理學(xué)或醫(yī)學(xué)獎。
這些因子也被用于開發(fā)治療失明的藥物、逆轉(zhuǎn)糖尿病、治療不孕不育以及解決器官短缺問題。
但它們存在效率低下的問題:在治療過程中,通常只有不到0.1%的細胞會轉(zhuǎn)化,這個過程可能需要三周或更長時間。并且,在來自衰老或患病供體的細胞中,效率會進一步下降。
因此,尋找更有效的變體仍然是一個活躍且重要的研究重點。
但直接優(yōu)化蛋白質(zhì)序列非常困難——SOX2包含317個氨基酸,KLF4則有513個,可能的變體數(shù)量達到了10^1000量級。
傳統(tǒng)的“定向進化”篩選方法每次只能突變少數(shù)幾個殘基,只能探索設(shè)計空間中極小的一部分。一個領(lǐng)先學(xué)術(shù)團隊測試了數(shù)千種SOX2突變體,發(fā)現(xiàn)少數(shù)幾種三重突變體有適度提升,而15年來對嵌合SOX蛋白的研究僅產(chǎn)生了與天然SOX僅相差5個殘基的變體。
Retro團隊利用人類成纖維細胞(皮膚與結(jié)締組織)構(gòu)建了濕實驗室篩選平臺,在初步驗證階段,該團隊通過手動設(shè)計的基準OSKM和SOX2變體進行試點篩選。
隨后,他們要求GPT-4b micro生成一組多樣化的”RetroSOX”序列。
在篩選中,盡管模型提出的序列與野生型SOX2平均存在超過100個氨基酸差異,但其中超過30%的序列在表達關(guān)鍵多能性標(biāo)志物方面表現(xiàn)更優(yōu)。
相比之下,傳統(tǒng)篩選方法的命中率通常低于10%。
研究團隊隨后著手改造山中伸彌因子中體積最大的KLF4蛋白。雖然已知可用其他KLF家族因子替代KLF4,但重編程效率并未提升。
此前,通過專家指導(dǎo)的單氨基酸替換進行的改良嘗試,在19個樣本中僅獲得1個成功案例(KLF4 L507A)。
基于RetroSOX的成功經(jīng)驗,研究團隊引導(dǎo)模型生成一組增強型RetroKLF變體。最終,模型生成的變體中有14種表現(xiàn)優(yōu)于RetroSOX篩選中的最佳組合方案——命中率接近50%。
將最優(yōu)的RetroSOX與RetroKLF變體組合使用時效果最為顯著。
在三次獨立實驗中,成纖維細胞早期標(biāo)志物(SSEA-4)與晚期標(biāo)志物(TRA-1-60、NANOG)的表達水平均呈現(xiàn)顯著提升,其中晚期標(biāo)志物的出現(xiàn)時間比野生型OSKM組合方案提前了幾天。
此外,通過在第十天進行堿性磷酸酶(AP)染色驗證,RetroSOX與RetroKLF變體不僅表達晚期多能性標(biāo)志物,還表現(xiàn)出強效的AP活性,表明其具有多能性。
為進一步驗證重編程效率的提升并探索其臨床潛力,研究團隊測試了另一種遞送方法(mRNA而非病毒載體)以及另一種細胞類型——間充質(zhì)干細胞(MSCs),這些細胞來自三位中年人類供體(年齡超過50歲)。
結(jié)果顯示,僅7天內(nèi),超過30%的細胞開始表達關(guān)鍵多能性標(biāo)志物(SSEA4與TRA-1-60);至第12天時,出現(xiàn)大量呈現(xiàn)典型iPSCs形態(tài)特征的細胞團簇。
這些細胞中超過85%激活了關(guān)鍵干細胞標(biāo)志物(OCT4、NANOG、SOX2及TRA-1-60)的內(nèi)源性表達。
探究團隊隨后驗證了這些由RetroFactor衍生的iPSCs能夠成功分化為所有三個原始胚層(內(nèi)胚層、外胚層與中胚層)。
此外,研究團隊還擴展了多個單克隆iPSC系,經(jīng)過數(shù)代培養(yǎng)后,確認了健康的核型和適合細胞治療的基因組穩(wěn)定性。
這些結(jié)果持續(xù)超越合同研究組織使用標(biāo)準因子生成的常規(guī)iPSC系基準,進一步佐證了工程化變體的強效性。
此外,它們還為關(guān)于不同遞送方式和細胞類型中PSC生成增強提供了證據(jù)支撐。
綜合高命中率、深度序列編輯、標(biāo)志物提前表達以及AP陽性細胞團形成等證據(jù),初步表明AI指導(dǎo)的蛋白質(zhì)設(shè)計能顯著加速干細胞重編程研究進程。
受這些結(jié)果啟發(fā),研究團隊接下來研究了他們重新設(shè)計的變體恢復(fù)青春的潛力,聚焦于DNA損傷這一導(dǎo)致細胞功能受損的典型衰老標(biāo)志。
早期研究表明,山中伸彌因子能在不完全改變細胞身份的前提下,清除小鼠細胞中與DNA損傷相關(guān)的衰老標(biāo)記。
研究團隊試圖驗證重新設(shè)計的變體是否相較于基準OSKM組合展現(xiàn)出更強的恢復(fù)青春的能力。結(jié)果顯示,在DNA損傷檢測中,經(jīng)RetroSOX/KLF組合處理的細胞顯示出的γ-H2AX強度(雙鏈斷裂標(biāo)志物)顯著低于使用標(biāo)準OSKM或熒光對照的重編程細胞。
該結(jié)果表明重新設(shè)計的RetroSOX/KLF組合在減少DNA損傷方面比原始山中伸彌因子更有效。
通過改善細胞衰老的核心標(biāo)志之一,這些工程化變體為改進細胞再生和未來療法提供了潛在途徑。
總的來說,GPT?4b micro在所有候選蛋白中產(chǎn)生了最佳變體,在提出更多多樣化序列的同時,保持了比人類科學(xué)家基準更高的命中率。
令人欣喜的突破
網(wǎng)友首先對OpenAI進軍生物科學(xué)領(lǐng)域的大膽舉措給予了充分肯定,猛猛夸贊了一下OpenAI。
甚至揚言這是改變?nèi)祟悮v史的事情。
也有一些網(wǎng)友對此研究表現(xiàn)出疑惑,主要集中在長壽和治愈疾病方面(用Grok重在摻和)。
還有網(wǎng)友表示出了自己的獨特想法,想讓獲得批準的人能夠創(chuàng)建出適合濕實驗室的蛋白質(zhì),而不受安全限制的影響。
值得一提的是,OpenAI科學(xué)家Noam Brown表示,這一模型已經(jīng)是幾個月前的成果,現(xiàn)在的模型性能更強,預(yù)計未來一年左右會看到更多新成果。
那大家拭目以待嘍~
參考鏈接:
[1]https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
[2]https://x.com/BorisMPower/status/1958915868693602475
[3]https://x.com/polynoamial/status/1958920311161925899
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.