成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓練自2.67億個單細胞數(shù)據(jù)的AI虛擬細胞模型——STATE,無需實驗,預測細胞對藥物或基因擾動的反應

0
分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

人體是由細胞(Cell)構(gòu)成的馬賽克,其中,免疫細胞通過增強炎癥來對抗感染;干細胞可以分化成各種組織;癌細胞避開調(diào)控信號而無節(jié)制地分裂。然而,盡管這些細胞之間存在顯著差異,但這些看上去截然不同的體細胞都攜帶著(幾乎)相同的基因組。

細胞的獨特性不僅源于 DNA 的不同,更在于每個細胞對 DNA 的使用方式。換句話說,細胞的特性源自基因表達的變化,即基因在不同時刻的“開啟”和“關(guān)閉”。細胞的基因表達模式——以 RNA 分子的形式體現(xiàn),而 RNA 分子本身又是從 DNA 轉(zhuǎn)錄而來,基因的表達不僅決定了細胞的類型,還決定了細胞的狀態(tài):細胞基因表達的變化可以揭示細胞如何從健康狀態(tài)轉(zhuǎn)變?yōu)檠装Y狀態(tài),甚至癌變。通過測量有或無化學或基因干擾的細胞內(nèi)的 RNA 轉(zhuǎn)錄本,可以訓練出能夠預測細胞基因表達模式(這是細胞“狀態(tài)”的關(guān)鍵驅(qū)動因素)將如何變化的人工智能(AI)模型。這樣的 AI 模型甚至能夠預測模型之前未曾遇到的干擾所引發(fā)的反應。

大約 90% 的進入臨床試驗的候選藥物最終會失敗,原因在于療效不佳或產(chǎn)生了意外的副作用。研究人員在實驗室或患者身上測試的每種藥物,本質(zhì)上都是為以特定方式干擾細胞而量身定制的探針。因此,一個高度預測性的虛擬細胞(Virtual Cell)模型能夠幫助研究人員發(fā)現(xiàn)新藥物,這些藥物能夠使細胞從“患病狀態(tài)”轉(zhuǎn)換到“健康狀態(tài)”,同時減少脫靶效應,從而提高臨床試驗的成功率。

近日,Arc 研究所發(fā)布了其第一代虛擬細胞模型——STATE,該虛擬細胞模型旨在預測各類干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因擾動的反應。STATE 模型基于 1.67 億個細胞的觀察數(shù)據(jù)以及超過 1 億個細胞的擾動數(shù)據(jù)進行訓練,這些數(shù)據(jù)涵蓋了 70 種細胞系。該論文已于近期發(fā)表在了預印本平臺 bioRxiv 上。



STATE 的使用很簡單:給定一個初始轉(zhuǎn)錄組和一個干擾因素,STATE 就能預測 RNA 表達的變化。STATE 由兩個相互關(guān)聯(lián)的模塊組成——State Embedding(SE)模型和State Transition(ST)模型。SE 模型基于 1.67 億個細胞的觀測數(shù)據(jù)進行訓練,這些數(shù)據(jù)是細胞在未受干預情況下的行為測量值,而 ST 模型則基于超過 1 億個細胞的擾動數(shù)據(jù)進行訓練,即這些細胞對基因變化或小分子的反應情況。

SE 模型將轉(zhuǎn)錄組數(shù)據(jù)轉(zhuǎn)換為計算機更易于理解的平滑多維向量空間,并且對技術(shù)噪聲更具不變性。相同類型的細胞(比如白血病細胞或神經(jīng)元)在這個向量空間中會聚集在一起。ST 模型預測細胞在受到給定干擾時如何在學習到的流形的不同部分之間進行轉(zhuǎn)換。該模型基于雙向 Transformer 架構(gòu)構(gòu)建,其獨特之處在于利用了對細胞集的自注意力機制,從而使 ST 模型能夠靈活地捕捉生物和技術(shù)異質(zhì)性(例如細胞周期狀態(tài)或 RNA-seq 數(shù)據(jù)中的偏差),而無需依賴明確的分布假設。


STATE 是基于超過1 億個細胞的單細胞擾動數(shù)據(jù)(Tahoe-100M、Parse-PMBC、Replogle-Nadig)進行訓練的,訓練數(shù)據(jù)量超過了迄今為止的任何其他模型。它在預測新細胞環(huán)境中轉(zhuǎn)錄組在受到擾動后的變化方面,顯著優(yōu)于現(xiàn)有的最先進的計算方法。在對 Tahoe-100M 進行基準測試時,STATE 在區(qū)分擾動效應方面表現(xiàn)出了50% 的提升,并且在識別真正差異表達基因的準確性方面是現(xiàn)有模型的2 倍。此外,STATE 也是首個在所有測試中都優(yōu)于簡單線性基線模型的模型。

STATE 最初專注于單細胞 RNA 測序數(shù)據(jù)建模,因為這是目前研究人員能夠以合理成本大規(guī)模生成的唯一無偏倚的單細胞分辨率數(shù)據(jù)。遺憾的是,測序數(shù)據(jù)通常是純觀察性的,因此通常不足以推斷細胞生物學中的因果關(guān)系。即使有來自數(shù)百萬個細胞的觀察數(shù)據(jù),虛擬細胞模型也無法確定導致觀察到的相關(guān)性出現(xiàn)的因果效應。了解因果關(guān)系對于構(gòu)建基于生物學機制的真正的“虛擬細胞”模型至關(guān)重要。

Arc 研究所的研究團隊通過收集大規(guī)模的擾動數(shù)據(jù)來彌補單細胞 RNA 測序數(shù)據(jù)數(shù)據(jù)不足:即通過實驗(例如使用 CRISPR 基因編輯工具)生成的數(shù)據(jù),在實驗中特意改變特定基因以觀察其對細胞的影響。與觀察性數(shù)據(jù)不同,擾動數(shù)據(jù)捕捉了基因之間的因果關(guān)系,直接反映了潛在的生物學機制??赡苄枰獢?shù)萬次觀察才能推斷出兩個基因之間的直接相互作用關(guān)系,而擾動數(shù)據(jù)僅通過一次測量就能捕捉到相同的相互作用關(guān)系。研究團隊以獨特的方式將技術(shù)開發(fā)與機器學習相結(jié)合,從而能夠迅速擴大數(shù)據(jù)收集規(guī)模,并在建模方法上進行創(chuàng)新。

迄今為止,大多數(shù)單細胞數(shù)據(jù)來自規(guī)模較小的研究,其中技術(shù)和來源批次的差異降低了跨多個項目無縫整合數(shù)據(jù)的能力。研究團隊開發(fā)并推出了scBaseCount,這是該領域首個AI 智能體,旨在統(tǒng)一收集和分析單細胞數(shù)據(jù),以最大程度減少分析誤差。scBaseCount 也是目前最大的單細胞數(shù)據(jù)開源庫。STATE 本身也能夠直接建模這些“混雜”因素,這使其能夠整合來自世界各地不同實驗室的大量不同數(shù)據(jù)集。

研究團隊表,盡管 STATE 只是未來將不斷改進的虛擬細胞模型中的第一個版本,但隨著虛擬細胞訓練數(shù)據(jù)的增長,其預測準確性也在提高。這似乎是一個顯而易見的結(jié)果——Scaling Laws(標度律),模型性能隨規(guī)模(例如參數(shù)、數(shù)據(jù)量、計算量)增長而遵循冪律關(guān)系。但實際上,Scaling Laws 在生物學領域直到最近才得以確立,Arc 研究所的研究團隊去年發(fā)布了 DNA 大語言模型Evo,首次揭示了 DNA 語言建模中的 Scaling Laws。

STATE 的使用案例可能遵循與蛋白質(zhì)折疊模型類似的模式——AlphaFold不僅因為能夠準確預測蛋白質(zhì)結(jié)構(gòu)而變得有用,還因為研究人員找到了將其預測結(jié)果整合到工作流程中的方法。例如,通過快速預測蛋白質(zhì)結(jié)構(gòu),研究人員能夠更快地發(fā)現(xiàn)可能與這些蛋白質(zhì)結(jié)合的小分子。

同樣,研究人員不僅可以利用STATE 以及未來的其他模型來模擬細胞對干擾的反應,還可以利用這些預測來提名并實驗性地發(fā)現(xiàn)新藥


STATE:一種基于 Transfomer 的用于預測細胞集合中的擾動效應的虛擬細胞模型

構(gòu)建虛擬細胞模型的最終愿景,是幫助科學家探索更廣闊的組合可能性空間。任何活細胞都可以通過無數(shù)種方式進行改變,而要測試每一種可能的基因突變或藥物治療(比如針對癌細胞的治療)是不可能的。一個高度預測性的虛擬細胞模型將解決這個問題。STATE 正是朝著這個方向邁出的第一步,其目標是通過未來的迭代的虛擬細胞模型最終達到實驗級精度。這將使科學家能夠進行數(shù)百萬次的計算機模擬干預,從而在進行原創(chuàng)性發(fā)現(xiàn)的過程中“縮小”他們的假設范圍。

為了助力這一愿景,研究團隊還推出了Cell_Eval,這是一個用于虛擬細胞建模的全面評估框架,它超越了該領域傳統(tǒng)的基于表達計數(shù)等指標的評估方法,納入了一系列具有生物學相關(guān)性和可解釋性的指標,重點關(guān)注差異表達預測和干擾強度估計。希望 Cell_Eval 能夠幫助透明地評估當前及未來各代虛擬細胞模型。此外,Arc 研究所還推出了一個虛擬細胞挑戰(zhàn)賽。詳情:


總的來說,Arc 研究所公布的這個虛擬細胞模型——STATE,希望生物學家們能夠使用它,并開始探索將其融入自身工作的途徑。

論文鏈接

https://www.biorxiv.org/content/10.1101/2025.06.26.661135v1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

普覽
2025-09-01 21:45:50
東亞第一“性壓抑”國,組團去老撾嫖幼女,連大使館都看不下去了

東亞第一“性壓抑”國,組團去老撾嫖幼女,連大使館都看不下去了

毒sir財經(jīng)
2025-09-04 16:18:23
咕咕隊立大功!飛過天安門的和平鴿已到家洗澡!出發(fā)前鴿主人叮囑愛鴿“別掉鏈子”

咕咕隊立大功!飛過天安門的和平鴿已到家洗澡!出發(fā)前鴿主人叮囑愛鴿“別掉鏈子”

大風新聞
2025-09-03 19:11:13
官方確認木塔力甫9月2日離隊加盟山東,蓉城鋒霸被青島簽回引波瀾

官方確認木塔力甫9月2日離隊加盟山東,蓉城鋒霸被青島簽回引波瀾

甜心寶貝兒
2025-09-04 11:56:37
為啥大公司要盯著你的“第一學歷”?因為它是你的“智商和血統(tǒng)”

為啥大公司要盯著你的“第一學歷”?因為它是你的“智商和血統(tǒng)”

大道無形我有型
2025-09-03 16:50:56
16GB+1TB!新機官宣:9月4日,新品正式發(fā)布!

16GB+1TB!新機官宣:9月4日,新品正式發(fā)布!

Q科技基地
2025-09-04 13:27:23
單日市值蒸發(fā)840億,寒武紀股價重挫超14%

單日市值蒸發(fā)840億,寒武紀股價重挫超14%

觀察者網(wǎng)
2025-09-04 15:20:31
該來的還是來了,美國突然宣布制裁3家在華標桿,中方必將反制

該來的還是來了,美國突然宣布制裁3家在華標桿,中方必將反制

敏??v覽
2025-09-03 16:00:03
女子嫌棄胸太大累贅,打算手術(shù)縮到A罩杯,女生:身在福中不知福

女子嫌棄胸太大累贅,打算手術(shù)縮到A罩杯,女生:身在福中不知福

唐小糖說情感
2025-09-03 09:20:51
麒麟芯片強勢回歸華為發(fā)布會!余承東官宣麒麟9020

麒麟芯片強勢回歸華為發(fā)布會!余承東官宣麒麟9020

手機中國
2025-09-04 15:04:28
佩通坦遭罷免之際,泰王突然簽署發(fā)布了一份御令,此舉意圖何在?

佩通坦遭罷免之際,泰王突然簽署發(fā)布了一份御令,此舉意圖何在?

鐵錘簡科
2025-09-03 17:05:03
100式“雙離譜”坦克解讀

100式“雙離譜”坦克解讀

南海的波濤
2025-09-04 12:08:32
暴漲!沖破1050元/克!深圳水貝被擠爆,商家:基本買三件起步

暴漲!沖破1050元/克!深圳水貝被擠爆,商家:基本買三件起步

南方都市報
2025-09-04 10:34:22
王朔:能成大事的人很少既往不咎,都是睚眥必報的

王朔:能成大事的人很少既往不咎,都是睚眥必報的

清風拂心
2025-09-03 16:15:03
普京訪華有多松弛?在別國不敢張嘴,到中國自己開車門,還攤煎餅

普京訪華有多松弛?在別國不敢張嘴,到中國自己開車門,還攤煎餅

小陸搞笑日常
2025-09-04 00:39:36
河南姑姑霸占侄女房后續(xù);終于搬走了,最大阻力竟然是姑姑女婿

河南姑姑霸占侄女房后續(xù);終于搬走了,最大阻力竟然是姑姑女婿

觀察鑒娛
2025-08-24 12:12:30
佩通坦復職總理在即,泰王室早已開后門?反對派與巴育算計都落空

佩通坦復職總理在即,泰王室早已開后門?反對派與巴育算計都落空

議紀史
2025-09-03 16:05:03
馬云買了10000個以太坊,他想干嘛?

馬云買了10000個以太坊,他想干嘛?

請辯
2025-09-03 14:52:09
“事出反常必有妖”!百姓口袋沒錢,國內(nèi)出現(xiàn)這6大反?,F(xiàn)象

“事出反常必有妖”!百姓口袋沒錢,國內(nèi)出現(xiàn)這6大反常現(xiàn)象

小白鴿財經(jīng)
2025-09-04 08:45:50
記者談阿坎吉:從沒見過哪個球員拒絕米蘭3天后,就轉(zhuǎn)會去國米的

記者談阿坎吉:從沒見過哪個球員拒絕米蘭3天后,就轉(zhuǎn)會去國米的

直播吧
2025-09-04 07:29:07
2025-09-04 17:43:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
7997文章數(shù) 144817關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機新品

頭條要聞

閱兵式上一戰(zhàn)旗被指有"錯字" 真相來了

頭條要聞

閱兵式上一戰(zhàn)旗被指有"錯字" 真相來了

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

時尚
旅游
本地
藝術(shù)
親子

中年女人穿衣學會這3招,不扮嫩沒有油膩感,穿出從容和時髦

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

小孩別養(yǎng)太胖!長大后減肥難上加難,還會影響身高?。ㄡt(yī)藥衛(wèi)生報)

無障礙瀏覽 進入關(guān)懷版