首個能夠從零開始自動化設(shè)計(jì)和生成虛擬細(xì)胞模型的多智能體系統(tǒng)來了!
近日,美國耶魯大學(xué)馬克·格斯坦(Mark Gerstein)教授、斯米塔·克里希納斯瓦米(Smita Krishnaswamy)教授、唐相儒,賓夕法尼亞大學(xué)黃治教授、崔巖,斯坦福大學(xué)吳方,哈佛大學(xué)林希虹教授,以及德國慕尼黑亥姆霍茲中心法比安·泰斯(Fabian Theis)教授、汪偉旭等組成的聯(lián)合團(tuán)隊(duì),在預(yù)印本平臺arXiv上傳了題為《CellForge:虛擬細(xì)胞模型的智能體化設(shè)計(jì)》(CellForge: Agentic Design of Virtual Cell Models)[1] 的研究論文。
圖丨相關(guān)論文(來源:arXiv)
該多智能體系統(tǒng)不僅可用于虛擬細(xì)胞建模,還可以被廣泛地用于 AI for Science 的各類模型設(shè)計(jì)。這項(xiàng)成果在 AI for Science 的方法論上邁出了關(guān)鍵一步,也為單細(xì)胞組學(xué)、藥物研發(fā)和合成生物學(xué)提供了一條新的自動化科研路徑。
圖丨馬克·格斯坦(Mark Gerstein)教授(來源:資料圖)
CellForge 可直接輸出用于虛擬細(xì)胞建模等 AI for Science 任務(wù)的網(wǎng)絡(luò)模型架構(gòu)。具體而言,研究人員只需輸入原始單細(xì)胞多組學(xué)數(shù)據(jù)及任務(wù)描述(如指定對照與擾動條件,或提出構(gòu)建新擾動模型的指令),CellForge 便能自動生成優(yōu)化后的模型,并輸出包含訓(xùn)練與預(yù)測的可執(zhí)行代碼。
與傳統(tǒng)人工設(shè)計(jì)模型的方法不同,CellForge 的獨(dú)特之處在于其“多智能體架構(gòu)”。CellForge 由多個專家型 Agent 共同協(xié)作,每個 Agent 扮演不同角色,例如數(shù)據(jù)專家、模型設(shè)計(jì)師、生物學(xué)家和模型訓(xùn)練專家。它們通過多輪辯論批判性討論,逐步收斂到最優(yōu)的設(shè)計(jì)方案。
這一過程高度模擬了現(xiàn)實(shí)科研中的跨學(xué)科團(tuán)隊(duì)合作:研究人員往往需要通過查閱文獻(xiàn)、交流實(shí)驗(yàn)思路、比較優(yōu)缺點(diǎn),最終凝聚出一個合理的研究計(jì)劃。CellForge 將這一過程轉(zhuǎn)化為內(nèi)部的 Agent 協(xié)作,從而實(shí)現(xiàn)了完全自動化的模型構(gòu)建流程。
在定量實(shí)驗(yàn)中,CellForge 生成的模型在多個數(shù)據(jù)集和場景下顯著超越了此前發(fā)表在Nature Methods、Nature Biotechnology等期刊的先進(jìn)單細(xì)胞擾動預(yù)測模型。
這一流程不僅降低了復(fù)雜生物建模的操作門檻,同時也確保了計(jì)算模型的科學(xué)嚴(yán)謹(jǐn)性,為單細(xì)胞組學(xué)分析及合成生物學(xué)研究提供了一種高效、精準(zhǔn)的解決方案。
人體由具有不同功能、不同類型的細(xì)胞構(gòu)成,而細(xì)胞的核心特性由其基因表達(dá)模式?jīng)Q定。例如,免疫細(xì)胞可以對抗炎癥或感染,干細(xì)胞能夠分化成組織,而癌細(xì)胞則通過調(diào)控基因表達(dá)逃逸細(xì)胞分裂的控制。細(xì)胞的基因表達(dá)由 RNA 分子介導(dǎo),后者是 DNA 轉(zhuǎn)錄的直接產(chǎn)物。基因表達(dá)不僅決定了細(xì)胞的類型,還動態(tài)反映了細(xì)胞的狀態(tài)變化。
虛擬細(xì)胞建模是當(dāng)前生物學(xué)與人工智能交叉領(lǐng)域的前沿方向,旨在預(yù)測細(xì)胞對各種擾動(基因編輯、藥物處理、細(xì)胞因子刺激等)的定量響應(yīng)。通過研究細(xì)胞基因表達(dá)的變化,可以揭示細(xì)胞如何從健康狀態(tài)轉(zhuǎn)變?yōu)檠装Y狀態(tài)甚至癌變狀態(tài)。然而,構(gòu)建此類模型面臨多重技術(shù)挑戰(zhàn)。
該研究中,一個重要的突破在于 CellForge 的跨模態(tài)能力。單細(xì)胞組學(xué)數(shù)據(jù)包括 RNA 測序(scRNA-seq)、染色質(zhì)可及性數(shù)據(jù)(scATAC-seq)、蛋白質(zhì)標(biāo)記數(shù)據(jù)(CITE-seq)等多種模態(tài)。以往的研究通常針對特定模態(tài)開發(fā)模型,很難推廣到新的數(shù)據(jù)類型。而 CellForge 通過其任務(wù)分析模塊自動識別模態(tài)特征,并在方法設(shè)計(jì)階段生成合適的網(wǎng)絡(luò)架構(gòu),從而展現(xiàn)出跨模態(tài)的泛化能力。
在驗(yàn)證測試中,它不僅在 RNA-seq 任務(wù)上超過了scGPT、Geneformer、ChemCPA 等領(lǐng)域代表性模型,還在 ATAC-seq 和 CITE-seq 任務(wù)上實(shí)現(xiàn)了突破性提升。這種能力對于推動新型實(shí)驗(yàn)?zāi)B(tài)的研究至關(guān)重要,因?yàn)樯飳W(xué)數(shù)據(jù)的異質(zhì)性極高,而 CellForge 的靈活性意味著它能夠快速適配不同的研究場景。
研究團(tuán)隊(duì)的目標(biāo)是開發(fā)一種基于強(qiáng)大的自進(jìn)化的多智能體框架的方法,讓模型能夠根據(jù)當(dāng)前細(xì)胞狀態(tài)和任務(wù),預(yù)測之前未遇到過的干擾,并自主設(shè)計(jì)出之前不存在的且最適合的模型架構(gòu)。
(來源:arXiv)
CellForge 的工作流程分為三個核心環(huán)節(jié):
·首先是任務(wù)分析。系統(tǒng)在接收到原始單細(xì)胞多組學(xué)數(shù)據(jù)以及研究者提出的自然語言任務(wù)描述后,會自動對數(shù)據(jù)進(jìn)行表征分析,并檢索相關(guān)文獻(xiàn),以理解該任務(wù)在科學(xué)背景中的位置。這一步類似于科研人員做綜述和查找先前工作,為后續(xù)設(shè)計(jì)提供知識支撐。
·第二步是方法設(shè)計(jì)。在這一階段,多個智能體會像專家團(tuán)隊(duì)一樣提出各自的建模思路,包括可能的神經(jīng)網(wǎng)絡(luò)架構(gòu)、訓(xùn)練方法和優(yōu)化方案。隨后,它們通過多輪批判性對話不斷迭代,直到達(dá)成一致意見,生成最優(yōu)的研究計(jì)劃。
·最后是實(shí)驗(yàn)執(zhí)行。系統(tǒng)會將最終設(shè)計(jì)轉(zhuǎn)化為可運(yùn)行的代碼,自動完成數(shù)據(jù)預(yù)處理、模型訓(xùn)練、驗(yàn)證和推理,并輸出最終結(jié)果。這意味著研究人員只需輸入數(shù)據(jù)和研究目標(biāo),CellForge 便能從頭到尾產(chǎn)出完整的科研工作流。
圖丨 CellForge 架構(gòu)與工作流程(來源:arXiv)
與以往的 AI 系統(tǒng)相比,CellForge 系統(tǒng)不僅能夠提出假設(shè)或研究方案,還能讓每個智能體根據(jù)文獻(xiàn)搜索結(jié)果提出想法。這些智能體會互相審視對方的方案,并進(jìn)行多輪(可能多達(dá) 10 輪)的批判性討論,直至方案收斂到最優(yōu)解。
更值得一提的是,CellForge 具備自動生成可執(zhí)行代碼的能力。這一點(diǎn)在現(xiàn)有 AI for Science 框架中尚不多見。大多數(shù)系統(tǒng)往往停留在提出研究思路或提供部分分析,而 CellForge 可以將討論結(jié)果直接轉(zhuǎn)化為高質(zhì)量的 Python 代碼,涵蓋數(shù)據(jù)預(yù)處理、模型訓(xùn)練、超參數(shù)優(yōu)化和結(jié)果可視化等完整流程。
這意味著研究人員無需再手動編寫復(fù)雜的代碼,而是可以讓 CellForge 直接自己運(yùn)行生成的程序,迅速獲得實(shí)驗(yàn)結(jié)果。研究團(tuán)隊(duì)指出,這種“端到端”的自動化能力顯著降低了科研門檻,讓沒有深厚計(jì)算背景的生物學(xué)研究者也能夠使用先進(jìn)的建模方法。
圖丨 CellForge 三個模塊的示例輸出(來源:arXiv)
為驗(yàn)證 AI 自主設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)是否能夠超越人類的設(shè)計(jì),研究團(tuán)隊(duì)選擇了六個數(shù)據(jù)集,涵蓋基因敲除、藥物處理和細(xì)胞因子刺激等多種擾動類型,涉及多種模態(tài)。研究團(tuán)隊(duì)在每個數(shù)據(jù)集上都進(jìn)行了三次實(shí)驗(yàn)。
在 CellForge 系統(tǒng)中,輸入是一個數(shù)據(jù)集和一個研究問題,系統(tǒng)會根據(jù)這個數(shù)據(jù)集和研究問題輸出針對性的模型。雖然任務(wù)可能相似,但由于數(shù)據(jù)集不同,系統(tǒng)會為每個數(shù)據(jù)集設(shè)計(jì)一個量身定制的方案。
在系統(tǒng)的內(nèi)部機(jī)制上,CellForge 的關(guān)鍵創(chuàng)新是多智能體的協(xié)作優(yōu)化。每個智能體基于文獻(xiàn)檢索和數(shù)據(jù)分析提出方案,其他智能體會對這些方案進(jìn)行批判和質(zhì)疑。這個過程可能會反復(fù)進(jìn)行上千輪,直到各方收斂到最優(yōu)解。
研究人員還為其設(shè)計(jì)了類似深度優(yōu)先和廣度優(yōu)先的搜索機(jī)制,使智能體在提出方案之前能先進(jìn)行充分的知識探索,從而提高設(shè)計(jì)的合理性。這種“批判性共識”機(jī)制不僅提升了模型性能,也讓生成的方案更具可解釋性,避免了單一大模型容易出現(xiàn)的幻覺和偏差問題。
圖丨 CellForge 的多 Agent 討論過程(來源:arXiv)
在性能評估中,CellForge 不僅在單細(xì)胞建模任務(wù)中顯著超越了 scGPT、Geneformer、ChemCPA 等領(lǐng)域代表性方法,還與近期提出的通用科研自動化框架 Biomni 和 DeepResearch 進(jìn)行了對比。
結(jié)果顯示,CellForge 在任務(wù)特異性和模型生成能力上更具優(yōu)勢,能夠輸出更高質(zhì)量、更可執(zhí)行的研究方案,尤其在人類專家打分和跨模態(tài)預(yù)測中領(lǐng)先明顯。這一差異凸顯了 CellForge 針對虛擬細(xì)胞建模的深度優(yōu)化,相較通用框架更貼合生物學(xué)實(shí)際應(yīng)用需求。
圖丨CellForge 生成結(jié)果的專家評估對比(來源:arXiv)
使用過 CellForge 的研究人員對 DeepTech 表示,可基于該系統(tǒng)實(shí)現(xiàn)高效的科學(xué)突破,無論輸入什么樣的數(shù)據(jù)集、任務(wù)或研究問題,都能基于此設(shè)計(jì)出比人類設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)更好的模型,助力科學(xué)發(fā)現(xiàn)進(jìn)入規(guī)?;瘯r代。
這一突破意味著,AI 可大幅縮短科學(xué)發(fā)現(xiàn)的周期。過去,設(shè)計(jì)模型需要花費(fèi)多達(dá)五六年的時間,但現(xiàn)在,AI 系統(tǒng)可以基于之前的工作基礎(chǔ),快速進(jìn)行科學(xué)發(fā)現(xiàn)和模型設(shè)計(jì)。
從應(yīng)用角度來看,CellForge 的潛力遠(yuǎn)不止于學(xué)術(shù)研究。虛擬細(xì)胞建模本身是一個關(guān)鍵的前沿方向,其核心目標(biāo)是預(yù)測細(xì)胞在基因編輯、藥物處理或環(huán)境刺激下的響應(yīng)。傳統(tǒng)藥物研發(fā)流程往往依賴動物實(shí)驗(yàn)和臨床試驗(yàn),成本極高且失敗率居高不下。CellForge 通過虛擬建模,可以在計(jì)算機(jī)中提前預(yù)測細(xì)胞對藥物的反應(yīng),從而篩選出最有前景的候選藥物,減少不必要的試錯過程。這種能力有望顯著縮短藥物研發(fā)周期,降低臨床試驗(yàn)的失敗風(fēng)險。因此,CellForge 在癌癥研究、免疫治療和干細(xì)胞分化等領(lǐng)域都可能成為重要的工具。
研究團(tuán)隊(duì)還強(qiáng)調(diào),這一系統(tǒng)不僅僅是科研輔助工具,更是邁向“AI 科學(xué)家”的一步。與解決標(biāo)準(zhǔn)化測試題目或優(yōu)化固定模型不同,CellForge 能夠根據(jù)數(shù)據(jù)和任務(wù)自主構(gòu)思全新的網(wǎng)絡(luò)架構(gòu)。這種從零設(shè)計(jì)的能力意味著 AI 不再只是人類的助手,而是具備了獨(dú)立進(jìn)行科學(xué)探索的潛質(zhì)。
未來,團(tuán)隊(duì)計(jì)劃將 CellForge 與自動化實(shí)驗(yàn)平臺結(jié)合,使其能夠直接控制實(shí)驗(yàn)設(shè)備,完成從模型設(shè)計(jì)到實(shí)際實(shí)驗(yàn)的閉環(huán)驗(yàn)證。這一方向一旦實(shí)現(xiàn),將進(jìn)一步加速科學(xué)研究的工業(yè)化和規(guī)?;M(jìn)程。
馬克·格斯坦教授和唐相儒博士此前的工作為本次開發(fā) CellForge 系統(tǒng)提供了底層技術(shù)支持。例如通過開發(fā)Medagents系統(tǒng) [2],首次將 AI 多智能體應(yīng)用于疾病診斷。此外,他們之前還有一項(xiàng)關(guān)于ChemAgent的研究 [3],探討了如何利用可自主進(jìn)化的智能體系統(tǒng)更好地回答量子力學(xué)或量子化學(xué)等領(lǐng)域的專家級別的復(fù)雜化學(xué)推理問題。
從長遠(yuǎn)來看,CellForge 的出現(xiàn)可能改變科研范式。過去,科學(xué)發(fā)現(xiàn)往往依賴于專家的創(chuàng)造性思維和長期積累,一個新的建模方法可能需要五六年的時間才能從概念走到應(yīng)用。而 CellForge 這樣的系統(tǒng)可以在幾天甚至幾小時內(nèi)完成從文獻(xiàn)調(diào)研到模型設(shè)計(jì)、代碼生成和實(shí)驗(yàn)驗(yàn)證的全過程。這意味著科學(xué)發(fā)現(xiàn)可能進(jìn)入一種“可擴(kuò)展”的新模式,即通過算力和智能體協(xié)作實(shí)現(xiàn)科研的加速與量產(chǎn)。這不僅會提高研究效率,也可能帶來前所未有的科學(xué)突破。
目前,CellForge 的論文和代碼均已公開(https://github.com/gersteinlab/CellForge),研究團(tuán)隊(duì)希望全球科研人員能夠使用和改進(jìn)這一系統(tǒng),共同推動 AI for Science 的發(fā)展。正如論文所言,CellForge 的目標(biāo)不是取代科學(xué)家,而是為他們提供一個強(qiáng)大的智能協(xié)作平臺,讓人類與 AI 共同探索未知的生命奧秘。
參考資料:
1.https://arxiv.org/abs/2508.02276
2.https://arxiv.org/abs/2311.10537
3.https://openreview.net/forum?id=kuhIqeVg0e
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.