![]()
作者 | 論文團(tuán)隊(duì)
編輯丨ScienceAI
在計(jì)算生命科學(xué)領(lǐng)域,構(gòu)建 “虛擬細(xì)胞” 以模擬生物細(xì)胞系統(tǒng)對(duì)外部干預(yù)的反應(yīng),一直是核心科研問題。通過構(gòu)建高精度的計(jì)算模型,研究人員能夠在數(shù)字空間內(nèi)預(yù)測(cè)藥物或基因干預(yù)后的細(xì)胞轉(zhuǎn)錄特征,從而極大加速疾病機(jī)制研究與藥物篩選的進(jìn)程。盡管現(xiàn)有的單細(xì)胞基礎(chǔ)模型在學(xué)習(xí)靜態(tài)細(xì)胞表征方面表現(xiàn)優(yōu)異,但在精準(zhǔn)刻畫細(xì)胞狀態(tài)的概率分布以及模擬受擾動(dòng)后的動(dòng)態(tài)演化過程上,仍面臨較大挑戰(zhàn)。
為突破這一瓶頸,阿里巴巴達(dá)摩院構(gòu)建了生成式細(xì)胞世界模型 Lingshu-Cell。該模型采用掩碼離散擴(kuò)散架構(gòu),不僅能夠還原全轉(zhuǎn)錄組尺度的細(xì)胞狀態(tài)分布,還能精準(zhǔn)預(yù)測(cè)細(xì)胞在受到基因擾動(dòng)或細(xì)胞因子刺激后的表達(dá)譜響應(yīng)。這一研究成果標(biāo)志著單細(xì)胞建模從傳統(tǒng)的靜態(tài)描述向生成式模擬邁出了關(guān)鍵一步。
![]()
論文地址:https://arxiv.org/abs/2603.25240v1
項(xiàng)目地址:https://alibaba-damo-academy.github.io/lingshu-cell-homepage/
![]()
圖 1:Lingshu-Cell 總覽。(a)從真實(shí) scRNA-seq 表達(dá)矩陣到生成表達(dá)矩陣的掩碼離散擴(kuò)散模型(MDDM)流程;(b)三種生成范式對(duì)比:AR、DDPM、MDDM;(c)應(yīng)用場(chǎng)景:細(xì)胞狀態(tài)生成(跨組織 / 跨物種)與擾動(dòng)響應(yīng)模擬(基因擾動(dòng) / 細(xì)胞因子刺激)。
虛擬細(xì)胞:從數(shù)據(jù)快照到可預(yù)測(cè)的世界模型
過去十年,大規(guī)模單細(xì)胞 RNA 測(cè)序(scRNA-seq)技術(shù)極大地豐富了人類對(duì)不同組織、物種及生理狀態(tài)下細(xì)胞組成與功能的認(rèn)知。然而,目前大多數(shù)分析仍停留在描述性層面,如細(xì)胞聚類、注釋和靜態(tài)特征比較,缺乏真正的預(yù)測(cè)能力。虛擬細(xì)胞(Virtual Cells)的愿景正是要改變這一現(xiàn)狀:通過構(gòu)建計(jì)算框架,讓研究者能夠在數(shù)字空間中進(jìn)行大規(guī)模實(shí)驗(yàn),進(jìn)而解析疾病機(jī)制并篩選治療方案。
為了實(shí)現(xiàn)這一目標(biāo),達(dá)摩院團(tuán)隊(duì)前瞻性地提出了細(xì)胞世界模型(Cellular World Model)概念。類比人工智能領(lǐng)域中能夠理解環(huán)境規(guī)律并支持模擬預(yù)測(cè)的世界模型,細(xì)胞世界模型旨在學(xué)習(xí)轉(zhuǎn)錄組狀態(tài)的深層表征及其動(dòng)態(tài)演化規(guī)律。其核心能力包含兩個(gè)維度:
- 狀態(tài)分布建模:能夠捕捉并生成具有生物學(xué)意義的細(xì)胞異質(zhì)性,還原真實(shí)細(xì)胞群體的狀態(tài)空間分布,而非僅僅學(xué)習(xí)一個(gè) “平均特征”。
- 擾動(dòng)響應(yīng)預(yù)測(cè):能夠模擬細(xì)胞在特定干預(yù)(如基因敲除或信號(hào)分子刺激)下的動(dòng)態(tài)演化,預(yù)判表達(dá)譜的連鎖反應(yīng)。
基于這兩個(gè)維度的能力,細(xì)胞世界模型有望為單細(xì)胞研究提供一個(gè)高效率、低成本的數(shù)字實(shí)驗(yàn)預(yù)測(cè)平臺(tái)。在這一框架下,研究者不僅可以預(yù)演基因擾動(dòng)后的細(xì)胞變化,輔助基因功能研究;還能夠比較不同候選藥物可能引發(fā)的轉(zhuǎn)錄組效應(yīng),加速藥物篩選;并進(jìn)一步結(jié)合個(gè)體的細(xì)胞信息,對(duì)不同治療方案的潛在效果進(jìn)行評(píng)估。
目前的單細(xì)胞基礎(chǔ)模型大多局限于學(xué)習(xí)靜態(tài)表征,更適合作為下游分析的特征提取器,而非生成式模擬器。為突破此局限,Lingshu-Cell 創(chuàng)新性地引入了當(dāng)前大模型領(lǐng)域前沿的掩碼離散擴(kuò)散(MDDM)架構(gòu)。這一架構(gòu)帶來了雙重優(yōu)勢(shì):它不僅具備對(duì)原始轉(zhuǎn)錄組狀態(tài)分布的強(qiáng)大建模能力,能夠精準(zhǔn)捕捉高維特征空間中的細(xì)胞異質(zhì)性;更能將細(xì)胞狀態(tài)空間與外部干預(yù)條件深度融合,實(shí)現(xiàn)了全轉(zhuǎn)錄組尺度的精準(zhǔn)條件預(yù)測(cè)。
![]()
圖 2:細(xì)胞世界模型核心能力的兩個(gè)維度,以及潛在應(yīng)用場(chǎng)景。(a)狀態(tài)分布建模;(b)擾動(dòng)響應(yīng)預(yù)測(cè);(c)潛在應(yīng)用場(chǎng)景,包括基因功能研究、候選藥物篩選和個(gè)性化治療評(píng)估。
Lingshu-Cell:用離散擴(kuò)散框架統(tǒng)一建模細(xì)胞狀態(tài)與擾動(dòng)響應(yīng)
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)本質(zhì)上表現(xiàn)為離散計(jì)數(shù)數(shù)據(jù),而細(xì)胞類型、擾動(dòng)策略等條件信息同樣具有離散性。針對(duì)這一數(shù)據(jù)特點(diǎn), Lingshu-Cell 在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵創(chuàng)新:
1. 掩碼離散擴(kuò)散模型(MDDM):統(tǒng)一建模的優(yōu)越性
實(shí)現(xiàn)細(xì)胞狀態(tài)分布建模與擾動(dòng)響應(yīng)預(yù)測(cè)相統(tǒng)一的關(guān)鍵是在于將不同的條件與數(shù)據(jù)納入同一生成框架下。為此,Lingshu-Cell 采用了大語(yǔ)言模型領(lǐng)域前沿的掩碼離散擴(kuò)散框架進(jìn)行構(gòu)建,該框架在處理單細(xì)胞數(shù)據(jù)時(shí)展現(xiàn)出以下顯著優(yōu)勢(shì):
- 統(tǒng)一 Token 空間與建模范式:Lingshu-Cell 將細(xì)胞類型、外部擾動(dòng)策略以及基因表達(dá)數(shù)值等信息,統(tǒng)一轉(zhuǎn)化為離散 Token 并映射至同一個(gè)向量空間。這種設(shè)計(jì)使得模型能夠在單一生成范式下,同步完成對(duì) “原始分布” 和對(duì) “各種外部條件響應(yīng)” 的建模。Lingshu-Cell 無需針對(duì)擾動(dòng)任務(wù)設(shè)計(jì)獨(dú)立的預(yù)測(cè)頭,而是將擾動(dòng)視為一種可生成的上下文邏輯,實(shí)現(xiàn)在統(tǒng)一范式下的高效訓(xùn)練和泛化。
- 天然適配數(shù)據(jù)的離散性:傳統(tǒng) DDPM 使用連續(xù)高斯噪聲,難以直接應(yīng)用于單細(xì)胞轉(zhuǎn)錄組的離散計(jì)數(shù)數(shù)據(jù)。Lingshu-Cell 直接在離散 Token 空間操作,天然契合此類生物數(shù)據(jù)的內(nèi)在特性。
- 消除自回歸模型的順序偏置:依托雙向 Transformer 架構(gòu),Lingshu-Cell 允許每個(gè)基因在生成時(shí)全局參考全基因組的上下文信息,有效捕捉復(fù)雜的協(xié)同調(diào)控邏輯,避免了單向自回歸模型在處理 “無序” 基因序列時(shí)產(chǎn)生的人為順序偏置。
2. 針對(duì)全轉(zhuǎn)錄組精準(zhǔn)建模的技術(shù)優(yōu)化
同時(shí),為了更好地適配全轉(zhuǎn)錄組數(shù)據(jù)的超大規(guī)模建模,Lingshu-Cell 引入了多項(xiàng)優(yōu)化技術(shù),在計(jì)算效率與微弱信號(hào)捕捉能力之間取得了完美平衡:
- 多尺度量化編碼:針對(duì) UMI 計(jì)數(shù)跨度大且分布極其傾斜的特點(diǎn),模型引入了共享量化函數(shù),將原始計(jì)數(shù)映射到有限的離散狀態(tài)池中。這一設(shè)計(jì)在大幅壓縮狀態(tài)空間的同時(shí),通過自適應(yīng)步長(zhǎng)精準(zhǔn)保留了低表達(dá)量區(qū)間的高分辨率信息。
- 嵌入空間序列壓縮:使用 Transformer 直接處理高達(dá) 1.8 萬個(gè)基因的長(zhǎng)序列將帶來難以承受的計(jì)算開銷。為此,Lingshu-Cell 引入了嵌入空間的壓縮模塊,通過隨機(jī)分組(Random Grouping)和線性投影,將超長(zhǎng)基因序列壓縮為高信息密度的表征(如將長(zhǎng)度從 18,000 維大幅壓縮至 500-2,000 維)。這不僅成倍降低了計(jì)算成本,更通過多基因信號(hào)的線性混合有效過濾了單基因?qū)用娴脑肼暩蓴_。
- 條件引導(dǎo)與生物學(xué)先驗(yàn)注入:為了讓模型在上萬個(gè)基因中精準(zhǔn)定位擾動(dòng)方向,Lingshu-Cell 引入了條件引導(dǎo)(CFG)機(jī)制。通過在采樣階段強(qiáng)化目標(biāo)條件信號(hào),模型能夠更明確地向指定的擾動(dòng)狀態(tài)演化。同時(shí),模型支持注入已知生物學(xué)先驗(yàn),通過在采樣起點(diǎn)錨定關(guān)鍵基因狀態(tài),引導(dǎo)生成結(jié)果嚴(yán)格符合真實(shí)生物學(xué)規(guī)律。
通過統(tǒng)一建模的掩碼離散擴(kuò)散架構(gòu)與針對(duì)全轉(zhuǎn)錄組的技術(shù)優(yōu)化,Lingshu-Cell 在適配單細(xì)胞數(shù)據(jù)特性的同時(shí),有效解決了超長(zhǎng)基因序列建模中計(jì)算效率與精度難以兼顧的難題。這種設(shè)計(jì)與工程的協(xié)同,讓模型得以精準(zhǔn)刻畫單細(xì)胞轉(zhuǎn)錄組的真實(shí)分布規(guī)律,進(jìn)而生成高保真、條件可控的單細(xì)胞基因表達(dá)譜。
![]()
圖 3:以基因擾動(dòng)為例,展示模型框架與關(guān)鍵設(shè)計(jì)。(a)基因擾動(dòng)任務(wù)示意;(b)輸入序列構(gòu)成與掩碼離散擴(kuò)散過程;(c)三個(gè)關(guān)鍵技術(shù):Classifier-free guidance、序列壓縮、生物學(xué)先驗(yàn)注入。
實(shí)驗(yàn)驗(yàn)證:還原異質(zhì)性,完成狀態(tài)分布建模任務(wù)
1. 跨組織與跨物種的強(qiáng)大建模能力
在覆蓋 9 個(gè)人類組織(腦、心臟、肺、結(jié)腸等)和 4 個(gè)非人物種(小鼠、恒河猴、斑馬魚、果蠅)的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)上,Lingshu-Cell 展現(xiàn)出了卓越的泛化與細(xì)胞狀態(tài)分布建模能力。為了嚴(yán)謹(jǐn)驗(yàn)證這一能力,研究團(tuán)隊(duì)主要從三個(gè)維度展開了系統(tǒng)評(píng)估:(1)整體分布是否匹配,(2)各細(xì)胞亞型的組成比例是否一致,(3)經(jīng)典 marker 基因的表達(dá)模式是否被精準(zhǔn)復(fù)刻。
在 PBMC 數(shù)據(jù)上,生成細(xì)胞與真實(shí)細(xì)胞在 UMAP 中呈現(xiàn)出高度一致的群體結(jié)構(gòu);各亞型的組成比例也被較好重現(xiàn),有效避免了傳統(tǒng)生成模型中常見的模式崩潰(如過度生成或遺漏特定亞型)問題;marker 基因的空間表達(dá)模式同樣與真實(shí)數(shù)據(jù)吻合。這說明模型學(xué)到的絕不是淺層統(tǒng)計(jì)學(xué)的相似性,而是具有生物學(xué)意義的細(xì)胞狀態(tài)結(jié)構(gòu)。在定量比較中,Lingshu-Cell 在 5 個(gè)評(píng)估指標(biāo)上均優(yōu)于現(xiàn)有基準(zhǔn)模型:scDiffusion 和 scVI。這種優(yōu)異的表現(xiàn)也不僅限于單一數(shù)據(jù)集:從人類腦組織到果蠅,不同組織和不同物種的數(shù)據(jù)上都得到了穩(wěn)定且一致的驗(yàn)證。
![]()
圖 4:細(xì)胞狀態(tài)生成結(jié)果。(a)免疫細(xì)胞 UMAP 可視化與 marker 基因表達(dá)對(duì)比;(b)細(xì)胞亞型組成比例;(c)定量 benchmark(vs scDiffusion, scVI);(d-e)跨人類組織與跨物種的嵌入結(jié)構(gòu)對(duì)照。
2. 從主要譜系到細(xì)粒度亞型的高分辨率刻畫
更進(jìn)一步地,在更高分辨率的分析下,Lingshu-Cell 生成的細(xì)胞同樣能夠精細(xì)刻畫真實(shí)數(shù)據(jù)中的細(xì)胞亞型結(jié)構(gòu)。無論是 UMAP 中更細(xì)粒度的亞型分布,還是不同細(xì)胞亞型的組成比例,生成數(shù)據(jù)均與真實(shí)數(shù)據(jù)保持了較高保真度。從主要細(xì)胞譜系到更細(xì)粒度的細(xì)胞亞型,Lingshu-Cell 都能較好重現(xiàn)真實(shí)數(shù)據(jù)中的分布特征,標(biāo)志著該模型已經(jīng)能夠?qū)?fù)雜細(xì)胞狀態(tài)分布進(jìn)行全景建模。
![]()
圖 5:更大規(guī)模細(xì)胞群體中的高分辨率細(xì)胞狀態(tài)生成結(jié)果。(a)PARSE 10M PBMC 數(shù)據(jù)中真實(shí)細(xì)胞與生成細(xì)胞的 UMAP 可視化,并按細(xì)胞類型注釋與 canonical marker 基因表達(dá)著色;(b)真實(shí)數(shù)據(jù)與生成數(shù)據(jù)中主要細(xì)胞類型比例對(duì)比;(c)在更高分辨率下的 UMAP 可視化,顯示生成細(xì)胞能夠重現(xiàn)真實(shí)數(shù)據(jù)中的細(xì)胞亞型結(jié)構(gòu);(d)真實(shí)數(shù)據(jù)與生成數(shù)據(jù)中細(xì)胞亞型比例對(duì)比,顯示在更高分辨率下仍保持穩(wěn)健一致性。
應(yīng)用場(chǎng)景:高保真推演,實(shí)現(xiàn)多擾動(dòng)條件響應(yīng)預(yù)測(cè)
在真實(shí)的生物學(xué)研究中,科學(xué)家們往往通過施加外部干預(yù)(如敲低 / 敲除某個(gè)特定基因、使用特定藥物或施加細(xì)胞因子刺激)來觀察細(xì)胞的反應(yīng),進(jìn)而探究疾病機(jī)制或驗(yàn)證藥物靶點(diǎn)。擾動(dòng)響應(yīng)預(yù)測(cè),即是利用計(jì)算模型在數(shù)字空間中預(yù)演這一生物學(xué)過程。這一任務(wù)的目標(biāo)是預(yù)測(cè)細(xì)胞在受到特定刺激后,成千上萬個(gè)基因表達(dá)譜的動(dòng)態(tài)級(jí)聯(lián)變化,這正是細(xì)胞世界模型的核心能力之一。Lingshu-Cell 在兩大擾動(dòng)條件上進(jìn)行了實(shí)驗(yàn),分別是基因敲除擾動(dòng)和細(xì)胞因子擾動(dòng)。
1. 基因擾動(dòng)響應(yīng)預(yù)測(cè):基因擾動(dòng)是指通過 CRISPR 等基因編輯技術(shù),特異性地抑制或敲除目標(biāo)基因的表達(dá),進(jìn)而觀察細(xì)胞在該基因受擾動(dòng)后成千上萬個(gè)基因的轉(zhuǎn)錄表達(dá)級(jí)聯(lián)變化,這也是去年虛擬細(xì)胞競(jìng)賽 (Virtual Cell Challenge) 的核心任務(wù)。 VCC 由 Arc Institute 發(fā)起、NVIDIA 與 10x Genomics 贊助,是單細(xì)胞基因擾動(dòng)響應(yīng)預(yù)測(cè)領(lǐng)域的全球性比賽。我們將 Lingshu-Cell 與 Generalist Rank(綜合考核 7 項(xiàng)核心指標(biāo))的當(dāng)前榜單隊(duì)伍進(jìn)行了全面對(duì)比。Lingshu-Cell 在這個(gè)榜單上取得了最優(yōu)的平均排名,尤其是在 MAE(平均絕對(duì)誤差)和 Pearson-Δ 兩項(xiàng)關(guān)鍵指標(biāo)上的表現(xiàn)排名第一。這不僅印證了模型卓越的泛化預(yù)測(cè)能力,更驗(yàn)證了 MDDM 架構(gòu)對(duì)于基因擾動(dòng)響應(yīng)預(yù)測(cè)任務(wù)上的巨大潛力。
2. 細(xì)胞因子擾動(dòng)響應(yīng)預(yù)測(cè):在更大規(guī)模的 PARSE 10M PBMC 數(shù)據(jù)集上(涵蓋 12 個(gè)供體 × 90 種細(xì)胞因子),Lingshu-Cell 同樣在與多個(gè)基準(zhǔn)模型的對(duì)比中取得了最優(yōu)的綜合評(píng)分。該任務(wù)的核心挑戰(zhàn)在于,同一種刺激在不同供體背景下可能引發(fā)不同的轉(zhuǎn)錄組響應(yīng),而不同刺激之間的效應(yīng)也并不相同。模型需要捕捉這種條件依賴的差異,而不是簡(jiǎn)單學(xué)習(xí)一種平均模式。
基因擾動(dòng)和細(xì)胞因子刺激代表了兩類底層機(jī)制截然不同的生物學(xué)干預(yù),而 Lingshu-Cell 在這兩類任務(wù)上都取得了領(lǐng)先,有力證明了這一統(tǒng)一框架不僅能夠精確建模細(xì)胞狀態(tài)分布,更能夠進(jìn)一步模擬不同類型干預(yù)所引發(fā)的復(fù)雜細(xì)胞變化。
![]()
表 1:VCC H1 benchmark 賽后評(píng)測(cè)綜合排名。
![]()
圖 6:PARSE 細(xì)胞因子擾動(dòng)響應(yīng)預(yù)測(cè)的多指標(biāo)對(duì)比。(a)細(xì)胞因子誘導(dǎo)轉(zhuǎn)錄組擾動(dòng)的示意圖;(b)輸入序列構(gòu)成與掩碼離散擴(kuò)散過程;(c)Lingshu-Cell 與多個(gè)基準(zhǔn)模型在 PARSE 10M PBMC 數(shù)據(jù)集上的性能對(duì)比。評(píng)估涵蓋 1 項(xiàng)綜合評(píng)分(Average score)與 7 項(xiàng)核心指標(biāo)。紅色標(biāo)注代表 Lingshu-Cell 在該指標(biāo)上超過其他所有對(duì)比的基準(zhǔn)模型。
虛擬細(xì)胞還有多遠(yuǎn)?
在這篇工作中,我們介紹了 Lingshu-Cell,一個(gè)采用統(tǒng)一離散擴(kuò)散架構(gòu)實(shí)現(xiàn)細(xì)胞狀態(tài)建模和擾動(dòng)響應(yīng)的預(yù)測(cè)的細(xì)胞世界模型。盡管目前的探索仍局限于轉(zhuǎn)錄組層面,且數(shù)據(jù)層面的高保真模擬尚未完全揭示細(xì)胞演化的底層因果機(jī)制,距離構(gòu)建真正意義上的 “虛擬細(xì)胞” 仍有顯著差距。但作為通向細(xì)胞世界模型的一次初步嘗試,Lingshu-Cell 充分證實(shí)了離散擴(kuò)散范式在單細(xì)胞生成建模領(lǐng)域的巨大潛力。展望未來,隨著表觀遺傳、蛋白質(zhì)組學(xué)等多模態(tài)數(shù)據(jù)的逐步引入,計(jì)算生命科學(xué)從靜態(tài)分析向動(dòng)態(tài)模擬演進(jìn)的趨勢(shì)將越來越清晰。整個(gè)行業(yè)正加速向全面動(dòng)態(tài)數(shù)字模擬的新階段大步邁進(jìn),一個(gè)屬于數(shù)字生命的時(shí)代已然拉開序幕。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.