網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

達(dá)摩院Lingshu-Cell：離散擴(kuò)散架構(gòu)驅(qū)動(dòng)的細(xì)胞世界模型

2026-04-03 14:40:36　來源: ScienceAI

河北舉報(bào)

分享至

作者 | 論文團(tuán)隊(duì)

編輯丨ScienceAI

在計(jì)算生命科學(xué)領(lǐng)域，構(gòu)建 “虛擬細(xì)胞” 以模擬生物細(xì)胞系統(tǒng)對(duì)外部干預(yù)的反應(yīng)，一直是核心科研問題。通過構(gòu)建高精度的計(jì)算模型，研究人員能夠在數(shù)字空間內(nèi)預(yù)測(cè)藥物或基因干預(yù)后的細(xì)胞轉(zhuǎn)錄特征，從而極大加速疾病機(jī)制研究與藥物篩選的進(jìn)程。盡管現(xiàn)有的單細(xì)胞基礎(chǔ)模型在學(xué)習(xí)靜態(tài)細(xì)胞表征方面表現(xiàn)優(yōu)異，但在精準(zhǔn)刻畫細(xì)胞狀態(tài)的概率分布以及模擬受擾動(dòng)后的動(dòng)態(tài)演化過程上，仍面臨較大挑戰(zhàn)。

為突破這一瓶頸，阿里巴巴達(dá)摩院構(gòu)建了生成式細(xì)胞世界模型 Lingshu-Cell。該模型采用掩碼離散擴(kuò)散架構(gòu)，不僅能夠還原全轉(zhuǎn)錄組尺度的細(xì)胞狀態(tài)分布，還能精準(zhǔn)預(yù)測(cè)細(xì)胞在受到基因擾動(dòng)或細(xì)胞因子刺激后的表達(dá)譜響應(yīng)。這一研究成果標(biāo)志著單細(xì)胞建模從傳統(tǒng)的靜態(tài)描述向生成式模擬邁出了關(guān)鍵一步。

論文地址：https://arxiv.org/abs/2603.25240v1

項(xiàng)目地址：https://alibaba-damo-academy.github.io/lingshu-cell-homepage/

圖 1：Lingshu-Cell 總覽。（a）從真實(shí) scRNA-seq 表達(dá)矩陣到生成表達(dá)矩陣的掩碼離散擴(kuò)散模型（MDDM）流程；（b）三種生成范式對(duì)比：AR、DDPM、MDDM；（c）應(yīng)用場(chǎng)景：細(xì)胞狀態(tài)生成（跨組織 / 跨物種）與擾動(dòng)響應(yīng)模擬（基因擾動(dòng) / 細(xì)胞因子刺激）。

虛擬細(xì)胞：從數(shù)據(jù)快照到可預(yù)測(cè)的世界模型

過去十年，大規(guī)模單細(xì)胞 RNA 測(cè)序（scRNA-seq）技術(shù)極大地豐富了人類對(duì)不同組織、物種及生理狀態(tài)下細(xì)胞組成與功能的認(rèn)知。然而，目前大多數(shù)分析仍停留在描述性層面，如細(xì)胞聚類、注釋和靜態(tài)特征比較，缺乏真正的預(yù)測(cè)能力。虛擬細(xì)胞（Virtual Cells）的愿景正是要改變這一現(xiàn)狀：通過構(gòu)建計(jì)算框架，讓研究者能夠在數(shù)字空間中進(jìn)行大規(guī)模實(shí)驗(yàn)，進(jìn)而解析疾病機(jī)制并篩選治療方案。

為了實(shí)現(xiàn)這一目標(biāo)，達(dá)摩院團(tuán)隊(duì)前瞻性地提出了細(xì)胞世界模型（Cellular World Model）概念。類比人工智能領(lǐng)域中能夠理解環(huán)境規(guī)律并支持模擬預(yù)測(cè)的世界模型，細(xì)胞世界模型旨在學(xué)習(xí)轉(zhuǎn)錄組狀態(tài)的深層表征及其動(dòng)態(tài)演化規(guī)律。其核心能力包含兩個(gè)維度：

狀態(tài)分布建模：能夠捕捉并生成具有生物學(xué)意義的細(xì)胞異質(zhì)性，還原真實(shí)細(xì)胞群體的狀態(tài)空間分布，而非僅僅學(xué)習(xí)一個(gè) “平均特征”。
擾動(dòng)響應(yīng)預(yù)測(cè)：能夠模擬細(xì)胞在特定干預(yù)（如基因敲除或信號(hào)分子刺激）下的動(dòng)態(tài)演化，預(yù)判表達(dá)譜的連鎖反應(yīng)。

基于這兩個(gè)維度的能力，細(xì)胞世界模型有望為單細(xì)胞研究提供一個(gè)高效率、低成本的數(shù)字實(shí)驗(yàn)預(yù)測(cè)平臺(tái)。在這一框架下，研究者不僅可以預(yù)演基因擾動(dòng)后的細(xì)胞變化，輔助基因功能研究；還能夠比較不同候選藥物可能引發(fā)的轉(zhuǎn)錄組效應(yīng)，加速藥物篩選；并進(jìn)一步結(jié)合個(gè)體的細(xì)胞信息，對(duì)不同治療方案的潛在效果進(jìn)行評(píng)估。

目前的單細(xì)胞基礎(chǔ)模型大多局限于學(xué)習(xí)靜態(tài)表征，更適合作為下游分析的特征提取器，而非生成式模擬器。為突破此局限，Lingshu-Cell 創(chuàng)新性地引入了當(dāng)前大模型領(lǐng)域前沿的掩碼離散擴(kuò)散（MDDM）架構(gòu)。這一架構(gòu)帶來了雙重優(yōu)勢(shì)：它不僅具備對(duì)原始轉(zhuǎn)錄組狀態(tài)分布的強(qiáng)大建模能力，能夠精準(zhǔn)捕捉高維特征空間中的細(xì)胞異質(zhì)性；更能將細(xì)胞狀態(tài)空間與外部干預(yù)條件深度融合，實(shí)現(xiàn)了全轉(zhuǎn)錄組尺度的精準(zhǔn)條件預(yù)測(cè)。

圖 2：細(xì)胞世界模型核心能力的兩個(gè)維度，以及潛在應(yīng)用場(chǎng)景。（a）狀態(tài)分布建模；（b）擾動(dòng)響應(yīng)預(yù)測(cè)；（c）潛在應(yīng)用場(chǎng)景，包括基因功能研究、候選藥物篩選和個(gè)性化治療評(píng)估。

Lingshu-Cell：用離散擴(kuò)散框架統(tǒng)一建模細(xì)胞狀態(tài)與擾動(dòng)響應(yīng)

單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)本質(zhì)上表現(xiàn)為離散計(jì)數(shù)數(shù)據(jù)，而細(xì)胞類型、擾動(dòng)策略等條件信息同樣具有離散性。針對(duì)這一數(shù)據(jù)特點(diǎn)， Lingshu-Cell 在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵創(chuàng)新：

1. 掩碼離散擴(kuò)散模型（MDDM）：統(tǒng)一建模的優(yōu)越性

實(shí)現(xiàn)細(xì)胞狀態(tài)分布建模與擾動(dòng)響應(yīng)預(yù)測(cè)相統(tǒng)一的關(guān)鍵是在于將不同的條件與數(shù)據(jù)納入同一生成框架下。為此，Lingshu-Cell 采用了大語(yǔ)言模型領(lǐng)域前沿的掩碼離散擴(kuò)散框架進(jìn)行構(gòu)建，該框架在處理單細(xì)胞數(shù)據(jù)時(shí)展現(xiàn)出以下顯著優(yōu)勢(shì)：

統(tǒng)一 Token 空間與建模范式：Lingshu-Cell 將細(xì)胞類型、外部擾動(dòng)策略以及基因表達(dá)數(shù)值等信息，統(tǒng)一轉(zhuǎn)化為離散 Token 并映射至同一個(gè)向量空間。這種設(shè)計(jì)使得模型能夠在單一生成范式下，同步完成對(duì) “原始分布” 和對(duì) “各種外部條件響應(yīng)” 的建模。Lingshu-Cell 無需針對(duì)擾動(dòng)任務(wù)設(shè)計(jì)獨(dú)立的預(yù)測(cè)頭，而是將擾動(dòng)視為一種可生成的上下文邏輯，實(shí)現(xiàn)在統(tǒng)一范式下的高效訓(xùn)練和泛化。
天然適配數(shù)據(jù)的離散性：傳統(tǒng) DDPM 使用連續(xù)高斯噪聲，難以直接應(yīng)用于單細(xì)胞轉(zhuǎn)錄組的離散計(jì)數(shù)數(shù)據(jù)。Lingshu-Cell 直接在離散 Token 空間操作，天然契合此類生物數(shù)據(jù)的內(nèi)在特性。
消除自回歸模型的順序偏置：依托雙向 Transformer 架構(gòu)，Lingshu-Cell 允許每個(gè)基因在生成時(shí)全局參考全基因組的上下文信息，有效捕捉復(fù)雜的協(xié)同調(diào)控邏輯，避免了單向自回歸模型在處理 “無序” 基因序列時(shí)產(chǎn)生的人為順序偏置。

2. 針對(duì)全轉(zhuǎn)錄組精準(zhǔn)建模的技術(shù)優(yōu)化

同時(shí)，為了更好地適配全轉(zhuǎn)錄組數(shù)據(jù)的超大規(guī)模建模，Lingshu-Cell 引入了多項(xiàng)優(yōu)化技術(shù)，在計(jì)算效率與微弱信號(hào)捕捉能力之間取得了完美平衡：

多尺度量化編碼：針對(duì) UMI 計(jì)數(shù)跨度大且分布極其傾斜的特點(diǎn)，模型引入了共享量化函數(shù)，將原始計(jì)數(shù)映射到有限的離散狀態(tài)池中。這一設(shè)計(jì)在大幅壓縮狀態(tài)空間的同時(shí)，通過自適應(yīng)步長(zhǎng)精準(zhǔn)保留了低表達(dá)量區(qū)間的高分辨率信息。
嵌入空間序列壓縮：使用 Transformer 直接處理高達(dá) 1.8 萬個(gè)基因的長(zhǎng)序列將帶來難以承受的計(jì)算開銷。為此，Lingshu-Cell 引入了嵌入空間的壓縮模塊，通過隨機(jī)分組（Random Grouping）和線性投影，將超長(zhǎng)基因序列壓縮為高信息密度的表征（如將長(zhǎng)度從 18,000 維大幅壓縮至 500-2,000 維）。這不僅成倍降低了計(jì)算成本，更通過多基因信號(hào)的線性混合有效過濾了單基因?qū)用娴脑肼暩蓴_。
條件引導(dǎo)與生物學(xué)先驗(yàn)注入：為了讓模型在上萬個(gè)基因中精準(zhǔn)定位擾動(dòng)方向，Lingshu-Cell 引入了條件引導(dǎo)（CFG）機(jī)制。通過在采樣階段強(qiáng)化目標(biāo)條件信號(hào)，模型能夠更明確地向指定的擾動(dòng)狀態(tài)演化。同時(shí)，模型支持注入已知生物學(xué)先驗(yàn)，通過在采樣起點(diǎn)錨定關(guān)鍵基因狀態(tài)，引導(dǎo)生成結(jié)果嚴(yán)格符合真實(shí)生物學(xué)規(guī)律。

通過統(tǒng)一建模的掩碼離散擴(kuò)散架構(gòu)與針對(duì)全轉(zhuǎn)錄組的技術(shù)優(yōu)化，Lingshu-Cell 在適配單細(xì)胞數(shù)據(jù)特性的同時(shí)，有效解決了超長(zhǎng)基因序列建模中計(jì)算效率與精度難以兼顧的難題。這種設(shè)計(jì)與工程的協(xié)同，讓模型得以精準(zhǔn)刻畫單細(xì)胞轉(zhuǎn)錄組的真實(shí)分布規(guī)律，進(jìn)而生成高保真、條件可控的單細(xì)胞基因表達(dá)譜。

圖 3：以基因擾動(dòng)為例，展示模型框架與關(guān)鍵設(shè)計(jì)。（a）基因擾動(dòng)任務(wù)示意；（b）輸入序列構(gòu)成與掩碼離散擴(kuò)散過程；（c）三個(gè)關(guān)鍵技術(shù)：Classifier-free guidance、序列壓縮、生物學(xué)先驗(yàn)注入。

實(shí)驗(yàn)驗(yàn)證：還原異質(zhì)性，完成狀態(tài)分布建模任務(wù)

1. 跨組織與跨物種的強(qiáng)大建模能力

在覆蓋 9 個(gè)人類組織（腦、心臟、肺、結(jié)腸等）和 4 個(gè)非人物種（小鼠、恒河猴、斑馬魚、果蠅）的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)上，Lingshu-Cell 展現(xiàn)出了卓越的泛化與細(xì)胞狀態(tài)分布建模能力。為了嚴(yán)謹(jǐn)驗(yàn)證這一能力，研究團(tuán)隊(duì)主要從三個(gè)維度展開了系統(tǒng)評(píng)估：（1）整體分布是否匹配，（2）各細(xì)胞亞型的組成比例是否一致，（3）經(jīng)典 marker 基因的表達(dá)模式是否被精準(zhǔn)復(fù)刻。

在 PBMC 數(shù)據(jù)上，生成細(xì)胞與真實(shí)細(xì)胞在 UMAP 中呈現(xiàn)出高度一致的群體結(jié)構(gòu)；各亞型的組成比例也被較好重現(xiàn)，有效避免了傳統(tǒng)生成模型中常見的模式崩潰（如過度生成或遺漏特定亞型）問題；marker 基因的空間表達(dá)模式同樣與真實(shí)數(shù)據(jù)吻合。這說明模型學(xué)到的絕不是淺層統(tǒng)計(jì)學(xué)的相似性，而是具有生物學(xué)意義的細(xì)胞狀態(tài)結(jié)構(gòu)。在定量比較中，Lingshu-Cell 在 5 個(gè)評(píng)估指標(biāo)上均優(yōu)于現(xiàn)有基準(zhǔn)模型：scDiffusion 和 scVI。這種優(yōu)異的表現(xiàn)也不僅限于單一數(shù)據(jù)集：從人類腦組織到果蠅，不同組織和不同物種的數(shù)據(jù)上都得到了穩(wěn)定且一致的驗(yàn)證。

圖 4：細(xì)胞狀態(tài)生成結(jié)果。（a）免疫細(xì)胞 UMAP 可視化與 marker 基因表達(dá)對(duì)比；（b）細(xì)胞亞型組成比例；（c）定量 benchmark（vs scDiffusion, scVI）；（d-e）跨人類組織與跨物種的嵌入結(jié)構(gòu)對(duì)照。

2. 從主要譜系到細(xì)粒度亞型的高分辨率刻畫

更進(jìn)一步地，在更高分辨率的分析下，Lingshu-Cell 生成的細(xì)胞同樣能夠精細(xì)刻畫真實(shí)數(shù)據(jù)中的細(xì)胞亞型結(jié)構(gòu)。無論是 UMAP 中更細(xì)粒度的亞型分布，還是不同細(xì)胞亞型的組成比例，生成數(shù)據(jù)均與真實(shí)數(shù)據(jù)保持了較高保真度。從主要細(xì)胞譜系到更細(xì)粒度的細(xì)胞亞型，Lingshu-Cell 都能較好重現(xiàn)真實(shí)數(shù)據(jù)中的分布特征，標(biāo)志著該模型已經(jīng)能夠?qū)?fù)雜細(xì)胞狀態(tài)分布進(jìn)行全景建模。

圖 5：更大規(guī)模細(xì)胞群體中的高分辨率細(xì)胞狀態(tài)生成結(jié)果。（a）PARSE 10M PBMC 數(shù)據(jù)中真實(shí)細(xì)胞與生成細(xì)胞的 UMAP 可視化，并按細(xì)胞類型注釋與 canonical marker 基因表達(dá)著色；（b）真實(shí)數(shù)據(jù)與生成數(shù)據(jù)中主要細(xì)胞類型比例對(duì)比；（c）在更高分辨率下的 UMAP 可視化，顯示生成細(xì)胞能夠重現(xiàn)真實(shí)數(shù)據(jù)中的細(xì)胞亞型結(jié)構(gòu)；（d）真實(shí)數(shù)據(jù)與生成數(shù)據(jù)中細(xì)胞亞型比例對(duì)比，顯示在更高分辨率下仍保持穩(wěn)健一致性。

應(yīng)用場(chǎng)景：高保真推演，實(shí)現(xiàn)多擾動(dòng)條件響應(yīng)預(yù)測(cè)

在真實(shí)的生物學(xué)研究中，科學(xué)家們往往通過施加外部干預(yù)（如敲低 / 敲除某個(gè)特定基因、使用特定藥物或施加細(xì)胞因子刺激）來觀察細(xì)胞的反應(yīng)，進(jìn)而探究疾病機(jī)制或驗(yàn)證藥物靶點(diǎn)。擾動(dòng)響應(yīng)預(yù)測(cè)，即是利用計(jì)算模型在數(shù)字空間中預(yù)演這一生物學(xué)過程。這一任務(wù)的目標(biāo)是預(yù)測(cè)細(xì)胞在受到特定刺激后，成千上萬個(gè)基因表達(dá)譜的動(dòng)態(tài)級(jí)聯(lián)變化，這正是細(xì)胞世界模型的核心能力之一。Lingshu-Cell 在兩大擾動(dòng)條件上進(jìn)行了實(shí)驗(yàn)，分別是基因敲除擾動(dòng)和細(xì)胞因子擾動(dòng)。

1. 基因擾動(dòng)響應(yīng)預(yù)測(cè)：基因擾動(dòng)是指通過 CRISPR 等基因編輯技術(shù)，特異性地抑制或敲除目標(biāo)基因的表達(dá)，進(jìn)而觀察細(xì)胞在該基因受擾動(dòng)后成千上萬個(gè)基因的轉(zhuǎn)錄表達(dá)級(jí)聯(lián)變化，這也是去年虛擬細(xì)胞競(jìng)賽 (Virtual Cell Challenge) 的核心任務(wù)。 VCC 由 Arc Institute 發(fā)起、NVIDIA 與 10x Genomics 贊助，是單細(xì)胞基因擾動(dòng)響應(yīng)預(yù)測(cè)領(lǐng)域的全球性比賽。我們將 Lingshu-Cell 與 Generalist Rank（綜合考核 7 項(xiàng)核心指標(biāo)）的當(dāng)前榜單隊(duì)伍進(jìn)行了全面對(duì)比。Lingshu-Cell 在這個(gè)榜單上取得了最優(yōu)的平均排名，尤其是在 MAE（平均絕對(duì)誤差）和 Pearson-Δ 兩項(xiàng)關(guān)鍵指標(biāo)上的表現(xiàn)排名第一。這不僅印證了模型卓越的泛化預(yù)測(cè)能力，更驗(yàn)證了 MDDM 架構(gòu)對(duì)于基因擾動(dòng)響應(yīng)預(yù)測(cè)任務(wù)上的巨大潛力。

2. 細(xì)胞因子擾動(dòng)響應(yīng)預(yù)測(cè)：在更大規(guī)模的 PARSE 10M PBMC 數(shù)據(jù)集上（涵蓋 12 個(gè)供體 × 90 種細(xì)胞因子），Lingshu-Cell 同樣在與多個(gè)基準(zhǔn)模型的對(duì)比中取得了最優(yōu)的綜合評(píng)分。該任務(wù)的核心挑戰(zhàn)在于，同一種刺激在不同供體背景下可能引發(fā)不同的轉(zhuǎn)錄組響應(yīng)，而不同刺激之間的效應(yīng)也并不相同。模型需要捕捉這種條件依賴的差異，而不是簡(jiǎn)單學(xué)習(xí)一種平均模式。

基因擾動(dòng)和細(xì)胞因子刺激代表了兩類底層機(jī)制截然不同的生物學(xué)干預(yù)，而 Lingshu-Cell 在這兩類任務(wù)上都取得了領(lǐng)先，有力證明了這一統(tǒng)一框架不僅能夠精確建模細(xì)胞狀態(tài)分布，更能夠進(jìn)一步模擬不同類型干預(yù)所引發(fā)的復(fù)雜細(xì)胞變化。

表 1：VCC H1 benchmark 賽后評(píng)測(cè)綜合排名。

圖 6：PARSE 細(xì)胞因子擾動(dòng)響應(yīng)預(yù)測(cè)的多指標(biāo)對(duì)比。（a）細(xì)胞因子誘導(dǎo)轉(zhuǎn)錄組擾動(dòng)的示意圖；（b）輸入序列構(gòu)成與掩碼離散擴(kuò)散過程；（c）Lingshu-Cell 與多個(gè)基準(zhǔn)模型在 PARSE 10M PBMC 數(shù)據(jù)集上的性能對(duì)比。評(píng)估涵蓋 1 項(xiàng)綜合評(píng)分（Average score）與 7 項(xiàng)核心指標(biāo)。紅色標(biāo)注代表 Lingshu-Cell 在該指標(biāo)上超過其他所有對(duì)比的基準(zhǔn)模型。

虛擬細(xì)胞還有多遠(yuǎn)？

在這篇工作中，我們介紹了 Lingshu-Cell，一個(gè)采用統(tǒng)一離散擴(kuò)散架構(gòu)實(shí)現(xiàn)細(xì)胞狀態(tài)建模和擾動(dòng)響應(yīng)的預(yù)測(cè)的細(xì)胞世界模型。盡管目前的探索仍局限于轉(zhuǎn)錄組層面，且數(shù)據(jù)層面的高保真模擬尚未完全揭示細(xì)胞演化的底層因果機(jī)制，距離構(gòu)建真正意義上的 “虛擬細(xì)胞” 仍有顯著差距。但作為通向細(xì)胞世界模型的一次初步嘗試，Lingshu-Cell 充分證實(shí)了離散擴(kuò)散范式在單細(xì)胞生成建模領(lǐng)域的巨大潛力。展望未來，隨著表觀遺傳、蛋白質(zhì)組學(xué)等多模態(tài)數(shù)據(jù)的逐步引入，計(jì)算生命科學(xué)從靜態(tài)分析向動(dòng)態(tài)模擬演進(jìn)的趨勢(shì)將越來越清晰。整個(gè)行業(yè)正加速向全面動(dòng)態(tài)數(shù)字模擬的新階段大步邁進(jìn)，一個(gè)屬于數(shù)字生命的時(shí)代已然拉開序幕。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.