網易首頁 > 網易號 > 正文申請入駐

一個跨越所有生命領域的基因組基礎模型，實現基因組建模與設計

2026-03-06 15:16:27　來源: ScienceAI

天津舉報

分享至

編輯丨&

生命的所有信息都編碼在 DNA 中。盡管基因組測序、合成和編輯工具已徹底改變了生物學研究，但我們仍然缺乏對基因組浩瀚復雜性的足夠理解——無法精準預測大多數基因變化的后果，更無法智能地設計全新的生物系統。

但一切都可以從零開始。Arc 研究所、英偉達、斯坦福大學等機構帶來了 Evo 2——一個在 9 萬億 DNA 堿基對上訓練、覆蓋細菌、古菌、真核生物和噬菌體所有生命領域的基因組基礎模型。他們利用 Evo 2 設計了全基因組序列，其中包括一個受生殖單粒（M. genitalium）啟發的序列。

相關研究以「Genome modelling and design across all domains of life with Evo 2」為題，于 2026 年 3 月 4 日發布在《Nature》。

論文鏈接：https://www.nature.com/articles/s41586-026-10176-5

通用基因語言模型

基于其前身 Evo 1，Evo 2 完全基于單細胞基因組訓練，Evo 2是迄今為止生物學領域最大的人工智能模型。除了擴展的細菌、古菌和噬菌體基因組收藏外，Evo 2 還包括來自人類、植物及其他真核生物領域中單細胞和多細胞物種的信息。

當下研究團隊共訓練了兩個版本的 Evo 2：一個較小版本，擁有 70 億參數；一個更大版本，包含 400 億參數。這些數據均來自于 OpenGenome2 的新訓練數據集，由經過精心整理的非冗余核苷酸序列數據匯編而成，總共超過 8.8 萬億個核苷酸。

圖 1：Evo 2 的模型架構、訓練過程、數據集及評估概述。

在技術層面，Evo2 基于 StripedHyena 2 架構。這一架構融合了卷積與高效注意力機制，專門優化超長序列建模能力。與經典 Transformer 相比，該架構在長序列建模上更具計算效率，使萬億級訓練成為現實。

更重要的是，Evo2 并非為某一單一任務優化，而是一個可遷移的基礎表示模型——下游任務僅需微調或零樣本推斷即可完成。通過計算序列的似然概率，Evo 2 可以零樣本預測突變對蛋白質、RNA 乃至整個生物體適應度的影響。而作為生成模型，Evo 2 可以根據給定提示，續寫出完整、自然的基因組序列，從線粒體到細菌染色體。

特征解讀

倘若想深入模型內部，探究黑箱其中的秘密，研究團隊同樣也準備了工具——稀疏自編碼器（SAE）。它將模型的神經元激活模式分解為稀疏、高維的表示，其中每個潛在維度往往呈現出人類可解釋的模式。

圖 2：Evo 2 的機制可解釋性揭示了 DNA、RNA、蛋白質和生物體層面特征。

通過尋找包含特定注釋的序列片段中的特征并與已學習的 SAE 潛在維度、已知生物學概念匹配，團隊成功發現了大腸桿菌有關特征、人類基因啟動子的激活、人類基因中外顯子和內含子結構密切相關的特征。這些發現證明，Evo 2 的內部表示捕獲了從移動遺傳元件、調控基序到蛋白質二級結構的廣泛生物學信號。

變異、序列、進化

鑒于 Evo 2 能夠學習中心法則三種模態（DNA、RNA 和蛋白質）以及生命的三個領域中的概然圖景，團隊嘗試在多個維度對該模型進行性能上的驗證。

人類變異效應預測：這是 Evo 2 最亮眼的應用之一。在評估中，對于非 SNV（插入、缺失、重復），Evo 2 40B 在所有方法中排名第一；對于非編碼區 SNV，Evo 2 在無監督模型中排名第一。

圖 3：Evo 2 實現了準確的零射擊人類變異效應預測。

基因組規模生成

線粒體基因組：Evo 2 能生成完整的 16kb 人類線粒體 DNA，包含正確的編碼序列數量、tRNA 和 rRNA 基因數量，并保持正確的共線性。
原核基因組：在生成生殖支原體基因組時，Evo 2生成的基因中近 70% 具有顯著 Pfam hit，遠超 Evo 1 的 18%。
真核染色體：Evo 2 能生成酵母染色體III（約 330kb）規模的 DNA，包含 tRNA、啟動子和具有內含子結構的基因。

圖 4：跨生命領域的基因組尺度生成。

引導生成特定染色質模式：這是 Evo 2 最令人驚嘆的應用。團隊將 Evo 2 與染色質可及性預測模型 Enformer和 Borzoi 結合，通過束搜索引導生成，使 Evo 2 能夠按需設計出特定位置和長度的染色質開放區域。他們甚至用這種技術在小鼠基因組中寫入了摩斯密碼消息（"EVO2"、"ARC"、"LO"），并通過實驗驗證——將合成的DNA整合到小鼠胚胎干細胞中。

最大規模的開源生物基礎模型

Evo 2 團隊秉持開放科學理念，發布了模型的 40B、7B、1B 版本，并給出了完整的 OpenGenome2 訓練數據集。在生物安全方面，團隊采取了負責任的設計：他們將感染人類及其他復雜生物的病原體排除在Evo 2的基礎數據集中，并確保模型不會對這些病原體的詢問提供有建設性答案。

雖然 Evo 2 生成的序列在計算機指標上更“自然”，但這不保證序列在細胞中具有功能。基因組規模的設計還缺少一些必需基因，實驗測試需要大規模、迭代的努力。未來的方向一定是與大規模DNA合成技術結合、引入實驗反饋的強化學習。這些方向將使 Evo 2 走向真正可編程的復雜生物系統設計。

相關報道：https://www.nature.com/articles/d41586-026-00681-y

https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.