![]()
編輯丨&
生命的所有信息都編碼在 DNA 中。盡管基因組測序、合成和編輯工具已徹底改變了生物學研究,但我們仍然缺乏對基因組浩瀚復雜性的足夠理解——無法精準預測大多數基因變化的后果,更無法智能地設計全新的生物系統。
但一切都可以從零開始。Arc 研究所、英偉達、斯坦福大學等機構帶來了 Evo 2——一個在 9 萬億 DNA 堿基對上訓練、覆蓋細菌、古菌、真核生物和噬菌體所有生命領域的基因組基礎模型。他們利用 Evo 2 設計了全基因組序列,其中包括一個受生殖單粒(M. genitalium)啟發的序列。
相關研究以「Genome modelling and design across all domains of life with Evo 2」為題,于 2026 年 3 月 4 日發布在《Nature》。
![]()
論文鏈接:https://www.nature.com/articles/s41586-026-10176-5
通用基因語言模型
基于其前身 Evo 1,Evo 2 完全基于單細胞基因組訓練,Evo 2是迄今為止生物學領域最大的人工智能模型。除了擴展的細菌、古菌和噬菌體基因組收藏外,Evo 2 還包括來自人類、植物及其他真核生物領域中單細胞和多細胞物種的信息。
當下研究團隊共訓練了兩個版本的 Evo 2:一個較小版本,擁有 70 億參數;一個更大版本,包含 400 億參數。這些數據均來自于 OpenGenome2 的新訓練數據集,由經過精心整理的非冗余核苷酸序列數據匯編而成,總共超過 8.8 萬億個核苷酸。
![]()
圖 1:Evo 2 的模型架構、訓練過程、數據集及評估概述。
在技術層面,Evo2 基于 StripedHyena 2 架構。這一架構融合了卷積與高效注意力機制,專門優化超長序列建模能力。與經典 Transformer 相比,該架構在長序列建模上更具計算效率,使萬億級訓練成為現實。
更重要的是,Evo2 并非為某一單一任務優化,而是一個可遷移的基礎表示模型——下游任務僅需微調或零樣本推斷即可完成。通過計算序列的似然概率,Evo 2 可以零樣本預測突變對蛋白質、RNA 乃至整個生物體適應度的影響。而作為生成模型,Evo 2 可以根據給定提示,續寫出完整、自然的基因組序列,從線粒體到細菌染色體。
特征解讀
倘若想深入模型內部,探究黑箱其中的秘密,研究團隊同樣也準備了工具——稀疏自編碼器(SAE)。它將模型的神經元激活模式分解為稀疏、高維的表示,其中每個潛在維度往往呈現出人類可解釋的模式。
![]()
圖 2:Evo 2 的機制可解釋性揭示了 DNA、RNA、蛋白質和生物體層面特征。
通過尋找包含特定注釋的序列片段中的特征并與已學習的 SAE 潛在維度、已知生物學概念匹配,團隊成功發現了大腸桿菌有關特征、人類基因啟動子的激活、人類基因中外顯子和內含子結構密切相關的特征。這些發現證明,Evo 2 的內部表示捕獲了從移動遺傳元件、調控基序到蛋白質二級結構的廣泛生物學信號。
變異、序列、進化
鑒于 Evo 2 能夠學習中心法則三種模態(DNA、RNA 和蛋白質)以及生命的三個領域中的概然圖景,團隊嘗試在多個維度對該模型進行性能上的驗證。
- 人類變異效應預測:這是 Evo 2 最亮眼的應用之一。在評估中,對于非 SNV(插入、缺失、重復),Evo 2 40B 在所有方法中排名第一;對于非編碼區 SNV,Evo 2 在無監督模型中排名第一。
![]()
圖 3:Evo 2 實現了準確的零射擊人類變異效應預測。
- 基因組規模生成
- 線粒體基因組:Evo 2 能生成完整的 16kb 人類線粒體 DNA,包含正確的編碼序列數量、tRNA 和 rRNA 基因數量,并保持正確的共線性。
- 原核基因組:在生成生殖支原體基因組時,Evo 2生成的基因中近 70% 具有顯著 Pfam hit,遠超 Evo 1 的 18%。
- 真核染色體:Evo 2 能生成酵母染色體III(約 330kb)規模的 DNA,包含 tRNA、啟動子和具有內含子結構的基因。
![]()
圖 4:跨生命領域的基因組尺度生成。
- 引導生成特定染色質模式: 這是 Evo 2 最令人驚嘆的應用。團隊將 Evo 2 與染色質可及性預測模型 Enformer和 Borzoi 結合,通過束搜索引導生成,使 Evo 2 能夠按需設計出特定位置和長度的染色質開放區域。 他們甚至用這種技術在小鼠基因組中寫入了摩斯密碼消息("EVO2"、"ARC"、"LO"),并通過實驗驗證——將合成的DNA整合到小鼠胚胎干細胞中。
最大規模的開源生物基礎模型
Evo 2 團隊秉持開放科學理念,發布了模型的 40B、7B、1B 版本,并給出了完整的 OpenGenome2 訓練數據集。在生物安全方面,團隊采取了負責任的設計:他們將感染人類及其他復雜生物的病原體排除在Evo 2的基礎數據集中,并確保模型不會對這些病原體的詢問提供有建設性答案。
雖然 Evo 2 生成的序列在計算機指標上更“自然”,但這不保證序列在細胞中具有功能。基因組規模的設計還缺少一些必需基因,實驗測試需要大規模、迭代的努力。未來的方向一定是與大規模DNA合成技術結合、引入實驗反饋的強化學習。這些方向將使 Evo 2 走向真正可編程的復雜生物系統設計。
相關報道:https://www.nature.com/articles/d41586-026-00681-y
https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.