AI破解基因組天書谷歌DeepMind模型AlphaGenome登《Nature》封面

2026-01-29 15:23:07　來源: ScienceAI

河北舉報

分享至

編輯丨ScienceAI

基因組如同一本細(xì)胞運行的「操作指南」，詳盡記錄著生物體從組裝到運作的全部指令，掌控著生命活動的每個環(huán)節(jié)。

然而，這是一本由 DNA 編碼的「天書」，并且字母排版錯誤 —— 基因變異就可能導(dǎo)致生物體產(chǎn)生重要改變。解讀基因組序列變異的影響是生物學(xué)領(lǐng)域的關(guān)鍵挑戰(zhàn)。

基于此，谷歌 DeepMind 的研究人員提出了 AlphaGenome，它以 1 兆堿基的 DNA 序列作為輸入，能夠預(yù)測數(shù)千個功能基因組軌跡，最高可達(dá)單堿基對分辨率，涵蓋多種模態(tài)，包括基因表達(dá)、轉(zhuǎn)錄起始、染色質(zhì)可及性、組蛋白修飾、轉(zhuǎn)錄因子結(jié)合、染色質(zhì)接觸圖譜、剪接位點使用情況以及剪接連接點的坐標(biāo)和強(qiáng)度。今天，研究論文登上了最新一期《Nature》雜志封面。

論文地址：https://www.nature.com/articles/s41586-025-10014-0

目前，AlphaGenome 已開放非商業(yè)使用，可以通過 AlphaGenome API 獲取。

開源地址：https://github.com/google-deepmind/alphagenome

AlphaGenome

目前，科學(xué)家所觀察到的人類遺傳變異中，超過 98% 是非編碼變異。而我們已有的工具往往僅專注于另外 2% 的基因組序列。非編碼變異位于蛋白質(zhì)編碼區(qū)之外，由于其可能引發(fā)多種維度的分子結(jié)果，因此解讀起來尤其困難。

為了更準(zhǔn)確、更快速且多模態(tài)、多維度地解碼基因組，DeepMind 的研究人員開發(fā)了 AlphaGenome，它將多模態(tài)預(yù)測、長序列上下文和堿基對分辨率整合到一個框架中。

AlphaGenome 模型以長達(dá) 100 萬個堿基對的長 DNA 序列作為輸入，并預(yù)測數(shù)千種表征其調(diào)控活性的分子特性。它還可以通過比較突變序列與未突變序列的預(yù)測值來評估基因變異或突變的影響。

預(yù)測的特性包括基因在不同細(xì)胞類型和組織中的起始和終止位置、基因剪接的位置、產(chǎn)生的 RNA 數(shù)量，以及哪些 DNA 堿基可接近、彼此靠近或與某些蛋白質(zhì)結(jié)合。

訓(xùn)練數(shù)據(jù)來自大型公共聯(lián)盟，包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5，這些聯(lián)盟通過實驗測量了這些特性，涵蓋了數(shù)百種人類和小鼠細(xì)胞類型和組織中重要的基因調(diào)控模式。

AlphaGenome 架構(gòu)使用卷積層初步檢測基因組序列中的短模式，使用 Transformer 在序列的所有位置傳遞信息，最后使用一系列層將檢測到的模式轉(zhuǎn)化為不同模態(tài)的預(yù)測。在訓(xùn)練期間，此計算分布在多個互連的張量處理單元 (TPU) 上，用于處理單個序列。

該模型基于 DeepMind 之前的基因組學(xué)模型 Enformer，并與 AlphaMissense 相輔相成，后者專門對蛋白質(zhì)編碼區(qū)內(nèi)變異的影響進(jìn)行分類。

實驗性能

AlphaGenome 可以預(yù)測單個 DNA 字母的改變會如何影響基因表達(dá)，并改變其 RNA 和蛋白質(zhì)產(chǎn)物。其他人工智能系統(tǒng)可以對蛋白質(zhì)編碼基因中約 2% 的基因組進(jìn)行部分分析，而 AlphaGenome 是第一個對整個基因組進(jìn)行同樣分析的系統(tǒng)。

在人類和小鼠基因組上進(jìn)行訓(xùn)練后，在 26 項變異效應(yīng)預(yù)測評估中，AlphaGenome 有 24 項達(dá)到或超越了各自領(lǐng)域的最強(qiáng)外部模型水平；在 24 個基因組軌跡預(yù)測任務(wù)中，有 22 個取得了 SOTA 性能。

AlphaGenome 能夠同時評估所有模態(tài)下的變異效應(yīng)，從而準(zhǔn)確地重現(xiàn)了 TAL1 致癌基因附近臨床相關(guān)變異的機(jī)制。

研究人員表示 AlphaGenome 將在以下三個方面帶來影響：

1. 疾病理解：通過更準(zhǔn)確地預(yù)測基因破壞，AlphaGenome 可以幫助研究人員更精準(zhǔn)地查明疾病的潛在病因，并更好地解釋與某些性狀相關(guān)的變異的功能影響，從而可能發(fā)現(xiàn)新的治療靶點。該模型尤其適用于研究可能產(chǎn)生巨大影響的罕見變異，例如導(dǎo)致罕見孟德爾遺傳病的變異。

2. 合成生物學(xué)：它的預(yù)測結(jié)果可用于指導(dǎo)具有特定調(diào)控功能的合成 DNA 的設(shè)計 —— 例如，僅激活神經(jīng)細(xì)胞中的基因，而不激活肌肉細(xì)胞中的基因。

3. 基礎(chǔ)研究：它可以通過協(xié)助繪制基因組的關(guān)鍵功能元件圖譜并明確其作用，識別調(diào)控特定細(xì)胞類型功能的最重要 DNA 指令，從而加速生物學(xué)家對基因組的理解。

盡管如此，AlphaGenome 仍然存在局限性。

與其他基于序列的模型一樣，準(zhǔn)確捕捉非常遠(yuǎn)的調(diào)控元件（例如距離超過 10 萬個 DNA 堿基的調(diào)控元件）的影響仍然是一個持續(xù)的挑戰(zhàn)。研究人員表示，未來研究的一個重點是進(jìn)一步提升該模型捕捉細(xì)胞和組織特異性模式的能力。

參考內(nèi)容：

https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/

https://www.science.org/content/article/deepmind-s-latest-ai-tool-makes-sense-changes-human-genome

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.