![]()
編輯丨ScienceAI
基因組如同一本細(xì)胞運行的「操作指南」,詳盡記錄著生物體從組裝到運作的全部指令,掌控著生命活動的每個環(huán)節(jié)。
然而,這是一本由 DNA 編碼的「天書」,并且字母排版錯誤 —— 基因變異就可能導(dǎo)致生物體產(chǎn)生重要改變。解讀基因組序列變異的影響是生物學(xué)領(lǐng)域的關(guān)鍵挑戰(zhàn)。
基于此,谷歌 DeepMind 的研究人員提出了 AlphaGenome,它以 1 兆堿基的 DNA 序列作為輸入,能夠預(yù)測數(shù)千個功能基因組軌跡,最高可達(dá)單堿基對分辨率,涵蓋多種模態(tài),包括基因表達(dá)、轉(zhuǎn)錄起始、染色質(zhì)可及性、組蛋白修飾、轉(zhuǎn)錄因子結(jié)合、染色質(zhì)接觸圖譜、剪接位點使用情況以及剪接連接點的坐標(biāo)和強(qiáng)度。今天,研究論文登上了最新一期《Nature》雜志封面。
![]()
論文地址:https://www.nature.com/articles/s41586-025-10014-0
目前,AlphaGenome 已開放非商業(yè)使用,可以通過 AlphaGenome API 獲取。
![]()
開源地址:https://github.com/google-deepmind/alphagenome
AlphaGenome
目前,科學(xué)家所觀察到的人類遺傳變異中,超過 98% 是非編碼變異。而我們已有的工具往往僅專注于另外 2% 的基因組序列。非編碼變異位于蛋白質(zhì)編碼區(qū)之外,由于其可能引發(fā)多種維度的分子結(jié)果,因此解讀起來尤其困難。
為了更準(zhǔn)確、更快速且多模態(tài)、多維度地解碼基因組,DeepMind 的研究人員開發(fā)了 AlphaGenome,它將多模態(tài)預(yù)測、長序列上下文和堿基對分辨率整合到一個框架中。
AlphaGenome 模型以長達(dá) 100 萬個堿基對的長 DNA 序列作為輸入,并預(yù)測數(shù)千種表征其調(diào)控活性的分子特性。它還可以通過比較突變序列與未突變序列的預(yù)測值來評估基因變異或突變的影響。
![]()
預(yù)測的特性包括基因在不同細(xì)胞類型和組織中的起始和終止位置、基因剪接的位置、產(chǎn)生的 RNA 數(shù)量,以及哪些 DNA 堿基可接近、彼此靠近或與某些蛋白質(zhì)結(jié)合。
訓(xùn)練數(shù)據(jù)來自大型公共聯(lián)盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,這些聯(lián)盟通過實驗測量了這些特性,涵蓋了數(shù)百種人類和小鼠細(xì)胞類型和組織中重要的基因調(diào)控模式。
AlphaGenome 架構(gòu)使用卷積層初步檢測基因組序列中的短模式,使用 Transformer 在序列的所有位置傳遞信息,最后使用一系列層將檢測到的模式轉(zhuǎn)化為不同模態(tài)的預(yù)測。在訓(xùn)練期間,此計算分布在多個互連的張量處理單元 (TPU) 上,用于處理單個序列。
![]()
該模型基于 DeepMind 之前的基因組學(xué)模型 Enformer,并與 AlphaMissense 相輔相成,后者專門對蛋白質(zhì)編碼區(qū)內(nèi)變異的影響進(jìn)行分類。
實驗性能
AlphaGenome 可以預(yù)測單個 DNA 字母的改變會如何影響基因表達(dá),并改變其 RNA 和蛋白質(zhì)產(chǎn)物。其他人工智能系統(tǒng)可以對蛋白質(zhì)編碼基因中約 2% 的基因組進(jìn)行部分分析,而 AlphaGenome 是第一個對整個基因組進(jìn)行同樣分析的系統(tǒng)。
在人類和小鼠基因組上進(jìn)行訓(xùn)練后,在 26 項變異效應(yīng)預(yù)測評估中,AlphaGenome 有 24 項達(dá)到或超越了各自領(lǐng)域的最強(qiáng)外部模型水平;在 24 個基因組軌跡預(yù)測任務(wù)中,有 22 個取得了 SOTA 性能。
![]()
AlphaGenome 能夠同時評估所有模態(tài)下的變異效應(yīng),從而準(zhǔn)確地重現(xiàn)了 TAL1 致癌基因附近臨床相關(guān)變異的機(jī)制。
![]()
研究人員表示 AlphaGenome 將在以下三個方面帶來影響:
1. 疾病理解:通過更準(zhǔn)確地預(yù)測基因破壞,AlphaGenome 可以幫助研究人員更精準(zhǔn)地查明疾病的潛在病因,并更好地解釋與某些性狀相關(guān)的變異的功能影響,從而可能發(fā)現(xiàn)新的治療靶點。該模型尤其適用于研究可能產(chǎn)生巨大影響的罕見變異,例如導(dǎo)致罕見孟德爾遺傳病的變異。
2. 合成生物學(xué):它的預(yù)測結(jié)果可用于指導(dǎo)具有特定調(diào)控功能的合成 DNA 的設(shè)計 —— 例如,僅激活神經(jīng)細(xì)胞中的基因,而不激活肌肉細(xì)胞中的基因。
3. 基礎(chǔ)研究:它可以通過協(xié)助繪制基因組的關(guān)鍵功能元件圖譜并明確其作用,識別調(diào)控特定細(xì)胞類型功能的最重要 DNA 指令,從而加速生物學(xué)家對基因組的理解。
盡管如此,AlphaGenome 仍然存在局限性。
與其他基于序列的模型一樣,準(zhǔn)確捕捉非常遠(yuǎn)的調(diào)控元件(例如距離超過 10 萬個 DNA 堿基的調(diào)控元件)的影響仍然是一個持續(xù)的挑戰(zhàn)。研究人員表示,未來研究的一個重點是進(jìn)一步提升該模型捕捉細(xì)胞和組織特異性模式的能力。
參考內(nèi)容:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
https://www.science.org/content/article/deepmind-s-latest-ai-tool-makes-sense-changes-human-genome
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.