![]()
撰文丨易
理解生命藍圖的復(fù)雜性是生物學(xué)的核心挑戰(zhàn)之一。DNA作為所有生命形式的信息載體,其序列編碼了從分子功能到系統(tǒng)行為的全部指令。盡管基因組測序、合成和編輯技術(shù)已取得長足進步,但我們?nèi)匀蝗狈ψ銐虻闹R來預(yù)測大多數(shù)基因組變化的影響,或是有邏輯地設(shè)計全新的生物系統(tǒng)。傳統(tǒng)方法在解析非編碼區(qū)域的功能、理解跨物種的保守性以及從零開始設(shè)計功能性基因組方面存在顯著瓶頸。近年來,從海量生物序列數(shù)據(jù)中學(xué)習(xí)的人工智能模型,為預(yù)測和設(shè)計生物功能提供了新的可能。然而,現(xiàn)有的模型通常在數(shù)據(jù)廣度(覆蓋所有生命域)、序列上下文長度(理解長距離基因組相互作用)以及多功能性(統(tǒng)一處理DNA、RNA和蛋白質(zhì))方面存在局限。Evo 1等先前模型主要專注于原核生物,對更復(fù)雜、含有大量非編碼區(qū)的真核基因組建模能力不足。因此,開發(fā)一個能夠整合所有生命形式、跨越不同生物組織層次、并兼具強大預(yù)測與生成能力的通用基因組基礎(chǔ)模型,成為推動計算生物學(xué)和合成生物學(xué)發(fā)展的關(guān)鍵需求。
近日,美國弧形研究所Brian L. Hie和Patrick D. Hsu在Nature期刊發(fā)表題為Genome modelling and design across all domains of life with Evo 2的研究論文,開發(fā)了能夠統(tǒng)一理解并設(shè)計生命全領(lǐng)域基因組的Evo 2模型,它不僅實現(xiàn)了在基因組序列變異功能預(yù)測方面的突破,還能在外部功能模型的引導(dǎo)下生成具有預(yù)設(shè)表觀遺傳模式的合成DNA序列。
![]()
研究團隊 首先利用了一個覆蓋細菌、古菌、真核生物和噬菌體、包含超過9萬億個DNA堿基對的超大規(guī)模基因組數(shù)據(jù)集,并采用創(chuàng)新的StripedHyena 2卷積混合架構(gòu),訓(xùn)練出了擁有百萬個token上下文窗口的基礎(chǔ)模型Evo 2。該方法使模型具備了理解長程基因組相互作用的空前能力。結(jié)果顯示,Evo 2能夠零樣本地準確預(yù)測遺傳變異的功能影響,其序列似然度的變化精準反映了從啟動子、密碼子到不同物種遺傳密碼的進化約束,并在人類臨床變異預(yù)測上實現(xiàn)了對以往通用模型的超越,特別是在非SNV變異和BRCA1非編碼區(qū)變異預(yù)測上表現(xiàn)優(yōu)異。
隨后, 研究團隊 通過可解釋性分析技術(shù),對模型內(nèi)部的表示進行了解析。利用稀疏自編碼器分析Evo 2的神經(jīng)元激活模式,該方法揭示出模型內(nèi)部自發(fā)學(xué)習(xí)到了豐富且可解釋的生物學(xué)特征。研究結(jié)果證實,模型學(xué)到的抽象特征直接關(guān)聯(lián)于外顯子-內(nèi)含子邊界、轉(zhuǎn)錄因子結(jié)合位點、蛋白質(zhì)二級結(jié)構(gòu)乃至原噬菌體區(qū)域等多種核心生物元件,表明這個模型確實建立了對基因組語法和語義的深度理解。
進一步, 研究團隊 評估了Evo 2作為生成模型的強大能力。通過設(shè)計基因補全、細胞器及微型基因組生成等一系列任務(wù),該方法展示了模型從提示信息中生成連貫、合理生物序列的潛力。結(jié)果表明,Evo 2生成的線粒體基因組在基因組成和順序上高度仿真,生成的原核基因組中大部分基因含有有意義的蛋白質(zhì)結(jié)構(gòu)域,其生成的蛋白質(zhì)在長度和二級結(jié)構(gòu)分布上與天然蛋白相似,證明了其在基因組尺度設(shè)計的可行性。
然后,作者將Evo 2的生成能力與外部預(yù)測模型結(jié)合,開創(chuàng)性地提出了一個推理時引導(dǎo)的設(shè)計范式。該方法的核心是利用Evo 2作為序列生成器,同時以染色質(zhì)可及性預(yù)測模型作為“指導(dǎo)評分函數(shù)”,通過波束搜索技術(shù)進行優(yōu)化。研究結(jié)果取得了突破性成功:Evo 2成功生成了包含特定“莫爾斯電碼”圖案在內(nèi)的復(fù)雜染色質(zhì)開放模式的DNA序列,并將這些序列在小鼠和人類細胞中進行了實驗驗證。實驗測得的染色質(zhì)可及性圖譜與設(shè)計目標高度吻合,準確率極高,且生成序列中富含與細胞類型相關(guān)的轉(zhuǎn)錄因子結(jié)合基序,展現(xiàn)出超越簡單隨機生成策略的生物學(xué)合理性。
總結(jié)而言,本研究通過構(gòu)建一個超大規(guī)模、長上下文的基因組基礎(chǔ)模型Evo 2,系統(tǒng)性地結(jié)合了零樣本預(yù)測、可解釋性分析、大規(guī)模序列生成和推理時引導(dǎo)設(shè)計等多種方法。其結(jié)果不僅證明了該模型在理解遺傳密碼、預(yù)測變異影響方面達到了新的高度,更重要的是,它成功地將強大的生成能力與特定的功能設(shè)計目標相結(jié)合,首次實現(xiàn)了對哺乳動物細胞表觀基因組狀態(tài)的按需編程,為人工智能驅(qū)動的基因組理解和設(shè)計建立了全新的強大平臺。
https://doi.org/10.1038/s41586-026-10176-5
制版人: 十一
學(xué)術(shù)合作組織
(*排名不分先后)
![]()
戰(zhàn)略合作伙伴
(*排名不分先后)
![]()
![]()
轉(zhuǎn)載須知
【原創(chuàng)文章】BioArt原創(chuàng)文章,歡迎個人轉(zhuǎn)發(fā)分享,未經(jīng)允許禁止轉(zhuǎn)載,所刊登的所有作品的著作權(quán)均為BioArt所擁有。BioArt保留所有法定權(quán)利,違者必究。
BioArt
Med
Plants
人才招聘
![]()
點擊主頁推薦活動
關(guān)注更多最新活動!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.