網易首頁 > 網易號 > 正文申請入駐

Science背靠背丨開發預測抗噬菌體防御系統的大模型

2026-04-27 17:14:38　來源: BioArt

上海舉報

分享至

撰文丨章臺柳

細菌通過多種機制抵御入侵的噬菌體和其他自私遺傳元件。這些抗噬菌體防御系統由蛋白質或操縱子組成，能夠檢測噬菌體的入侵并觸發反應，從而干擾噬菌體生命周期的各個階段。迄今為止，已有超過 200 種抗噬菌體防御系統得到實驗驗證，其中數十種已被詳細表征，揭示出分子機制的驚人多樣性。對抗噬菌體防御系統的研究也推動了遺傳和基因組工程的進步，例如限制 - 修飾系統和 CRISPR-Cas 系統，識別新的抗噬菌體防御系統可能會產生下一代精密分子工具。值得注意的是，最近的研究還表明，哺乳動物先天免疫系統的許多組分與細菌中發揮抗噬菌體防御功能的蛋白質同源，并很可能起源于這些蛋白質。

防御系統發現的迅速擴展最初是由基于以下觀察的計算方法推動的：防御系統傾向于在細菌基因組中共定位，形成所謂的“防御島”。遵循“連坐法（ guilt by as- sociation ） ”原則，經常在已知抗噬菌體組分附近發現的蛋白質家族被推測具有抗噬菌體作用。目前已經識別并驗證了 5 9 個防御系統。除了防御島之外，這些系統通常也嵌入在移動遺傳元件中，例如前噬菌體及其衛星，或整合到特定基因座如整合子中。一些系統與其他系統以復雜的基因組組織結構嵌套在一起。所有這些觀察結果都已被用于發現抗噬菌體系統的方法中。

許多預測位于防御島中的基因仍未得到探索，正如一項研究所強調的，該研究預測了超過 7000 個在防御島中富集的蛋白質家族。此外，即使在研究較為透徹的模式生物中，實驗篩選仍在不斷揭示新的防御相關蛋白。總之，這些觀察結果表明，抗噬菌體防御系統的多樣性是巨大的，并且在很大程度上尚未被開發。

近日， Science 雜志上發表 2 篇文章，報道了兩種利用機器學習和自然語言處理技術預測抗噬菌體防御系統的方法，并驗證了其中的預測準確性。

其中一篇是來自 MIT 的 Michael T. Laub 團隊，標題是 DefensePredictor : A machine learning model to discover prokaryotic immune systems 。為了構建一個能夠對防御系統進行分類的機器學習模型，研究人員在約17,000個原核生物參考基因組集中，對已知防御基因和非防御基因的同源物進行了標注。利用蛋白質語言模型 ESM2 （ Evolutionary Scale Model 2 ），為這些基因及其基因組中相鄰的四個蛋白編碼基因構建了表征。隨后，訓練了一個名為 DefensePredictor 的模型，基于這些表征來區分防御基因與非防御基因。該模型在計算機模擬（ in silico ）中表現出色，成功識別了在模型訓練后才發現的 100 個防御系統中的 82 個。當應用于 69 個不同的大腸桿菌菌株時， DefensePredictor 以高置信度判定了 624 種不同的蛋白質為防御相關蛋白，其中包含 100 多種與已知防御蛋白沒有可檢測出的同源性的蛋白質。盡管識別出的部分防御蛋白編碼在質粒、原噬菌體和防御島中，但仍有近 50% 并非如此，這證明了 DefensePredictor 能夠在廣泛的基因組背景下識別系統。

為了實驗驗證 DefensePredictor 的準確性，研究人員將 94 個預測系統克隆到了一株敏感的大腸桿菌菌株中，并發現其中 42 個系統對測試的 24 種噬菌體中的至少一種具有防護作用。在這 42 個系統中鑒定出 15 個此前從未被證實具有防御功能的蛋白質結構域，這表明仍有新的免疫機制有待發現。最后，將預測范圍從大腸桿菌擴大到 1000 個多樣化的原核基因組時，鑒定出 5000 多個預測的防御蛋白，它們并非已知防御蛋白的明確同源物。這一結果進一步表明，還有許多防御機制尚未被表征。同時表明，DefensePredictor是發現新型原核生物免疫系統的強大工具。目前研究人員已將該模型作為開源工具發布，以促進其在發現更多原核生物免疫系統方面的應用。

另一篇是來自法國的 Aude Bernheim 團隊，標題是 Protein and genomic language models uncover the unexplored diversity of bacterial immunity 。為了大規模預測抗噬菌體功能，研究人員開發并微調了三種互補的深度學習模型。ALBERTDF （基于 ALBERT ； DF 代表 DefenseFinder ）不依賴蛋白質序列信息，而是通過局部的基因組背景（上下文）來推斷防御性；而 ESMDF （基于 ESM ，即進化尺度模型）則利用蛋白質語言模型來挖掘氨基酸序列特征。 GeneCLRDF （基于 CLR ，即視覺表征的對比學習）將序列和基因組背景結合在一起，取得了最強的綜合性能，在精選的基準數據集上達到了 99% 的精準率和 92% 的召回率。這種極高的準確性使得跨越細菌泛基因組的系統性預測成為可能，且超越了基于同源性的搜索。

為了測試預測的候選基因是否對應真實的防御機制，研究人員在大腸桿菌和白產色鏈霉菌中對一部分預測結果進行了實驗驗證。成功鑒定了 12 個此前從未被認為與抗病毒防御相關的抗噬菌體系統，這表明該框架能夠找回跨越系統發育樹上遠緣細菌的真實防御系統。這些通過驗證的系統包含多樣的結構域架構，包括脫氧核糖核酸酶和肽酶，但也包括一些攜帶此前與抗噬菌體免疫毫無關聯的結構域的蛋白質。這表明這些模型捕捉到了超出已知防御機制和序列同源性的功能特征。

鑒于其極高的精準率，研究人員將 GeneCLRDF 應用于在泛基因組尺度上預測抗噬菌體庫。在超過 32,000 個細菌基因組中，估計典型細菌基因組中編碼的基因約有 1.5% 專門用于抗病毒防御，且超過 85% 預測的防御相關蛋白家族此前與免疫沒有關聯。模型總共預測了 239 萬個抗噬菌體蛋白，其中很大一部分以單基因防御的形式存在；而共同出現的預測基因定義了約 23,000 個操縱子家族，其中絕大多數此前同樣沒有被發現與抗病毒防御有關。

總的來說，這些預測描繪了一幅細菌抗病毒免疫的圖譜，揭示了一個比以往認知中龐大得多、也更加多樣化的抗噬菌體世界。為了支持進一步的探索和后續的實驗，該圖譜已公開提供：

https://defensefinder.mdmlab.fr/wiki/refseq_predicted 。

https://www.science.org/doi/10.1126/science.adv7924

https://www.science.org/doi/10.1126/science.adv8275

制版人：十一

學術合作組織

（*排名不分先后）

戰略合作伙伴

（*排名不分先后）

轉載須知

【原創文章】BioArt原創文章，歡迎個人轉發分享，未經允許禁止轉載，所刊登的所有作品的著作權均為BioArt所擁有。BioArt保留所有法定權利，違者必究。

BioArt

Med

Plants

人才招聘

點擊主頁推薦活動

關注更多最新活動！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.