細菌跟噬菌體打了三十多億年的仗,怎么可能就靠這兩百來種武器?事實是,每次有人認真去篩,總能發現新東西。最近一篇發表在Science上的工作干脆用深度學習把這個問題推到了極限,他們訓練了三個互補模型,在3.2萬個細菌基因組里掃了一遍,預測出超過2百萬個抗噬菌體蛋白,其中85%以上的蛋白家族從未被任何研究關聯到免疫上。
![]()
換句話說,我們對細菌免疫的了解,可能只是冰山浮出水面的那一小塊。
研究背景與目的
抗噬菌體防御系統有個讓人頭疼的特點:它們不怎么保守。不同細菌對付同一種病毒,可能拿出完全不同的蛋白質零件。這種多樣性一方面說明自然界解決問題的方案遠比實驗室里看到的豐富,另一方面也讓傳統的“靠同源性找基因”的方法頻頻失靈。
過去十年,研究者發現了一個規律:防御系統喜歡扎堆出現在基因組的特定區域,叫“防御島”。這就催生了一種“連帶定罪”策略:如果一個基因經常出現在已知防御基因旁邊,那它很可能也有防御功能。這個方法確實管用,過去五六年發現的系統大多靠這個思路。
但它的局限也很明顯:只認熟面孔附近的人,對那些單打獨斗或者藏在病毒基因組里的防御系統,基本抓瞎。而且它需要一個蛋白家族至少有5個同源序列才能算,直接把大量“孤兒蛋白”排除在外。所以這篇文章的作者換了個思路:不靠規則,靠模式識別。
三款模型,三種視角
他們搞了三套深度學習模型,每一套的“偏見”不一樣。
![]()
第一個叫ALBERTDF,是個基因組語言模型。你可以把它想象成一個學會了細菌“語法”的模型,給它看一段連續64個基因的序列,它要預測中間缺了哪個基因。訓練完之后,再拿它去判斷一個基因出現在某個上下文里是不是“可疑”(也就是像不像防御基因)。這個模型的優點是不看序列,所以哪怕一個蛋白長得跟所有已知防御系統都不像,只要它總出現在防御島里,模型就能抓到。缺點是詞匯量太大,整個細菌界的蛋白家族有800多萬個,模型根本裝不下,所以他們只在一個門(放線菌門)上跑了這個實驗。結果在10個預測的系統里驗證了6個,全是之前沒人知道有抗噬菌體功能的。
第二個叫ESMDF,思路完全反過來。它用的是蛋白語言模型ESM2,輸入是一串氨基酸,輸出是這個蛋白“像不像防御蛋白”。這種模型天然能捕捉遠程同源關系,兩個蛋白序列相似度很低,但三維結構或功能域有共性,ESM也能感受到。他們拿32萬個基因組里的已知防御系統做正樣本,拿核心看家基因和移動元件里的非防御基因做負樣本,然后把模型微調成二分類器。650M參數的大版本在測試集上表現不錯,尤其讓人意外的是,哪怕那些在訓練集里幾乎沒出現過的防御亞型(比如某些罕見的逆轉錄子),模型也給打了高分。
但最厲害的是第三個,GeneCLRDF。它是個雙通道模型,同時看兩樣東西:一個通道讀蛋白的氨基酸序列(用ESM-35M的預訓練嵌入),另一個通道讀這個蛋白周圍的64個基因的上下文。訓練目標很巧妙:讓模型學會把同一個蛋白的“序列視圖”和“上下文視圖”拉近,把不同蛋白的視圖推開。換句話說,模型被教會了一件事:一個蛋白長什么樣,應該跟它住在基因組哪個位置是一致的。
這個設計的好處顯而易見:如果一個蛋白的序列看起來不像任何已知防御系統,但它的鄰居全是防御基因,模型就能通過上下文通道給它打高分;反過來,如果一個蛋白的序列特征很像防御蛋白,但被塞進了一個看家基因的上下文里,模型也不會輕易上當。在測試集上,GeneCLRDF做到了99%的精確率和92%的召回率,這意味著每100個被標記為“防御蛋白”的基因里,只有1個是假陽性;而所有真正的防御蛋白里,它能抓住92%。
驗證:六個新系統從紙上走進培養皿
兩輪實驗驗證了20個候選系統,其中12個具有真實的抗噬菌體功能。
![]()
第一輪在放線菌中測試ALBERTDF的預測:10個候選里有6個有效,在Streptomyces albus中表達后使噬菌斑下降超過100倍。研究者給它們取了Ceres、Ukko等名字,其中既有帶核酸酶結構域的蛋白,也有僅幾十個氨基酸、功能完全未知的小蛋白。
第二輪在大腸桿菌中測試ESM-650MDF的預測:同樣是10個候選6個有效,包括一個攜帶DUF7946結構域的系統,沒有任何已知防御同源物,卻能同時抵抗長尾、肌尾、短尾三類噬菌體。
這些結果證明,模型學到的不是統計噪音,而是可實驗復現的真實生物學功能。
全景圖:1.5%的基因組,85%的未知家族
將GeneCLRDF應用于3.2萬個細菌基因組后,繪制出一張全新的免疫地圖。此前估計細菌約0.46%的基因為防御相關,新模型將這一比例拉高至1.53%,整整三倍。
多樣性更為驚人:三個模型共預測61.5萬個防御相關蛋白家族,其中93%僅能被GeneCLRDF識別。超過40萬個家族沒有任何Pfam結構域注釋,連功能猜測都無從下手,是真正的“暗物質”。操作子層面,2.3萬個家族中超一半與任何已知防御系統無關。
![]()
此外,新預測顯示防御系統與可移動遺傳元件的關聯更強(23.5% vs 之前的17.7%),約25%的整合子基因被標記為防御相關——細菌免疫系統是一個動態、流動的網絡,而非靜態防線。
總結
這項工作的價值不在于刷了幾個深度學習模型的分數,而在于它把“我們不知道細菌免疫到底有多復雜”這件事變成了一個可度量的、可操作的問題。61萬個蛋白家族、2.3萬個操作子家族、1.5%的基因組占比。這些數字給了一個明確的信號:過去三十年我們描述的那些系統,可能只是冰山浮出水面的尖尖。
當然,預測歸預測。一個基因被模型打了高分,不代表它一定就是抗噬菌體的;即便它是,也不代表我們知道了它的機制。接下來要做的,是從這幾十萬個候選里挑出有意思的,一個個拿到實驗室里去驗證、去拆解、去搞清楚它到底怎么工作。
好在作者把一切都開源了:分數、操作子家族、交互式圖譜,全部掛在DefenseFinder網站上。你不需要會寫代碼,也不需要懂深度學習,只要有一個感興趣的基因組或者一個好奇的結構域,就可以去里面翻一翻,說不定下一個被命名的防御系統就藏在里面。
來源:Mordret E, Hervé A, et al. Protein and genomic language models uncover the unexplored diversity of bacterial immunity. Science. 2026 Apr 2;392(6793):eadv8275. doi: 10.1126/science.adv8275.
![]()
主編微信
注:添加微信請備注昵稱+單位+研究
微信學科討論群:病毒學群,神經科學群、臨床醫學、腫瘤學科群、碩博交流群和醫藥投資交流群(微信群審核要求較高,請各位添加主編后主動備注單位研究方向)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.