![]()
編輯丨&
人類基因表達調控研究中,啟動子(promoter)一直處在一個微妙的位置:它們在功能上至關重要,但在方法上卻長期被「簡化處理」。傳統模型往往依賴表觀組信號(如染色質開放性、組蛋白修飾)來推斷啟動子活性,本質上捕捉的是相關性而非序列層面的因果規則。
這導致一個根本問題始終懸而未決:如果只給 DNA 序列本身,研究者是否真的能預測啟動子的轉錄驅動能力?
來自荷蘭 Oncode 研究所等的研究者們提出了一種名為PARM(Promoter Activity Regression Model)的深度學習框架。該模型在實驗和計算上都很輕量,因此可以生成針對細胞類型和條件的模型,僅憑DNA序列就能可靠預測基因組中的自主啟動子活性。
相關研究內容以「Regulatory grammar in human promoters uncovered by MPRA-based deep learning」為題,于 2026 年 2 月 4 日刊登在《Nature》。
![]()
論文鏈接:https://www.nature.com/articles/s41586-025-10093-z
MPRA × 深度學習
PARM 的技術路線并不復雜,但非常「克制」。研究的基礎數據來自大規模MPRA(大規模平行報告基因實驗):研究團隊系統性地合成并測試了超過 1000 萬條啟動子及其變體序列,在統一實驗條件下測量其轉錄活性。
這些數據的關鍵價值在于兩點:第一,MPRA 將序列與表達輸出直接綁定,天然具有因果屬性;第二,規模足夠大,允許模型學習到超越單一 motif 的高階調控模式。
在模型設計上,PARM 采用的是結構相對簡潔的一維卷積神經網絡(CNN),參數量控制在約 72 萬,遠低于當前主流的基因調控大模型。研究團隊明確強調,他們的目標并非「參數規模競賽」,而是驗證:高質量因果數據是否足以支撐高精度啟動子建模。
![]()
圖 1:PARM 原理及驗證。
通過該平臺,數據生成和計算建模的成本都有所降低,這一進展使研究團隊能夠構建十種不同細胞類型中所有人類啟動子的序列到活性模型,并在細胞暴露于多種刺激后進行。
功能與驗證
在多個獨立測試集上,PARM 對啟動子活性的預測與實驗測量結果之間的相關系數最高可達R ≈ 0.9。這一性能并非是訓練集的功勞,而是建立在未見過的天然人類啟動子序列、合成啟動子、含有系統性突變的序列庫之上,該模型在多種場景驗證下,均保持了相當不錯的穩定性。
![]()
圖 2:PARM 的單核苷酸功能預測。
團隊主要采用的是基于捕獲的策略,創建了對人類基因組文庫中啟動子重疊片段高度富集(90%)的新 MPRA 文庫。這一思考建立在團隊僅使用啟動子重疊片段的數據來訓練 PARM 的推論之上。
一個文庫包含 400 萬個足夠代表的獨特片段,約比全基因組文庫少 600 倍。后續的所有實驗均采用該文庫作為實驗來源。當應用于 K562 和 HepG2 細胞時,PARM 的啟動子活性和整體預測力均與全基因組 MPRA 數據相當。
當研究者將 PARM 與依賴 ATAC-seq、ChIP-seq 等表觀組輸入的模型進行比較時發現:在啟動子層面,純序列模型已經可以達到相當、甚至更穩定的預測能力。
![]()
圖 3:RS的明顯優先定位。
此外,模型還揭示了激活型與抑制型調控元件在空間分布上的系統性差異,這些規律并未完整記錄在現有注釋數據庫中。在此基礎上,研究團隊進一步測試了 PARM 的生成能力。他們利用模型進行序列優化,生成了一批并不存在于人類基因組中的合成啟動子。
去表觀組依賴
PARM 補充了其他深度學習方法,可用于建模增強子元素的語法或設計人工啟動子。它證明了在小型功能基因組數據集上訓練的輕量級模型,是大規模建模工作的可行且強大的替代方案。
未來的優化中,進一步優化聚焦的MPRA庫和深度學習方法論,可能會提升性能。團隊強調,PARM應被視為一種還原主義模型,能夠洞察啟動子的基本特性。這為后續研究留下了一個明確方向——不是一味擴大模型規模,而是思考:哪些生物學層級,真的需要多模態;哪些層級,序列本身已經包含足夠信息?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.