![]()
編輯丨王多魚
排版丨水成文
當我們在談論人工智能(AI)如何變革基因組學時,討論的焦點往往集中在算法模型多么精妙、算力如何強大。但一場由Google Research團隊舉辦的最新線上研討會,卻將聚光燈打向了一個更為基礎、卻常被忽視的要素——基因測序數據本身的質量。
![]()
這場名為:Scaling Genomics with Higher Throughput and AI-Driven Variant Calling 的技術研討會,系統展示了 Google 開發的一系列高性能 AI 變異檢測工具 DeepVariant、DeepConsensus、DeepSomatic 等的最新進展。引人注目的是,當這些頂尖AI工具遇上了來自華大智造/Complete Genomics的DNBSEQ平臺的高質量數據,產生了“1+1>2”的卓越效果。
在進一步解讀之前,我們先快速了解幾個關鍵指標,方便理解后續數據:
Mean Identity(平均序列一致性):簡單來說,就是測出來的 DNA 序列和真實基因組究竟有多像。這個數字越高,代表測序本身的原始錯誤越少,數據越“干凈”。
Indel(插入缺失):指? 1-50 bp?的小片段 DNA 的插入(Insertion)和缺失(Deletion),是基因變異的一種類型,也是測序中容易出錯的地方。
Homopolymer(同源聚合物):像“AAAAAA”這樣一長串相同堿基的區域,這里是所有測序技術的“噩夢區”,極易出錯。
False Negative(假陰性):該檢出的變異實際未檢出,也就是漏檢。
False Positive(假陽性):沒有變異的位置檢出變異,也就是錯檢。
明白了這些,讓我們看看這場研討會揭示了哪些關鍵洞察。
更優質的起點,更高的天花板
研討會上首先比較了不同測序平臺數據的Mean Identity(平均序列一致性)。結果顯示,在采用先進的泛基因組圖(Pangenome Graph)進行比對時,華大智造最新款超高通量測序儀 DNBSEQ-T7+ 的數據獲得了 0.995999 的平均序列一致性,優于另一主流平臺 Illumina NovaSeq 的 0.993489。
![]()
平均序列一致性比較
如果把 AI 模型比作一位學生,那么測序數據就是它的教材。教材本身錯誤越少(數據越干凈),學生(AI 模型)就越不容易被誤導,從而能學到更準確的知識,最終在“考試”(變異檢測)中取得更可信的成績。DNBSEQ 平臺提供了更優質的“教材”,通過更優質的起點,為后續 AI 分析奠定了更高的天花板。
專屬訓練模型,錯誤率顯著降低
Google Research 團隊還做了一次深入實驗:他們不再使用通用模型,而是使用高質量的 DNBSEQ-T7+ 數據,為 DeepVariant 訓練了一個 DNBSEQ 專屬模型——DeepVariant DNBSEQ-specific。
這個模型的訓練集采用了 GIAB(Genome in a Bottle)標準品(HG001、HG002、HG004、HG005-HG007),并特意將 HG003 樣本和第 20 號染色體(chr20)的數據“扣下”,作為從未見過的“考試題”來驗證模型效果。
結果令人印象深刻:在 HG003 樣本上,DNBSEQ 專屬模型產生的假陽性和假陰性錯誤位點總數(14183個),顯著少于基于 NovaSeq 數據訓練的模型(15481 個)。
![]()
使用NIST v4.2.1版本變異真集評估(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)
為了進行更嚴苛的評估,團隊還請出了最新的“終極考官”——HG002 樣本的 T2T(端粒到端粒)完整基因組變異真集。這個真集包含超過 450 萬個變異位點,遠超舊版本,能更全面地檢驗性能。
在這個終極測試中,優勢進一步拉大:DNBSEQ-T7+ DeepVariant 的總錯誤位點為 64116 個,顯著優于 NovaSeq + DRAGEN v4.3 的 71854個,也優于 NovaSeq + DeepVariant 的 73213 個。
![]()
使用NIST HG002 T2T版本變異真集評估 DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN vs. NovaSeq+DeepVariant
結論很直接:同樣的頂尖 AI 工具 DeepVariant,使用來自不同平臺的測序數據訓練,產出的“模型成品”質量有顯著差異。DNBSEQ 平臺數據訓練出的模型質量更高,變異結果中假陽性和假陰性位點數量更少。
攻堅“困難區域”,表現依然卓越
真正的挑戰在于那些讓所有技術都頭疼的“困難區域”。研討會分享的數據顯示,在這些區域,基于 DNBSEQ 的優勢更加明顯:
同源聚合物區:在所有同源聚合物區,DNBSEQ + DeepVariant 的 Indel 檢測準確率比 NovaSeq + DRAGEN 提升了約 55%。這意味著在那些連續 A 或連續 T 的困難區域,DNBSEQ 能更準確地判斷是否發生了堿基的插入或缺失。
![]()
同源聚合物區Indel變異檢測錯誤的比較(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)
復雜結構變異區:在片段重復(Segmental Duplication)和復雜拷貝數變異(CNV)區,DNBSEQ + DeepVariant 的錯誤位點數量比 NovaSeq + DRAGEN 減少了約 30%。
![]()
復雜結構變異區域檢測錯誤的比較(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)
其原因在于,兩者的測序化學原理(DNA 納米球與聯合探針錨定聚合 vs. 可逆末端終止)不同,使得 DNBSEQ 在這些特定區域的背景錯誤率天然更低,從而為 AI 模型提供了更清晰的“信號”、帶來了更優的變異檢測性能。
平臺間一致性高,表現穩定
研討會還評估了華大智造于 2025 年新發布的另一款平臺DNBSEQ-T1+,相比主打高通量的 DNBSEQ-T7+,DNBSEQ-T1+ 主打靈活性。結果顯示,無論是更高通量的 T7+,還是更靈活的 T1+,其數據訓練出的模型在變異檢測性能上均保持一致的高水平,且都優于對比方案。
![]()
使用NIST HG002 T2T版本變異真集評估(DNBSEQ-T1plus+DeepVariant vs. NovaSeq+DRAGEN 4.5)
這意味著,DNBSEQ 平臺在不同型號和通量下,都能提供穩定、可靠的高質量數據,滿足從大規模種群項目到小型快速研究的不同需求,而無需擔心數據質量波動影響分析結果。
重新定義性能邊界,數據質量是基石
這場研討會傳達了一個明確而重要的信號——在泛基因組參考圖譜和人工智能這兩大前沿技術的推動下,基因組變異檢測的性能邊界正在被不斷刷新。然而,無論上層的算法如何演進,底層測序數據的質量,始終是決定最終分析高度的基石。
Google Research 此次系統性的評估表明,DNBSEQ 測序平臺所提供的高準確性、低錯誤率的數據,能夠顯著提升以 DeepVariant 為代表的 AI 變異檢測工具的性能,尤其是在最富挑戰性的基因組區域。這為追求最高數據質量和分析精準度的基因組學研究者,提供了一個強有力的技術組合選擇。
這些評估結果提示我們,AI 在基因組學領域的競賽,不僅發生在算法和算力層面,更發生在數據產生的源頭。當 AI 模型擁有了更清澈的“眼睛”,它才能為我們看清生命密碼中更細微、更真實的奧秘。
值得一提的是,Google Research團隊聯合華大智造及中國科學院大學的研究人員,在預印本平臺bioRxiv發表了題為:PanVariants: Best Practice for Pangenome-based Variant Calling Pipeline and Framework 的研究論文。
![]()
該研究建立了一個基于泛基因組的變異檢測的穩健框架和最佳實踐流程——PanVariants,實現了對新變異的靈敏發現以及單核苷酸變異(SNV)、插入缺失(indel)和結構變異(SV)的高精度檢測,有力支持了未來基因組學從線性向泛基因組參考的轉變。
![]()
DNBSEQ+PanVariants 實現了對 NovaSeq+DRAGEN 的變異檢測性能的超越
論文鏈接:
https://doi.org/10.64898/2026.04.22.720142
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.