![]()
編輯丨&
過去幾年里,蛋白質(zhì)基礎(chǔ)模型(protein language models,pLMs)幾乎重塑了整個(gè)計(jì)算生物學(xué)。
從 AlphaFold 3 的結(jié)構(gòu)預(yù)測,到生成式蛋白設(shè)計(jì),再到酶優(yōu)化、抗病毒肽生成、藥物靶點(diǎn)發(fā)現(xiàn),大模型開始像理解自然語言一樣「理解蛋白質(zhì)」。論文中提到,如今 pLM 已經(jīng)在藥物-靶點(diǎn)相互作用預(yù)測、結(jié)構(gòu)預(yù)測與蛋白設(shè)計(jì)等任務(wù)中達(dá)到 SOTA 水平。
但與此同時(shí),一個(gè)問題也越來越尖銳:
這些模型為什么會(huì)得出這些結(jié)果?
研究者開始意識(shí)到,現(xiàn)代蛋白 AI 正在變成一種典型「黑箱」——它能生成序列、預(yù)測功能、甚至設(shè)計(jì)全新蛋白,但人類往往無法解釋其內(nèi)部決策邏輯。這種不透明性不僅影響科學(xué)可信度,更直接關(guān)系到生物安全、偏差傳播與可控生成。也正因?yàn)槿绱耍瑏碜詺W洲多家機(jī)構(gòu)的研究團(tuán)隊(duì)在這篇路線圖論文中,試圖系統(tǒng)回答一個(gè)此前很少被完整討論的問題:如果蛋白 AI 未來真的會(huì)參與生物設(shè)計(jì),那么我們?cè)撊绾巍缚炊顾?/strong>
相關(guān)研究以「Towards the explainability of protein language models」為題,于 2026 年 5 月 11 日發(fā)布在《Nature Machine Intelligence》。
![]()
論文鏈接:https://www.nature.com/articles/s42256-026-01232-w
XAI 開始進(jìn)入蛋白質(zhì)世界
可解釋人工智能(XAI)領(lǐng)域近年來備受關(guān)注。XAI 旨在通過近似機(jī)器學(xué)習(xí)(ML)模型的內(nèi)部推理或可視化其從數(shù)據(jù)中學(xué)習(xí)到的模式,來提高模型的透明度。這些方法有助于彌合模型復(fù)雜性與人類可解釋性之間的鴻溝,但將其應(yīng)用于生物分子語言模型在技術(shù)上仍頗具挑戰(zhàn)性。
研究團(tuán)隊(duì)認(rèn)為,目前大多數(shù)蛋白模型的能力提升,依賴的是更大的數(shù)據(jù)、更大的參數(shù)、更深的 Transformer。但這套邏輯,并不能自動(dòng)帶來「理解」。因此,論文中提出了一套面向蛋白 AI 的 XAI 分類框架。他們把可解釋方法按信息來源分成四大類:
- 訓(xùn)練數(shù)據(jù)層
- 分析哪些蛋白序列真正影響模型
- 發(fā)現(xiàn)訓(xùn)練偏差
- 輸入層
- 分析哪些氨基酸真正驅(qū)動(dòng)預(yù)測
- 模型內(nèi)部結(jié)構(gòu)
- Attention
- 神經(jīng)元
- SAE(Sparse Autoencoder)
- residual stream
- 輸入-輸出行為
- 通過擾動(dòng)、代理模型等方式解釋模型決策
![]()
圖 1:XAI 方法在蛋白質(zhì)建模工作流中的概念性概述。
這套框架不僅適用于 Transformer,也適用于 diffusion、GNN 乃至 AlphaFold 類系統(tǒng)。
打開黑匣子之后
為了理解可解釋人工智能在當(dāng)今蛋白質(zhì)研究中的應(yīng)用,研究人員回顧了現(xiàn)有科學(xué)文獻(xiàn),并審查了數(shù)十項(xiàng)已將可解釋性工具應(yīng)用于蛋白質(zhì)語言模型的研究。這是迄今為止最全面的同類調(diào)查。
![]()
圖 2:通過分析輸入序列實(shí)現(xiàn)可解釋性。
在幾乎所有情況下,可解釋性都被用作「評(píng)估器」,用以檢查模型是否學(xué)會(huì)了生物學(xué)家已知的模式,例如識(shí)別結(jié)合位點(diǎn)或結(jié)構(gòu)基序。雖然評(píng)估器有助于基準(zhǔn)模型質(zhì)量,但它們無法推斷未知的例子、改進(jìn)模型架構(gòu),更重要的是,無法揭示從訓(xùn)練數(shù)據(jù)中產(chǎn)生的生物學(xué)洞見。
為此,研究團(tuán)隊(duì)從文獻(xiàn)中總結(jié)出 XAI 的五種角色:評(píng)估者、多任務(wù)處理、工程師、教練、教師。其中,教師角色仍是 AI 發(fā)展的終極愿景。這意味著人類能從模型中提取真正新穎的生物學(xué)洞察,發(fā)現(xiàn)人類尚未知曉的模式,真正從 AI 中學(xué)習(xí)新知識(shí)。
培養(yǎng)一位教師
為什么要如此執(zhí)著于「可解釋性」?因?yàn)樗巧锇踩母尽?/p>
![]()
圖 3:XAI 方法在蛋白質(zhì)研究中的作用。
如果一個(gè) AI 模型是不可解釋的,它可能會(huì)悄悄地在某個(gè)蛋白設(shè)計(jì)中嵌入一段具有免疫逃逸功能的基序,而人類科學(xué)家僅從外觀上無法察覺。只有當(dāng) XAI 能夠清晰地標(biāo)注出「這個(gè)序列段之所以被保留,是因?yàn)樗哂衅茐哪撤N宿主受體的潛力」,研究者才能在危險(xiǎn)發(fā)生前按下停止鍵。
這也就牽扯出教師角色的多維度推進(jìn)方向之一:保真度。緊隨其后的是先驗(yàn)可解釋模型、可視化策略與濕實(shí)驗(yàn)驗(yàn)證。
在蛋白質(zhì)科學(xué)領(lǐng)域,達(dá)到教師階段意味著人工智能系統(tǒng)幫助研究人員發(fā)現(xiàn)蛋白質(zhì)折疊、催化或分子相互作用的新規(guī)則,從而改變藥物、材料和可持續(xù)技術(shù)的設(shè)計(jì)方式。
相關(guān)鏈接:https://phys.org/news/2026-05-roadmap-safer-protein-ai.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.