![]()
編輯丨&
在藥物研發(fā)的漫長(zhǎng)鏈條中,找到蛋白質(zhì)上能與小分子藥物結(jié)合的口袋(結(jié)合位點(diǎn)),是關(guān)鍵的起點(diǎn)。傳統(tǒng)方法要么依賴已知結(jié)構(gòu)的同源比對(duì),要么從頭訓(xùn)練神經(jīng)網(wǎng)絡(luò)。但前者受限于已知數(shù)據(jù),后者則常因訓(xùn)練數(shù)據(jù)不足而泛化能力有限。
而現(xiàn)在,哈佛醫(yī)學(xué)院、MIT 與達(dá)納-法伯癌癥研究所等提供了一個(gè)全新的思路:與其從頭訓(xùn)練,不如從 AlphaFold2 這個(gè)已經(jīng)「學(xué)富五車」的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型中,直接提取它學(xué)會(huì)的關(guān)于蛋白質(zhì)相互作用的「內(nèi)部語(yǔ)言」。
這個(gè)名為 AF2BIND 的工具,僅用一個(gè)簡(jiǎn)單的邏輯回歸模型,就實(shí)現(xiàn)了對(duì)小分子結(jié)合位點(diǎn)的高精度預(yù)測(cè),并構(gòu)建了一個(gè)包含上萬(wàn)個(gè)人類蛋白質(zhì)組中全新結(jié)合位點(diǎn)的數(shù)據(jù)庫(kù),為藥物發(fā)現(xiàn)提供了寶貴的資源。
相關(guān)研究以「AF2BIND: predicting small-molecule binding sites using the pair representation of AlphaFold2」為題,于 2026 年 3 月 11 日發(fā)布在《Nature Methods》。
![]()
論文鏈接:https://www.nature.com/articles/s41592-026-03011-2
AF2BIND
AlphaFold2(AF2)本是為了預(yù)測(cè)蛋白質(zhì)的單鏈結(jié)構(gòu)而訓(xùn)練的。但研究團(tuán)隊(duì)敏銳地意識(shí)到,AF2 在訓(xùn)練過(guò)程中,「見(jiàn)過(guò)」成千上萬(wàn)個(gè)包含小分子的蛋白質(zhì)復(fù)合物結(jié)構(gòu)。這些知識(shí),很可能已經(jīng)內(nèi)化在其網(wǎng)絡(luò)內(nèi)部的對(duì)表示(pair representation)中。問(wèn)題就在于,如何「喚醒」這部分沉睡的知識(shí)?
AF2BIND 的巧妙之處在于:它給 AF2 輸入目標(biāo)蛋白的結(jié)構(gòu)(作為模板),同時(shí)在其序列末尾,像「釣魚」一樣接上20個(gè)「誘餌氨基酸」——每個(gè)標(biāo)準(zhǔn)氨基酸類型各一個(gè),且彼此之間用很大的殘基索引間隔隔開。
![]()
圖 1:AF2BIND 利用 AlphaFold2 的特征預(yù)測(cè)靶蛋白中的小分子結(jié)合殘基。
AF2 會(huì)嘗試「完成折疊」,在這個(gè)過(guò)程中,誘餌氨基酸會(huì)與目標(biāo)蛋白的潛在結(jié)合位點(diǎn)產(chǎn)生注意力交互。而 AF2BIND,則截取目標(biāo)蛋白每個(gè)殘基與這 20 個(gè)誘餌氨基酸之間的初始注意力,并將對(duì)表示拼接后,輸入一個(gè)邏輯回歸模型進(jìn)行訓(xùn)練,目標(biāo)是預(yù)測(cè)該殘基是否是小分子結(jié)合位點(diǎn)。
![]()
圖 2:AlphaFold2 的對(duì)表示被用作邏輯回歸模型 AF2BIND 的輸入,用于預(yù)測(cè)配體結(jié)合殘基。
這種方法優(yōu)雅地避開了從頭訓(xùn)練深度網(wǎng)絡(luò)所需的海量標(biāo)注數(shù)據(jù),直接利用了 AF2 強(qiáng)大的預(yù)訓(xùn)練知識(shí)。同時(shí),邏輯回歸模型的選擇,也為后續(xù)的可解釋性埋下了伏筆。
訓(xùn)練與成果
為了避免數(shù)據(jù)泄漏(即測(cè)試集與訓(xùn)練集存在同源蛋白),團(tuán)隊(duì)建立了一個(gè)極為嚴(yán)苛的拆分標(biāo)準(zhǔn)。們不僅按序列相似性(30% identity)聚類,還結(jié)合了結(jié)構(gòu)相似性(Foldseek)、進(jìn)化分類(ECOD)、結(jié)構(gòu)域注釋(CATH, PFAM)乃至結(jié)合口袋本身的形狀相似性(TM-score)。
最終的測(cè)試集包括 67 個(gè)不同小分子結(jié)合蛋白的結(jié)構(gòu),這些結(jié)構(gòu)與訓(xùn)練集或驗(yàn)證集中的任何蛋白質(zhì)在結(jié)構(gòu)、序列或口袋上均無(wú)相似性。
結(jié)果顯示,僅用 AF2 的 pair 特征,AF2BIND 就達(dá)到了 66% 的結(jié)合殘基恢復(fù)率,ROC-AUC 為 0.936。將多種特征結(jié)合,性能略有提升,但 AF2 無(wú)疑是信息最豐富的單一來(lái)源。
![]()
圖 3:AF2 的配對(duì)表示在結(jié)合-殘基預(yù)測(cè)方面最為有效。
驗(yàn)證算法性能后,研究團(tuán)隊(duì)將 AF2BIND 應(yīng)用于一個(gè)更宏大的目標(biāo):整個(gè)人體蛋白組。他們利用 AlphaFold2 已預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)庫(kù),對(duì)所有蛋白進(jìn)行系統(tǒng)分析。
結(jié)果顯示:共有 20,302 個(gè)潛在結(jié)合位點(diǎn),分布于 13,686 個(gè)蛋白質(zhì)中。更重要的是,其中 15,755 個(gè)位點(diǎn) 在已有數(shù)據(jù)庫(kù)中完全沒(méi)有對(duì)應(yīng)記錄。換句話說(shuō),這些位點(diǎn)是此前幾乎無(wú)法通過(guò)同源結(jié)構(gòu)轉(zhuǎn)移或傳統(tǒng)方法識(shí)別的。
![]()
圖 4:AF2BIND 預(yù)測(cè)了人類蛋白質(zhì)組中未通過(guò)同源建模(AlphaFill)或 P2Rank 發(fā)現(xiàn)的可藥物位點(diǎn)。
高質(zhì)量的藥物地圖
AF2BIND 證明了預(yù)訓(xùn)練模型的「知識(shí)遷移」能力:一個(gè)為結(jié)構(gòu)預(yù)測(cè)而訓(xùn)練的模型,其內(nèi)部表示竟能如此有效地遷移到預(yù)測(cè)蛋白質(zhì)-小分子相互作用這一看似正交的任務(wù)上。這為未來(lái)利用這些強(qiáng)大模型解決更廣泛的生物醫(yī)藥問(wèn)題(如配體設(shè)計(jì)、蛋白質(zhì)設(shè)計(jì))提供了范例。
AF2BIND 不僅指出位點(diǎn)在哪里,還通過(guò)誘餌分析,提供了關(guān)于「什么樣的分子可能適合這里」的線索。
如論文作者所言,AF2BIND 的預(yù)測(cè)可以與能處理小分子的新一代結(jié)構(gòu)預(yù)測(cè)工具(如AlphaFold3、Boltz-1)協(xié)同,其識(shí)別的位點(diǎn)可以作為「口袋條件」,引導(dǎo)這些工具進(jìn)行更精準(zhǔn)的共結(jié)構(gòu)預(yù)測(cè)或分子對(duì)接。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.