![]()
作者:論文團隊
編輯丨ScienceAI
「組合爆炸」遇到「算力瓶頸」是行業性痛點。在傳統的制藥與化工領域,新分子的研發往往伴隨著極高的不確定性。一個候選分子能否成藥,需要跨越溶解度、滲透性、毒性等多重「硬指標」的考驗;而一旦確定了目標分子,如何將其低成本、高效率地合成出來,更是困擾化學家數十年的難題。傳統的 AI 算法往往將這些任務割裂開來,導致研發效率低下,試錯成本高昂。
近日,由清華大學智能產業研究院(AIR)聯合 AI 藥物研發企業水木分子打造的化學分子通用任務大模型 BioMedGPT-Mol 正式開源。這意味著全生態的化學家、材料科學家、藥物和生命科學研發人員,能免費使用這一基座模型,這為生物信息與生命科學領域的創新再添力量。
![]()
論文地址:https://arxiv.org/abs/2512.04629
開源地址:https://github.com/PharMolix/OpenBioMed
BioMedGPT-Mol 是面向生物醫藥與生命科學領域的分子語言模型、旨在推動分子發現。該模型在分子理解和分子生成兩大方向的六大類典型子任務中均達到 SOTA 水平。未來,其在助力藥企、CRO 等生態機構開展化學合成藥物創新,尤其是小分子藥物發現方面,擁有巨大的應用潛力。
在諸多科研任務中,基于 BioMedGPT-Mol 研究團隊首次探索了僅采用 LLM 大語言模型進行端到端有機分子逆合成分析,有效突破了合成化學的傳統瓶頸,奠定了化學分子通用任務智能體的基礎。BioMedGPT-Mol 的出現,正是為了打破這種碎片化的研發范式。它不再是一個只能完成單一任務的「工具軟件」,而是一個具備深度邏輯推理能力的「化學大腦」。
BioMedGPT-Mol 依托 1360 萬組高質量分子指令數據集,以精心設計的多任務聯合學習策略將分子研發復雜鏈路整合進統一框架,在工業界核心六大任務上表現亮眼,多目標聯合優化可針對先導化合物優化場景權衡多個矛盾指標實現分子精雕細琢,精準編輯與生成能力則支持根據文字描述設計新分子或對已有分子做官能團精準增減;同時該模型還攻堅了逆合成分析的傳統難題,團隊首次探索僅用 LLM 大語言模型實現端到端有機分子逆合成分析,經三階段 SFT 微調與強化學習的訓練,模型在 RetroBench 榜單達到 SOTA 水平,非專業背景用戶也能借助這一智能體獲得商業可行、生產可執行的合成方案,助力縮短從實驗室驗證到規模化生產的周期;而 BioMedGPT-Mol 的開源,標志著生物醫藥和生命科學界研發邁入「大模型驅動」的新階段,對藥企和 CRO 而言,它是助力提升新藥「源頭創新」能力的工具,借助其多任務 AI 輔助設計能力,助力藥企提升高成藥性分子篩選成功率,讓研發重心回歸到核心機制的突破上。
![]()
BioMedGPT-Mol 支持化學分子理解與生成六大任務
在工業界最關心的核心任務上,BioMedGPT-Mol 展現出了驚人的「實戰」能力,例如:
- 性能預測(Property Prediction):預估分子的水溶性、血腦屏障穿透性(BBBP)及人體腸道吸收率(HIA)等關鍵成藥性指標,在臨床前階段提前規避風險,為藥企節省試錯成本。
- 精準編輯與生成(Molecule Editing):無論是根據一段文字描述「憑空」設計新分子,還是對已有分子進行官能團的精準增減。
- 多目標聯合優化(Property Optimization):針對先導化合物優化的真實工業場景,模型可以協同優化多個關鍵指標(如在提升藥效的同時降低毒性),助力實現分子的「精雕細琢」。
以分子性能優化任務 — 聯合優化為例,該任務要求模型不僅能完成分子編輯,還能判斷修改是否導向預期優化目標。其中多任務聯合優化更貼合藥物研發中先導化合物優化(Lead Optimization)的真實場景,需同時對多個關鍵成藥性指標進行協同提升,包括:QED、血腦屏障穿透性 BBBP、誘導基因突變 Mutagenicity、腸道吸收率 HIA 等等。如下是一個聯合優化的例子。
![]()
以分子性能優化任務 — 聯合優化的例子
對藥企而言,這六大任務價值概括為:可覆蓋從分子解析到優化設計的全研發流程,助力更快速篩選高成藥性候選分子、規劃更優合成路線,助力縮短新藥發現周期并降低研發試錯成本。
對 CRO 而言,這些任務可助力提供一站式 AI 輔助研發服務,助力高效完成數據標準化、成藥性評估與分子改造等工作,助力提升項目交付效率與服務競爭力。
兩類企業均可借助該模型釋放資深研發人員的創造力,讓專業人才聚焦高價值創新工作,同時拓展業務邊界、增強在藥物研發領域的核心優勢。
![]()
BioMedGPT-Mol 在分子理解與生成任務上均取得綜合 SOTA
利用自建的大規模高質量分子理解與生成數據集,通過多任務聯合學習的方式,BioMedGPT-Mol 在以化學分子為中心的任務綜合能力上明顯提升。在涉及 19 個典型任務的 58K 大規模測試數據集上,BioMedGPT-Mol 在六大類子任務的綜合指標上均達到 SOTA 效果。同時,當模型切換至推理模式時,水木分子團隊也觀察到顯式的推理過程可以使得模型在分子編輯任務上實現進一步的性能提升。在此基礎上,水木分子團隊首次探索了僅使用大模型進行端到端有機分子逆合成分析,在 RetroBench 榜單上達到了 SOTA 水平。以 BioMedGPT-Mol 為大腦,其驅動的智能體可以支持化學分子研發全流程。
![]()
BioMedGPT-Mol 在分子編輯中的思維過程
![]()
基于 BioMedGPT-Mol 的化學分子研發智能體流程圖
逆合成分析:合成化學的「老問題」
在化學中,合成是指將簡單物質通過化學反應轉化為復雜物質的過程。合成并非人類獨有,大自然本身就是高效的「合成大師」。例如植物的光合作用,就是葉綠素利用水和二氧化碳,經一系列反應生成葡萄糖與氧氣。而人工化學合成則能創造出自然界原本不存在的物質,阿司匹林是極具代表性的化學合成藥物。
有機分子是有機化學和合成化學研究的重要對象,在藥物、高分子材料、化妝品和農藥等領域具有廣泛應用。逆合成分析是有機化學中解決合成問題的一種重要方法,它以目標分子為出發點,通過反向分析獲得實現目標分子的合成前體和中間反應等,直至獲得簡單或商業可用的起始原料。例如,通過逆合成分析,找到實現一個復雜目標分子的前序若干前體和相應的中間反應,并最終找到商業可用的起始原料。
在現代合成技術中,通常會采取一種「逆合成」分析的方法,簡單來說,就像是在紙上、把目標產物拆解,看看它可以分解出什么東西,這樣就可以找到合成辦法了。從這個角度來說,分解與合成是創造新物質的一體兩面,是不可分割的,甚至可以比喻分解是「高級」的合成。從這個角度看,逆合成分析可以理解為對合成過程的「反向設計」。
逆合成分析的結果通常是一棵逆合成樹(retrosynthetic tree),從目標分子逐步回溯至可獲得的起始原料,包括每條分支路徑上的合成前體、中間反應及反應條件、反應產率等,從而規劃商業可行的合成生產方案。在 20 世紀前半葉,有機化合物的合成設計主要依賴于猜測起始原料并進行試錯實驗。
20 世紀 60 年代,諾貝爾化學獎得主 E.J.Corey 系統提出逆合成分析(Retrosynthetic analysis)方法,該方法顛覆了傳統有機合成的設計邏輯(從目標分子反向推導至起始原料)。E.J.Corey 提出不預設起始原料,而從目標分子出發,通過合成反應的逆過程,將目標分子轉化為合成前體,從而確定合成路線(合成樹),這種方法被稱為逆合成分析。
逆合成分析已成為現代有機合成設計的基礎范式,并被廣泛應用于藥物發現、材料科學和生物技術等領域。逆合成分析與正向合成分析在思路上正好相反。正向合成分析是從起始原料出發,找出合成所需的直接或間接的中間體,逐步推向合成的目標分子。正向合成分析與逆合成分析都是經典的搜索問題,但在處理復雜分子的時候,正向分析由于存在龐大的中間體和中間反應路徑分支,容易陷入「組合爆炸」,且可能錯過全局最優合成路線,而逆合成分析則結合有機化學知識,可高效規劃復雜合成路徑,特別適于復雜分子設計。
當然,逆合成分析也極具挑戰性。由于單個分子往往存在多種可能的合成前體,逆合成分析作為一個搜索問題往往面臨路徑的爆炸式增長。因此,優異的搜索策略對于逆合成分析的效率至關重要。同時,逆合成分析存在多重、復雜的優化目標,例如總產率、立體選擇性、原子經濟性、起始原料的可得性和反應條件的可行性等,其中一些因素難以量化,使得逆合成分析成為一個復雜的優化問題。因此,如何設計一個高效、魯棒的逆合成規劃算法,成為有機化學領域的一個重要研究方向,結合 AI 與機器學習的逆合成工具正在成為主流命題之一。
LLM 大模型:逆合成分析的「新解法」
如果說分子設計是「畫藍圖」,那么逆合成分析就像是「造工廠」,端到端逆合成智能體是攻克「老問題」的「新解法」之一。長期以來,逆合成分析由于存在龐大的搜索空間,極易陷入「組合爆炸」。BioMedGPT-Mol 團隊首次探索了僅采用 LLM 大語言模型進行端到端有機分子逆合成分析。通過三階段 SFT 微調與強化學習(RL)的「魔鬼訓練」,該模型在 RetroBench 榜單上達到了 SOTA 水平。這意味著,哪怕是非專業背景的用戶,也能夠通過大模型和智能體獲得商業可行、生產可執行的合成方案,助力縮短了從實驗室驗證到規模化生產的周期。
基于 BioMedGPT-Mol 的基礎能力,AIR 和水木分子團隊首次探索了僅使用 LLM 大語言模型進行逆合成分析規劃:通過提出的三階段 SFT 微調訓練策略和 RL 強化學習,BioMedGPT-Mol 推理模型在有機分子逆合成分析任務上能力逐步提升,在基于 RetroBench 的模型能力評測榜單上達到了 SOTA 水平,證明了其可以有效作為一個端到端的有機分子逆合成規劃智能體。
![]()
BioMedGPT-Mol 在有機分子逆合成規劃 RetroBench 上達到 SOTA
近年來,科研人員一直在嘗試將深度學習和機器學習應用于逆合成分析。隨著 LLM 大模型的進展,科研人員也試圖將大模型用于更高效的全局式逆合成分析。基于深度學習和機器學習的傳統 AI 算法逆合成分析主要包括單步逆合成(合成前體反應物推薦、反應條件預測與反應產率估計)與多步逆合成搜索的聯動。
在單步逆合成的過程中,又基于分子圖像、SMILES 數據等分為多條 AI 技術路線的反應物預測推薦,以及基于反應物預測推薦的反應條件預測、反應產率預估等多個分拆的子任務。這些傳統單步逆合成的問題在于難以統籌割裂的子任務,從而給出真實可行的規劃路徑。而在多步逆合成搜索中,還需要同時處理龐大的搜索空間、步驟依賴關系及可實驗性判斷等。
LLM 大語言模型的出現,有望構建單步逆合成中多個子任務以及多步逆合成搜索中單步預測、多個聯合策略、全局優化等的統一框架,以智能體方式實現端到端的自動化的統籌反應物推薦、條件選擇和路徑規劃,讓不具備專業背景的用戶也能輕松獲得商業可行、生產可執行、可靠的合成方案,縮短從逆合成分析到實驗室驗證再到生產上市的周期。而基于 BioMedGPT-Mol 的逆合成規劃,就是這一方向上的重大突破。
在 BioMedGPT-Mol 的三階段 SFT 微調訓練中:第一個階段采用無 CoT 思維鏈的標準訓練數據讓模型具備多步規劃的能力;第二階段通過完整逆合成樹和起始原料 SMILES 數據,對 DeepSeek-V3.1 推理能力進行蒸餾得到 CoT 思維鏈訓練數據集對模型進行訓練,從而讓模型具備更高級別的逆合成分析能力,包括強調分子結構檢查、關鍵反應位點識別以及其它規劃中潛在挑戰的應對等;第三階段對訓練目標進行再平衡,讓模型聚焦于準確的反應物預測,以克服自然語言模型推理的內在模糊性所帶來的不確定性問題等。在 SFT 微調訓練之后,BioMedGPT-Mol 引入了基于 GRPO 群組相對策略優化的 RL 強化學習,從而讓模型在給定數據集之外具備泛化能力。
簡單理解,SFT 微調訓練相當于讓模型模仿給定已標注的路徑,而 RL 則鼓勵模型探索更為廣闊的合成方案空間。水木分子團隊的目標是讓模型能夠識別正確的商業可行的起始原料集并生成符合化學原理的中間路徑,即使規劃路徑與 RetroBench 所提供的真實數據并不相同。為此,水木分子團隊在 RL 強化學習中創新地提出了一個分級的獎勵函數,包括三個漸進式子獎勵組合,從而有效引導模型從基礎的結構相關到化學有效性再到正確規劃。
水木分子正在進一步優化該模型在逆合成規劃任務上的效果,目前已經得到了更優表現,敬請關注后續開源計劃。
總結
隨著 BioMedGPT-Mol 的開源,面向化學分子通用任務的智能體將具備強有力的基座模型,為生物醫藥與合成生物領域的科研人員配備強大的研發工具。基于 BioMedGPT-Mol 首次探索了僅采用 LLM 大語言模型進行有機分子逆合成分析,為逆合成分析打開了全新的視角和創新方向。水木分子正源源不斷地將科研創新成果轉換為面向產業的創新工具,為合成化學打造新質生產力,助力支撐實現生物醫藥新興支柱產業的國家戰略愿景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.