![]()
作者:論文團隊
編輯丨ScienceAI
在天文大數據時代,我們面對的是數千萬計的恒星光譜,它們如同宇宙留下的「指紋」,記錄著天體的物理性質與演化史。然而,不同巡天設備、不同分辨率數據之間的「隔離墻」,長期制約著我們對銀河系的全局認知。
來自中國科學院大學、國家天文臺等機構的研究團隊正式發布了 SpecCLIP 框架。這不僅是一個天文學基礎模型,更是一次利用對比學習(Contrastive Learning)打破數據壁壘、提升參數估計極限的成功嘗試。
![]()
論文地址:https://doi.org/10.3847/1538-4357/ae2c7e
開源地址:https://github.com/Xiaosheng-Zhao/SpecCLIP
挑戰:為什么傳統流程正遭遇瓶頸?
長期以來,提取恒星大氣參數(如溫度 Teff、表面重力 log g、金屬豐度 [Fe/H])主要依賴經驗庫或理論模型。但這種模式存在若干痛點,比如:
1. 覆蓋度限制:如 LAMOST 官方的 LASP 流水線,受限于 ELODIE 庫的參數范圍,難以測量 [Fe/H] < -2.5 的極貧金屬星。
2. 多設備不一致:不同望遠鏡(如 LAMOST 與 Gaia)觀測到的同一顆恒星,往往因為處理算法的不同,被貼上相互矛盾的物理標簽 。
核心技術:SpecCLIP 的「跨界」煉金術
SpecCLIP 借鑒了視覺領域 CLIP 模型的靈感,但針對天文數據進行了深度定制。
1. 異構編碼與掩碼預訓練 (Masked Pretraining)
針對性建模:為 LAMOST(高分辨率、長序列)和 Gaia XP(低分辨率、短序列)設計了不同的編碼器。
掩碼學習:通過隨機遮蓋~45% 的光譜數據讓模型進行重構預訓練,迫使模型學習光譜線簇之間的深層邏輯,而非死記硬背。
2. 「共享 + 非共享」的嵌入空間 (CLIP-split)
研究者提出了一種創新的 CLIP-split 架構。
共享子空間:捕捉跨設備一致的物理信號,用于跨模態檢索。
特定子空間:保留各設備特有的細節(如 LAMOST 的視向速度線特征),有效緩解了傳統對比學習容易丟失「非共享信息」的弊端。
深度測評:與官方流水線和原始光譜對比
為了驗證 SpecCLIP 的能力,團隊利用 APOGEE、GALAH 及 DESI 等高精度數據作為「真值」進行了嚴苛測評。
1. 突破 [Fe/H] 的測量下限
在與 DESI DR1 的對比中,SpecCLIP 解決了官方 LASP 流水線在金屬豐度 -2.5 附近的「平臺效應」。
表現:模型能穩健地延伸至 [Fe/H]} ~ -4.0 的極貧金屬區域,精度顯著優于傳統模板匹配方法。
2. 全參數性能提升
通過測試集的數據對比(見下表),SpecCLIP 各變體在幾乎所有核心指標上都優于原始光譜輸入:
![]()
3. 極速推理與不確定性量化
效率:利用 MLP 分支,每秒可處理約 1000 顆恒星的光譜,效率遠超傳統物理建模 。
置信度:引入仿真推理(SBI),不僅給出一個數值,還能給出該參數的概率分布,讓天文學家在一定程度上知道 AI 有「多大把握」。
科學成果:定位銀河系的「古老心臟」
基于 SpecCLIP 的強大能力,研究團隊在 Gaia 數據庫中篩選出了 135,370 顆極貧金屬星候選體(-5 < [Fe/H] < -3)。
這些恒星在空間分布上展現出了有趣的規律:它們緊密圍繞在銀河系中心附近,構成了一個「金屬貧瘠的老心臟 (old heart)」。這一發現和稍早的相關工作相符,有望為研究銀河系早期的化學演化和結構形成提供極為珍貴的化石樣本 。
結語:通向萬物對齊的天文學
SpecCLIP 的成功不僅在于參數估計的精準,更在于它提供了一種「光譜翻譯」的可能性 。未來,該框架計劃擴展至中分辨率光譜(LAMOST MRS)、紅外光譜(APOGEE)等更多模態 。
這種「萬物皆可對齊」的思路,正帶領天文學研究從單設備、單任務的傳統模式,跨入大規模 AI 驅動的「星海大發現」時代 。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.