![]()
作者丨論文團(tuán)隊(duì)
編輯丨ScienceAI
如果 AI 能夠比人類更精準(zhǔn)、更高效地發(fā)現(xiàn)統(tǒng)治 AI 系統(tǒng)的「牛頓定律」,那么 AI 自我進(jìn)化的奇點(diǎn)是否已經(jīng)臨近?
Scaling Laws(擴(kuò)展定律)被譽(yù)為現(xiàn)代 AI 領(lǐng)域最接近「科學(xué)」的工具。從 Chinchilla 到 GPT-4,它指導(dǎo)研究者利用「小規(guī)模實(shí)驗(yàn)」精準(zhǔn)預(yù)測「大模型的性能」,決定了算力分配、數(shù)據(jù)配比等關(guān)鍵決策。
然而,隨著 AI 技術(shù)的演進(jìn),Scaling Law 的發(fā)現(xiàn)過程正變得愈發(fā)艱難。從經(jīng)典的預(yù)訓(xùn)練拓展到強(qiáng)化學(xué)習(xí)、混合專家模型(MoE),每一個(gè)新場景都需要研究人員手動(dòng)進(jìn)行大量的假設(shè)、擬合與試錯(cuò)。
既然 AI 如此強(qiáng)大,為什么不讓 AI 自己去發(fā)現(xiàn) Scaling Law 呢?
近日,來自北京大學(xué)、斯坦福大學(xué)、寬德投資和清華大學(xué)的研究團(tuán)隊(duì)提出了一項(xiàng)開創(chuàng)性工作:Scaling Law Discovery (SLD)。這項(xiàng)工作不僅構(gòu)建了包含 5000 多個(gè)真實(shí)實(shí)驗(yàn)的基準(zhǔn)測試 SLDBench,還提出了一種基于進(jìn)化的智能體框架 SLDAgent。令人驚訝的是,這個(gè) AI 智能體發(fā)現(xiàn)的 Scaling Law,在預(yù)測精度和外推能力上已經(jīng)超越了人類專家。
![]()
目前,該論文已被 ICLR 2026 接收。
論文地址:https://arxiv.org/abs/2507.21184
項(xiàng)目主頁:https://linhaowei1.github.io/scaling_law_discovery/
HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery
痛點(diǎn):被「手動(dòng)檔」卡住的 AI 科研
Scaling Law 本質(zhì)上是一個(gè)經(jīng)驗(yàn)公式,預(yù)測模型性能(Loss、準(zhǔn)確率等)與規(guī)模變量(模型參數(shù)量 N、數(shù)據(jù)量 D、計(jì)算量 C 等)之間的關(guān)系。
最經(jīng)典的莫過于 Chinchilla 定律:
![]()
雖然公式看似簡潔,但在實(shí)際科研中,發(fā)現(xiàn)正確的公式往往伴隨著巨大的試錯(cuò)成本。
作者團(tuán)隊(duì)分享了一個(gè)真實(shí)的「血淚史」:在 2023 年進(jìn)行大模型微調(diào)研究時(shí),他們試圖用預(yù)訓(xùn)練中經(jīng)典的冪律(Power Law)去擬合微調(diào)性能,結(jié)果徹底失敗。他們發(fā)現(xiàn)微調(diào)過程存在一個(gè)明顯的「預(yù)冪律階段(pre-power phase)」,現(xiàn)有 Scaling Law 公式根本無法準(zhǔn)確描述。
![]()
微調(diào)過程中觀察到的兩階段行為:預(yù)冪律階段和冪律階段。
最終,團(tuán)隊(duì)不得不專門寫了一篇論文(https://arxiv.org/abs/2402.02314,發(fā)表于 ICML2024)來提出「修正后的 Scaling Law」。雖然結(jié)果很好(誤差 RMSD 從 0.036 降到了 0.007),但過程極其耗時(shí)。
![]()
這揭示了一個(gè)殘酷的現(xiàn)實(shí): 每一項(xiàng)新的 AI 技術(shù)的大規(guī)模拓展(SFT、MoE、詞表大小、并行策略等)都在呼喚新的 Scaling Law,而目前發(fā)現(xiàn) Scaling Law 的這種「假設(shè) → 擬合 → 失敗 → 重來」的人工試錯(cuò)循環(huán),已經(jīng)成為制約 AI 發(fā)展的瓶頸。
SLDBench:首個(gè) Scaling Law 發(fā)現(xiàn)基準(zhǔn)
為了解決這個(gè)問題,研究團(tuán)隊(duì)首先需要定義:什么叫做「做好了 Scaling Law 研究」?
為此,他們構(gòu)建了 SLDBench。這不是一個(gè)普通的合成數(shù)據(jù)集,而是基于從現(xiàn)有文獻(xiàn)中收集的超過 5000 個(gè)真實(shí)的大模型訓(xùn)練實(shí)驗(yàn)構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)。
![]()
SLDBench 涵蓋了從預(yù)訓(xùn)練、微調(diào)到 MoE 等多種場景的任務(wù)。
SLDBench 的獨(dú)特之處在于:
1. 真實(shí)數(shù)據(jù):智能體拿到的是真實(shí)的實(shí)驗(yàn)結(jié)果,不需要自己跑昂貴的訓(xùn)練。
2. 客觀評估:不僅看擬合得好不好,更看外推(Extrapolation)得準(zhǔn)不準(zhǔn)。即用小規(guī)模數(shù)據(jù)發(fā)現(xiàn)規(guī)律,預(yù)測大規(guī)模模型的效果。
3. 未知探索:即便對人類專家來說,許多任務(wù)也沒有已知的「完美公式」。SLDBench 完全模擬了真實(shí)世界中的「開放式科研」探索。
4. 高效輕量:相比于其他智能體評測任務(wù)(例如 SWEBench,MLEBench),SLDBench 不需要復(fù)雜的環(huán)境就能運(yùn)行,科學(xué)發(fā)現(xiàn)的難度卻不亞于這些任務(wù)。
這使得 SLDBench 成為衡量 AI 是否具備「科學(xué)發(fā)現(xiàn)能力」的絕佳標(biāo)尺。
SLDAgent:公式和優(yōu)化算法的共進(jìn)化
發(fā)現(xiàn) Scaling Law 絕不僅僅是找出一個(gè)數(shù)學(xué)公式 f(x) 那么簡單。作者團(tuán)隊(duì)指出:「發(fā)現(xiàn)一個(gè)公式」和「找到讓公式生效的擬合過程」同等重要。
許多漂亮的數(shù)學(xué)公式因?yàn)閿?shù)值不穩(wěn)定、難以擬合,在實(shí)際工程中毫無價(jià)值。
因此,該研究提出了 SLDAgent。這是一個(gè)基于進(jìn)化算法(Evolutionary Algorithm)的智能體,它不是在單點(diǎn)優(yōu)化,而是同時(shí)協(xié)同進(jìn)化兩個(gè)部分:
1. 符號表達(dá)式(Expression):即 Scaling Law 的數(shù)學(xué)形式。
2. 優(yōu)化器(Optimizer):即如何穩(wěn)健地?cái)M合該公式參數(shù)的算法代碼。
![]()
SLDAgent 的進(jìn)化管線,同時(shí)搜索公式形式和擬合策略。
SLDAgent 從一個(gè)基線(如 Power Law + BFGS)出發(fā),通過變異、交叉等操作不斷生成新的變體,并利用類似 MAP-Elites 的機(jī)制保持種群的多樣性。這種「協(xié)同優(yōu)化」完美模擬了人類研究員「提出假設(shè) → 調(diào)整擬合方法 → 驗(yàn)證」的科研閉環(huán)。
實(shí)驗(yàn)結(jié)果:AI 戰(zhàn)勝了人類
在 SLDBench 上,SLDAgent 展現(xiàn)出了驚人的能力。在多個(gè)任務(wù)中,AI 發(fā)現(xiàn)的定律在準(zhǔn)確性和外推能力上均超越了人類此前發(fā)表的成果。
![]()
SLDAgent 在各項(xiàng)任務(wù)中均優(yōu)于人類發(fā)現(xiàn)的定律。
更有趣的是 AI 贏的方式。它并不是靠堆砌復(fù)雜的公式來「過擬合」,而是經(jīng)常能發(fā)現(xiàn)更具物理意義的簡潔形式。
案例 1:SFT 定律的物理意義
![]()
![]()
在 SFT 任務(wù)上,SLDAgent 發(fā)現(xiàn)的定律比人類提出的定律在量綱上更可解釋。
案例 2:自動(dòng)尋找最佳超參(學(xué)習(xí)率 & Batch Size)
對于預(yù)訓(xùn)練來說,如何根據(jù)模型規(guī)模選擇最佳的學(xué)習(xí)率(lr)和 Batch Size(bsz)是老大難問題。
傳統(tǒng)方法(來自階躍星辰:https://step-law.github.io/)可能需要跑 3000 個(gè)實(shí)驗(yàn),然后只選出 17 個(gè)「最優(yōu)作為點(diǎn)」來擬合規(guī)律。而 SLDAgent 選擇了一條更硬核的路:直接對整個(gè) Loss 曲面 L (N, D, lr, bsz) 建模。
一旦得到了 Loss 曲面的公式,通過求偏導(dǎo)并令其為零,SLDAgent 就能直接推導(dǎo)出最優(yōu)超參數(shù)的閉式解。這不僅利用了所有實(shí)驗(yàn)數(shù)據(jù),還極大地提升了預(yù)測的魯棒性。
![]()
SLDAgent 提出的 Scaling Law 求導(dǎo)后得到的最優(yōu)超參非常接近最優(yōu)超參。
邁向 AI 科學(xué)家
這篇 ICLR 2026 的接收論文給社區(qū)帶來了一個(gè)重要的啟示:
目前的 AI Agent 評估大多集中在寫代碼或做數(shù)學(xué)題上,而 SLD(Scaling Law Discovery) 提供了一個(gè)全新的視角 —— 評估 AI 進(jìn)行科學(xué)研究的能力。
它要求 AI 具備符號推理能力、多場景泛化能力、長程規(guī)劃能力,以及面對真實(shí)世界嘈雜數(shù)據(jù)時(shí)的魯棒性。
正如作者在文中所言:「SLDBench 是我們將『AI 用于 AI 研究』這一概念進(jìn)行程序化、基準(zhǔn)化乃至最終自動(dòng)化的初步嘗試。」
也許在不久的將來,當(dāng)我們面對新的 AI 架構(gòu)時(shí),不再需要人類苦苦試錯(cuò),而是直接交給 AI 科學(xué)家,靜待它給出那個(gè)支配系統(tǒng)的「牛頓定律」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.