北大斯坦福聯(lián)手打造「AI科學(xué)家」，預(yù)測精度超越人類專家

2026-02-02 13:26:52　來源: ScienceAI

河北舉報(bào)

分享至

作者丨論文團(tuán)隊(duì)

編輯丨ScienceAI

如果 AI 能夠比人類更精準(zhǔn)、更高效地發(fā)現(xiàn)統(tǒng)治 AI 系統(tǒng)的「牛頓定律」，那么 AI 自我進(jìn)化的奇點(diǎn)是否已經(jīng)臨近？

Scaling Laws（擴(kuò)展定律）被譽(yù)為現(xiàn)代 AI 領(lǐng)域最接近「科學(xué)」的工具。從 Chinchilla 到 GPT-4，它指導(dǎo)研究者利用「小規(guī)模實(shí)驗(yàn)」精準(zhǔn)預(yù)測「大模型的性能」，決定了算力分配、數(shù)據(jù)配比等關(guān)鍵決策。

然而，隨著 AI 技術(shù)的演進(jìn)，Scaling Law 的發(fā)現(xiàn)過程正變得愈發(fā)艱難。從經(jīng)典的預(yù)訓(xùn)練拓展到強(qiáng)化學(xué)習(xí)、混合專家模型（MoE），每一個(gè)新場景都需要研究人員手動(dòng)進(jìn)行大量的假設(shè)、擬合與試錯(cuò)。

既然 AI 如此強(qiáng)大，為什么不讓 AI 自己去發(fā)現(xiàn) Scaling Law 呢？

近日，來自北京大學(xué)、斯坦福大學(xué)、寬德投資和清華大學(xué)的研究團(tuán)隊(duì)提出了一項(xiàng)開創(chuàng)性工作：Scaling Law Discovery (SLD)。這項(xiàng)工作不僅構(gòu)建了包含 5000 多個(gè)真實(shí)實(shí)驗(yàn)的基準(zhǔn)測試 SLDBench，還提出了一種基于進(jìn)化的智能體框架 SLDAgent。令人驚訝的是，這個(gè) AI 智能體發(fā)現(xiàn)的 Scaling Law，在預(yù)測精度和外推能力上已經(jīng)超越了人類專家。

目前，該論文已被 ICLR 2026 接收。

論文地址：https://arxiv.org/abs/2507.21184

項(xiàng)目主頁：https://linhaowei1.github.io/scaling_law_discovery/

HuggingFace：https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

痛點(diǎn)：被「手動(dòng)檔」卡住的 AI 科研

Scaling Law 本質(zhì)上是一個(gè)經(jīng)驗(yàn)公式，預(yù)測模型性能（Loss、準(zhǔn)確率等）與規(guī)模變量（模型參數(shù)量 N、數(shù)據(jù)量 D、計(jì)算量 C 等）之間的關(guān)系。

最經(jīng)典的莫過于 Chinchilla 定律：

雖然公式看似簡潔，但在實(shí)際科研中，發(fā)現(xiàn)正確的公式往往伴隨著巨大的試錯(cuò)成本。

作者團(tuán)隊(duì)分享了一個(gè)真實(shí)的「血淚史」：在 2023 年進(jìn)行大模型微調(diào)研究時(shí)，他們試圖用預(yù)訓(xùn)練中經(jīng)典的冪律（Power Law）去擬合微調(diào)性能，結(jié)果徹底失敗。他們發(fā)現(xiàn)微調(diào)過程存在一個(gè)明顯的「預(yù)冪律階段（pre-power phase）」，現(xiàn)有 Scaling Law 公式根本無法準(zhǔn)確描述。

微調(diào)過程中觀察到的兩階段行為：預(yù)冪律階段和冪律階段。

最終，團(tuán)隊(duì)不得不專門寫了一篇論文（https://arxiv.org/abs/2402.02314，發(fā)表于 ICML2024）來提出「修正后的 Scaling Law」。雖然結(jié)果很好（誤差 RMSD 從 0.036 降到了 0.007），但過程極其耗時(shí)。

這揭示了一個(gè)殘酷的現(xiàn)實(shí)：每一項(xiàng)新的 AI 技術(shù)的大規(guī)模拓展（SFT、MoE、詞表大小、并行策略等）都在呼喚新的 Scaling Law，而目前發(fā)現(xiàn) Scaling Law 的這種「假設(shè) → 擬合 → 失敗 → 重來」的人工試錯(cuò)循環(huán)，已經(jīng)成為制約 AI 發(fā)展的瓶頸。

SLDBench：首個(gè) Scaling Law 發(fā)現(xiàn)基準(zhǔn)

為了解決這個(gè)問題，研究團(tuán)隊(duì)首先需要定義：什么叫做「做好了 Scaling Law 研究」？

為此，他們構(gòu)建了 SLDBench。這不是一個(gè)普通的合成數(shù)據(jù)集，而是基于從現(xiàn)有文獻(xiàn)中收集的超過 5000 個(gè)真實(shí)的大模型訓(xùn)練實(shí)驗(yàn)構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)。

SLDBench 涵蓋了從預(yù)訓(xùn)練、微調(diào)到 MoE 等多種場景的任務(wù)。

SLDBench 的獨(dú)特之處在于：

1. 真實(shí)數(shù)據(jù)：智能體拿到的是真實(shí)的實(shí)驗(yàn)結(jié)果，不需要自己跑昂貴的訓(xùn)練。

2. 客觀評估：不僅看擬合得好不好，更看外推（Extrapolation）得準(zhǔn)不準(zhǔn)。即用小規(guī)模數(shù)據(jù)發(fā)現(xiàn)規(guī)律，預(yù)測大規(guī)模模型的效果。

3. 未知探索：即便對人類專家來說，許多任務(wù)也沒有已知的「完美公式」。SLDBench 完全模擬了真實(shí)世界中的「開放式科研」探索。

4. 高效輕量：相比于其他智能體評測任務(wù)（例如 SWEBench，MLEBench），SLDBench 不需要復(fù)雜的環(huán)境就能運(yùn)行，科學(xué)發(fā)現(xiàn)的難度卻不亞于這些任務(wù)。

這使得 SLDBench 成為衡量 AI 是否具備「科學(xué)發(fā)現(xiàn)能力」的絕佳標(biāo)尺。

SLDAgent：公式和優(yōu)化算法的共進(jìn)化

發(fā)現(xiàn) Scaling Law 絕不僅僅是找出一個(gè)數(shù)學(xué)公式 f(x) 那么簡單。作者團(tuán)隊(duì)指出：「發(fā)現(xiàn)一個(gè)公式」和「找到讓公式生效的擬合過程」同等重要。

許多漂亮的數(shù)學(xué)公式因?yàn)閿?shù)值不穩(wěn)定、難以擬合，在實(shí)際工程中毫無價(jià)值。

因此，該研究提出了 SLDAgent。這是一個(gè)基于進(jìn)化算法（Evolutionary Algorithm）的智能體，它不是在單點(diǎn)優(yōu)化，而是同時(shí)協(xié)同進(jìn)化兩個(gè)部分：

1. 符號表達(dá)式（Expression）：即 Scaling Law 的數(shù)學(xué)形式。

2. 優(yōu)化器（Optimizer）：即如何穩(wěn)健地?cái)M合該公式參數(shù)的算法代碼。

SLDAgent 的進(jìn)化管線，同時(shí)搜索公式形式和擬合策略。

SLDAgent 從一個(gè)基線（如 Power Law + BFGS）出發(fā)，通過變異、交叉等操作不斷生成新的變體，并利用類似 MAP-Elites 的機(jī)制保持種群的多樣性。這種「協(xié)同優(yōu)化」完美模擬了人類研究員「提出假設(shè) → 調(diào)整擬合方法 → 驗(yàn)證」的科研閉環(huán)。

實(shí)驗(yàn)結(jié)果：AI 戰(zhàn)勝了人類

在 SLDBench 上，SLDAgent 展現(xiàn)出了驚人的能力。在多個(gè)任務(wù)中，AI 發(fā)現(xiàn)的定律在準(zhǔn)確性和外推能力上均超越了人類此前發(fā)表的成果。

SLDAgent 在各項(xiàng)任務(wù)中均優(yōu)于人類發(fā)現(xiàn)的定律。

更有趣的是 AI 贏的方式。它并不是靠堆砌復(fù)雜的公式來「過擬合」，而是經(jīng)常能發(fā)現(xiàn)更具物理意義的簡潔形式。

案例 1：SFT 定律的物理意義

在 SFT 任務(wù)上，SLDAgent 發(fā)現(xiàn)的定律比人類提出的定律在量綱上更可解釋。

案例 2：自動(dòng)尋找最佳超參（學(xué)習(xí)率 & Batch Size）

對于預(yù)訓(xùn)練來說，如何根據(jù)模型規(guī)模選擇最佳的學(xué)習(xí)率（lr）和 Batch Size（bsz）是老大難問題。

傳統(tǒng)方法（來自階躍星辰：https://step-law.github.io/）可能需要跑 3000 個(gè)實(shí)驗(yàn)，然后只選出 17 個(gè)「最優(yōu)作為點(diǎn)」來擬合規(guī)律。而 SLDAgent 選擇了一條更硬核的路：直接對整個(gè) Loss 曲面 L (N, D, lr, bsz) 建模。

一旦得到了 Loss 曲面的公式，通過求偏導(dǎo)并令其為零，SLDAgent 就能直接推導(dǎo)出最優(yōu)超參數(shù)的閉式解。這不僅利用了所有實(shí)驗(yàn)數(shù)據(jù)，還極大地提升了預(yù)測的魯棒性。

SLDAgent 提出的 Scaling Law 求導(dǎo)后得到的最優(yōu)超參非常接近最優(yōu)超參。

邁向 AI 科學(xué)家

這篇 ICLR 2026 的接收論文給社區(qū)帶來了一個(gè)重要的啟示：

目前的 AI Agent 評估大多集中在寫代碼或做數(shù)學(xué)題上，而 SLD（Scaling Law Discovery）提供了一個(gè)全新的視角 —— 評估 AI 進(jìn)行科學(xué)研究的能力。

它要求 AI 具備符號推理能力、多場景泛化能力、長程規(guī)劃能力，以及面對真實(shí)世界嘈雜數(shù)據(jù)時(shí)的魯棒性。

正如作者在文中所言：「SLDBench 是我們將『AI 用于 AI 研究』這一概念進(jìn)行程序化、基準(zhǔn)化乃至最終自動(dòng)化的初步嘗試。」

也許在不久的將來，當(dāng)我們面對新的 AI 架構(gòu)時(shí)，不再需要人類苦苦試錯(cuò)，而是直接交給 AI 科學(xué)家，靜待它給出那個(gè)支配系統(tǒng)的「牛頓定律」。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.