<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      北大斯坦福聯(lián)手打造「AI科學(xué)家」,預(yù)測精度超越人類專家

      0
      分享至



      作者丨論文團(tuán)隊(duì)

      編輯丨ScienceAI

      如果 AI 能夠比人類更精準(zhǔn)、更高效地發(fā)現(xiàn)統(tǒng)治 AI 系統(tǒng)的「牛頓定律」,那么 AI 自我進(jìn)化的奇點(diǎn)是否已經(jīng)臨近?

      Scaling Laws(擴(kuò)展定律)被譽(yù)為現(xiàn)代 AI 領(lǐng)域最接近「科學(xué)」的工具。從 Chinchilla 到 GPT-4,它指導(dǎo)研究者利用「小規(guī)模實(shí)驗(yàn)」精準(zhǔn)預(yù)測「大模型的性能」,決定了算力分配、數(shù)據(jù)配比等關(guān)鍵決策。

      然而,隨著 AI 技術(shù)的演進(jìn),Scaling Law 的發(fā)現(xiàn)過程正變得愈發(fā)艱難。從經(jīng)典的預(yù)訓(xùn)練拓展到強(qiáng)化學(xué)習(xí)、混合專家模型(MoE),每一個(gè)新場景都需要研究人員手動(dòng)進(jìn)行大量的假設(shè)、擬合與試錯(cuò)。

      既然 AI 如此強(qiáng)大,為什么不讓 AI 自己去發(fā)現(xiàn) Scaling Law 呢?

      近日,來自北京大學(xué)、斯坦福大學(xué)、寬德投資和清華大學(xué)的研究團(tuán)隊(duì)提出了一項(xiàng)開創(chuàng)性工作:Scaling Law Discovery (SLD)。這項(xiàng)工作不僅構(gòu)建了包含 5000 多個(gè)真實(shí)實(shí)驗(yàn)的基準(zhǔn)測試 SLDBench,還提出了一種基于進(jìn)化的智能體框架 SLDAgent。令人驚訝的是,這個(gè) AI 智能體發(fā)現(xiàn)的 Scaling Law,在預(yù)測精度和外推能力上已經(jīng)超越了人類專家。



      目前,該論文已被 ICLR 2026 接收。

      論文地址:https://arxiv.org/abs/2507.21184

      項(xiàng)目主頁:https://linhaowei1.github.io/scaling_law_discovery/

      HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

      痛點(diǎn):被「手動(dòng)檔」卡住的 AI 科研

      Scaling Law 本質(zhì)上是一個(gè)經(jīng)驗(yàn)公式,預(yù)測模型性能(Loss、準(zhǔn)確率等)與規(guī)模變量(模型參數(shù)量 N、數(shù)據(jù)量 D、計(jì)算量 C 等)之間的關(guān)系。

      最經(jīng)典的莫過于 Chinchilla 定律:



      雖然公式看似簡潔,但在實(shí)際科研中,發(fā)現(xiàn)正確的公式往往伴隨著巨大的試錯(cuò)成本。

      作者團(tuán)隊(duì)分享了一個(gè)真實(shí)的「血淚史」:在 2023 年進(jìn)行大模型微調(diào)研究時(shí),他們試圖用預(yù)訓(xùn)練中經(jīng)典的冪律(Power Law)去擬合微調(diào)性能,結(jié)果徹底失敗。他們發(fā)現(xiàn)微調(diào)過程存在一個(gè)明顯的「預(yù)冪律階段(pre-power phase)」,現(xiàn)有 Scaling Law 公式根本無法準(zhǔn)確描述。



      微調(diào)過程中觀察到的兩階段行為:預(yù)冪律階段和冪律階段。

      最終,團(tuán)隊(duì)不得不專門寫了一篇論文(https://arxiv.org/abs/2402.02314,發(fā)表于 ICML2024)來提出「修正后的 Scaling Law」。雖然結(jié)果很好(誤差 RMSD 從 0.036 降到了 0.007),但過程極其耗時(shí)。



      這揭示了一個(gè)殘酷的現(xiàn)實(shí): 每一項(xiàng)新的 AI 技術(shù)的大規(guī)模拓展(SFT、MoE、詞表大小、并行策略等)都在呼喚新的 Scaling Law,而目前發(fā)現(xiàn) Scaling Law 的這種「假設(shè) → 擬合 → 失敗 → 重來」的人工試錯(cuò)循環(huán),已經(jīng)成為制約 AI 發(fā)展的瓶頸。

      SLDBench:首個(gè) Scaling Law 發(fā)現(xiàn)基準(zhǔn)

      為了解決這個(gè)問題,研究團(tuán)隊(duì)首先需要定義:什么叫做「做好了 Scaling Law 研究」?

      為此,他們構(gòu)建了 SLDBench。這不是一個(gè)普通的合成數(shù)據(jù)集,而是基于從現(xiàn)有文獻(xiàn)中收集的超過 5000 個(gè)真實(shí)的大模型訓(xùn)練實(shí)驗(yàn)構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)。



      SLDBench 涵蓋了從預(yù)訓(xùn)練、微調(diào)到 MoE 等多種場景的任務(wù)。

      SLDBench 的獨(dú)特之處在于:

      1. 真實(shí)數(shù)據(jù):智能體拿到的是真實(shí)的實(shí)驗(yàn)結(jié)果,不需要自己跑昂貴的訓(xùn)練。

      2. 客觀評估:不僅看擬合得好不好,更看外推(Extrapolation)得準(zhǔn)不準(zhǔn)。即用小規(guī)模數(shù)據(jù)發(fā)現(xiàn)規(guī)律,預(yù)測大規(guī)模模型的效果。

      3. 未知探索:即便對人類專家來說,許多任務(wù)也沒有已知的「完美公式」。SLDBench 完全模擬了真實(shí)世界中的「開放式科研」探索。

      4. 高效輕量:相比于其他智能體評測任務(wù)(例如 SWEBench,MLEBench),SLDBench 不需要復(fù)雜的環(huán)境就能運(yùn)行,科學(xué)發(fā)現(xiàn)的難度卻不亞于這些任務(wù)。

      這使得 SLDBench 成為衡量 AI 是否具備「科學(xué)發(fā)現(xiàn)能力」的絕佳標(biāo)尺。

      SLDAgent:公式和優(yōu)化算法的共進(jìn)化

      發(fā)現(xiàn) Scaling Law 絕不僅僅是找出一個(gè)數(shù)學(xué)公式 f(x) 那么簡單。作者團(tuán)隊(duì)指出:「發(fā)現(xiàn)一個(gè)公式」和「找到讓公式生效的擬合過程」同等重要。

      許多漂亮的數(shù)學(xué)公式因?yàn)閿?shù)值不穩(wěn)定、難以擬合,在實(shí)際工程中毫無價(jià)值。

      因此,該研究提出了 SLDAgent。這是一個(gè)基于進(jìn)化算法(Evolutionary Algorithm)的智能體,它不是在單點(diǎn)優(yōu)化,而是同時(shí)協(xié)同進(jìn)化兩個(gè)部分:

      1. 符號表達(dá)式(Expression):即 Scaling Law 的數(shù)學(xué)形式。

      2. 優(yōu)化器(Optimizer):即如何穩(wěn)健地?cái)M合該公式參數(shù)的算法代碼。



      SLDAgent 的進(jìn)化管線,同時(shí)搜索公式形式和擬合策略。

      SLDAgent 從一個(gè)基線(如 Power Law + BFGS)出發(fā),通過變異、交叉等操作不斷生成新的變體,并利用類似 MAP-Elites 的機(jī)制保持種群的多樣性。這種「協(xié)同優(yōu)化」完美模擬了人類研究員「提出假設(shè) → 調(diào)整擬合方法 → 驗(yàn)證」的科研閉環(huán)。

      實(shí)驗(yàn)結(jié)果:AI 戰(zhàn)勝了人類

      在 SLDBench 上,SLDAgent 展現(xiàn)出了驚人的能力。在多個(gè)任務(wù)中,AI 發(fā)現(xiàn)的定律在準(zhǔn)確性和外推能力上均超越了人類此前發(fā)表的成果。



      SLDAgent 在各項(xiàng)任務(wù)中均優(yōu)于人類發(fā)現(xiàn)的定律。

      更有趣的是 AI 贏的方式。它并不是靠堆砌復(fù)雜的公式來「過擬合」,而是經(jīng)常能發(fā)現(xiàn)更具物理意義的簡潔形式。

      案例 1:SFT 定律的物理意義





      在 SFT 任務(wù)上,SLDAgent 發(fā)現(xiàn)的定律比人類提出的定律在量綱上更可解釋。

      案例 2:自動(dòng)尋找最佳超參(學(xué)習(xí)率 & Batch Size)

      對于預(yù)訓(xùn)練來說,如何根據(jù)模型規(guī)模選擇最佳的學(xué)習(xí)率(lr)和 Batch Size(bsz)是老大難問題。

      傳統(tǒng)方法(來自階躍星辰:https://step-law.github.io/)可能需要跑 3000 個(gè)實(shí)驗(yàn),然后只選出 17 個(gè)「最優(yōu)作為點(diǎn)」來擬合規(guī)律。而 SLDAgent 選擇了一條更硬核的路:直接對整個(gè) Loss 曲面 L (N, D, lr, bsz) 建模。

      一旦得到了 Loss 曲面的公式,通過求偏導(dǎo)并令其為零,SLDAgent 就能直接推導(dǎo)出最優(yōu)超參數(shù)的閉式解。這不僅利用了所有實(shí)驗(yàn)數(shù)據(jù),還極大地提升了預(yù)測的魯棒性。



      SLDAgent 提出的 Scaling Law 求導(dǎo)后得到的最優(yōu)超參非常接近最優(yōu)超參。

      邁向 AI 科學(xué)家

      這篇 ICLR 2026 的接收論文給社區(qū)帶來了一個(gè)重要的啟示:

      目前的 AI Agent 評估大多集中在寫代碼或做數(shù)學(xué)題上,而 SLD(Scaling Law Discovery) 提供了一個(gè)全新的視角 —— 評估 AI 進(jìn)行科學(xué)研究的能力。

      它要求 AI 具備符號推理能力、多場景泛化能力、長程規(guī)劃能力,以及面對真實(shí)世界嘈雜數(shù)據(jù)時(shí)的魯棒性。

      正如作者在文中所言:「SLDBench 是我們將『AI 用于 AI 研究』這一概念進(jìn)行程序化、基準(zhǔn)化乃至最終自動(dòng)化的初步嘗試。」

      也許在不久的將來,當(dāng)我們面對新的 AI 架構(gòu)時(shí),不再需要人類苦苦試錯(cuò),而是直接交給 AI 科學(xué)家,靜待它給出那個(gè)支配系統(tǒng)的「牛頓定律」。

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4086億!曝馬斯克收購Cursor新進(jìn)展

      4086億!曝馬斯克收購Cursor新進(jìn)展

      智東西
      2026-05-20 21:16:07
      打造“三地一區(qū)”,安徽奮力往前趕!

      打造“三地一區(qū)”,安徽奮力往前趕!

      安徽科技報(bào)
      2026-05-21 15:23:18
      兆易創(chuàng)新,天降橫財(cái)!

      兆易創(chuàng)新,天降橫財(cái)!

      投研邦V
      2026-05-21 19:43:02
      翻盤無望!菲律賓最高法院放行,限制令被拒,杜特爾特重臣難脫身

      翻盤無望!菲律賓最高法院放行,限制令被拒,杜特爾特重臣難脫身

      劇短情長
      2026-05-22 01:25:43
      弘一法師悟道:人活著,其實(shí)就兩件事,想通了,一輩子都順了

      弘一法師悟道:人活著,其實(shí)就兩件事,想通了,一輩子都順了

      心理觀察局
      2026-05-09 09:10:05
      中國股市:但凡出現(xiàn)"長上影線",堅(jiān)決捂住,后市必有一波大牛行情

      中國股市:但凡出現(xiàn)"長上影線",堅(jiān)決捂住,后市必有一波大牛行情

      股經(jīng)縱橫談
      2026-05-17 20:47:39
      瘦了25斤才懂,自律真的會(huì)上癮。

      瘦了25斤才懂,自律真的會(huì)上癮。

      人馬君
      2026-05-21 21:36:38
      浙江第一座監(jiān)獄是如何從山溝里整體搬遷至城市近郊的

      浙江第一座監(jiān)獄是如何從山溝里整體搬遷至城市近郊的

      匹夫來搞笑
      2026-05-12 19:08:42
      拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

      拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

      舊窗老街
      2026-02-23 01:50:19
      特朗普回應(yīng)中俄元首會(huì)晤

      特朗普回應(yīng)中俄元首會(huì)晤

      第一財(cái)經(jīng)資訊
      2026-05-21 08:56:53
      俄烏戰(zhàn)場驚天反轉(zhuǎn)!普京死扛到底的真相曝光?

      俄烏戰(zhàn)場驚天反轉(zhuǎn)!普京死扛到底的真相曝光?

      滕哥說評
      2026-05-20 13:30:31
      特朗普不等了,啟程前對華交底,中美共同敵人浮現(xiàn),臺(tái)媒評論亮了

      特朗普不等了,啟程前對華交底,中美共同敵人浮現(xiàn),臺(tái)媒評論亮了

      聞識
      2026-05-12 20:08:22
      普京前腳剛走,后腳就又有重磅人物要訪華?中方這盤棋下得夠大

      普京前腳剛走,后腳就又有重磅人物要訪華?中方這盤棋下得夠大

      小陸搞笑日常
      2026-05-22 01:10:30
      深度科普:陰莖骨是靈長物種標(biāo)配,最長超半米,人類為何失去它?

      深度科普:陰莖骨是靈長物種標(biāo)配,最長超半米,人類為何失去它?

      宇宙時(shí)空
      2026-05-20 17:00:12
      《主角》楚嘉禾嫁富豪生龍鳳胎才懂:易青娥贏了戲,卻輸了人生

      《主角》楚嘉禾嫁富豪生龍鳳胎才懂:易青娥贏了戲,卻輸了人生

      慫熊劇場
      2026-05-22 00:41:09
      嫪?dú)睉{是借什么讓趙姬那么癡迷?司馬遷晚年道出了其中的原因

      嫪?dú)睉{是借什么讓趙姬那么癡迷?司馬遷晚年道出了其中的原因

      千秋文化
      2026-01-20 20:42:41
      “黃仁勛的表外甥女”,也來了

      “黃仁勛的表外甥女”,也來了

      中國新聞周刊
      2026-05-21 21:00:12
      西方想不通:中國一省堪比一國,為何14億人死心塌地求統(tǒng)一?

      西方想不通:中國一省堪比一國,為何14億人死心塌地求統(tǒng)一?

      北緯的咖啡豆
      2026-04-07 17:24:22
      河北教師吳立峰去世,年僅36歲,原因公開:倒在課堂上,毫無征兆

      河北教師吳立峰去世,年僅36歲,原因公開:倒在課堂上,毫無征兆

      育學(xué)筆談
      2026-05-21 18:32:00
      媽媽帶2歲孩子送外賣后情緒崩潰:我憑什么背負(fù)這些還要養(yǎng)你!

      媽媽帶2歲孩子送外賣后情緒崩潰:我憑什么背負(fù)這些還要養(yǎng)你!

      映射生活的身影
      2026-05-20 16:55:01
      2026-05-22 05:20:49
      ScienceAI incentive-icons
      ScienceAI
      關(guān)注人工智能與其他前沿技術(shù)
      1307文章數(shù) 227關(guān)注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發(fā)布:售價(jià)38.99萬元

      頭條要聞

      女子高空跳傘遇難 原計(jì)劃今年訂婚

      頭條要聞

      女子高空跳傘遇難 原計(jì)劃今年訂婚

      體育要聞

      常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

      娛樂要聞

      反轉(zhuǎn)!金秀賢與金賽綸未成年時(shí)交往不實(shí)

      財(cái)經(jīng)要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      雷軍:YU7首戰(zhàn)Model Y八敗兩勝 輸給全球銷冠不丟人

      態(tài)度原創(chuàng)

      親子
      旅游
      房產(chǎn)
      教育
      時(shí)尚

      親子要聞

      嬰幼兒濕巾檢出“銻”,為什么說不清是否安全?

      旅游要聞

      景區(qū)NPC可以出彩但不能出格

      房產(chǎn)要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學(xué)之約

      教育要聞

      高考地理|氣候詳解

      今年夏天最流行的4組搭配,誰穿誰好看!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品久久久久久无码中文字幕| 三年在线观看免费完整版中文| 天干夜天天夜天干天2004年| 国产精品亚洲国际在线看| 亚洲综合熟女久久久30p| 18禁无遮挡羞羞污污污污免费| 中文在线中文资源| 中文字幕一二三产区区别| 99福利| 久久精品99久久香蕉国产| 不卡国产一区二区三区| 成人自拍偷拍| 日韩午夜激情成人福利| 中文字幕久久久人妻无码| 久久精品国产99精品国产2021| 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 | 午夜视频免费试看| 久久99精品国产麻豆| 人妻无码v| a级国产乱理论片在线观看ai| 亚洲欧洲精品成人久久曰| 高跟熟女中文字幕在线亚洲| 建始县| 精品无人区一区二区三区| 国产在线国偷精品免费看| 亚洲狠狠色丁香婷婷综合| 亚洲精品一区二区三区小| 欧美最猛性xxxxx大叫| 国产精品刺激对白在线| 亚洲AV中文无码乱人伦在线观看| 狠狠爱无码一区二区三区| 日韩无码真实干出血视频| 人妻大战黑人白浆狂泄| 日本高清激情乱一区二区三区| 免费**毛片在线播出| 中文字幕天天色色干干| 波多野结衣AV不卡无码| 中国熟妇毛多多裸交视频| 丰满少妇又爽又紧又丰满在线观看 | av无码久久久久不卡蜜桃| 国产精品十八禁在线观看|