<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不用一個字,MIT團隊讓細胞自動機教會了大模型推理

      0
      分享至

      1970 年,數學家約翰·康威發明了“生命游戲”(Game of Life)。在一塊無限延伸的棋盤上,每個方格非生即死,遵循幾條極其簡單的規則:活細胞如果鄰居太少就會孤獨而死,太多則因擁擠而亡;死細胞恰好有三個活鄰居就會復活。

      沒有人下棋,沒有人操控,但這些簡單規則跑起來之后,屏幕上會涌現出滑翔機、脈沖槍、甚至可以模擬圖靈機的復雜結構。半個多世紀以來,這個實驗一直被視為復雜性科學的經典演示,展示簡單規則如何生成無窮復雜的行為。


      圖丨康威的“生命游戲”(來源:WikiPedia)

      沒人想過這些東西能教 AI 說話。直到現在。

      MIT Improbable AI 實驗室 Pulkit Agrawal 團隊在今年 3 月發表了一篇論文,提出了一個聽起來相當不合常理的想法:用類似“生命游戲”的細胞自動機生成的數據,去預訓練大型語言模型。這些數據不包含任何文字、任何語義,只是一個 12×12 網格上像素不斷演化的軌跡。


      圖丨Pulkit Agrawal(來源:MIT CSAIL)

      但實驗結果顯示,在這些純粹的“動態圖案”上訓練過的模型,在隨后的自然語言學習中表現得更好,困惑度(perplexity)降低了最多 6%,收斂速度加快了最多 1.6 倍。更讓人意外的是,僅用 1.64 億個細胞自動機 token 做預訓練,效果竟然超過了用 16 億個真實英語文本(來自 Common Crawl 數據集 C4)做同樣的預訓練。

      這項工作的核心思路可以用一句話概括:語言模型真正需要學習的,可能不是語言本身,而是語言背后的計算結構。


      圖丨NCA 預預訓練到語言預訓練的概覽(來源:arXiv)

      研究團隊使用的是“神經細胞自動機”(Neural Cellular Automata, NCA),這是經典細胞自動機的一種推廣。傳統的細胞自動機(比如康威的生命游戲)使用固定的規則,而 NCA 把規則替換成了一個小型神經網絡,具體來說是一個 3×3 卷積加上一層 MLP。

      每次生成訓練數據時,研究者隨機初始化這個網絡的權重,等于隨機抽取一條全新的動力學規則,然后讓它在網格上跑出一段時空演化軌跡。這些軌跡被切割成 2×2 的圖像塊,映射為 token 序列,再用標準的下一個 token 預測任務來訓練 transformer。

      換句話說,模型拿到的每一條序列,都來自一個它從未見過的規則。要預測下一個 token,它必須在上下文中推斷出這條隱藏規則,然后應用它。這和語言模型在真實文本上做的事情存在某種深層對應。

      斯坦福大學馬騰宇與 Percy Liang 團隊在 2022 年的工作中就曾論證,下一個 token 預測本質上是一種隱式的貝葉斯推斷:模型從已有的文本中推斷出潛在的“生成概念”,再據此預測接下來會出現什么。NCA 訓練把這個過程提純了。自然語言中混雜著語義快捷方式和共現先驗,模型可以“投機取巧”;而 NCA 數據中沒有任何語義可以依賴,每一個 token 都在迫使模型做純粹的規則推斷。

      這套方法被稱為“pre-pre-training”,即在正式的語言預訓練之前,先用合成數據做一輪“預預訓練”。

      訓練流程分三步走:先在 NCA 數據上訓練 transformer 的非嵌入層權重,再在自然語言語料(網頁文本、代碼或數學文本)上做標準預訓練,最后是針對具體任務的微調。研究者測試了三個下游語料庫,分別是 OpenWebText(網頁文本,約 90 億 token)、OpenWebMath(數學文本,約 40 億 token)和 CodeParrot(代碼,約 130 億 token),在所有三個領域上都觀察到了持續的改善。


      (來源:arXiv)

      在推理基準測試上,收益同樣可見。GSM8K 數學推理測試中,NCA 預訓練將 pass@1 從 3.8% 提升到 4.4%;HumanEval 代碼生成測試中,pass@1 從 6.8% 提升到 7.5%;BigBench-Lite 綜合推理測試中,pass@4 從 25.9% 躍升至 36.5%。

      絕對數字不算大,這些畢竟是 16 億參數的模型,而非千億級的商用系統,但對照實驗的一致性指向了一個清晰的信號:從非語言數據中習得的某些東西,確實在幫助模型處理語言任務。

      那么,到底是什么被轉移了?研究者做了一個拆解實驗:在 NCA 預訓練完成后,選擇性地重新初始化模型的不同組件(注意力層、MLP 層、LayerNorm 層),然后觀察下游表現的變化。結果非常明確:重新初始化注意力權重造成的性能損失最大,遠超其他組件。這意味著注意力層承載了最多的可遷移結構。

      MLP 層的效果則因領域而異:在 OpenWebText 上,保留 NCA 階段的 MLP 權重反而會干擾語言學習;但在 CodeParrot 上,影響可以忽略不計。

      這一發現和最近 Jelassi 等人(2025 年)對混合專家(MoE)架構的分析形成了一定程度的呼應,那項工作表明擴大 MLP 參數主要增強的是記憶能力而非推理能力。兩相對照,一幅功能分工的圖景浮現出來:注意力層負責學習通用的依賴追蹤和上下文推斷機制,MLP 層則傾向于存儲特定領域的模式和統計規律。正因如此,注意力層從 NCA 到語言的遷移是“萬金油”式的,而 MLP 的遷移效果取決于源域和目標域之間的匹配程度。

      研究中另一個值得關注的發現有關于復雜性匹配。團隊使用 gzip 壓縮率作為 NCA 軌跡復雜性的度量,壓縮率低意味著數據更有規律、更可預測,壓縮率高則意味著更豐富的時空結構。他們把 NCA 數據按壓縮率分成幾個區間(20-30%、30-40%、40-50%、50% 以上),分別測試各區間對不同下游領域的遷移效果。

      結果表明,網頁文本和數學文本從高復雜度 NCA(50%+ 壓縮率)中受益最大,而代碼領域的最優區間在中等復雜度(30-40%)。有意思的是,這恰好與目標語料自身的復雜度特征對齊,OpenWebText 和 OpenWebMath 的 gzip 壓縮率在 60-70%,CodeParrot 則只有 32%。

      這意味著,合成數據不是“越多越好”或“越復雜越好”,而是需要與目標領域的計算特征相匹配。研究者稱之為“domain-targeted data design”,一種自然語言訓練中不存在的調控杠桿。你無法輕易改變英語的統計特性,但你可以調整 NCA 的規則空間、字母表大小、復雜度分布,讓它精確匹配你想要訓練的能力。

      這項工作的理論背景可以追溯到幾條學術脈絡。一條是 MIT 同校 Phillip Isola 團隊在 2024 年提出的“柏拉圖表征假說”(Platonic Representation Hypothesis),核心觀點是不同模態、不同架構的 AI 模型,隨著規模增大,內部表征正在趨同,仿佛都在逼近對現實世界的某種共同的統計模型。如果這個假說成立,那么從非語言數據中能學到與語言相通的表征,就不那么令人驚訝了。

      另一條脈絡來自 Finzi 等人(2026 年)提出的“epiplexity”概念,它指出對于計算能力有限的觀察者而言,簡單的確定性過程也能生成需要學習才能把握的結構信息。經典信息論認為確定性變換不能增加信息量,但那假設的是全知全能的觀察者;對于一個有限容量的 transformer 來說,生命游戲中涌現的滑翔機和碰撞圖案,確實包含了它必須“理解”才能預測的東西。

      關于“為什么 1.6 億 token 的自動機數據能勝過 16 億 token 的英語”,研究者給出的解釋是:在遠低于計算最優規模的 token 預算下(Chinchilla 定律建議 16 億參數模型需要約 320 億 token),自然語言訓練主要在學習淺層的局部模式,比如詞匯搭配、句法片段這些“表面功夫”。

      而 NCA 數據由于每條序列都對應一個獨特的動力學規則,多樣性極高,冗余性極低,每個 token 都在訓練模型做深層的規則推斷。加之 Abbas 等人(2023 年)的研究已經表明大規模自然語言數據集內部存在大量語義冗余,NCA 在 token 效率上的優勢就變得可以理解了。

      不過,目前這個實驗的規模還限于 16 億參數,距離工業級的千億參數模型還有數量級的差距。NCA 預訓練的增益隨模型規模增大而遞減,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,這個趨勢在更大規模上是否會完全消失,目前還不清楚。

      此外,對于較大字母表(n=10, 15)的 NCA,收益在一定 token 預算后出現飽和甚至下降,說明簡單地“生成更多 NCA 數據”并不是萬能解法。如何從理論上指導合成數據的生成,使其精確匹配目標領域的計算特征,仍然是一個開放的研究問題。

      但研究者們的期望不止于此。論文的結尾寫道,他們的最終愿景是完全用干凈的合成數據做預訓練,只在最后階段用少量經過精心篩選的自然語言來獲取語義。當前的“預預訓練”框架是這個范式的早期原型。

      參考資料:

      1.https://arxiv.org/pdf/2603.10055

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      車臣部隊遭到開戰以來最重損失!烏克蘭襲擊俄最大炸藥廠

      項鵬飛
      2026-05-01 21:13:25
      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      臺灣地區恐怕要大洗牌!島內正流傳著一個幾乎板上釘釘的預判

      安安說
      2026-05-01 20:44:53
      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      新婚即翻車?阿Sa剛官宣結婚,老公被扒交友app約網紅,細節太尷尬

      攬星河的筆記
      2026-04-30 15:58:00
      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      季麟連事件反轉!藍營正式對趙少康出手,朱立倫陣營緊急改口

      阿離家居
      2026-05-01 20:55:22
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      蔥哥說
      2026-04-30 21:24:28
      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      讓2追3!成都蓉城客場上演驚天逆轉,補時連進兩球擊敗上海申花

      紅星新聞
      2026-05-01 22:55:32
      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      人到晚年才醒悟,每月3000退休金,別指望子女養老,親情也很現實

      烙任情感
      2026-04-30 10:51:15
      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      調查發現:每天都走路的人,大多到了72歲后,身體或有6種變化

      觀星賞月
      2026-05-01 20:41:41
      東莞口腔醫院拒絕改名!

      東莞口腔醫院拒絕改名!

      聽心堂
      2026-04-29 10:35:17
      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      59歲歌手張宇患罕見病20年,妻子十一郎首度公開內情:無法徹底根治,嚴重到不唱歌連說話都可能出問題

      芒果都市
      2026-05-01 17:45:29
      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      弘一法師:當你開始冷漠、獨來獨往、殺伐果斷——恭喜,你重生了

      杏花煙雨江南的碧園
      2026-04-30 13:15:03
      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      客場亮劍,全員開火!山東男籃16分勝遼寧,大比分1-1挺進決勝局

      老周觀體育
      2026-05-01 22:48:38
      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      0-1,中國男足不敵歐洲勁旅,獲得意大利國家之杯第8名

      俯身沖頂
      2026-05-01 19:10:11
      炸了!美伊戰火重開,美軍航母突然遭襲!

      炸了!美伊戰火重開,美軍航母突然遭襲!

      大嘴說天下
      2026-04-30 19:07:44
      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      湯杯戰報:連爆大冷世界第2第6都輸了,梁王力助國羽大分2-0

      求球不落諦
      2026-05-01 18:07:27
      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      小南看車
      2026-05-01 15:12:55
      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      歌手張宇罹罕病消失8年!妻子曝近況,愿折壽換他痊愈

      郭茂辰海峽傳真
      2026-05-01 22:11:00
      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      掘金最該送走他!1.2億場均8+3,約基奇體系的產物,都不如肯納德

      你的籃球頻道
      2026-05-01 14:36:23
      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      洛陽白馬寺發布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預約門票,導致無法正常入寺,切勿輕信

      極目新聞
      2026-04-29 18:10:47
      2026-05-01 23:20:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16650文章數 514912關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      手機
      家居
      親子
      教育
      時尚

      手機要聞

      曝一加和realme合并,OPPO新成立子系列事業部

      家居要聞

      靈動實用 生活藝術場

      親子要聞

      弟弟嘴饞想吃藍莓,姐姐今天滿足他,不花錢免費吃真過癮

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      這個夏天,彩色褲子又火了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产黄a三级三级三级老年人| 萨嘎县| 一区二区三区国产亚洲自拍| 性爱国产| 99riav精品免费视频观看| 九九视频热最新在线视频| 多人乱p视频在线免费观看| 国产ssss在线观看极品| 无码人妻精品一区二区三区蜜桃| 一区二区国产精品精华液| 精品成人AV一区二区三区| 国产自在自线午夜精品| 久久综合色之久久综合色| 不卡动漫av| 国产精品国产三级国快看| 国产日韩精品在线视频| 爱爱网官网入口登录| 欧洲熟妇精品视频| 一本色道久久—综合亚洲| 成人AV一区二区三区| 国内老熟妇对白hdxxxx| 制服丝袜先锋影音| 久久精品国产水野优香 | 自拍偷拍日韩| 久久99精品久久久久久不卡| 天天色日韩| 永久免费精品视频在线观看| 漂亮人妻被强中文字幕久久| 未满十八勿入av网免费| 蜜臀av性久久久久蜜臀aⅴ| 亚洲影视在线观看| 日韩精品国产另类专区| 国产精品调教视频一区| 国产在线拍偷自揄拍精品| 国产精品人妻一区二区高| 91午夜福利在线观看精品| cosplay女黄网站| 成全影视大全在线观看| 本道无码一区二区久久激情| 亚洲av口爆深喉高清| 中文无码高潮到痉挛在线视频 |