<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed用化學思想搞AI,把DeepSeek-R1的腦回路拆成了分子結構

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      字節Seed都開始用化學思想搞大模型了——

      深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力?!



      傳統的大模型長思維鏈推理基本把AI的思考過程等同于線性結構。

      但很多情況下,后續的一個關鍵結論,可能需要回過頭去驗證早早提出的假設。

      CoT把這種非線性的依賴關系忽略了。

      字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。



      在這種分子拓撲中,三種鍵是怎么相互配合的?

      好的推理像分子結構

      團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的,然后給每一步之間的“跳躍”打上標簽。

      打完標簽發現,所有有效的長鏈思維里,其實就三種基礎動作來回組合。

      第一種叫深度推理,像共價鍵一樣結實。

      通俗來說就是類似“因為A所以B,因為B所以C”的硬邏輯推進。

      團隊在語義空間里做了一個很形象的量化分析,把模型的每一步思考都當成一個點,看這些點最后會散成多大一個圈。

      圈子越小,說明模型越沒跑題,思考越聚焦。

      結果發現,加上深度推理之后,這個散點圈直接縮水22%。

      深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。



      第二種叫自我反思,像氫鍵一樣有彈性但穩定。

      類似于“等等,我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”,能把后面的思考拐回來跟前面的節點呼應上,形成一種折疊感。

      團隊測了模型自我反思時的思維軌跡,把每一步思考都看成語義空間里的一個點,然后計算反思時會跳回多遠、落在哪里。

      發現81.72%的反思步驟,都會精準落回之前已經形成的靠譜思路區域里。

      還對比了反思前后的思維范圍,反思前,語義空間體積是35.2,反思后,直接壓縮到31.2。

      再看聚類結果就更清楚了,反思之后,同一類正確思路的點會緊緊抱團,而那些零散、跑偏的分支會被自動推開。

      也就是說,自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局,讓長鏈思考不再松散混亂。



      第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。

      這個就類似于“要不咱們試試這個角度”“有沒有另一種可能性”,在語義空間里找新的解題路徑。

      量化分析顯示,加上探索行為之后,模型在語義空間里的思維覆蓋范圍能從23.95擴大到29.22。

      雖然思路一打開穩定性就會下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優解里,真正找到全新的解題路線。

      研究發現,所有強推理模型的三種思維行為比例和轉換規律都高度一致,相關性超過0.9,說明有效長鏈推理存在通用的穩定拓撲結構。



      你可能覺得“共價鍵”“氫鍵”只是個比喻,但論文發現,這個比喻背后藏著嚴格的數學對應。

      在Transformer里,注意力權重的計算方式長這樣:



      眼熟嗎?這和統計力學里的玻爾茲曼分布一模一樣:



      如果把負注意力分數看作能量,那么注意力權重就是模型在語義空間里按“能量”高低選擇路徑的概率就是能量越低,被選中的概率越高

      論文進一步分析了三種行為對應的“注意力能量”。

      • 深度推理通常發生在相鄰步驟之間,能量最低;
      • 自我反思會跳回較遠的步驟,能量中等;
      • 自我探索跳得更遠,能量最高.

      這就解釋了為什么強推理模型的三種鍵比例如此穩定。

      因為模型的注意力機制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對應了不同距離下的能量層級。

      語義同分異構體和智能熵減

      接著團隊還拋出了語義同分異構體的概念。

      這詞兒是借的化學,同樣的分子式,原子連接方式不同,就能搞出性質完全不同的物質。

      放到推理里就是,同樣的題目,同樣的概念點,用不同的”化學鍵“組合去解,出來的推理鏈條可以完全不一樣,但都能解對。



      但不是所有異構體都適合拿來教模型。

      這里就要引入一個關鍵概念熵減

      在熱力學里,孤立系統總是自發走向混亂(熵增),而一個有效的長鏈推理過程,本質上就是在語義空間里不斷降低不確定性——

      從一堆可能的方向中,逐步收斂到唯一正確的答案。這個過程就是“熵減”。

      而“注意力能量”機制,正是模型實現熵減的工具。

      模型的注意力天然偏好能量更低的路徑。

      當深度推理(低能量)被反復選中,反思(中等能量)把前后邏輯折疊起來,探索(高能量)偶爾探路但不喧賓奪主,整個系統的“推理熵”就會快速下降,邏輯火速收斂。

      這如論文里說的,只有那些能推動熵快速降低的“化學鍵”組合,才是模型真正能學會、能持續進化的穩定態。

      這在實驗中有個很典型的現象,從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡,語義層面的內容相似度高達95%,但混在一起訓練,模型反而崩潰了。

      這說明,長鏈推理的關鍵是思路結構必須穩定、統一,模型才能學得會。

      MoLE-Syn:從零合成穩定推理結構

      發現問題就要解決問題。

      基于這一整套發現,團隊搞了個叫MoLE-Syn的方法,來從零合成穩定的推理結構。

      具體操作就兩步。

      第一步,從強推理模型(比如R1、QwQ、gpt-OSS)的推理鏈里,抽出一張行為轉移概率圖。

      這張圖里每個節點是一種推理行為(化學鍵),每條邊是從一個行為跳到另一個行為的概率。



      第二步,拿著這張圖,讓普通的指令模型照著圖上畫的概率去生成推理鏈。

      用這個方法從零合成的訓練數據,喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。



      而且這么做有一個大好處就是成本低。只要拿到那張行為轉移圖,普通模型就能自己生產合格的長鏈推理數據。

      團隊把用MoLE-Syn初始化過的模型拿去做強化學習,發現跑起來還特別穩。

      相比直接用蒸餾數據初始化的模型,MoLE-Syn版的在RL過程中收益持續增長,震蕩也小得多。



      這說明一開始植入的思維結構夠穩,后面的強化學習就不會出現邏輯偏移。

      這項研究的負責人為字節Seed算法專家黃文灝,曾在微軟亞洲研究院擔任研究員。

      第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光

      合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。

      不得不說,這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。

      給大模型推理這個卷得飛起的領域,開了個挺清爽的新腦洞。

      論文地址:https://arxiv.org/abs/2601.06002

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      豆包,你這么垃圾,怎么好意思收費?

      豆包,你這么垃圾,怎么好意思收費?

      崇曉視界
      2026-05-04 17:24:53
      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      全景體育V
      2026-05-05 18:28:04
      鄭麗文突發嚴正聲明

      鄭麗文突發嚴正聲明

      剪劇課代表
      2026-05-05 14:51:20
      吳宜澤:奧沙利文在決賽關鍵時刻給我發短信,讓我試著打出自己的風格

      吳宜澤:奧沙利文在決賽關鍵時刻給我發短信,讓我試著打出自己的風格

      懂球帝
      2026-05-05 21:25:07
      強詞奪理!“中國不應獲得最先進芯片,美國才應領先”

      強詞奪理!“中國不應獲得最先進芯片,美國才應領先”

      觀察者網
      2026-05-05 18:52:05
      5.6凌晨女團八強對陣,國乒VS瑞典,德國大戰神秘之師,勝臺對抗

      5.6凌晨女團八強對陣,國乒VS瑞典,德國大戰神秘之師,勝臺對抗

      郝小小看體育
      2026-05-06 02:48:01
      瀑布秋千繩索斷裂致游客墜亡,四川華鎣:涉事公園已停業整頓

      瀑布秋千繩索斷裂致游客墜亡,四川華鎣:涉事公園已停業整頓

      界面新聞
      2026-05-05 20:05:10
      全國大清查全面鋪開!聚焦兩大領域,3000元即立案,查到必重罰!

      全國大清查全面鋪開!聚焦兩大領域,3000元即立案,查到必重罰!

      職場資深秘書
      2026-05-05 18:20:53
      血色檔案:決命臨津江,朝鮮戰爭最悲壯一戰,志愿軍5個師戰死

      血色檔案:決命臨津江,朝鮮戰爭最悲壯一戰,志愿軍5個師戰死

      史政先鋒
      2026-05-05 12:56:52
      剛剛,全體默哀!已致26死61傷!自5月4日19時起,長沙市所有煙花爆竹生產企業,全面停產整頓

      剛剛,全體默哀!已致26死61傷!自5月4日19時起,長沙市所有煙花爆竹生產企業,全面停產整頓

      浙江之聲
      2026-05-05 15:50:01
      又一保險圈騙局曝光:銷冠任曉敏被警方帶走,涉案金額高達4億元

      又一保險圈騙局曝光:銷冠任曉敏被警方帶走,涉案金額高達4億元

      天天熱點見聞
      2026-05-05 19:59:02
      國際乒聯親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

      國際乒聯親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

      以茶帶書
      2026-05-05 17:10:10
      21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

      21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

      火山詩話
      2026-05-05 10:31:47
      四川“瀑布秋千”繩索斷裂致一女游客墜亡,家屬已確認解決方案

      四川“瀑布秋千”繩索斷裂致一女游客墜亡,家屬已確認解決方案

      九方魚論
      2026-05-05 22:07:24
      吳宜澤斯諾克世錦賽奪冠后首次發文:我會永遠真誠的真正的完全的愛著你

      吳宜澤斯諾克世錦賽奪冠后首次發文:我會永遠真誠的真正的完全的愛著你

      揚子晚報
      2026-05-05 14:00:06
      0-1不敵東南亞勁旅,中國男足遭遇亞洲杯開門黑,晉級形勢嚴峻

      0-1不敵東南亞勁旅,中國男足遭遇亞洲杯開門黑,晉級形勢嚴峻

      側身凌空斬
      2026-05-06 02:26:35
      隨著吳宜澤18-17險勝墨菲,世錦賽奪冠!最新世界排名:趙心童第3

      隨著吳宜澤18-17險勝墨菲,世錦賽奪冠!最新世界排名:趙心童第3

      球場沒跑道
      2026-05-05 05:43:20
      女鄰居讓我幫她接電線,黑暗中我們抱到了一起,但她沒有松手

      女鄰居讓我幫她接電線,黑暗中我們抱到了一起,但她沒有松手

      千秋文化
      2026-05-04 18:34:54
      出任主教練,王楠正式回歸,體育局官宣,級別年薪曝光

      出任主教練,王楠正式回歸,體育局官宣,級別年薪曝光

      乒乓網國球匯
      2026-05-06 00:04:29
      嵩山標語牌上寫“爬不動了吧哈哈哈”,因有人質疑其“嘲諷游客”被換下,網友惋惜:原標語生動有梗

      嵩山標語牌上寫“爬不動了吧哈哈哈”,因有人質疑其“嘲諷游客”被換下,網友惋惜:原標語生動有梗

      天津人
      2026-05-05 18:57:00
      2026-05-06 03:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12573文章數 176461關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      手機
      健康
      游戲
      家居
      親子

      手機要聞

      小米18再曝光,小折疊手機產品線已暫停

      干細胞治燒燙傷面臨這些“瓶頸”

      全新類魂3A美女角色盔甲太性感!外媒銳評像劣質手游

      家居要聞

      靈動實用 生活藝術場

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看91精品国产不卡| 丁香五月网久久综合| 国产主播精品福利19禁vip| 亚洲男女羞羞无遮挡久久丫| av无码天堂一区二区三区| 日本一区二区中文字幕| 人妻无码免费系列| 亚洲成a人片在线观看中文| 久久人与动人物A级毛片| 亚洲国产一二三精品无码| 中文有无人妻vs无码人妻激烈| 欧美z0zo人禽交另类视频| 成人无码区免费视频网站| 国产精品制服丝袜无码| 久久成人影院精品777| 欧美ww| 国产精品爆乳在线播放第一人称| 中文国产日韩欧美二视频| 人妻少妇无码中文幕久久| 精品成人av| 成人GAV免费播| 在线视频夫妻内射| 你懂的在线视频一区二区| 操碰网| 欧美日韩精品一区二区视频| 丁香色婷婷国产精品视频| 国产性色的免费视频网站| 高清免费毛片| 69国产成人综合久久精品| 欧美日本一区二区视频在线观看| 亚洲av国产成人精品区| 男女动图视频网站在线播放| 少妇无码一区二区三区免费| 粉嫩av一区二区三区粉嫩| 五月六月伊人狠狠丁香网| 久久久久久成人毛片免费看| 婷婷色怡春院| 波多野结衣绝顶大高潮| 手机看片1024精品日韩| 天天爽夜夜爽夜夜爽精品视频| 日韩一区二区在线看精品|