<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Mythos架構被22歲小伙“逆推”開源了!MoE和注意力借鑒DeepSeek

      0
      分享至

      夢晨 發自 凹非寺
      量子位 | 公眾號 QbitAI

      聽說Mythos太危險被封印?有人反手就給他“重建”并開源了。

      OpenMythos,整合了公開研究和目前對Claude Mythos架構的主流推測。



      OpenMythos實現了一個帶有MoE路由機制的循環深度Transformer(Recurrent-Depth Transformer ,RDT),通過跨專家的權重共享和條件計算來實現迭代深度。

      已有研究證實,這種架構僅用1半參數,就能獲得與傳統模型同等的效果。

      不堆參數,堆循環

      把這些碎片拼在一起的人叫Kye Gomez,22歲,Swarms智能體框架創始人。



      他設計的RDT架構有三個核心點:

      • 讓同一組權重最多反復跑16遍
      • 每次走不同的專家路徑
      • 推理全程在潛在空間完成。

      三者合力,讓一個問題“想更多遍”比堆參數更高效。

      過去兩年,AI行業的標準打法是堆疊上百層不同的Transformer層,每層學到不同的東西,參數量直接爆炸。

      RDT不用上百層,只用幾層,最多反復循環跑16遍,每一遍都基于前一輪的結果繼續計算。



      同一個東西跑16遍,那不是浪費算力嗎?

      RDT的回答是不會重復,因為每次循環激活的是不同的“專家”。

      循環塊內部用了混合專家層,MoE路由器在每次循環中激活不同的專家子集。

      MoE的設計上借鑒了DeepSeekMoE:大量細粒度路由專家,加少量始終在線的共享專家。

      Gomez把這套設計總結成一句話:

      MoE提供領域知識的廣度,循環提供推理的深度。

      廣度和深度都有了,還需要一套穩定性機制保證循環不會跑飛。

      來自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩定循環注入讓每輪不發散。

      實驗中用770M參數的RDT追平了1.3B參數的標準Transformer。

      參數量少了近一半,效果一樣。



      最后一塊拼圖是連續潛在空間推理。16輪推理全部在hidden state向量中完成,不生成任何中間token。直到最后一輪循環結束,才輸出答案。

      這和Chain-of-Thought完全不同。CoT是“想一步,寫一步,再想一步,再寫一步”,中間token全部暴露給人類閱讀。

      RDT是“想完16遍才說一句話”,推理過程完全內化。



      Kye還引用了俄亥俄州立大學的一篇論文,對循環Transformer架構做了兩個關鍵實驗。



      第一個:系統性泛化。

      訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,標準Transformer直接失敗。

      這證明循環不是重復計算,是真正的”更深層思考”。

      第二個:深度外推。

      訓練時只教了20跳推理鏈,測試時直接給30跳。

      循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。

      這些結果說明當前大模型在預訓練中已經記住了大量事實,瓶頸在于知識組合。

      它們無法將已知事實串聯起來回答新穎問題。循環似乎免費解鎖了這種組合能力。

      如果這些結論成立,Scaling的主流將從”訓練更大的模型”轉向“讓現有模型在推理時多想幾遍”。

      有了這些研究結果,Anthropic的Mythos是否真的用了這套架構,似乎已經不重要了。

      對循環Transformer的猜想已經吸引了來自學術界的大量目光。

      更多理論和實驗驗證正在路上。

      GitHub:
      https://github.com/kyegomez/OpenMythos#the-central-hypothesis

      參考鏈接:
      [1]
      https://x.com/KyeGomezB/status/2045660378844024994
      [2]
      https://arxiv.org/abs/2604.07822
      [3]
      https://arxiv.org/abs/2604.12946

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      0-1!2-1!瘋狂一夜,維拉爆冷落敗,布拉加補時絕殺,水晶宮獲勝

      0-1!2-1!瘋狂一夜,維拉爆冷落敗,布拉加補時絕殺,水晶宮獲勝

      足球狗說
      2026-05-01 05:14:38
      4月新勢力銷量出爐:零跑7萬臺斷層領先,深藍、極氪等5家破3萬臺,新能源滲透率超60%

      4月新勢力銷量出爐:零跑7萬臺斷層領先,深藍、極氪等5家破3萬臺,新能源滲透率超60%

      紅星資本局
      2026-05-01 18:40:10
      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

      蔥哥說
      2026-04-30 21:24:28
      中方表示遺憾,不得不投棄權票

      中方表示遺憾,不得不投棄權票

      極目新聞
      2026-05-01 13:03:40
      山西農婦慘死田間,鄰居不吃不喝躲藏6天,被抓后笑談行兇過程

      山西農婦慘死田間,鄰居不吃不喝躲藏6天,被抓后笑談行兇過程

      莫地方
      2026-04-28 01:10:03
      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      橙星文娛
      2026-04-17 13:19:56
      143頁!人大知名教授被舉報:名人之后、9個愛人,聊天內容流出

      143頁!人大知名教授被舉報:名人之后、9個愛人,聊天內容流出

      溫柔看世界
      2026-04-30 11:32:33
      中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

      中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

      素衣讀史
      2026-04-29 21:55:54
      暴雨大暴雨,要來了!

      暴雨大暴雨,要來了!

      中國日報
      2026-05-01 14:11:05
      轉走儲戶千萬的銀行員工已被采取措施,銀行不愿兜底想等司法結論

      轉走儲戶千萬的銀行員工已被采取措施,銀行不愿兜底想等司法結論

      映射生活的身影
      2026-05-01 15:23:04
      施瓦辛格私生子首奪健美冠軍!保姆所生,長得像爹,肌肉更是復刻

      施瓦辛格私生子首奪健美冠軍!保姆所生,長得像爹,肌肉更是復刻

      照見古今
      2026-04-12 19:26:48
      放大招?!長沙地鐵計劃近期新建280公里!

      放大招?!長沙地鐵計劃近期新建280公里!

      星耀長沙
      2026-05-01 13:58:00
      冠軍相!成都蓉城新賽季中超已領先7分:有望創中國足球新紀錄

      冠軍相!成都蓉城新賽季中超已領先7分:有望創中國足球新紀錄

      邱澤云
      2026-05-01 23:44:50
      他是水貨探花?季后賽得分全隊第1,籃板第1,比錫安莫蘭特強多了

      他是水貨探花?季后賽得分全隊第1,籃板第1,比錫安莫蘭特強多了

      球毛鬼胎
      2026-05-01 21:10:06
      她和孩子沒有遇害,活得很好!

      她和孩子沒有遇害,活得很好!

      劉娜
      2026-04-29 20:49:02
      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      零跑7.1萬臺,理想3.4萬臺,小米超3萬臺!多家車企公布4月銷量!

      小南看車
      2026-05-01 15:12:55
      一場0-1!利好熱刺保級:維拉歐聯杯爆冷聯賽或留力,西漢姆難了

      一場0-1!利好熱刺保級:維拉歐聯杯爆冷聯賽或留力,西漢姆難了

      體育知多少
      2026-05-01 07:04:03
      目前的中國股市,如果想賺錢,就買這兩種股票,賺到盆滿缽滿!

      目前的中國股市,如果想賺錢,就買這兩種股票,賺到盆滿缽滿!

      股經縱橫談
      2026-05-01 20:39:27
      鐵路員工站臺抽煙,真實原因曝光,難怪舉報女子遭網暴

      鐵路員工站臺抽煙,真實原因曝光,難怪舉報女子遭網暴

      奇思妙想草葉君
      2026-04-30 17:36:43
      英超專家小組認定加布頂牛哈蘭德屬于暴力行為,本應吃到紅牌

      英超專家小組認定加布頂牛哈蘭德屬于暴力行為,本應吃到紅牌

      懂球帝
      2026-05-01 21:10:11
      2026-05-02 00:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12567文章數 176458關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      頭條要聞

      美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      本地
      家居
      教育
      健康
      親子

      本地新聞

      用青花瓷的方式,打開西溪濕地

      家居要聞

      靈動實用 生活藝術場

      教育要聞

      五一首日熱度爆棚!秦淮區中招會傳來最新消息!

      干細胞治燒燙傷面臨這些“瓶頸”

      親子要聞

      寶寶會爬和不會爬,有哪些差別?“不爬就走”未必是好事

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩有码中文字幕一区二区| 亚洲aⅴ久久久噜噜噜噜| 久久久久青草线蕉亚洲麻豆| 黄色亚洲一区二区在线观看| 美女色在线观看| 亚洲欧美精品伊人久久| 久久久久女人精品毛片| 最新偷拍一区二区三区| 91激情| 精品久久久久中文字幕加勒比| 在线视频?制服?中文| 无码人妻丰满熟妇啪啪| 三级网站视频在在线播放| 全部免费毛片在线播放| 亚洲国产综合AV| 久久久99精品成人片中文字幕| 国产又粗又大又爽91嫩草 | 免费啪啪网址| 国产一区二区在线激情往| 高清无码一区| 国产av亚洲精品久久久久李知恩| 国产目拍亚洲精品二区| 无码专区—va亚洲v天堂| 精品亚洲欧美中文字幕在线看| 中文字幕无码一区二区免费| 色二区| 亚洲日产专区| 国产欧美日韩亚洲精品区2345| 99在线精品日韩一区免费国产| 亚洲无码久久久久| 国产精品国产亚洲看不卡| 顶级熟女在线| 亚洲av肉欲一区二区| 2020国产精品永久在线观看| 欧美精品色婷婷五月综合| 免费看一区二区三区在线视频 | 国产成人精品aa毛片| 成人影院免费观看在线播放视频| 国产91对白在线观看| 亚洲无码丝袜熟女| 无码中文字幕av免费放|