<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

      0
      分享至

      我有點好奇一個問題,

      讓現階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

      可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

      現在傳統的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


      這樣會占大量的顯存,計算量也會平方級增長。

      這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

      昨天,面壁還發了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

      該快的地方就得快,該準的地方必須準。


      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      在他們的SALA架構里,

      一部分模塊專門負責快,

      另一部分模塊專門負責準。

      結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩穩跑通了。


      我們來看一個具體的例子,

      模型在處理百萬字小說時,內部發生了什么。

      每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

      同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

      這就是為什么傳統架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


      這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

      但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

      來看看SALA的幾個關鍵的設計,

      首先是兩種模塊的分工。

      線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

      SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經過大量實驗找出的效率與精度之間的平衡點。


      在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

      怎么保證它們能好好合作,不是互相干擾呢?

      SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

      模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


      最后是模型怎么來的。

      這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

      面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續訓練。


      這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

      這個訓練過程也很有講究,分為架構轉換,穩定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協同。

      我們來看效果數據。

      這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數據,對比的是同等規模的全注意力模型Qwen3-8B,我挑幾個關鍵數據,

      在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

      這個提升完全來自架構本身的優勢。


      在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩穩地跑到1M,也就是一百萬token的長度。


      但我是個挑剔的人,

      用了會丟信息的注意力,模型是不是沒腦子了?

      這也是這篇工作最有價值的部分。實驗數據顯示,MiniCPM-SALA在數學,代碼,知識問答這些常規能力上,和同規模的全注意力模型基本持平,沒有出現明顯的性能折損。


      傳統的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯系。

      為了推動這個架構落地,面壁聯合了SGLang和NVIDIA,發起了一個稀疏算子加速大獎賽SOAR。


      SALA雖然在架構上做好了,

      但底層的計算算子,相比已經被優化到極致的FlashAttention,還有很大提升空間。

      這個比賽就是邀請全球的開發者,一起來把SALA這臺新引擎的性能,壓榨到極限。

      平時測評模型測多了,

      都是Coding,Coding,Coding,

      我很高興看到還不斷能有新的架構,

      新的算法出現,

      就算是DeepSeek這一年,

      更新模型的同時也沒停過公開自己的算法,

      面壁過去這一年也是不停發端側模型的工作,

      我覺得就這速度都不需要五年十年,

      可能過個兩三年,

      在小天才手表上也能跑個大大大模型。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      心臟決定壽命?勸告中老年別太節儉,多吃這3樣,心臟越吃越年輕

      心臟決定壽命?勸告中老年別太節儉,多吃這3樣,心臟越吃越年輕

      芹姐說生活
      2026-05-11 13:29:00
      金價、銀價大跌才剛開始

      金價、銀價大跌才剛開始

      東方豪俠
      2026-05-16 17:30:58
      2-4無緣西決!華子把話挑明,他真敢拒絕2年1.216億美金頂薪

      2-4無緣西決!華子把話挑明,他真敢拒絕2年1.216億美金頂薪

      世界體育圈
      2026-05-16 16:58:53
      莊則棟臨終前放心不下日本妻子,眼噙淚水:你沒有醫保,沒有工資

      莊則棟臨終前放心不下日本妻子,眼噙淚水:你沒有醫保,沒有工資

      抽象派大師
      2026-05-12 20:36:26
      一個人被鎖死在底層的原因:羞恥心太重

      一個人被鎖死在底層的原因:羞恥心太重

      洞見
      2026-05-15 10:19:10
      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      濮陽17歲小伙找到!遺體在河里漂8天,知情人發聲,自殺恐是必然

      奇思妙想草葉君
      2026-05-15 11:09:57
      中美峰會,盧秀燕表態,鄭麗文發聲,島內支持統一民調人數驚人

      中美峰會,盧秀燕表態,鄭麗文發聲,島內支持統一民調人數驚人

      DS北風
      2026-05-15 17:55:21
      兩月蒸發378億,盧比自由落體:當年韓國那場噩夢,離印度不遠了

      兩月蒸發378億,盧比自由落體:當年韓國那場噩夢,離印度不遠了

      鍋鍋愛歷史
      2026-05-16 06:43:22
      俄羅斯圍城1500天仍未拿下!馬拉托克馬奇卡保衛戰破紀錄

      俄羅斯圍城1500天仍未拿下!馬拉托克馬奇卡保衛戰破紀錄

      項鵬飛
      2026-05-14 17:29:57
      慘烈,25萬投資者抄底被套,8個一字跌停,連續3天放量依然不開板

      慘烈,25萬投資者抄底被套,8個一字跌停,連續3天放量依然不開板

      丁丁鯉史紀
      2026-05-16 17:27:38
      只有造假,才能“杰青”

      只有造假,才能“杰青”

      必記本
      2026-05-16 09:42:33
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      黑化的法國隊!世界杯26人名單:21人有非洲血統,姆巴佩都顯白了

      黑化的法國隊!世界杯26人名單:21人有非洲血統,姆巴佩都顯白了

      阿晞體育
      2026-05-15 14:39:29
      5月16日俄烏:俄羅斯不得不修改計劃了

      5月16日俄烏:俄羅斯不得不修改計劃了

      山河路口
      2026-05-16 18:39:14
      森林狼出局后,NBA奪冠概率更新!騎士僅1.4%墊底馬刺飆升至22.8%

      森林狼出局后,NBA奪冠概率更新!騎士僅1.4%墊底馬刺飆升至22.8%

      鍋子籃球
      2026-05-16 14:23:00
      中方換人出席,金磚會議大吵一架,當著10國面,阿拉格奇斬釘截鐵

      中方換人出席,金磚會議大吵一架,當著10國面,阿拉格奇斬釘截鐵

      史行途
      2026-05-16 00:31:03
      《紐約時報》直擊靈魂:中等國家,更害怕中美和解!

      《紐約時報》直擊靈魂:中等國家,更害怕中美和解!

      故事終將光明磊落
      2026-05-16 16:06:41
      空軍一號剛進中國領空,美軍末日飛機突然掉頭,直奔日本降落

      空軍一號剛進中國領空,美軍末日飛機突然掉頭,直奔日本降落

      趣文說娛
      2026-05-15 21:26:12
      阿韋洛亞開始告別,盛贊穆里尼奧:“他是世界第一,是我們中的一員”

      阿韋洛亞開始告別,盛贊穆里尼奧:“他是世界第一,是我們中的一員”

      綠茵情報局
      2026-05-16 18:37:44
      夫妻本是同林鳥!但抱歉,這一次郭富城也救不了“作妖”的方媛

      夫妻本是同林鳥!但抱歉,這一次郭富城也救不了“作妖”的方媛

      攬星河的筆記
      2026-05-15 20:11:07
      2026-05-16 20:23:00
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      263文章數 135關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      7人蒙面當街搶走幼童主謀竟是孩子生父 母親奔波尋子

      頭條要聞

      7人蒙面當街搶走幼童主謀竟是孩子生父 母親奔波尋子

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      謝霆鋒北京街頭騎行被偶遇,側顏帥炸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      房產
      教育
      健康
      數碼
      軍事航空

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      教育要聞

      一圖講透提前批!

      專家揭秘干細胞回輸的安全風險

      數碼要聞

      “暴力熊”推出開蓋版英特爾酷睿Ultra 7 270K Plus處理器

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: AV无码中文字幕不卡一二三区| www.黄色| 欧美亚洲一区二区三区在线| 校园春色~综合网| 国产精品激情av在线播放| 人妻?无码中出| 日日摸夜夜爽-| 曲水县| 亚洲欧洲日韩国内精品| 探花无码| 色色色999韩| 少妇一晚三次一区二区三区 | 精品无码产区一区二| 久久精品人妻无码白浆| 无码国产精品一区二区AV| A毛片毛片看免费| 宫西光在线| 久久亚洲精品成人无码网站| 国产精品成人一区二区三区视频 | 粉嫩大学生无套内射无码卡视频| 欧美一区永久视频免费观看| 亚洲热线99精品视频| 少妇人妻精品一区二区| 成人国产三级在线播放| 97碰成人国产免费公开视频| 国精品无码人妻一区二区三区| 日韩中文字幕在线乱码| 久久波多野结衣| 亚洲日本久久| 8x国产精品视频| 人妻无码系列一区二区三区| 三上悠亚精品一区二区久久| 亚洲国产成人精品无色码| 乱人伦??国语| 狠狠狠狠狠狠狠狠| 激情无码人妻又粗又大| 国产精品久久久久7777| 亚洲精品福利视频| 亚洲AV手机在线观看| 国产超薄肉色丝袜视频| 国产真人无遮挡免费视频|