<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      智譜憑什么一天暴漲近30%?

      0
      分享至

      文 | AIDeepDive

      今天,"全球大模型第一股"智譜(02513.HK)再次暴漲。

      盤中漲幅一度突破30%。收盤報1282港元,全天漲幅超過26%,市值達到5715.7億港元,再度創下歷史新高。


      觸發這場暴漲的,是一個具體的技術指標:400 tokens/s。

      5月22日,智譜正式面向企業客戶開放 GLM-5.1 高速版 API(GLM-5.1-highspeed),最關鍵的核心參數只有一個:模型輸出速度達到每秒400個 token,刷新全球大模型廠商 API 速度上限。

      我本來認為這又是一次國產大模型的公關包裝,但仔細看了下技術細節,終于理解了資本市場背后的邏輯。

      400 tokens/s是什么概念?

      模型每秒能生成大約200個漢字,相當于一個專業作家一分鐘的高強度產出,被壓縮到了一秒鐘之內。

      一位創作者連續伏案數天才能寫完的文字量,GLM-5.1 高速版在1分鐘內便能交付完畢;一名工程師埋頭3天才能完成的系統重構任務,它能在喝一杯咖啡的時間里跑完。

      01 速度,比你想的重要

      速度,歷來是 AI 模型競爭中最容易被忽視的維度。

      過去三年,大模型軍備競賽集中在兩條賽道:參數規模(模型更大更聰明)和價格戰(Token 更便宜更普惠)。"快",從來不是主角。

      這是因為,過去的”快”通常是通過縮小模型參數來實現的。要提速,就必須用更小更精簡的模型,代價是能力縮水。

      GLM-5.1 高速版這次的意義在于,它在保留旗艦級全尺寸基座能力的同時,將速度推上了400 tokens/s。

      無論是從國產模型來說,還是從國際范圍來看,"旗艦能力"與"極致低延遲"第一次做到了不妥協。


      為什么速度如此關鍵? 因為 AI 的主戰場正在發生根本性的遷移。

      當AI從ChatBot進入Agent時代,問答已經不是AI的主要場景,而Agent要完成一個任務,往往需要模型進行數十輪甚至上百輪的自我調用:寫代碼、調接口、搜信息、調用工具……

      在這種工作模式下,每一輪調用之間的延遲會被無情地累加放大。一個需要50輪調用的任務,如果每次節省1秒,整個任務就快了將近1分鐘。對于 AI 編程助手、語音交互、商業決策系統來說,這種差距是可以決定生死的。

      從更深層面來說,在固定時間預算內,更快的推理意味著模型可以完成更深的推理路徑、更多輪次的自我驗證。速度,正在從系統指標變成智能上限本身。

      02 速度這件事,有多難?

      那現在行業里在速度方面大概什么水平?

      頭部廠商中,OpenAI 的 GPT-4o 約在100–150 tokens/s,Anthropic 的 Claude Sonnet 系列約在80–120 tokens/s,國內主流旗艦模型 API 大多在50–100 tokens/s 區間。400 tokens/s 大約是行業平均水平的3到5倍。

      更關鍵的是,這個差距并不是投入更多算力就能彌補的。

      一臺搭載8塊 H200 顯卡的服務器,理論上每秒能搬運高達38TB的數據。對于 GLM-5.1,單次生成一個 token 只需讀取約42GB的激活參數,純理論上推算,應該能接近1000 tokens/s。

      但現實系統往往只能跑出幾十 tokens/s。


      這是一個數量級的鴻溝。GPU 不是不夠快,而是大量時間都被浪費在了等待、空轉和無效調度上。

      智譜這次正是在推理引擎、并行策略、網絡架構三個層面同時創新,實現了對最終速度的突破。


      03 三層技術疊加,逼近硬件物理極限

      大模型原來是這樣運轉的,大模型被分解成一個個獨立算子,每個算子單獨啟動一次計算核心(kernel),計算完就停下,同步等待,再啟動下一個。

      在訓練階段,每次計算動輒幾秒乃至幾分鐘,這些啟動和等待的開銷完全可以忽略。但推理時,單次生成一個 token,某個關鍵步驟可能只需要幾十微秒,啟動和等待的開銷就相對變得不可忽視。

      TileRT 的核心思路:把整個模型編譯成一個持續運行的引擎,一次啟動,永不停歇。

      TileRT 在代碼編譯階段提前把模型所有計算邏輯靜態展開成一條連續流水線,運行時 GPU 始終保持高速運轉,計算、數據搬運、通信并行推進,中間結果盡量留在 GPU 內部高速緩存里,不再反復寫回慢速顯存再重新讀取。


      這里有一個關鍵的設計細節:Warp 專門化

      理解 Warp,需要先理解 GPU 的工作方式。GPU 與 CPU 最大的不同,是它內部有成千上萬個相對簡單的計算單元,這些單元以32個為一組捆綁在一起,這一組就叫 Warp。

      同一個 Warp 里的32個單元必須始終同步行動、執行同一條指令,就像軍隊里的一個班,班長下令所有人同時做同一個動作。

      傳統框架里,所有 Warp 執行同一套指令序列;TileRT 讓不同 Warp 組承擔不同職責:一部分專門負責把下一批數據提前搬運進來,一部分專門負責數學計算,一部分專門負責與其他 GPU 通信。三組人同時工作、流水配合,互不等待。

      就好比從"一個工人搬磚、砌墻、驗收串行干",變成了"搬磚組、砌墻組、驗收組同時轉"。

      單卡內部的效率解決了,多卡并行又有新挑戰。

      行業通行做法是張量并行(Tensor Parallel): 把模型的權重矩陣切分成若干份,每塊 GPU 負責其中一份,各自計算完畢后通過高速互聯(NVLink)匯總結果。

      這套方案對矩陣乘法這類規整的密集計算效果很好,是目前幾乎所有大模型推理框架的標準多卡方案。

      GLM-5.1 采用 **MLA(Multi-head Latent Attention,多頭潛在注意力),這是由DeepSeek 提出一種注意力機制。

      傳統注意力機制需要把每一步計算的大量中間數據(KV Cache)完整保存下來備用,非常耗顯存;MLA 的做法是先把這些中間數據壓縮成一個緊湊的"潛在向量"存起來,用的時候再展開還原,顯存需求大幅下降,推理效率更高。

      但 MLA 的計算流程里有一個特殊環節:需要從大量歷史信息中做稀疏索引:類似在一個巨大圖書館里先快速找出最相關的幾本書,再精讀這幾本書。

      "找書"這個步驟依賴全局信息,不適合多卡平攤;"精讀"才是適合多卡并行的密集計算。如果強行讓所有8塊 GPU 都參與"找書",大量時間會浪費在 GPU 之間的同步通信上。

      TileRT 的解法是讓GPU異構運行:GPU 0 專門擔任"圖書館檢索員",負責稀疏索引和路由決策;GPU 1–7 擔任"精讀分析員",負責密集的注意力計算和矩陣運算。兩類工作者各自采用最適合自己的并行策略協同完成整個計算層。


      接下來,TileRT 把 GPU 之間的通信操作也直接內嵌進執行流水線,不再作為獨立步驟。對外來看,整個8卡系統完成一層注意力計算只需要一次內核啟動,內部的通信和計算全在持續流水線內部無縫完成。

      以上兩層解決的是單機范圍內的問題。當集群擴展到數百乃至數千張 GPU,GPU 之間的數據傳輸本身就成了新的天花板。

      行業通行做法是 ROFT(Rail-Optimized Fat-Tree),這是 NVIDIA 官方推薦方案,業界絕對標配。

      它的結構是一棵樹:服務器先連接底層的 Leaf 交換機(接入層,直接面向服務器),Leaf 再向上連接 Spine 交換機(骨干層,負責不同 Leaf 之間的互聯,如同高速公路樞紐)。數據在兩臺 GPU 之間傳輸,必須"先上行到 Spine,再下行到目標 Leaf",至少經過3跳。

      為了避免流量集中在少數鏈路上,這套架構依賴 ECMP 算法讓數據在多條路徑之間分配,在互聯網流量"統計均勻"的前提下運轉良好。

      但推理場景的流量完全不均勻。不同請求的上下文長度差異可達數十倍,GPU 之間 KV Cache 的傳輸方向幾乎隨機,某幾臺 Leaf 交換機會周期性地成為熱點,觸發反壓機制,把擁塞從局部擴散到全鏈路。這種擁塞不是協議調參能解決的,是拓撲結構本身的產物。


      ZCube 的根本突破:從架構層面讓這類擁塞在物理上無法發生。

      核心設計分兩步:

      第一步,取消 Spine 骨干層,全網扁平化。把所有 Leaf 交換機按奇偶編號分成兩組,兩組之間完全互聯,任意一臺奇數交換機連接所有偶數交換機,反之亦然。任意兩臺 GPU 之間最多經過兩臺交換機即可互達,跳數從3跳降到2跳。


      第二步,也是最精妙的地方:每張 GPU 網卡用兩種截然不同的方式分別接入兩組交換機。這種特殊拓撲帶來一個關鍵的數學性質:全網任意兩張 GPU 之間,有且僅有一條最優路徑。


      "唯一路徑"直接消除了擁塞的根源。傳統架構容易出現熱點,恰恰是因為有多條路徑可選,負載均衡算法選錯了就會導致流量集中。ZCube 在設計上消除了"選擇"這件事本身:不需要均衡,因為根本沒有岔路。

      04 同樣的硬件條件下,賬怎么算?

      智譜將 GLM-5.1 生產集群從傳統 ROFT 升級到 ZCube 后,得到三個數字:

      總結來說的話,同樣的 GPU 投入,集群可以服務更多用戶;同樣的用戶體驗要求,集群可以少買三分之一的網絡設備。效率與成本雙向改善。


      具體來說,吞吐提升15%,等于免費多出15%的算力。 在GPU數量不變的情況下,吞吐多15%,等價于每個 token 的均攤硬件成本下降約13%,或者說相同成本可以多服務15%的用戶。

      如果一個集群有1000張 GPU,這次升級相當于憑空多出了150張卡的產能,按當前高端推理卡市價,這是數億元量級的算力價值。

      尾延遲下降40.6%,解決的是穩定性而非平均速度。 一個需要50輪調用的 Agent 任務,如果尾延遲每次減少1秒,整個任務的最壞完成時間就壓縮了將近1分鐘。

      成本減少三分之一,是建設層面的直接節省。 ZCube 取消了 Spine 層,相同集群規模下所需交換機和光模塊數量直接減少三分之一。據智譜測算,在萬卡規模集群中,僅此一項可節省約2.1億至6.4億元。

      從長遠來看,隨著集群規模指數級加劇,GPU 間通信的復雜度增長數倍,擁塞的概率和影響也同步放大。這意味著 ZCube 這類架構級創新的價值,會隨著推理集群的持續擴張而加速顯現。明天萬卡級別的集群收益可能不止今天這15%。

      05 寫在最后

      看完智譜的技術報告,我在想,這是否會像DeepSeek橫空出世一樣,給行業帶來一場風暴?

      仔細想想,兩者的影響好像在不同的方面。DeepSeek 出來的時候,它證明的是,同樣的智能,可以用少得多的算力實現。市場擔心"需要的 GPU 變少了",所以英偉達當天市值蒸發近6000億美元。

      但今天智譜的技術證明:同樣的算力,可以產出更多。它是在重構"GPU 之外,其他基礎設施應該長什么樣"。

      短期來看,英偉達不會受到影響,但從長期來看,GPU + NVLink 互聯 + InfiniBand 網絡 + CUDA 軟件生態的護城河正在被“松土”,特別是英偉達 2019 年花 69 億美元收購 Mellanox 買下的 InfiniBand,英偉達網絡側的溢價會被大幅侵蝕。

      此外,ZCube 取消了 Spine 層,但它對 Leaf 交換機的端口密度要求反而更高。受益的是能做高密度、大端口 Leaf 交換機的廠商(銳捷、Arista、博通交換芯片),受損的是主要依賴 Spine 層高端交換機吃溢價的廠商。

      2025年 Celestica 和英偉達合計占據約 50% 的 AI 后端網絡交換機市場份額,這個格局在 ZCube 范式擴散后會面臨重新洗牌。

      光模塊是這次產業鏈變化里最直接的受益方向,邏輯非常清晰。對國內光模塊廠商(中際旭創、天孚通信等)來說,這是一個結構性利好:不僅總量在漲,而且 ZCube 范式下對高速光模塊(800G、1.6T)的需求比傳統架構更加集中和迫切。

      無論是TileRT還是ZCube 架構,這是一套運行在標準 GPU 之上的純軟件推理引擎,不依賴英偉達私有的硬件特性,理論上可以移植到華為昇騰等國產芯片上。這個方向一旦走通,會大幅降低國產 AI 芯片在推理場景的軟件棧門檻。

      這或許才是這個技術創新背后更大的意義所在。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      漳州楊梅事件升級!“奢侈品”會長道歉底褲被扒,滿屏要求追責他

      漳州楊梅事件升級!“奢侈品”會長道歉底褲被扒,滿屏要求追責他

      火山詩話
      2026-05-23 06:10:29
      面對大批農民餓死,他竟說:他們故意餓死自己,好讓我下不了臺

      面對大批農民餓死,他竟說:他們故意餓死自己,好讓我下不了臺

      山間聽雨
      2026-05-22 17:46:37
      爭議!卡斯爾連續遭雷霆兇狠犯規險起大沖突 米切爾一級惡犯+吃T

      爭議!卡斯爾連續遭雷霆兇狠犯規險起大沖突 米切爾一級惡犯+吃T

      醉臥浮生
      2026-05-23 10:27:12
      招商局集團黨委:堅決擁護黨中央決定

      招商局集團黨委:堅決擁護黨中央決定

      環球網資訊
      2026-05-22 19:56:21
      中央氣象臺:23日夜間至27日,陜西、重慶、河南、安徽、湖南、湖北、江蘇、江西等地有大到暴雨,江南北部將有雷暴大風或冰雹等強對流天氣

      中央氣象臺:23日夜間至27日,陜西、重慶、河南、安徽、湖南、湖北、江蘇、江西等地有大到暴雨,江南北部將有雷暴大風或冰雹等強對流天氣

      魯中晨報
      2026-05-22 17:46:13
      中山大學校長高松履新北京大學校長

      中山大學校長高松履新北京大學校長

      澎湃新聞
      2026-05-23 10:26:31
      電影《澎湖海戰》官宣定檔,但我不會去看

      電影《澎湖海戰》官宣定檔,但我不會去看

      名人茍或
      2026-05-23 07:01:59
      一男子借宿同學家行兇致1死1重傷,行兇者兩次精神鑒定結論反轉,被害人家屬回應

      一男子借宿同學家行兇致1死1重傷,行兇者兩次精神鑒定結論反轉,被害人家屬回應

      蓬勃新聞
      2026-05-23 09:00:30
      4名在泰失聯中國公民已被找到并得到妥善安置

      4名在泰失聯中國公民已被找到并得到妥善安置

      界面新聞
      2026-05-23 10:52:56
      美俄剛走,荷蘭就“憋不住”,光刻機巨頭,公開給中國遞了句軟話

      美俄剛走,荷蘭就“憋不住”,光刻機巨頭,公開給中國遞了句軟話

      清沐執筆
      2026-05-22 16:14:17
      奔馳碾貓男已社死!賬號被扒官方出手,“鐵飯碗”也要保不住了

      奔馳碾貓男已社死!賬號被扒官方出手,“鐵飯碗”也要保不住了

      青梅侃史啊
      2026-05-22 19:22:59
      蔣介石唯獨不敢動周恩來?如果動他:估計老蔣整個嫡系都得反!

      蔣介石唯獨不敢動周恩來?如果動他:估計老蔣整個嫡系都得反!

      興趣知識
      2026-05-22 17:53:06
      廉價航空公司調侃C羅發的奪冠慶祝照:你難道沒有隊友嗎?

      廉價航空公司調侃C羅發的奪冠慶祝照:你難道沒有隊友嗎?

      懂球帝
      2026-05-23 11:15:08
      一頓飯就要花掉40萬,四年斂財40億,杭州土皇帝虞關榮有多囂張

      一頓飯就要花掉40萬,四年斂財40億,杭州土皇帝虞關榮有多囂張

      莫地方
      2026-05-21 01:45:03
      廣西皮卡墜落漫水橋的背后:婦女老人留守大山就近打零工|封面深鏡

      廣西皮卡墜落漫水橋的背后:婦女老人留守大山就近打零工|封面深鏡

      封面新聞
      2026-05-23 11:54:07
      中央開始嚴查!多地機關,事業單位大整頓!這幾類人受影響最大

      中央開始嚴查!多地機關,事業單位大整頓!這幾類人受影響最大

      職場資深秘書
      2026-05-23 11:09:48
      揭秘“崩老頭”騙局全流程,打打字竟然可以輕松月入過萬!

      揭秘“崩老頭”騙局全流程,打打字竟然可以輕松月入過萬!

      爆角追蹤
      2026-05-22 15:11:02
      3個孩子的媽媽獲選神舟二十三號航天員,首飛就要離家一整年!

      3個孩子的媽媽獲選神舟二十三號航天員,首飛就要離家一整年!

      史智文道
      2026-05-22 11:30:57
      又一個特大城市,新一輪地鐵規劃暫時泡湯了

      又一個特大城市,新一輪地鐵規劃暫時泡湯了

      城市財經
      2026-05-23 11:33:48
      高速上一車輛突然剎車失靈,時速120km/h絕望狂奔無法減速,沿途三地交警路政急救緊急護航

      高速上一車輛突然剎車失靈,時速120km/h絕望狂奔無法減速,沿途三地交警路政急救緊急護航

      環球網資訊
      2026-05-22 15:30:29
      2026-05-23 13:12:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      134027文章數 862188關注度
      往期回顧 全部

      財經要聞

      股價暴跌!富途老虎是什么來頭?

      頭條要聞

      牛彈琴:印度的麻煩來了 "老對手"中國處境要好得多

      頭條要聞

      牛彈琴:印度的麻煩來了 "老對手"中國處境要好得多

      體育要聞

      嘲諷許利民的發言,可許指導說錯了嗎?

      娛樂要聞

      歌手2026首播:胡彥斌破音 張碧晨跑調

      科技要聞

      爆炸聲中又邁一步!拆解馬斯克“十二飛”

      汽車要聞

      11萬級直接上四驅 銀河星耀7限時權益價9.88萬起

      態度原創

      時尚
      教育
      房產
      游戲
      數碼

      520天貓把“短劇男友團”請來送禮了!將浪漫營銷玩出新花樣!

      教育要聞

      志愿填報別錯過!黃埔區這所實力派黑馬高中

      房產要聞

      瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業搶了!

      《生化》電影導演玩游戲數千小時!將還原玩家操作

      數碼要聞

      聯想推出13.3英寸超薄本IdeaPad Slim 5i 13IWC11

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91资源在线观看| 国产一区二区三区尤物视频| 亚洲一区二区三区日本| 精品国产中文字幕av| 日韩人妻无码中文字幕视频| 午夜无码精品国产片| 2020国产激情视频在线观看| 熟女中文字幕| 亚洲产国偷v产偷v自拍色戒| 欧美日韩精品一区二区视频在线观看| 中文字幕av一区二区三区| www.xxxx中国视频| 国产成人毛片在线视频| 欧产日产国产精品精品| а√天堂中文在线资源库免费观看| 国产精一区二区黑人巨大| 精品网站999www| a级大胆欧美人体大胆666 | 国语精品国内自产视频| 奇米网777狠狠狠俺| 亚洲色一色噜一噜噜噜| 成人拍拍拍无遮挡免费视频| 久久国产一区二区日韩av| 午夜精品国产精品大乳美女| 日日噜噜夜夜狠狠视频无码| 亚洲午夜精品久久久久久| 中文字幕久久六月色综合| 色色97| 特级精品毛片免费观看| 天堂偷拍| 久久成人18免费| 无码精品一区二区免费AV| 欧美午夜久久| 亚洲浮力影院久久久久久| 国产成人美女视频网站| 色婷AV| 在线观看成人永久免费网站| 亚洲综合AV在线在线播放| 国产成人高清精品免费5388| 亚洲日韩va无码中文字幕| 亚洲经典三级|