<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕Arm收購,Cerebras的底氣!

      Cerebras為啥這么熱

      0
      分享至

      公眾號記得加星標??,第一時間看推送不會錯過。

      據彭博新聞社援引知情人士報道,Arm Holdings Plc和軟銀集團最近幾周曾向人工智能計算公司Cerebras Systems Inc.提出初步收購要約,但遭到拒絕。

      知情人士透露,總部位于英國的Arm公司及其控股股東軟銀集團在Cerebras公司首次公開募股(IPO)前曾表示有意收購該公司。軟銀、Arm和Cerebras的代表均拒絕置評。Cerebras 計劃于周三進行首次公開募股 (IPO) 定價,此次 IPO 可能使該公司的估值達到約 340 億美元。

      那么,這家那么有底氣的芯片公司,究竟強在哪里?我們來看semianalysis的拆解。

      以下為文章正文:


      隨著快速tokens的推出以及與 OpenAI 達成 750MW 計算資源協議,Cerebras 已做好迎接公開市場考驗的準備。就在六個月前,我們認為晶圓級引擎(Wafer Scale Engine)盡管創新大膽,但其技術缺陷難以掩蓋。因此,基于 HBM 的加速器(例如 GPU 和 TPU)持續流行。多年來,Cerebras 的優勢(即速度)一直被忽視,人們更關注的是總吞吐量。但現在,隨著 Frontier Labs 發布了相同模型權重的快速、優先、標準和批量處理版本,全球用戶通過錢包表達了對快速tokens的偏好。這使得 Cerebras 的優勢凸顯出來,也是 OpenAI 愿意為 Cerebras 計算資源投入數百億美元的關鍵原因。

      市場需求如此強勁,以至于每個人都看起來很優秀。

      今天,正值 Cerebras 即將上市之際,也因為我們對晶圓的熱愛,我們特地撰寫了一篇篇幅相當于四篇普通文章的文章。文章將深入探討以下內容:

      1、快速推理

      2、WSE-3,Cerebras公司獨特的晶圓級芯片

      3、CS-3,Cerebras公司的系統,擁有獨特的架構

      4、提供物料清單成本分析

      5、解釋晶圓何時以及如何贏得快速推理

      6、描述晶圓的一些局限性,并說明其權衡取舍。

      對速度的需求

      快速推理時代已經到來。

      雖然SemiAnalysis歷來對SRAM芯片持否定態度,但這一切在2025年12月英偉達收購Groq后發生了改變。顯然,黃仁勛看到了至少200億美元的價值,而僅僅幾個月后,隨著 Claude Code 拐點的到來,他的判斷就得到了驗證。如今,晶圓芯片已成為主流。

      許多人(包括Andrej Karpathy )此前認為,原始智能/能力遠比速度重要,但我們最終的偏好證明,有時情況恰恰相反。當智能達到一定閾值后,開發者更傾向于選擇速度更快的tokens,而不是更智能的tokens。在人工智能幾乎滲透到工作流程各個環節的今天,token的生成速度可能會成為“flow state”(即完成的生產性工作量)的瓶頸。

      Opus 4.6 快速模式以其 2.5 倍的交互性(盡管現在速度已降至 2 倍以下,詳見下圖)而收取 6 倍的價格而聞名。今年 4 月,我們 80% 的 AI 支出(年化峰值達 1000 萬美元)都用于 Opus 4.6 快速模式。Opus 4.7 發布后,許多工程師拒絕升級,因為它不包含快速模式。值得注意的是,這是我們首次為了更快的token速度(而且價格溢價也相當高!)而放棄前沿智能。

      順便提一下,Opus 4.6 fast 模式最近變得越來越不劃算。Claude Code 中標準的 Opus 4.6 交互速度穩定在 40 tps(每秒token數)左右。Opus 4.6 fast 模式曾經能達到 100 tps 以上,符合其 2.5 倍速度提升的承諾。但最近它的速度下降到了約 70 tps(僅提升了 1.75 倍)。我們最近與 OpenRouter 的朋友們合作,收集了 Claude Opus 兩種運行模式下的相關數據。


      我們認為 Opus 4.6 Fast 是 Anthropic 利潤率最高的 SKU,也是其今年 ARR 飆升的主要原因。然而,考慮到其速度有所下降、4.7 版本支持延遲以及即將發布的 Mythos,這一結論是否仍然成立還有待觀察。

      吞吐量-交互性前沿

      要充分解釋 Cerebras 在其晶圓級芯片上做出的架構決策,我們首先需要回顧一下推理的基本原理。

      正如 Jensen 在今年的GTC 大會上反復強調的那樣,吞吐量(throughput:每秒每個 GPU 的tokens數量)與交互性(Interactivity:每秒每個用戶的tokens數)是推理的根本權衡。在我們最初的InferenceX 報告里,我們將其比作公交車與法拉利:你可以選擇慢速服務大量用戶,快速服務單個用戶,或者介于兩者之間的任何速度。


      當然,用戶也愿意為更高的交互性支付更多費用,因此目前尚不清楚在帕累托前沿上的哪個位置能夠最大化特定模型提供商的整體收入和推理盈利能力。實際上,提供商目前正在部署多種方案,試圖占領整個市場??焖倌J?、優先模式、批量定價以及特定的模型架構都是 OpenAI 和 Anthropic 等公司為了找到最適合其用戶群的組合而進行的實驗。


      在硬件配置相同的情況下,調整批處理大小(或“并發性”,即同時服務的用戶數量)是提升性能曲線的主要方法。這正是InferenceX的優勢所在。大多數其他公開的推理基準測試僅考慮單一交互級別下的單一工作負載,而 InferenceX 則針對所有頂級開源模型,在三種不同的輸入/輸出序列長度組合下構建完整的帕累托前沿。這使得我們可以生成如下圖表,該圖表顯示,在低交互級別下,GB300 NVL72 的吞吐量是 H100 的 20 倍(40 tps),而在高交互級別下,吞吐量則是 H100 的 100 倍(120 tps)。


      或者,您也可以通過改變底層硬件來突破性能瓶頸。這正是 Cerebras 和 Groq 等 SRAM 機器的優勢所在。它們極高的內存帶寬使其能夠在高交互性下提升吞吐量,在極端情況下,甚至可以達到基于 HBM 的加速器根本無法企及的交互水平。Cerebras 的速度可達每秒數千個token,與我們在 InferenceMax 基準測試中使用的加速器相比,這簡直是天壤之別。

      在人們愿意為更快的tkens支付更多費用的世界里,SRAM 機器看起來相當有吸引力,因為它們既可以讓你 (a) 以優質速度同時為更多用戶提供服務(將邊界“向上”推進),也可以 (b) 以更快、更昂貴的速度為某些用戶提供服務(將邊界向右擴展)。

      晶圓級引擎

      Cerebras 的核心理念在于突破單片硅片的掩模尺寸限制。他們并非將晶圓分割成多個芯片,而是力求將整個晶圓都變成一個芯片。這種巧妙的微縮技術旨在解決摩爾定律放緩以及硅片尺寸上限為 858 平方毫米(即掩模光刻技術中單個掩模圖案的尺寸)所帶來的諸多問題。

      這種單片晶圓大小的芯片被稱為晶圓級引擎 (WSE:Wafer Scale Engine)。


      WSE是一個12×7的網格,每個晶圓包含84個相同的步進單元/芯片,構成一塊完整的硅片。每個晶圓或芯片都包含大量的高速SRAM。50%的硅片面積用于SRAM單元,剩余的50%用于計算核心。其關鍵創新在于將硅片和存儲器集成在同一塊硅片上,而不是像傳統方式那樣將多個不同的芯片互連在一起。這節省了功耗、降低了延遲,并減少了數據從硅片或封裝外部傳輸的成本。


      “傳統”GPU 和 XPU 需要先進的封裝和網絡技術才能實現更高的總計算能力和內存容量,這會增加功耗、速度和網絡設備的成本。雖然并非完全可比,但 Cerebras 將其晶圓內數據流速度與 Nvidia 的封裝外擴展帶寬進行了比較,其前提假設是數據可以保留在 WSE 上,而 GPU 數據則需要傳輸到封裝外。



      Cerebras 目前的產品是第三代產品 WSE-3,采用臺積電 N5 工藝制造。單個 WSE-3 晶圓或“單芯片”上集成了 44GB 的 SRAM。這相當于海量的 SRAM。一般大型處理器片上 SRAM 的容量也只有幾百兆字節。即使是 Groq 的 SRAM 芯片,每個 LPU3 也只有 500MB。SRAM 的速度非???,可以提供 21PB/s 的帶寬,比 HBM 高出數千倍。此外,由于 WSE 擁有更多 SRAM 存儲體,并且各個存儲體的帶寬可以聚合,因此其帶寬遠超高帶寬的 Groq LPU。

      盡管 Cerebras 為 WSE-3 宣傳了大量的浮點運算性能:125 PFLOPS 的 FP16 計算能力,但這只是一個稀疏值,而非密集值。這借鑒了Jensen Math 的策略,但更進一步。與 Nvidia 不同,Cerebras 并未在公開的 WSE 宣傳材料中明確指出密集浮點運算性能。然而,Cerebras 在其稀疏值中假設了 8:1 的非結構化稀疏性,因此密集浮點運算性能實際上只有 FP16 計算吞吐量的 1/8,即15.6 PFLOPS。我們稱之為“費爾德曼公式”。對于 CS-2/WSE-2,則假設了 10:1 的比例——正如我們在下文看到的,稀疏和密集規格相差一個數量級。雖然 WSE-3 在絕對計算吞吐量方面仍然優于其他芯片,但其單位硅面積的計算能力并不突出,尤其是在今天。這很可能是因為每個核心都比 GPU 的功能陣列大小小得多,而這對于收益收集是必要的,我們將在下面描述收益收集。


      最后一部分是晶圓外網絡,這也是WSE中最薄弱的環節??値拑H為150GB/s,遠低于那些高度重視網絡擴展能力的GPU/XPU競爭對手。我們將詳細討論低I/O容量的影響,以及增加I/O容量所面臨的結構性難題。

      總而言之,WSE 是一款體積非常大的芯片,擁有大量的 SRAM,計算能力尚可,但相對于硅片面積而言并不算強,網絡功能則幾乎沒有。接下來我們將討論這會帶來哪些影響。

      SRAM機器

      WSE 的優勢顯而易見,在于其 SRAM 容量。與 Groq 的 LPU 類似,WSE 也屬于我們稱之為“SRAM 機器”的加速器類別,這類加速器將更多硅片面積用于超高速 SRAM,SRAM 用作主內存,用于存儲模型權重和鍵值緩存。相比之下,主流 GPU 和 ASIC(例如 TPU 和 Trainium)使用 HBM 來存儲模型權重和鍵值緩存。它們也配備了 SRAM,只是容量較小。一般來說,用 SRAM 代替 HBM 意味著更高的帶寬、更低的延遲和更快的token輸出,但代價是容量減少,因此每個芯片的總吞吐量(以瓦特和美元計)也會降低。此外,SRAM 的每比特成本也更高。以下是我們近期一篇關于 NVIDIA 和 Groq 使用 SRAM 的文章中的圖表,對比了這兩種技術:


      盡管WSE-3的44GB SRAM容量相對于其他芯片來說已經非常大了,但它與單個HBM3E 12-Hi堆棧提供的36GB容量相比,并沒有大多少??紤]到目前每個加速器通常采用8個堆棧,單個GPU或TPU封裝(例如當前一代的Blackwell Ultra)的SRAM容量可達288GB,是WSE SRAM容量的6.5倍。

      一些讀者可能已經注意到,DRAM 的需求量很大,這主要是因為人工智能系統設計人員試圖盡可能地提高系統容量。系統中更大的內存容量可以讓模型提供商:

      1. 擬合一個更大的模型(更多參數)

      2. 處理更多并發請求,即更多用戶(更多鍵值緩存)

      3. 支持更大的上下文窗口,即每次請求更長的序列長度(更多的鍵值緩存)

      推理提供商正是利用上述所有技術來盈利,這也是每個GPU的內存容量不斷增加的原因。不僅如此,可用內存并不局限于單個封裝,因為工作負載可以分片到多個芯片上,聚合內存也可以在可擴展架構中匯集在一起。正因如此,網絡成為所有AI硬件公司競爭的關鍵戰場。當然,除了Cerebras,他們已經接受了網絡容量有限的現狀,并正在努力克服這一難題。因此,由于晶圓內存容量有限,Cerebras通過連接更多晶圓來提升網絡容量的途徑也更加狹窄。網絡帶寬的不足雖然并非致命,但無疑是WSE-3設計中的一個缺陷,阻礙了Cerebras的業務騰飛。

      綜上所述,Cerebras 目前正走在健康快速增長的道路上,與 OpenAI 的合作堪稱一項變革性舉措:到 2028 年,Cerebras 的服務器出貨量將比成立以來的總出貨量高出一個數量級。這種需求激增已在臺積電的晶圓產量中有所體現,為了滿足 OpenAI 的部署需求,臺積電的晶圓產量在每個季度都顯著提升。我們預計,未來幾年 Cerebras 的營收將出現顯著增長,而 OpenAI 將成為其主要增長動力。



      Cerebras的技術

      為了達到今天的成就,Cerebras 必須解決從芯片到系統再到軟件的諸多技術難題。值得稱贊的是,他們擁有大量專有硬件技術,尤其與其他許多加速器創業公司所帶來的創新(或缺乏創新)相比更是如此。晶圓技術是一項大膽的嘗試,現有企業和競爭對手很難復制。

      Cerebras的部分專有技術包括:

      1. 芯片間布線和布線。Cerebras 利用劃線作為晶圓上數據結構的布線,將所有芯片連接在一起。在典型的晶圓中,這些劃線區域是禁區,晶圓會被切割成單個芯片。

      2. 冗余和故障布線。為了獲得可接受的良率,繞過缺陷核心進行布線的能力至關重要。缺陷不可避免,尤其對于接近光罩尺寸的單元而言。通常,接近光罩尺寸的高密度處理器的分選良率遠低于 50%。為了實現冗余,WSE 上共有 97 萬個核心,其中 90 萬個已啟用。每個核心都特意做得更小,以提高良率。然而,這并非易事,需要大量的額外成本。一項有趣的舉措是,每批晶圓都將配備一套定制的上層金屬掩模。這是為了確保每批晶圓的布線方式都不同,從而繞過所有缺陷單元。額外的掩模成本會顯著增加臺積電晶圓的標稱成本。為什么每批晶圓都要這樣做?這是因為批內工藝偏差低于批間工藝偏差。點擊此處了解更多關于半導體制造工藝偏差的信息。最終結果是晶圓級良率很高。臺積電生產的晶圓幾乎100%都達到可用于組裝成生產服務器的標準。

      3. 電源傳輸與散熱。Cerebras 解決的主要挑戰之一是將超過 20kW 的功率集成到單個晶圓中,而下一代產品將實現更高的功率。如此巨大的功率需要 Vicor 提供定制的電源傳輸解決方案。當然,如此強大的功率最終會轉化為熱量,需要通過專門的散熱系統來散發。每個 CS 服務器中的電源傳輸和散熱子組件被稱為“引擎模塊”。這是另一個關鍵組件,與 WSE 芯片本身一樣,都是為 Cerebras 量身定制的。

      盡管 WSE 取得了這些值得稱贊的技術成就,但其架構仍存在一些技術限制,制約了其技術路線圖和token服務能力。

      熱設計與冷卻

      在CS-3設計中,如何在單片46,225 mm2的晶圓上實現25 kW的散熱是核心散熱難題,這意味著在未考慮熱點的情況下,芯片平均熱密度約為50 W/cm2。由于3DVC均熱板散熱器(類似于HGX H100服務器中的散熱器)的尺寸要覆蓋21.5 cm的芯片,因此被棄用。這種散熱器的尺寸會超過其毛細管的極限,導致工作液在返回蒸發器之前就干涸。CS-3采用了定制的液冷堆疊結構,其架構、流量和機架級管路布局均與英偉達更為人熟知的直接芯片單相散熱方案有所不同。

      這套散熱解決方案是100%定制的,并與晶圓協同設計。硅片和其下方的PCB在加熱過程中膨脹率不同,在21.5x21.5厘米的晶圓上,這種膨脹率差異足以使傳統的封裝破裂。因此,冷板、連接晶圓和PCB的連接器以及組裝工具都必須從零開始制造。Cerebras將其系統稱為“發動機缸體”,這是一個四層結構,包括冷板、晶圓、柔性連接器和PCB,冷卻歧管則安裝在冷板背面。我們將在下一節中更詳細地介紹系統架構。


      散熱通過冷板進行。冷卻劑流經加工在銅板背面的微鰭通道。銅板面向晶圓的一側經過拋光處理,并在預緊力的作用下緊貼硅片,使兩者在膨脹速率不同的情況下能夠相對滑動,同時保持接觸以傳遞熱量。

      我們在機架到 CDU 的接口處發現了另一個架構挑戰。OCP/Nvidia 針對 GB200 NVL72 的參考設計將設施側流量設定為約 1.5 LPM/kW。目前大多數 CDU 設備都是以此為基準進行選型的。WSE-3 在 25kW 功率下運行流量約為 100 LPM,約為 4 LPM/kW,是 NVL72 參考值的約 3 倍。這種流量差迫使運營商使用更大的泵、更大的管道、更大尺寸的 CDU 以及額定流量更高的快速接頭。我們認為 CS-4 應該能夠將機架級流量恢復到 1.5–1.7 LPM/kW,如果能夠實現,這將使 Cerebras 設備統一采用標準化的基礎設施。

      Cerebras 的主要冷卻合作伙伴之一是 LiquidStack,該公司于 2026 年 3 月被 Trane Technologies 收購。LiquidStack 和 Cerebras 最初開始合作開發兩相解決方案,他們共同開發了 L2L 單相 CDU,其尺寸與 CS-3 的流量和壓力范圍相匹配。

      進水溫度是Cerebras芯片與其他芯片區別的最后一個方面。Cerebras位于俄克拉荷馬州的工廠運行著一座6000噸的冷水機組,生產5°C (42°F) 的冷凍水,然后通過熱交換器加熱至約21°C (約70°F) 后再送入發動機缸體。相比之下,NVL72芯片的進水溫度最高可達45°C (113°F),這使得用戶一年中的大部分時間都可以使用自然冷卻。CS-3芯片晶圓級的熱通量需要更低的進水溫度,但這也意味著需要大量的冷水機組。


      CS-3架構和物料清單

      讓我們暫時放下液冷技術,把目光轉向 Cerebras CS-3 系統。

      每個 CS-3 包括以下部件:一個 WSE-3 發動機模塊、外圍計算和 I/O 模塊、兩個機械泵、12 個 3.3kW 電源單元以及液冷或液液冷卻系統。



      放大觀察WSE-3引擎模塊,WSE-3引擎本身就需要25kW的功率。WSE-3晶圓的供電和冷卻系統經過高度定制和創新。電源通過12個3.3kW電源單元的盲插式電源連接器輸入到WSE-3引擎模塊。電源單元以50V的電壓向12個水平堆疊的PDB板供電。每個PDB板對應一排7個Vicor電源磚,每排電源磚又對應WSE-3晶圓上的一排7個模塊。12個PDB板共計84個電源磚,WSE-3晶圓上也對應84個模塊。然后,12V的電壓被輸送到位于PCB另一側、與WSE-3晶圓相對的Vicor電源模塊,Vicor電源磚將電壓轉換為1V后再輸送到晶圓。 WSE-3 通過彈性體插座連接到定制的 PCB 上。



      WSE-3 引擎模塊頂部是 I/O FPGA 模塊,通過板對板連接器與 WSE-3 PCB 連接。這些 FPGA 本質上是網卡,接收來自晶圓的 Cerebras 專有 I/O 信號,并將其轉換為以太網信號以支持橫向擴展,同時也支持 PCIe 接口。定制的冷板連接到 WSE-3 引擎、Vicor 電源模塊、CPU 和 I/O FPGA。冷卻回路連接到 WSE-3 引擎模塊右側的歧管。歧管有 6 個接頭,其中 4 個連接到水泵,2 個連接到液-氣或液-液散熱系統。

      此外,每臺 CS 服務器都配備一個獨立的“KVSS”節點。這是一個雙路 AMD CPU 節點,配備 6TB DDR5 RDIMM 內存,用于 KVCache 卸載。在去年第四季度內存價格上漲之前,我們估計 CS-3 系統和 KVSS CPU 節點的物料清單成本為每機架 35 萬美元??紤]到最近的內存價格上漲,我們將 CS-3 系統和 KVSS CPU 節點的物料清單成本估算值上調至每機架 45 萬美元。

      相對于硅片含量而言,這個價格非常高。雖然名義上加速器硅片(通常是服務器中最昂貴的部分)是一片臺積電N5晶圓,價格約為2萬美元,但還有許多其他成本。每片晶圓都需要進行掩模,這大大增加了成本。另一個主要的物料清單項目是來自Vicor的電源模塊。這是一個定制的VRM,需要為每片晶圓提供25kW的功率,并采用VPD技術。這種定制特性也意味著高昂的成本,我們認為Vicor在每個WSE中的用量與臺積電的用量相差不大。定制的散熱解決方案也是如此。組裝和封裝也由Cerebras公司內部完成,而不是外包給代工廠。此外,還有一些外圍組件,例如12個100GbE Xilinx FPGA,它們實際上充當網卡,將Cerebras自身的I/O轉換為以太網,用于外部通信。



      晶圓制勝之處

      要理解 Cerebras 極高的內存帶寬,我們需要設身處地地站在性能工程師的角度,思考 LLM 推理。對性能工程師而言,芯片只是一種工具。無論你使用 10,000 個 LPU、72 個 GPU,還是 1 片晶圓來完成任務,真正重要的是芯片的“算術強度”——即芯片每字節與內存之間傳輸的數據可以執行多少次浮點運算(FLOPs/byte)。下表列出了 WSE-3 的芯片規格,以便更好地理解其性能。請注意,這些數值均為理論最大值。


      從相對角度來看,人工智能應用的性能取決于芯片上各個內核(即運行在設備而非主機CPU上的軟件)的性能。人工智能中使用的典型內核示例是通用矩陣乘法(GEMM)。GEMM可以有不同的形狀,這取決于被乘矩陣的形狀。某些形狀的GEMM在特定硬件上運行可能受內存限制(即性能受限于可用帶寬),也可能受計算限制(即性能受限于可用浮點運算次數)。

      將WSE-3的浮點運算性能與NVIDIA GPU進行直接比較,結果令人震驚。就密集FP16或INT8浮點運算性能(即開發者使用Cerebras WSE實際使用的浮點運算性能)而言,整個WSE-3的浮點運算性能僅為15.625 PFLOPS。相比之下,運行原生FP4的NVIDIA GPU,B300的浮點運算性能為13.5 PFLOPS(GB300為15 PFLOPS),而Rubin GPU則擁有35 PFLOPS。當然,細心的讀者會注意到,FP4浮點運算性能和FP16浮點運算性能并非總是具有可比性,但鑒于目前大多數生產應用都轉向FP4,這仍然是最佳的實際比較方式。此外,細心的讀者還應注意Cerebras產品營銷的影響。Cerebras的營銷材料及其S1文件中宣稱的每片晶圓的浮點運算性能遠高于我們表格中的數據。多虧了“費爾德曼公式”,他們使用了一個 8 倍的因子(聲稱非結構化稀疏性為 8:1)來達到目的。這甚至比詹森數學標志性的 2:1 規則還要大的稀疏性因子!

      要將 Cerebra 與其他替代方案進行比較,直接進行芯片間(或晶圓間)比較意義不大。下文將以整數數據展示一種更有意義的比較方法,以說明晶圓在整個比較過程中所處的位置。


      將單片晶圓的成本和性能與價值約 100 萬美元的 HBM 和 SRAM 硬件進行比較,最能說明問題。具體來說,這相當于:2 套 NVIDIA HGX 系統(16 個 GPU)、4 個 NVL72 存儲槽(16 個 GPU)或約 50 個 Groq LP30 存儲設備。因此,我們將在以下圖表中逐步添加更多曲線。



      這里我們看到,單個 Nvidia Rubin GPU 的浮點運算性能就超過了整個 WSE-3:


      最后,這張圖表展示了如何將此分析擴展到系統級別(盡管方式較為簡單),比較了單個晶圓 SRAM 與 DGX 系統和 GB300 NVL72 機架的性能曲線。為了在運算強度相同的內核上實現與 Cerebra 相同的浮點運算性能,必須假設網絡開銷為零,并增加多個 GB300 NVL72 機架。


      為了全面了解哪些人工智能工作負載適合 Cerebras,我們可以看看常見的 GEMM 模型。GEMM 模型通常使用“mnk”表示法,這意味著輸入矩陣的大小分別為“m”和“n”,收縮維度為“k”。


      我們可以使用以下公式計算給定GEMM的算術強度:


      作為參考,以下是一些用于LLM推理的GEMM形狀示例:


      最后,這里展示了這些內核在不同芯片上的理論性能。只需沿著代表給定內核算術強度的垂直線從下到上追蹤,即可看到給定芯片在該 GEMM 形狀上能夠實現的(理論)性能(以 TFLOPs 為單位)。


      從宏觀層面來看,Cerebras 的性能特征非常獨特,其在 WSE-3 的 SRAM 和 FP16 或 INT8 FLOPs 下的最佳運算強度為 0.74。隨著基于 HBM 的 GPU 的發展趨勢相反,運算強度會逐漸增加到 1000 以上,因此,GEMM 結構(或者更廣義地說,哪些內核能夠最有效地利用 Cerebras 硬件)將出現明顯的差異。

      為了讓讀者對特定解碼內核的實際浮點運算性能 (FLOPs) 有個大致了解,可以想象一個解碼內核,其批處理大小 (m=batch=1) 和算術強度 (AI=2)。這對應于上圖中的左側豎線。沿著這條線從下往上移動手指,你會經過許多芯片才能到達 Cerebras:所有 NVIDIA GPU 和 Groq LPU 在絕對最大理論情況下也只能實現幾十或幾百 TFLOPs。而 Cerebras 晶圓(同樣是理論上)可以實現其全部 15,625 PFLOPs 的性能。這正是該晶圓的關鍵所在。晶圓上 44GB SRAM 提供的海量內存帶寬意味著解碼內核可以實現同樣巨大的性能。

      回到我們作為性能工程師的工作,這意味著低運算強度的解碼內核在理論可實現的浮點運算次數(FLOPs)上限要高得多。SRAM帶寬可以滿足計算需求,而運行相同內核的GPU的HBM內存則會讓Blackwell SM100 FP4張量核心不堪重負。因此,未來在Cerebras WSE-3上運行的模型和工作負載類型,例如GPT-5.3-Codex-Spark(其架構也稱為gptoss-120b),都將根據晶圓的性能特性進行開發。

      這是軟硬件協同設計的完美范例。

      The Wafer Taketh and

      the Wafer Giveth

      WSE存在一些我們之前提到的明顯缺陷。它擁有大量的SRAM,但SRAM的每瓦或每美元密度本來就不高,而基于HBM的GPU和XPU則能提供更高的每瓦或每美元內存容量。目前,這些HBM被用于服務具有更長上下文長度的大型模型,以及通過批量處理用戶來提高吞吐量。將更多晶圓聯網以彌補單晶圓內存不足的方案也受到晶圓外帶寬的限制。除非出現突破性的技術突破(例如混合鍵合光收發器晶圓),否則這兩個問題都是Cerebras架構有意為之的,使得Cerebras難以經濟高效地服務于大型模型,甚至難以服務于具有較長上下文長度的中型模型,而這些模型正是當今智能體工作負載的典型代表。


      如上所示,調整平均請求大小、支持的并發請求數、模型大小以及權重和鍵值緩存的量化方式時,運行推理所需的 WSE 總數會發生顯著變化。這自然會導致推理或解碼性能特征的差異,并最終影響 $/Mtok 的成本結論。

      此計算器的一個顯著假設是平均請求大小為 96.3k。雖然 Cerebras 選擇基于平均請求大小為 64k 的假設來構建其面向客戶的推理產品,但我們認為這是由于模型運行的上下文窗口限制在 128k 所致。換句話說,這是確認偏差在起作用。


      為了準確了解真實世界的流量模式,我們構建了一個代理,用于從 Claude Code、Codex、Cursor 和 OpenCode 等常用的代理編碼工具收集完全匿名的跟蹤數據。這是我們持續收集生產環境中的代理跟蹤數據,以便在 InferenceX 上進行離線重放工作的一部分。

      約 43.2 萬個請求(約 800 億個token)的較大樣本量使我們相信,典型的 P50 ISL 約為 9.63 萬個token,而非 6.4 萬個或更少。我們還推斷,P90 或 P95 請求的價值可能比初始請求高出指數級,并且仍然至關重要??偟膩碚f,我們近 50% 的請求超過 12.8 萬個token,這是 Cerebras 目前在公共端點上支持的最大上下文窗口。由于工具使用上下文、系統提示以及技能和其他各種形式的引導上下文等因素,我們觀察到許多會話的初始上下文長度超過 10 萬個token。


      此外,行業正朝著無限增大上下文窗口的方向發展——128k上下文肯定無法長期滿足需求,尤其是在代理工作負載日益普及的情況下。由此分析得出的顯而易見的結論是,為了在真實世界流量模式下運行具有完整上下文窗口的最新開源模型,Cerebras 需要部署大量的晶圓。

      以上述 DeepSeek v4 為例,如果客戶擁有 24 臺 CS-3 顯卡,則可以獲得 5 個 GB300 機架。每個機架配備 20TB 的 HBM 內存,足以輕松存儲模型權重,剩余超過 19TB 的空間用于 KVCache。如此龐大的 KVCache 容量足以服務更多用戶并支持長序列長度,而且總共有 5 個這樣的機架。雖然我們已經展示了 Cerebras 在速度方面的優勢,但這里我們可以看到基于 HBM 的 GPU 在吞吐量方面也具有顯著優勢。

      SRAM 擴展技術已死

      可以說,Cerebras 是受SRAM 微縮技術衰落影響最大的公司,因為 SRAM 是 Cerebras 的核心競爭力,其晶圓面積的 50% 都用于 SRAM。這一點已經體現在他們的產品路線圖中。采用臺積電 16nm 工藝的 WSE-1 芯片出貨時配備了 18GB 的 SRAM;采用 7nm 工藝的 WSE-2 芯片出貨時 SRAM 容量躍升至 40GB,實現了 2.2 倍的顯著提升。而采用 5nm 工藝的 WSE-3 芯片僅提升至 44GB。這意味著在一個完整的工藝節點轉換過程中,SRAM 容量僅提升了 10%,而邏輯晶體管的數量卻增長了約 50%。


      展望未來,情況只會更加糟糕。我們可以看到,在5nm工藝(WSE-3目前采用的工藝)之后,SRAM的微縮幾乎停滯不前。最常見的3nm工藝N3E相對于N5工藝幾乎沒有縮小空間,N2及更先進的工藝也同樣如此?,F在,Cerebras公司提升SRAM容量的唯一途徑是增加晶圓上分配給SRAM的面積,但這會犧牲計算面積。當芯片達到晶圓級尺寸時,這是一個嚴格的權衡。因此,下一代CS-4系統將沿用基于N5工藝的WSE-3芯片,但會提高功耗以支持更高的時鐘頻率和計算能力,而SRAM容量則保持不變。

      相比之下,這對 Groq 來說并不那么重要,因為他們能夠在 Z 方向上進行擴展:使用混合鍵合來添加額外的 SRAM 芯片,從而大幅擴展每個封裝的 SRAM,這已列入 Nvidia Groq LP40 的路線圖。

      從邏輯上講,Cerebras 也應該采取同樣的做法:通過晶圓級鍵合技術將另一片晶圓連接到 WSE 上,以擴展每個系統的 SRAM 或計算能力。Cerebras 正在認真探索這一方案,他們已經展示了將 DRAM 晶圓混合鍵合到 WSE 上的概念,以增加高速存儲容量。然而,考慮到熱機械和鍵合波方面的諸多挑戰,我們對該方案的時間安排和技術可行性表示擔憂。誠然,晶圓級鍵合技術已經成熟,但將整個晶圓拼接成一個完整的芯片尚屬首次。Cerebras 過去曾克服過類似的挑戰,未來也需要繼續創新。

      Island 問題——帶寬是幾何學

      盡管存在 SRAM 擴展性問題,但與其他芯片相比,WSE 仍然在單片硅片上提供了壓倒性的計算能力和 SRAM 容量?,F在,最大的權衡之處在于網絡。如前所述,每個 WSE 的封裝外帶寬僅為 1.2 Tb/s(150GB/s)。與平均水平的加速器相比,這個帶寬很低,尤其與 WSE 的計算能力相比更是如此。這并非因為 Cerebras 的架構師忽視了 I/O 對 AI 計算的重要性,或者忽略了增加 SerDes 的數量,而僅僅是晶圓級芯片不可避免的權衡。

      相比之下,NVIDIA 即將生產的每顆 Groq LP30 都包含 96 條 112G SerDes 通道。這意味著在更小的芯片上實現了 9.6 Tb/s 的雙向帶寬。顯然,它已為Jensen 今年在 GTC 大會上首次亮相的PDD + AFD 推理方案做好了充分準備。


      那么,為什么要做出帶寬上的權衡呢?目前晶圓外帶寬為 150 GB/s (1.2 Tb/s),這意味著每毫米邊緣只有 0.17 GB/s,因此英偉達的芯片外 I/O 密度是其 130 倍!


      Cerebras 的海岸線密度不足源于晶圓級架構和光罩步進問題。WSE每次只對一個光罩場進行圖案化,在 84 芯片陣列(WSE-3 為 12 列 × 7 行)中,將相同的光罩圖案鋪滿整個晶圓。為了使交叉劃線互連正常工作,每個光罩曝光都必須完全相同,邏輯電路、存儲器、布線和位置都必須一致。正是這一點使得晶圓上的二維網狀結構能夠均勻地延伸到芯片邊界:每個芯片的東側邊緣都與其相鄰芯片的西側邊緣通過匹配的引腳分配連接。

      這種統一性要求不容商榷,而且對 I/O 的影響非常嚴重。你不能只用一個光罩來放置物理層 (PHY),而讓其他 83 個光罩進行計算。每個光罩都必須是相同的。因此,如果你想在晶圓邊緣放置更多的 SerDes 通道,就必須在每個光罩(而不僅僅是周邊光罩)上都放置 SerDes。大多數物理層將位于晶圓中心,無法與外部世界通信,因此無法發揮作用。你為這些被困在晶圓內部的 I/O 支付了全部硅成本。

      另一種方案是將PHY芯片僅放置在周邊光罩中,但這需要非均勻的步進圖案,從工藝角度來看是不可行的。這需要在部分圖案化的晶圓上更換光罩,這將引入難以承受的工藝風險和復雜性,尤其考慮到所有這些光罩都需要拼接在一起,這會破壞晶圓級制造賴以生存的交叉劃線互連(我們之前稱之為“放大網絡”)。

      即使 Cerebras 接受所有 PHY 芯片上都存在裸露硅片和燒蝕面積,他們仍然會遇到第三個限制:晶圓上數據流阻塞。在推理過程中,片上二維網狀結構負責在內核之間傳輸激活值、權重和梯度(這也是我們稱之為“擴展網絡”的原因)。放置在光罩內的每個 PHY 模塊都會在網狀結構中形成一個孔洞,計算和路由都無法在該區域進行。PHY 芯片尺寸較大(高速 SerDes 在 5nm 工藝下通常每個芯片的面積為 1-3 mm2,包括不隨邏輯擴展的模擬電路),而且由于功耗和電磁干擾 (EMI) 問題,其模擬電路對相鄰的數字邏輯電路不利,因此需要設置保護區域。將 PHY 芯片放置在晶圓中心意味著二維網狀結構必須繞過該區域進行路由,這會增加光罩之間的延遲并降低總帶寬。過多的這種額外路由會違背晶圓級制造的初衷,因為晶圓級制造的關鍵在于實現跨芯片的快速低功耗數據流。

      總之,晶圓級制造之所以成為可能,正是因為采用了均勻的拼接方式(一種光罩圖案,一種網格結構),而這也使得增加I/O帶寬變得困難。Cerebras公司肯定正在尋找突破這一限制的方法。

      我們剛才描述的許多問題都源于電信號傳輸的實際情況,而光I/O則規避了這些問題。Cerebras正在研發的解決方案(再次證明Cerebras已經意識到這個問題)是將光子互連晶圓混合鍵合到WSE上。正如之前為了解決內存限制而增加DRAM晶圓一樣,帶寬限制也通過另一塊晶圓來解決。

      Cerebras 聲稱,對于 LLM 推理而言,他們不需要更多帶寬,目前積極推進混合鍵合晶圓級光子 I/O 技術,只是為了幫助其高性能計算 (HPC) 客戶。這些 HPC 客戶在 NVIDIA 將 GPU 上的 FP64 原生硬件幾乎完全移除后,實際上已被 NVIDIA 放棄。Cerebras 積極地將全部資金重新投入到突破性研發中,而不是進行股票回購,這無疑是件好事。對于擁有大量研發項目需要重新投資的公司來說,股票回購并非明智之舉。例如,AMD 上個季度斥資約 2.21 億美元進行股票回購,但其內部多個團隊仍然缺乏互聯 GPU 集群的開發能力。


      這使得數據能夠沿z軸向上進出晶圓,而不是通過邊緣傳輸。開發這種光子晶圓的光子學合作伙伴是Ranovus公司。這再次引發了晶圓級硅芯片WoW混合鍵合的問題。光學元件對溫度非常敏感(不能過熱或過冷),而它將直接與發熱的晶圓貼合。最后,光纖需要與晶圓完美耦合,這也是一個實際難題。即使在傳統的CPO光引擎層面,這個問題也仍在解決中,更不用說晶圓級應用了。

      考慮到以上所有因素,讓我們來看看架構如何影響推理工作負載。

      管道并行化(Pipeline Parellelism)

      是強制性的

      我們之前已經強調過,在任何推理部署中使用 Cerebras 的一個關鍵問題是模型規模變得如此龐大。這體現在兩個方面:一是總參數數量(例如,DeepSeek V4 的總參數數量為 1.6T),二是鍵值緩存(通常為 256k 上下文,而 DeepSeek V4 首次實現了 1M 上下文)。

      WSE-3 單晶圓 SRAM 容量僅為 44GB,加上 IO 帶寬低,導致有效服務于這些尺寸的型號面臨挑戰。

      每個 CS-3 僅有 12 個 100GbE 的 I/O 帶寬——整個晶圓的帶寬約為 150 GB/s。這僅為 Blackwell 架構采用 NVLink5 時每 GPU 900 GB/s 擴展帶寬的六分之一,并且比 HBM 的帶寬低一個數量級。

      帶寬限制使得 Cerebras 難以處理更大的參數模型。任何要使用的大型張量都必須駐留在晶圓上;如此小的 I/O 容量無法實現晶圓上的數據傳輸。同樣,任何需要在每一層都使用高帶寬集合的分片策略也被完全排除在外。

      唯一真正的選擇是流水線并行,它將模型逐層切片到晶圓上,并且僅在各階段之間傳輸激活值,其原理是激活值相對于權重而言很小。這降低了網絡需求,并使占用大量容量的組件(權重以及一定程度上的鍵值緩存)保持靜止,而不是在晶圓上移動。例如,Cerebras 將 Llama3 70B 模型分片到 4 個 WSE-3 晶圓上,僅在每個晶圓之間傳輸激活值,從而將 I/O 限制在 1.2Tbps 的可用范圍內。

      隨著用于承載模型的晶圓數量增加,要擴展規模,需要考慮幾個因素。首先是流水線瓶頸:為了保持 N 個流水線階段處于運行狀態,至少需要 N 個在軌微批次。一個 4 級配置需要大約 4 個在軌微批次;一個 16 級配置則需要大約 16 個。其次,每個在軌微批次都擁有自己的鍵值緩存 (KV 緩存) ,而在 Cerebra 芯片上,該 KV 緩存必須位于晶圓上 44GB 的 SRAM 中,而這部分空間大部分已被權重占用。即使像 DeepSeek V4 這樣的最新模型采用了高度壓縮的 KV,SRAM 的容量仍然足夠,但 KV 緩存的晶圓間傳輸時間仍然相當長。此外,模型規模的擴大也會增加承載權重所需的晶圓數量,從而導致晶圓間激活傳輸的延遲倍增,進而影響解碼時間。

      總而言之,目前晶圓在生產中的使用方式基本上違背了晶圓的整個設計理念。晶圓的意義就在于以極高的速度進行小批量生產!

      數據分析

      讓我們用一些開源模型架構進行簡單的估算,以便更好地了解不同模型如何映射到 Cerebras 的 SRAM 封裝尺寸。以下是一些粗略的估算數據,展示了幾種模型的封裝尺寸。


      現在根據 WSE-3 規范給出一些粗略的數字。這里我們做了一些假設,包括傳輸將使用全部 12x100Gbps 的帶寬。


      這里我們定義了通過嚴格沿層邊界分片來存儲模型權重所需的最小晶圓數量,但并未包含存儲鍵值緩存所需的空間。實際上,可以使用更多晶圓來為鍵值緩存提供更多空間。激活傳輸時間未被考慮在內,因為激活操作非常小,其傳輸時間將受限于I/O路徑上的傳播時間。

      從表中可以看出,DeepSeek 等公司發布的最新 KV 緩存壓縮技術可以顯著緩解 Cerebras 在長上下文服務方面遇到的問題。然而,I/O 速度慢的問題并未完全解決。首先,片上和片外的 KV 傳輸時間仍然相當長,達到幾毫秒,這不僅影響 TTFT,而且由于 KV 緩存存儲和傳輸相關的批處理、流水線和延遲隱藏等問題,也使得實現高利用率變得更加困難。其次,激活傳輸的固定 I/O 延遲必須根據承載模型實例所需的晶圓數量來計算。這是 TPOT 中的一項固定成本,與承載模型的晶圓數量呈線性關系。

      關鍵在于,Cerebras 雖然速度很快,但晶圓數據傳輸的延遲成本很高,因此其性價比(或每焦耳性能)取決于它能隱藏或最小化多少延遲。Cerebras 推理云上的模型產品或許能反映出這在實踐中的難度。最大的生產模型是 GPT-OSS,但其總參數量僅為 1200 億。雖然也有更大的預覽模型,但即使是這些模型也最多只有 3550 億(GLM 4.7)。作為參考,據埃隆·馬斯克稱,Sonnet 和 Opus 的參數量分別為 1 萬億和 5 萬億。值得注意的是,之前廣受歡迎的 Llama 700 億和 405 億模型也已被棄用,這可能是由于服務成本過高所致。


      值得強調的是,2025 年最流行的兩款前沿開源模型 DeepSeek V3 和 Kimi K2 從未在 Cerebras 公共云平臺上提供。盡管 DeepSeek V3 由于采用了多頭潛在注意力機制 (MLA) 而大幅減少了鍵值緩存的大小,使其服務經濟性優于 Llama 3 405B,但這種情況依然存在。

      綜上所述,我們上述的分析表明,即使是更新的DeepSeek V4 Pro,其部署模式也與Llama 405B(他們已經在Cerebras云平臺上部署了Llama 405B)類似,但鍵值緩存容量卻小得多。因此,憑借現代鍵值緩存壓縮技術和足夠的并發性,即使對于1T以上的大型機型,Cerebras也可能極具吸引力。

      Cerebras 與 OpenAI 的協議

      OpenAI 在 Cerebras 的未來發展中扮演著舉足輕重的角色。它既是 Cerebras 的擔保貸款方,又是其最大的認股權證持有人,同時也是其 246 億美元積壓訂單的幾乎全部來源。OpenAI 在 Cerebras 的財務利益意味著 Cerebras 的命運通過三個相互關聯的機制與單一交易對手緊密相連,而這三個機制的運作方向完全一致。如果雙方合作成功,貸款將通過交付產能而非現金的方式償還(已償還產能部分的 6% 應計利息將被豁免),認股權證將生效并協調雙方的激勵機制,而收入也將達到數十億美元。在完全稀釋的基礎上,OpenAI 最多可持有 Cerebras 12% 的股份(不包括任何新發行的股份)。

      詳情如下:

      2025年12月,Cerebras與OpenAI簽署了一份主關系協議(MRA)。根據該協議,OpenAI承諾購買750兆瓦的AI推理計算能力,分批部署,部署時間為2026年至2028年,每批部署期限為3至4年,可延長至5年。OpenAI還擁有額外購買1.25吉瓦計算能力的選擇權(而非義務),使總潛在容量達到2吉瓦。截至2025年12月31日,S-1文件披露剩余履約義務為246億美元。更重要的是,轉嫁成本(數據中心租金、電力、租賃物業裝修、安保等)由OpenAI報銷,并按總額確認為收入。

      OpenAI還通過一份年利率為6%的擔保本票向Cerebras提供了一筆10億美元的營運資金貸款。如果Cerebras根據互惠協議(MRA)交付計算能力或硬件來償還貸款,則可免除利息。還款計劃在三年內分期等額償還,從交付首批250MW計算能力的最后一批后開始。如果互惠協議因OpenAI自身未糾正的重大違約以外的任何原因終止,Cerebras可能需要立即償還全部未償余額及應計利息。OpenAI還保留指示托管銀行停止執行Cerebras關于資金部署的指示,而直接控制資金處置的權利。

      除了互認協議 (MRA) 之外,Cerebras 還向 OpenAI 發行了一份認股權證,以每股 0.00001 美元的行權價格授予 OpenAI 33,445,026 股 N 類(無投票權)普通股,實際上相當于免費。該認股權證分三個結構不同的階段授予:4,459,337 股在 2026 年 1 月收到 10 億美元營運資金貸款后立即授予;5,574,171 股在 Cerebras 市值達到 400 億美元或 OpenAI 達到 MRA 規定的特定費用支付里程碑(以較早者為準)時授予;剩余的 23,411,518 股分幾個子階段授予,這些子階段與容量交付掛鉤,分為已承諾容量(與 MRA 中已確定的交付日期掛鉤)和額外容量(僅在 OpenAI 行使將交易擴展至全部 2GW 的選擇權時授予)。根據S-1文件,Cerebras評估認為,營運資金貸款部分、市值/支付門檻部分以及承諾產能子部分很可能歸屬,而額外產能子部分則不太可能歸屬(即2GW擴建尚未達到基準水平)。OAI還擁有要求登記權,這意味著它可以隨時強制Cerebras登記這些股份以供公開出售。認股權證將于2035年12月24日到期,或在MRA項下所有具有約束力的承諾或付款完成后的五個工作日到期。

      根據 ASC 505-50 準則,授予客戶的股權應在商業協議有效期內確認為抵減收入,而非在歸屬日或市場價值時確認。該金額鎖定在授予日的公允價值,無論股票日后的交易價格如何。根據 S-1 文件,截至 2025 年 12 月 31 日,Cerebras 將認股權證的估值定為每股 82.02 美元,這可以作為 OpenAI 交易授予日公允價值的有效參考。將每股 82.02 美元應用于全部約 3340 萬股,我們得出理論上的最大抵減收入約為 27.4 億美元,約占 OpenAI 預期收入的 10%。我們假設已公布的 246 億美元積壓訂單已扣除認股權證的抵減收入。然而,實際上,只有部分訂單會按比例分攤到收入中。營運資金貸款部分(約3.66億美元,將于2026年1月歸屬)、市值/支付門檻部分(約4.57億美元)以及承諾產能子部分(規模未披露)。新增產能子部分僅在OAI行使2GW擴建選擇權時才會產生抵銷收入,并進行累計追趕調整。

      盡管 Cerebras 在新云計算熱潮中一度被邊緣化,但 OpenAI 于 2 月發布的 GPT-5.3-Codex-Spark(該模型基于從真正的 5.3 Codex 版本提煉而來的 gptoss-120B 架構)正在扭轉局面。Spark 在 Cerebras 上運行速度高達 2000 tok/秒/用戶,并促成了兩家公司宣布達成長期合作協議,進一步提升了它們的 IPO 前景(以及 sama 持有的股份價值)。


      目前,Cerebras 的芯片在經濟上只能支持相對較小的模型,至少就目前市面上可獲取的模型而言是如此。例如, GPT-5.3-Codex-Spark與完整的 GPT-5.3-Codex 完全不同;它是基于 GPT-5.3-Codex 軌跡進行微調的 gpt-oss-120b。換句話說,它是一個精簡后的模型,體積縮小了十倍以上。

      雖然 GPT-5.3-Codex-Spark 的速度確實很快,但其token目前的價值可能達不到 100 億美元。OpenAI 要想運行任何參數總數超過 1 萬億、上下文窗口達到 100 萬的模型來應對現代智能體工作負載模式,就必須接受成本上的重大權衡(并通過以高溢價出售token來彌補損失),我們預計最終的性能將低于每秒 1000 token的交互效率。另一方面,算法的改進無疑會讓小型模型變得更加智能。我們或許只需不到一年的時間,就能看到 GPT 5.5 級別的智能模型以 1200 億的規模運行。

      正如前文所述,我們許多工程師寧愿放棄 Opus 4.7 的前沿智能,轉而追求 Opus 4.6 的更快性能。如今,OpenAI 終于推出了 GPT-5.5,其性能達到了 Opus 4.5 的水平。一年后,即使真正的尖端技術早已超越了 GPT-5.5,人們是否還愿意為速度如此之快、質量堪比 GPT-5.5 的token買單呢?我們認為,答案或許是肯定的,而且這還是史無前例的。雖然首批 750MW 的容量已被鎖定,但如果 OpenAI 選擇使用全部 2GW 甚至更多,Cerebras 的收益空間將更加巨大。這一切都取決于 OpenAI 能夠在 Cerebras 硬件上運行的模型質量。

      (來源:semianalysis)

      *免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

      今天是《半導體行業觀察》為您分享的第4406內容,歡迎關注。

      加星標??第一時間看推送



      求推薦


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北舞運動會開幕式跳李小冉心愿便利貼,李小冉:連母校都沒放過我

      北舞運動會開幕式跳李小冉心愿便利貼,李小冉:連母校都沒放過我

      露珠聊影視
      2026-05-15 18:27:03
      特斯拉推出充電服務包 平均每度電不到0.57元

      特斯拉推出充電服務包 平均每度電不到0.57元

      太平洋汽車
      2026-05-15 15:43:30
      緊急叫停!吃艾司唑侖的中老年,務必留心,三大好處,三大禁忌

      緊急叫停!吃艾司唑侖的中老年,務必留心,三大好處,三大禁忌

      健康科普365
      2026-05-13 22:20:05
      特朗普稱中方同意購買200架波音飛機,外交部:中美經貿關系本質是互利共贏

      特朗普稱中方同意購買200架波音飛機,外交部:中美經貿關系本質是互利共贏

      澎湃新聞
      2026-05-15 15:30:35
      上層社會最怕窮人看到的九本書

      上層社會最怕窮人看到的九本書

      洞見
      2026-05-14 11:58:09
      梅開二度!韋世豪踢出完美“復仇之戰”,讓天津球迷沉默

      梅開二度!韋世豪踢出完美“復仇之戰”,讓天津球迷沉默

      中超偽球迷
      2026-05-15 21:39:27
      大姐車座子被陌生狗子咬成蛋糕胚后,發視頻怒斥狗子,沒想到后者居然直接打起雙閃…評論區:這狗手段有點高啊,這雙閃跟紫薯精一模一樣…

      大姐車座子被陌生狗子咬成蛋糕胚后,發視頻怒斥狗子,沒想到后者居然直接打起雙閃…評論區:這狗手段有點高啊,這雙閃跟紫薯精一模一樣…

      大愛狗狗控
      2026-05-15 19:26:33
      1978年許世友接中央絕密密令:野戰軍全換廣西軍區牌照,去哪連師長都無權問!

      1978年許世友接中央絕密密令:野戰軍全換廣西軍區牌照,去哪連師長都無權問!

      史海孤雁
      2026-05-15 15:12:40
      上海87-82險勝北京先拔頭籌,張鎮麟17+5,洛夫頓18分,周琦13+9

      上海87-82險勝北京先拔頭籌,張鎮麟17+5,洛夫頓18分,周琦13+9

      懂球帝
      2026-05-15 21:34:22
      史無前例!大陸官宣統一后安排,島內學者直呼:臺軍應滅“臺獨”

      史無前例!大陸官宣統一后安排,島內學者直呼:臺軍應滅“臺獨”

      小莜讀史
      2026-05-14 13:54:16
      玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

      玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

      金沛的國學筆記
      2026-05-13 10:55:09
      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      阿訊說天下
      2026-05-14 12:06:36
      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      阿龍聊軍事
      2026-05-14 11:02:15
      追覓造車主體公司股權被凍結,實控人為俞浩

      追覓造車主體公司股權被凍結,實控人為俞浩

      新浪財經
      2026-05-15 18:08:40
      在北京停留最后一天,特朗普興致十足,早上六點起床后一頓猛夸

      在北京停留最后一天,特朗普興致十足,早上六點起床后一頓猛夸

      策前論
      2026-05-15 17:09:24
      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      黯泉
      2026-05-15 16:19:10
      在迪士尼花2000多買「插隊特權」怎么激怒普通游客?“排隊3小時快要昏厥突然有人插到你前面”

      在迪士尼花2000多買「插隊特權」怎么激怒普通游客?“排隊3小時快要昏厥突然有人插到你前面”

      Vista氫商業
      2026-05-15 15:21:52
      3場貢獻3球1助攻,王鈺棟當選中超3月最佳青年球員

      3場貢獻3球1助攻,王鈺棟當選中超3月最佳青年球員

      懂球帝
      2026-05-15 11:37:05
      杜特爾特盟友沖進國會,抓人的特工緊隨其后,現場一片嘩然

      杜特爾特盟友沖進國會,抓人的特工緊隨其后,現場一片嘩然

      你笑的好甜美
      2026-05-14 16:28:48
      中美會晤結束,中方率先定調,特朗普通告全球,美媒:美國變了

      中美會晤結束,中方率先定調,特朗普通告全球,美媒:美國變了

      墨道榮
      2026-05-15 12:21:30
      2026-05-15 21:55:00
      半導體行業觀察 incentive-icons
      半導體行業觀察
      專注觀察全球半導體行業資訊
      13687文章數 34920關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      時尚
      藝術
      本地
      健康
      游戲

      日常衣服千萬不用買太貴,準備幾件白色T恤,清爽百搭又實用

      藝術要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      本地新聞

      用蘇繡的方式,打開江西婺源

      專家揭秘干細胞回輸的安全風險

      PS5獨占神作銷量太慘了!首周僅4614份 第二周消失

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲男人第一无码av网站| 亚洲日本中文字幕天堂网| 亚洲国产码专区| 久久午夜无码免费| 中文字幕久久久久人妻| 久久久久亚洲AV成人网人人软件| 99无码熟妇丰满人妻啪啪| 熟妇人妻中文字幕| 久久福利导航| 国产精品欧美一区二区三区| 人妻无码久久中文字幕专区 | 人人妻人人澡人人爽| 88国产经典欧美一区二区三区| 97精品久久久久中文字幕| 天天爽夜夜爱| 亚洲小视频| 欧美一本大道香蕉综合视频| 国产久一视频在线观看app| 东北女人毛多水多牲交视频| 亚洲无码18禁| 人人妻人人澡人人爽人人精品av| 98精品国产高清在线xxxx| 亚洲成AV人国产毛片| 非洲黑人性xxxx精品| 国产精品v片在线观看不卡| 亚洲日本不卡| 纯肉高h啪动漫| 精品国产乱码久久久久久下载| 亚洲中文无码人a∨在线导航 | 99热在线观看| 日韩av综合中文字幕| 印度AV免费观看| 中文字幕无码AV不卡一区| 亚洲欧美不卡中文字幕| 蜜国产精品JK白丝AV网站| 日韩av视屏在线观看| 老司机午夜福利视频免费播放| 嗯~进去~好大~好满视频| 国内少妇偷人精品免费| 手机av中文字幕| 狠狠v日韩v欧美v|