「一輛車即使最高速度很高,如果大部分時間處于等待狀態,發動機空轉,那么它的實際效率依然很低。」英韌科技董事長吳子寧博士用這個比喻,道破了當下AI基礎設施的一個隱秘痛點。
大模型訓練規模持續擴張,推理請求指數級增長,數據中心投資熱度不減——但光鮮數字背后,算力利用率卻在低位徘徊,系統抖動頻發,集群效率難以穩定。問題往往不在算力本身,而在「數據」這一環。
![]()
當計算集群擴至萬卡級別,任何環節的延遲波動都會被放大為整體性能問題。一些云服務宕機事件,表面是調度算法失效,深層卻是數據供給與計算節奏的錯位——數據來不及組織、搬運、分發,算力只能空轉等待。
這讓存儲這個長期被視為基礎組件的領域,重新進入核心視野。過去存儲解決「存得下」,AI時代它開始決定「算得快不快」。「AI SSD」應運而生,幾乎所有主流廠商都在交卷。但什么才是真正有效的改進?存儲究竟需要為AI改變什么?
二十年前的iPod故事:技術演進中的判斷能力
吳子寧博士沒有直接回答,而是講起2001年的往事。那年蘋果發布iPod,把機械硬盤縮到火柴盒大小,實現5GB容量。同期主流MP3播放器僅配64MB或128MB閃存。
「用戶不再需要頻繁管理音樂文件,而是可以將整個音樂庫隨身攜帶。」吳子寧博士回憶。這一設計迅速顛覆認知,引發產業鏈連鎖反應——多家硬盤廠商將小尺寸機械硬盤視為新增長方向,重金投入研發。
但故事很快反轉。閃存技術快速迭代,容量飛速發展。蘋果隨即推出全閃存iPod,入門容量僅1GB,卻憑小型化和便利性迅速超越機械硬盤版本。「很多存儲公司投入大量資源研發小尺寸機械硬盤,都因為新技術的出現受到了巨大的沖擊。」
彼時吳子寧博士任職于Marvell,而Marvell正是業界最早全面投入閃存固態硬盤解決方案的公司之一。這段經歷形成他的核心判斷:技術持續演進是常態,短周期有漸進式創新,長周期可能出現顛覆性變革。能否準確把握趨勢并前瞻性決策,至關重要。
2016年創辦英韌科技時,他已觀察到兩個關鍵趨勢疊加。「一邊是數據需求在爆發,而且是長期趨勢;另一邊是存儲介質正在從機械硬盤向固態硬盤遷移。」他說,「當需求和技術同時發生變化,就會出現一個很典型的機會窗口。」
AI驅動的新一輪數據浪潮下,這種「判斷能力」的重要性再度放大——面對全新計算范式,存儲系統應當如何演進?
數據洪峰下的三重壓力:形態、場景、容忍度
據DESIGNRUSH估計,2025年實際數據量約173.4ZB,2026年全年數據生成量預計在230ZB至240ZB之間,2029年將達到527.5ZB。存儲作為IT基礎設施三大核心支柱之一,在半導體市場占比約20%至30%,但AI時代這一「支柱」正承受前所未有的壓力。
第一重壓力來自數據形態改變。傳統數據有明確冷熱分層:熱數據駐留內存,溫數據進SSD,冷數據歸檔機械硬盤。但AI訓練與推理中,數據呈現高頻交互特征——大模型訓練需持續吞吐海量數據,推理階段涉及大量中間狀態頻繁訪問,向量檢索帶來高比例小塊隨機讀寫。數據不再嚴格遵循既有分層結構。
第二重壓力是應用場景高度分化。基礎大模型向行業大模型演進,銀行風控數據、車企自動駕駛數據、醫學影像系統數據,每個場景對存儲要求各異:有的要超高吞吐,有的要極低延遲,有的需在邊緣節點實現高密度數據處理。
第三重壓力是系統容忍度顯著降低。計算集群擴至萬卡級規模時,任一環節性能波動都可能拖慢整體訓練效率。邊緣側原本受限的內存帶寬,還需匹配接近GPU級別的計算能力。存儲不再只是數據承載介質,而成為影響數據流動效率、進而決定訓練與推理性能的關鍵因素。
這種變化的根源,在于計算體系中心的遷移。「過去是CPU在做調度,GPU只是執行單元;但現在,在AI系統里,GPU本身開始承擔調度角色。」吳子寧博士指出,「如果數據還要經過CPU中轉,就相當于在兩條高速公路之間接了一座很窄的橋,這個環節會成為瓶頸。」
這正是「空轉」問題的技術根源。計算單元算力極高,但數據往往滯留存儲側——若無法被高效調度至計算單元,就會導致算力資源閑置與浪費。
從「存得下」到「算得快」:AI SSD的系統級優化
「存儲不僅要完成數據的持久化,還需要具備對數據進行高效組織與調度的能力。」吳子寧博士表示,「我們已經開始探索,在存儲側引入更智能的控制機制,對數據布局與訪問路徑進行優化。」
這一思路指向明確方向:存儲系統需要針對AI負載進行系統性優化。
過去幾年,行業已展開多路徑探索。通過優化固件與FTL(閃存轉換層)算法,使SSD在高并發場景下保持穩定延遲分布;通過重構主控架構,提升數據調度效率;借助CXL(計算快速鏈接)協議擴展內存語義,使閃存在特定場景中承擔部分內存功能。
這些技術路徑最終匯聚為共同產品方向——AI SSD。這是整個行業對同一核心問題的多元回應:當計算范式發生變化,存儲體系如何協同演進?
吳子寧博士提出三項判斷維度:技術合理性、商業可行性、生態兼容性。以此衡量AI SSD,其可行性便清晰起來——
技術層面,AI負載對存儲提出傳統SSD難以滿足的新要求,針對性優化是解決「算力等數據」痛點的必要路徑;商業層面,AI SSD在成熟閃存與主控技術基礎上演進,能夠復用現有供應鏈,具備大規模部署的成本基礎;生態層面,它延續PCIe/NVMe等標準接口與協議,與現有計算體系保持兼容,能夠被平滑接納。
從這個角度看,AI SSD的出現具有內在必然性——它并非對現有體系的顛覆,而是在既有架構基礎上,針對新型負載特征進行的系統性優化。正如當年閃存逐步取代小尺寸機械硬盤:技術進步提供替代能力,應用需求明確替代方向。
2025年的系統重排:全球廠商的同場競技
能夠深入理解AI負載特征,并據此構建差異化存儲方案的廠商,將更有可能在下一輪系統級重構中占據有利位置。2025年,這場「系統重排」已經拉開序幕。
從鎧俠公布AI SSD中長期路線圖,到三星、海力士、美光陸續推出針對AI場景優化的超高速顆粒產品;從FMS存儲峰會上多家廠商的同臺競技,到華為在上海發布「AI SSD,加速智能經濟涌現」——幾乎在同一時間點上,全球主要存儲廠商都在加速布局。
這場競賽的核心,并非簡單的性能參數比拼,而是對AI負載本質的理解深度,以及將理解轉化為系統級優化方案的能力。誰能更精準地識別「空轉」發生的具體環節,誰就能在把閑置算力轉化為有效算力的過程中,創造更大的商業價值。
吳子寧博士二十年前在Marvell的經歷,某種程度上預示了今天的格局——技術演進不會停止,但每一次躍遷都需要有人提前看到曲線的拐點。當閃存取代機械硬盤時,提前布局者獲得了窗口期紅利;當AI SSD成為新戰場時,同樣的邏輯正在重演。
不過,與當年不同的是,今天的存儲優化不再只是介質層面的替代,而是涉及數據流、計算架構、軟件棧的系統性重構。這意味著,單一技術突破的價值在下降,全棧協同能力的重要性在上升。
英韌科技的選擇,是在主控芯片層面切入——這個環節直接決定SSD的數據調度效率,也是連接底層閃存與上層協議的樞紐。通過在這一層引入更智能的控制機制,他們試圖從源頭緩解「數據等算力」或「算力等數據」的錯配問題。
這種路徑的優勢在于,可以相對靈活地適配不同閃存介質和不同應用場景,而不被鎖定在特定顆粒技術路線。挑戰則在于,需要同時理解AI負載特征、閃存物理特性、以及系統級數據流,技術門檻顯著高于傳統SSD設計。
從產業格局看,AI SSD的興起正在重塑存儲市場的競爭維度。傳統上,存儲廠商的競爭焦點集中在容量、成本、可靠性;AI時代,延遲穩定性、并發處理能力、與計算單元的協同效率,成為新的核心指標。這給了專注特定技術環節的廠商以差異化機會,同時也對全棧整合能力提出更高要求。
一個值得觀察的現象是,頭部云廠商和AI基礎設施公司,正在越來越多地介入存儲系統的深度定制。他們不再滿足于采購標準品,而是希望存儲層能夠與其特定的工作負載特征精準匹配。這種趨勢,既為專業存儲芯片公司創造了合作空間,也可能在長期帶來垂直整合的壓力。
吳子寧博士的判斷是,未來三到五年,AI SSD將從「概念驗證」走向「規模部署」,但真正形成穩定的市場格局,可能需要更長時間的技術迭代和生態磨合。「技術持續演進是常態」,這句話在他口中重復了兩次——一次講給當年的小尺寸機械硬盤,一次講給今天的AI基礎設施。
當算力投資持續升溫,當萬卡集群成為標配,「空轉」問題只會更加凸顯。存儲芯片的角色轉變,本質上是一場關于「效率」的重新定價——誰能把更多閑置算力轉化為有效算力,誰就能在AI基礎設施的下一輪迭代中,占據更有利的位置。
而這場轉變的最終形態,或許正如當年iPod的故事所預示:技術路徑的勝負,從來不只取決于參數表的對比,而取決于誰能更準確地預判,用戶真正需要的是什么——或者說,計算系統真正需要的是什么。
當存儲從「存得下」進化到「算得快」,我們是否已經準備好重新定義,什么才是一套AI系統的「有效算力」?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.