興建于公元前295年,藏書量高達70萬卷,并存有歐幾里得《幾何原本》、荷馬史詩全集等典籍的亞歷山大圖書館,被稱為人類歷史上最偉大的圖書館。
然而,這座人類知識的殿堂,卻對文明的進程沒有產生任何推動價值,就湮滅為歷史的塵埃。因為,知識如果不能被檢索、被流轉、被利用就無法產生智慧。
就像是海量的數(shù)據(jù)存在于系統(tǒng)之中,但如果不能被及時讀取和運用,算力就會“空轉”,數(shù)據(jù)就發(fā)揮不出應有的價值。如今,大模型參數(shù)正突破萬億級別,訓練數(shù)據(jù)從PB邁向EB級,傳統(tǒng)存儲架構,就如無法發(fā)揮價值的古代圖書館,無法滿足AI應用對海量數(shù)據(jù)的渴求。
![]()
在智算崛起的時代,存儲系統(tǒng)正逐漸成為AI走向規(guī)模化部署的“瓶頸”,一場關于存儲系統(tǒng)的重構勢在必行。
01
智算時代
存儲系統(tǒng)面臨復雜化挑戰(zhàn)
中國信通院的報告顯示:95%企業(yè)將基于私域數(shù)據(jù)構建專屬模型,需要至少十年的歷史數(shù)據(jù)。
這意味著,當企業(yè)AI需求從通用大模型全面邁向專屬大模型的同時,存儲系統(tǒng)不僅要承載當前的訓練數(shù)據(jù),更要能夠面向AI時代的需求變遷,保持長期演進的能力。
首先,模型復雜度正大幅增長,參數(shù)規(guī)模從千億向萬億級別躍進,相應的算力基礎設施從千卡集群擴展到萬卡規(guī)模,對存儲系統(tǒng)的讀寫帶寬提出了更高要求。
比如,TB級Checkpoint(模型檢查點)的下刷與加載,會影響訓練中斷后的恢復速度,也是推理階段加載模型的“高速入口”,這對讀寫帶寬提出TB/s級的要求;再有海量小文件的隨機讀操作,如訓練素材的快速加載、推理階段的KVCache卸載等,都直接影響GPU的利用率,若響應延遲過高,千億參數(shù)的算力洪流便會因數(shù)據(jù)供給不足而斷流。
其次,數(shù)據(jù)類型變得空前復雜,訓練數(shù)據(jù)涵蓋文本、圖像、視頻、結構化數(shù)據(jù)等多種格式,且分散在不同的存儲系統(tǒng)中,有約30%的企業(yè)在數(shù)據(jù)兼容性和統(tǒng)一訪問方面遇到了明顯障礙。
第三,業(yè)務連續(xù)性要求極致可靠,超過60%的企業(yè)用戶反饋,訓練任務常因底層存儲系統(tǒng)不穩(wěn)定而中斷,而每次中斷意味著大量的計算資源浪費。
不難發(fā)現(xiàn),AI工作負載對存儲系統(tǒng)的需求呈現(xiàn)出多重挑戰(zhàn),既需要極高的順序讀寫帶寬來處理檢查點文件,又需要卓越的隨機讀寫性能來應對海量訓練素材的訪問。雙重壓力使傳統(tǒng)為單一場景設計的存儲架構不堪重負。
![]()
因此,我們需要一種新型存儲系統(tǒng):它必須具備極致的擴展能力以容納EB級數(shù)據(jù),能夠支持混合工作負載,并通過智能架構避免頻繁的數(shù)據(jù)遷移。而新華三Polaris X20000智算存儲的推出,正是為了迎接AI時代的挑戰(zhàn)。
02
存儲架構重構
打通數(shù)據(jù)供給“生命線”
當前 AI 算力競賽已進入“萬卡集群”的新階段,存儲架構的痛點已從單純的容量需求,升級為對低延遲、高并行、智能調度的系統(tǒng)性訴求,誰能率先突破傳統(tǒng)存儲的性能與協(xié)議桎梏,誰就能掌握 AI 集群高效運轉的核心話語權,并推動存儲技術向全棧創(chuàng)新方向演進。
首先,在萬卡級AI集群中,計算與存儲的比例已經發(fā)生本質變化,傳統(tǒng)存儲的單節(jié)點性能瓶頸會導致整個系統(tǒng)無法充分發(fā)揮GPU集群的算力,這就是為什么單節(jié)點性能突破如此關鍵。
Polaris X20000通過全閃存配置實現(xiàn)單節(jié)點150GB/s的帶寬突破,在最新的MLPerf Storage v2.0基準測試中,在保持GPU利用率90%以上的條件下,實現(xiàn)了單節(jié)點158.92GB/s和集群476.75GB/s的卓越表現(xiàn)。
![]()
其次,在傳統(tǒng)NFS協(xié)議下,客戶端只能連接到單一存儲節(jié)點,跨節(jié)點數(shù)據(jù)訪問需要二次轉發(fā),如同快遞必須經過中轉站,增加了延遲和網絡開銷。
而Polaris X20000通過EPC(Enhanced Parallel Client)高性能并行客戶端,徹底改變了客戶端與存儲節(jié)點的交互模式,它允許單個客戶端直接并行訪問多個存儲節(jié)點,實現(xiàn)IO級別的負載均衡和高效數(shù)據(jù)分布,將“單車道小路”升級為“多車道高速公路”。在真實的AI檢查點場景中,這種架構使TB級文件能夠并行寫入多個節(jié)點,顯著縮短了保存時間,避免了GPU因等待存儲而空閑。
第三,如今的圖像幀和文本片段等訓練素材通常以千萬級小文件形式存在,推理階段的KVCache(鍵值緩存)更是由數(shù)十億個小IO組成。傳統(tǒng)方案中,小IO與大IO混雜處理會導致緩存浪費、網絡擁塞。
智能IO分流技術則可以根據(jù)IO大小智能分配數(shù)據(jù)路徑:小IO直接寫入緩存層后立即返回,顯著提升響應速度;大IO繞過緩存,通過RDMA直接從協(xié)議層拉取數(shù)據(jù),既縮短了IO路徑,又避免了緩存資源的浪費,真正意義上實現(xiàn)“以存提效”。
最后,傳統(tǒng)數(shù)據(jù)傳輸需要經過多次內存拷貝和上下文切換,CPU大量時間耗費在數(shù)據(jù)搬運而非業(yè)務處理上。而新華三通過全RDMA互聯(lián)和內存零拷貝技術,實現(xiàn)了內核繞行和零拷貝,數(shù)據(jù)直接從發(fā)送端內存?zhèn)鬏數(shù)浇邮斩藘却妫瑹o需CPU參與,使系統(tǒng)帶寬利用率大幅提升,同時顯著降低了延遲。
可貴的是,Polaris X20000這一系列技術創(chuàng)新形成了完整的系統(tǒng)優(yōu)化,并且在多個實際部署案例中,成功支撐了從千卡到萬卡規(guī)模的AI訓練集群,證明了其在真實生產環(huán)境中的成熟度。
03
三點突破
為智算存儲進化帶來啟示
總結而言,AI時代的存儲革命,核心要解決的就是三個根本要求:
第一是,極致性能以充分釋放GPU算力潛力;第二是,架構融合以支持從數(shù)據(jù)預處理、模型訓練到推理部署的全流程;第三是,智能運維以確保系統(tǒng)穩(wěn)定并降低運營成本。
![]()
Polaris X20000之所以代表智算存儲的最佳實踐,正是因為它在這三個維度上都實現(xiàn)了突破性創(chuàng)新。
比如在性能上,Polaris X20000通過全閃存架構和軟件優(yōu)化,實現(xiàn)了單節(jié)點150GB/s的帶寬突破,同時保持優(yōu)異的隨機讀寫性能,將GPU訓練等待時間明顯縮短,顯著加速AI研發(fā)進程;在架構上,實現(xiàn)了“一套存儲支撐全流程”的目標,遷移時間從數(shù)天縮短到零小時,不僅簡化了數(shù)據(jù)流水線,還確保了數(shù)據(jù)一致性和完整性;在智能運維上,引入“AI in ALL”理念,通過機器學習算法實現(xiàn)故障預測、智能調優(yōu)和自動化運維,顯著降低運維復雜度和管理成本。
事實上,隨著大模型持續(xù)進化邁向萬億參數(shù),多模態(tài)學習成為主流,存儲系統(tǒng)的價值將愈發(fā)凸顯。Polaris X20000給我們的啟示在于,只有當存儲系統(tǒng)能夠無縫支撐數(shù)據(jù)流動、智能處理和價值挖掘時,人工智能才能真正從技術實驗轉變?yōu)楫a業(yè)動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.