網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

能跑AI推理的CPU服務器，是如何誕生的

2025-03-27 04:42:58　來源: 大咖科技TechChic

加拿大,安大略省舉報

分享至

文 | 李薇

編輯 | 宋辰

一石激起千層浪。

DeepSeek點燃了各個行業(yè)對于AI應用的熱情，AI應用在2025年真正進入到了千行百業(yè)，創(chuàng)造了非常多實際落地業(yè)務的價值。

“為搭上這趟‘快車’，所有企業(yè)都在第一時間全力以赴。”作為算力基礎設施提供商，浪潮信息副總經(jīng)理趙帥深刻感受到了這一點，就連春節(jié)假期，都有大量的互聯(lián)網(wǎng)云廠商找到浪潮信息，提出盡快大幅增加采購量。

大廠很快就購買了大量支持部署滿血版DeepSeek的服務器，但還有很多中小企業(yè)、教育科研機構(gòu)，陷入了選擇困境——一方面他們也想用DeepSeek去創(chuàng)造價值，但另一方面部署滿血版DeepSeek的費用非常高，他們也并不需要上千人的高并發(fā)。

用CPU代替GPU去推理，靠譜嗎？

1月底，DeepSeek的“大火”剛剛?cè)计饋淼臅r候，由于訓練和推理算力門檻下降，有聲音認為，市場不再需要那么強大的算力了。

但是，回看第一次工業(yè)革命，瓦特改良的蒸汽機讓煤炭燃燒更加高效，但結(jié)果卻是煤炭需求飆升。這就是“杰文斯悖論”：當技術進步提高了效率，資源消耗不僅沒有減少，反而激增。

據(jù)IDC數(shù)據(jù)顯示，到2027年，智能算力規(guī)模增長1.7倍，用于推理的工作負載占比72.6%，AI算力需求將面臨巨大的供應缺口，未來所有的算力都需要具有智能的能力。

全球算力市場正因DeepSeek發(fā)生巨變——DeepSeek讓更多的用戶和場景加入AI當中，帶動了大模型的普及和應用落地，單一模型的訓練和推理算力需求在下降，但由此所帶來的技術普及是更大的算力需求。

DeepSeek將大模型推理成本壓縮了97%，全球的算力需求卻將因其高性價比反而呈現(xiàn)指數(shù)級膨脹。

正如英偉達創(chuàng)始人黃仁勛斷言：“AI的計算需求事實上是加速的，模型推理需要的算力消耗比我們當下以為的還要多100倍。”

事實上，借助分布式架構(gòu)，CPU在推理方面的性能表現(xiàn)并不弱。通用CPU服務器憑借其獨特優(yōu)勢，成為中小規(guī)模并發(fā)場景部署DeepSeek-R1 32B、QwQ-32B等新一代大推理模型的最佳選擇。

在AI模型推理過程中，特別是在大語言模型推理中，對算力的需求尤其突出。不過，由于CPU并不擅長矩陣類的計算指令，一度難以打入AI芯片核心戰(zhàn)場。同樣，CPU服務器部署大模型面臨算力、內(nèi)存容量和帶寬方面的挑戰(zhàn)。

但當大模型在企業(yè)場景中的應用日趨廣泛，以及與企業(yè)業(yè)務系統(tǒng)的融合更加緊密之時，加上高性能數(shù)據(jù)中心級GPU計算資源稀缺昂貴，CPU成為GPU以外的最優(yōu)選。

CPU服務器具備卓越的通用性和靈活性，可同時支持AI推理、云計算、數(shù)據(jù)庫等多種工作負載，避免了專用AI硬件的使用局限，為大模型應用與現(xiàn)有IT基礎設施的融合提供了更加靈活、經(jīng)濟的方案，企業(yè)能夠以較低的硬件投入快速實現(xiàn)大模型應用落地。

此外，通用CPU服務器還有比較成熟的軟件生態(tài)系統(tǒng)、編程工具、開發(fā)工具，容易集成到現(xiàn)有的軟件架構(gòu)當中去。它還具有高可靠性的硬件設計，可以24小時開機，平均無故障時間也較長。

基于對中小規(guī)模并發(fā)需求的深入理解，浪潮信息于近日推出創(chuàng)新性產(chǎn)品——元腦CPU推理服務器，可高效運行DeepSeek和千問QwQ等新一代大推理模型。

此次浪潮信息推出的元腦CPU推理服務器NF8260G7和NF8480G7，采用了4顆高性能通用CPU和多通道內(nèi)存系統(tǒng)，通過先進的張量并行策略和AMX加速技術，單機即可高效運行DeepSeek-R1 32B和QwQ-32B推理模型，單用戶性能超20 tokens/s，可同時處理20個并發(fā)用戶請求，與云計算、數(shù)據(jù)庫等通用關鍵業(yè)務場景融合提供更高效、更靈活、更穩(wěn)定的AI通用算力支撐。

更值得一提的是，元腦CPU推理服務器上部署了AIStation、InManage等管理軟件，實現(xiàn)了開箱即用。

元腦CPU推理服務器不僅大大減輕了中小企業(yè)的負擔，還降低了使用門檻。市面上常見的DeepSeek滿血版一體機的價格均在百萬元以上，甚至達到幾百萬元，用通用CPU服務器去做蒸餾版模型，初始投資可能只需前者的1/10。

趙帥強調(diào)，DeepSeek爆火之后，浪潮信息一系列工作的核心出發(fā)點，就是面向不同用戶的應用場景，開發(fā)高效、易用的產(chǎn)品，為AI大模型的落地提供更好的支撐。

算力重構(gòu)，軟硬協(xié)同先行

浪潮信息早在去年就做出了一個重要的布局，升級元腦智算品牌，并提出“一切計算皆AI”，即AI會滲透到千行百業(yè)，滲透到多種應用場景中去發(fā)揮它的價值。

“我們會用不同類型的服務器適配客戶不同類型的場景，在客戶不同業(yè)務選擇下都能選擇到最高性價比的產(chǎn)品去做AI。這個是我們最重要的愿景之一。”趙帥表示，“浪潮信息此次推出CPU推理服務器，正是這個愿景在落地當中很重要的一環(huán)。”

在趙帥看來，AI推理并非一個純硬件的工作，軟硬件協(xié)同優(yōu)化才能讓性能發(fā)揮到極致。所以元腦CPU推理服務器采用張量并行策略和AMX加速技術，大幅提升了模型推理性能和并發(fā)數(shù)。

另外，由于元腦CPU推理服務器還加入了浪潮信息自研開發(fā)的AIStation平臺，用戶可以根據(jù)自己的應用場景，通過簡單的界面點選當前最適用的平臺。

這些設計上的小心思，一方面能夠讓用戶挖掘單機本身的推理性能，另一方面又能簡化和降低用戶使用AI的門檻，“這是元腦CPU推理服務器和其他CPU服務器最不一樣的地方”。

綜合來看，元腦CPU推理服務器采用了多項創(chuàng)新技術：

算力方面，元腦CPU推理服務器設計上采用4顆32核心英特爾至強處理器6448H，具有AMX（高級矩陣擴展）AI加速功能，支持張量并行計算，并通過多通道內(nèi)存系統(tǒng)設計可支持32組DDR5內(nèi)存，從而在單機具備超強的BF16精度AI推理能力、最大16T內(nèi)存容量和1.2TB/s內(nèi)存帶寬，更好滿足模型權(quán)重、KV Cache等計算和存儲需求，大幅提升大模型推理性能。同時，元腦四路服務器具備高可靠性，可保障關鍵應用和AI推理應用持續(xù)穩(wěn)定運行。

算法方面，元腦CPU推理服務器對業(yè)界主流的企業(yè)級大模型推理服務框架vLLM進行深度定制優(yōu)化，通過張量并行和內(nèi)存綁定技術，效率最高提升4倍。同時，面對內(nèi)存帶寬的極限挑戰(zhàn)，元腦CPU推理服務器為進一步提升解碼性能，采用了AWQ（激活感知權(quán)重量化）技術，實現(xiàn)了2倍解碼性能提升。

談到浪潮信息對未來AI的布局，趙帥強調(diào)：“一方面要重視基礎大模型，另一方面也要重視模型經(jīng)過強化學習或者蒸餾后在千行百業(yè)的落地。浪潮信息也在持續(xù)進行基礎大模型的研究，在基礎大模型領域的算法創(chuàng)新，將賦能我們在不同AI場景中的算力性能提升，通過系統(tǒng)化的創(chuàng)新，用更多產(chǎn)品陣列去滿足不同類型、不同行業(yè)、不同規(guī)模用戶對于AI算力的需求。”

國家互聯(lián)網(wǎng)辦公室披露的數(shù)據(jù)顯示，截至去年12月，中國已成功通過國家級備案的AI大模型數(shù)量達到了令人矚目的188家。

華麗的數(shù)字背后，離不開計算產(chǎn)業(yè)的鼎力相助。而AI改變世界的“進度條”，才剛剛開始。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.