網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

協(xié)同處理新時(shí)代

2026-04-14 08:04:59　來(lái)源: TechSugar

上海舉報(bào)

分享至

（本文編譯自Semiconductor Engineering）

受AI相關(guān)工作負(fù)載變化的推動(dòng)，新型處理器架構(gòu)正快速演進(jìn)，但沒(méi)有任何一款處理器能實(shí)現(xiàn)全場(chǎng)景處理。協(xié)同處理在理論層面實(shí)現(xiàn)起來(lái)輕而易舉，在實(shí)際應(yīng)用中卻困難重重。

從未有過(guò)能勝任所有工作的處理器架構(gòu)。不起眼的中央處理器（CPU）五十年來(lái)一直是核心運(yùn)算主力，但即便在個(gè)人計(jì)算機(jī)發(fā)展初期，人們就已意識(shí)到，部分工作負(fù)載需要更具針對(duì)性的處理能力。8086處理器便配有專(zhuān)屬輔助芯片——8087浮點(diǎn)協(xié)處理器。

音頻處理技術(shù)的發(fā)展與手機(jī)的問(wèn)世，讓數(shù)字信號(hào)處理器（DSP）迅速成為不可或缺的輔助處理器。這類(lèi)處理器發(fā)現(xiàn)數(shù)據(jù)傳輸是性能瓶頸，因此分離了數(shù)據(jù)流與指令流，同時(shí)增設(shè)了專(zhuān)用乘累加邏輯，以滿(mǎn)足快速執(zhí)行傅里葉變換的需求。后續(xù)其功能不斷拓展，開(kāi)始支持編解碼、壓縮、調(diào)制、解調(diào)及差錯(cuò)校正所需的各類(lèi)操作。

計(jì)算機(jī)輔助設(shè)計(jì)（CAD）等應(yīng)用對(duì)圖形處理速度提出了更高要求，這不僅推動(dòng)了商用游戲市場(chǎng)的興起，也促使圖形處理器（GPU）架構(gòu)迎來(lái)快速迭代。正是這類(lèi)處理器，讓AI從基于規(guī)則的模式向基于模型的模式轉(zhuǎn)變，直至發(fā)展到如今的十年。

向新架構(gòu)遷移并非易事。Quadric首席營(yíng)銷(xiāo)官Steve Roddy表示：“三十年的片上系統(tǒng)（SoC）發(fā)展歷程呈現(xiàn)出一個(gè)固定規(guī)律—— 耗與性能表現(xiàn)推動(dòng)新型處理器品類(lèi)誕生，而全可編程性則決定了哪類(lèi)處理器能最終勝出。如果某一工作負(fù)載能在 CPU 的功耗和性能限制范圍內(nèi)運(yùn)行，那它就會(huì)依托CPU實(shí)現(xiàn)。只有當(dāng)CPU處理效率低下時(shí)，架構(gòu)師才會(huì)推出專(zhuān)用化處理方案。”

AI的飛速發(fā)展也推動(dòng)了硬件架構(gòu)的革新，其演進(jìn)速度甚至超過(guò)了硬件的設(shè)計(jì)、驗(yàn)證、實(shí)現(xiàn)和部署速度。“協(xié)處理器的關(guān)鍵問(wèn)題本質(zhì)上在于工作負(fù)載，”ChipAgents首席執(zhí)行官 William Wang表示，“隨著AI系統(tǒng)的演進(jìn)，工作負(fù)載正從簡(jiǎn)短的內(nèi)核式推理任務(wù)，轉(zhuǎn)向需持續(xù)運(yùn)行的智能體工作負(fù)載，后者涉及推理循環(huán)、工具調(diào)用、內(nèi)存訪(fǎng)問(wèn)以及多軟件組件間的交互。在這一背景下，挑戰(zhàn)不再在于構(gòu)建速度更快的計(jì)算模塊，而在于如何在通用可編程性和ASIC級(jí)能效之間取得平衡。”

許多公司曾嘗試推出新的處理器架構(gòu)，這些架構(gòu)雖在理論層面表現(xiàn)亮眼，卻未能落地見(jiàn)效。“成功的協(xié)處理器通常能同時(shí)最大限度減少數(shù)據(jù)傳輸、軟件適配和驗(yàn)證風(fēng)險(xiǎn)的，”南安普頓大學(xué)AI和EDA研究員Simon Davidmann表示，“在A(yíng)I領(lǐng)域，最好的協(xié)處理器并非峰值TOPS最高的，而是數(shù)據(jù)傳輸能耗最低的。”

架構(gòu)設(shè)計(jì)

在由多個(gè)異構(gòu)處理單元組成、為同一目標(biāo)協(xié)同工作的計(jì)算環(huán)境中，通常會(huì)有一款處理器承擔(dān)協(xié)調(diào)核心的角色。“在任何情況下，都會(huì)有一個(gè)高級(jí)主機(jī)，通常是CPU，”Synopsys首席產(chǎn)品經(jīng)理Gordon Cooper表示，“其他所有組件都可以被視為協(xié)處理器。以大型語(yǔ)言模型的處理為例，主機(jī)可以完成部分工作，且主機(jī)通常也內(nèi)置了一定的運(yùn)算能力，但它們會(huì)將大部分工作卸載到NPU上，因?yàn)閷?duì)于大型語(yǔ)言模型或視覺(jué)語(yǔ)言模型來(lái)說(shuō)，在NPU中進(jìn)行數(shù)學(xué)運(yùn)算效率要高得多。而整個(gè)運(yùn)算流程的控制，均由主處理器發(fā)起。”

NPU發(fā)展迅速。Cadence公司AI IP和軟件產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Amol Borkar表示。“NPU的設(shè)計(jì)初衷是運(yùn)行AI模型，早期這類(lèi)處理器多為高度專(zhuān)用的固定功能硬件模塊。但如今的AI模型日趨復(fù)雜，運(yùn)算過(guò)程遠(yuǎn)不止乘累加計(jì)算。廠(chǎng)商會(huì)在芯片中集成小型硬件單元，為非乘累加運(yùn)算或激活函數(shù)運(yùn)算提供支持，這一設(shè)計(jì)的優(yōu)勢(shì)在于能讓NPU的靈活性略有提升。但我們也發(fā)現(xiàn)，每當(dāng)AI模型出現(xiàn)新的網(wǎng)絡(luò)層、新的算子，或是Llama、Claude等模型推出新版本時(shí)，行業(yè)都會(huì)面臨新的挑戰(zhàn)——如果這些新增硬件單元并非為適配這些新算子設(shè)計(jì)，最終會(huì)導(dǎo)致整個(gè)網(wǎng)絡(luò)模型無(wú)法運(yùn)行。”

Arm的新型AGI CPU芯片采用了截然不同的方法，它大幅提升了CPU的每瓦性能。Arm首席執(zhí)行官Rene Haas表示：“隨著智能體AI的普及，所有實(shí)現(xiàn)這一目標(biāo)所需的工作都受CPU性能限制。數(shù)據(jù)中心不堪重負(fù)。這些用于生成Token、成本高昂的加速器，如今需要通過(guò)云網(wǎng)絡(luò)將生成的Token回傳，由此形成了巨大的算力瓶頸，這也意味著市場(chǎng)對(duì)CPU的需求將持續(xù)攀升。”

圖1：數(shù)據(jù)中心面臨的瓶頸。

（圖源：Arm）

這又為這場(chǎng)博弈增添了又一個(gè)變量。處理器和協(xié)處理器的定義變得越來(lái)越復(fù)雜。“如今的協(xié)處理架構(gòu)涵蓋了緊耦合單元、松耦合加速器和基于Fabric的分布式系統(tǒng)，”Arteris產(chǎn)品管理和市場(chǎng)營(yíng)銷(xiāo)副總裁Andy Nightingale表示，“緊耦合設(shè)計(jì)受益于低延遲、共享內(nèi)存和更簡(jiǎn)單的可編程性，使其能夠高效地處理小規(guī)模或?qū)ρ舆t敏感的工作負(fù)載。但其會(huì)因資源競(jìng)爭(zhēng)和一致性開(kāi)銷(xiāo)問(wèn)題，難以實(shí)現(xiàn)算力擴(kuò)展。松耦合方法通常以芯粒形式實(shí)現(xiàn)，且能針對(duì)訓(xùn)練、推理、網(wǎng)絡(luò)等不同功能做專(zhuān)用化設(shè)計(jì)，卻會(huì)帶來(lái)更高的延遲，同時(shí)大幅增加硬件和軟件層面的協(xié)同復(fù)雜度。基于Fabric的架構(gòu)則力求平衡，既支持算力的可擴(kuò)展與資源的動(dòng)態(tài)共享，卻對(duì)互連提出了極高要求，也帶來(lái)了顯著的系統(tǒng)級(jí)復(fù)雜度。”

RISC-V生態(tài)系統(tǒng)正嘗試創(chuàng)造一種新可能，即處理器和協(xié)處理器的融合。“對(duì)于加速器和高度專(zhuān)用的處理器架構(gòu)而言，RISC-V指令集架構(gòu)具有獨(dú)特的優(yōu)勢(shì)，”Breker Verification Systems首席執(zhí)行官Dave Kelf表示，“因此，我們看到基于RISC-V的加速器正在涌現(xiàn)，這類(lèi)加速器將處理單元集成于自身架構(gòu)中，從而消除了獨(dú)立單元之間控制和數(shù)據(jù)傳輸?shù)拈_(kāi)銷(xiāo)。對(duì)于低功耗應(yīng)用，僅將所需的處理器單元與加速器結(jié)合使用即可顯著節(jié)省功耗。這對(duì)于A(yíng)I設(shè)備應(yīng)用而言似乎最為有效，因?yàn)闃?biāo)準(zhǔn)化的軟件棧可以直接應(yīng)用于加速器本身。這是RISC-V帶來(lái)的一種新范式，也可能成為這款開(kāi)放指令集的未來(lái)發(fā)展方向。”

這一思路適用于向CPU添加功能，或向NPU添加更通用的處理能力。“處理器之間的切換會(huì)產(chǎn)生時(shí)間和傳輸損耗，”CadenceAIIP產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Jason Lawley表示，“我們需要在明確無(wú)法實(shí)現(xiàn)CPU全部功能的前提下，權(quán)衡分配給矢量處理和標(biāo)量處理的芯片面積。這也是為何我們能看到小型RISC-V核心被部署在離MAC陣列更近的位置。這些小型RISC-V核心無(wú)法完成大型CPU的所有運(yùn)算工作，軟件開(kāi)發(fā)人員必須找到合理的工作負(fù)載拆分方式，以實(shí)現(xiàn)運(yùn)算效率的最大化。”

要了解全貌，還需將目光投向純電子領(lǐng)域之外。“還出現(xiàn)了其他類(lèi)型的處理器，例如光子AI加速器，”是德科技高速數(shù)字產(chǎn)品組合經(jīng)理Jan van Hese表示，“這類(lèi)處理器具有巨大的優(yōu)勢(shì)，盡管設(shè)計(jì)難度較高，但一旦實(shí)現(xiàn)商用，便能實(shí)現(xiàn)超高運(yùn)算速度與超低功耗。”

各類(lèi)處理器的整合架構(gòu)也處于動(dòng)態(tài)演變中。“談到協(xié)處理器，運(yùn)算任務(wù)的執(zhí)行載體始終在不斷變化，這會(huì)影響數(shù)據(jù)的傳輸方式和存儲(chǔ)位置，”Cadence的Lawley表示，“目前很多計(jì)算任務(wù)都由GPU和NPU完成，而隨著AI技術(shù)的日趨成熟，尤其是智能體的發(fā)展，人們會(huì)發(fā)現(xiàn)CPU需完成更多的運(yùn)算工作。過(guò)去通常是一個(gè)CPU搭配一個(gè)大型MAC陣列，但現(xiàn)在，對(duì)于一定數(shù)量的MAC，就需要配置相應(yīng)的CPU，因?yàn)樾枰~外的計(jì)算能力。以NPU設(shè)計(jì)師的身份來(lái)看，會(huì)將NPU看作核心，其他都是協(xié)處理器；而站在CPU設(shè)計(jì)者的角度，其他都是協(xié)處理器。始終會(huì)存在各類(lèi)專(zhuān)用功能模塊，無(wú)法全部集成在單一處理器中，而這正是協(xié)處理器誕生的契機(jī)。”

回顧歷史，或許能預(yù)見(jiàn)未來(lái)的融合趨勢(shì)。“專(zhuān)用處理器通過(guò)將原生數(shù)據(jù)類(lèi)型和計(jì)算原語(yǔ)與工作負(fù)載相匹配來(lái)提高效率，”Quadric公司的Roddy表示，“但僅憑專(zhuān)業(yè)化是不夠的。緊密耦合的‘輔助’加速器并不能真正解放CPU。分區(qū)執(zhí)行會(huì)增加互連流量、延遲和功耗。系統(tǒng)級(jí)效率取決于處理器的獨(dú)立運(yùn)行能力。歷史也印證了這一點(diǎn)。早期的圖形引擎均為外掛式加速器。真正的算力擴(kuò)展性只有在全可編程GPU出現(xiàn)并與CPU解耦后才得以實(shí)現(xiàn)。DSP領(lǐng)域也經(jīng)歷了同樣的轉(zhuǎn)變。AI似乎正在跨越同樣的界限——從固定功能加速器走向完全可編程的獨(dú)立AI處理器。除了功耗和性能的提升之外，獨(dú)立運(yùn)行的架構(gòu)還能簡(jiǎn)化系統(tǒng)集成、驗(yàn)證、建模流程，以及基于芯粒的算力擴(kuò)展過(guò)程。”

各類(lèi)架構(gòu)方案均需做出取舍。“與CPU鄰近的加速方案更容易編程，也更容易集成到現(xiàn)有的軟件流程中，但在持續(xù)每瓦性能方面往往難以勝出，”南安普頓大學(xué)的Davidmann表示，“GPU式的引擎靈活且強(qiáng)大，卻需要龐大的軟件棧支撐，且會(huì)產(chǎn)生高昂的數(shù)據(jù)傳輸成本。專(zhuān)用加速器通常能效最優(yōu)，但前提是編譯器、運(yùn)行時(shí)環(huán)境與模型適配度足夠成熟，避免硬件淪為孤立的專(zhuān)用模塊。異構(gòu)子系統(tǒng)則介于兩者之間。它們通常是最佳的系統(tǒng)解決方案，但也是對(duì)架構(gòu)要求最高的方案。”

面臨挑戰(zhàn)

僅關(guān)注處理架構(gòu)可能會(huì)忽略全局。新思科技的Cooper表示，“人們總傾向于將其視作純數(shù)學(xué)問(wèn)題，但核心實(shí)則是數(shù)據(jù)移動(dòng)，尤其是面對(duì)擁有海量參數(shù)的大語(yǔ)言模型時(shí)。關(guān)鍵在于如何高效地將數(shù)據(jù)傳輸至指定節(jié)點(diǎn)、完成處理或相關(guān)操作，且無(wú)需反復(fù)遷移數(shù)據(jù)。問(wèn)題的核心是數(shù)據(jù)流設(shè)計(jì)，必須在算力與數(shù)據(jù)帶寬之間找到精準(zhǔn)平衡。如果數(shù)據(jù)流供應(yīng)不足，導(dǎo)致MAC處于數(shù)據(jù)饑餓狀態(tài)，那么單純?cè)黾覯AC數(shù)量毫無(wú)意義，算力與帶寬的平衡不可或缺。”

這一切都始于系統(tǒng)級(jí)規(guī)劃。“設(shè)計(jì)周期需要左移，”是德科技的van Hese表示，“理想狀態(tài)是同時(shí)芯片級(jí)、封裝級(jí)和系統(tǒng)級(jí)的設(shè)計(jì)工作，各類(lèi)核心模塊之間必須進(jìn)行協(xié)同設(shè)計(jì)，才能保障整個(gè)系統(tǒng)的正常運(yùn)行。”

分布式處理雖能簡(jiǎn)化部分環(huán)節(jié)，卻會(huì)讓其他環(huán)節(jié)變得更為復(fù)雜。“芯粒與異構(gòu)協(xié)處理器雖為生態(tài)帶來(lái)了更高的開(kāi)放性與靈活性，但其集成挑戰(zhàn)遠(yuǎn)不止基礎(chǔ)的互操作性問(wèn)題，”Arteris公司的Nightingale表示，“UCIe和CXL之類(lèi)的標(biāo)準(zhǔn)雖解決了物理層與協(xié)議層的兼容性問(wèn)題，卻未能攻克系統(tǒng)級(jí)的行為集成難題。不同廠(chǎng)商在流量管理、內(nèi)存排序、服務(wù)質(zhì)量要求和延遲容忍度等方面的設(shè)計(jì)差異，會(huì)導(dǎo)致各組件組合后出現(xiàn)性能不可預(yù)測(cè)的問(wèn)題。此時(shí)，一套統(tǒng)一的互連層架構(gòu)變得至關(guān)重要，它不僅要實(shí)現(xiàn)各組件的物理連接，更要保障跨組件的系統(tǒng)行為可預(yù)測(cè)。若缺少這一架構(gòu)，整個(gè)生態(tài)可能陷入技術(shù)層面兼容、但實(shí)際工作負(fù)載下運(yùn)行不可靠的困境。”

可擴(kuò)展性

在A(yíng)I相關(guān)模型和任務(wù)的研發(fā)速度放緩之前，硬件的發(fā)展始終會(huì)落后于軟件的需求。Cooper表示：“一款芯片的設(shè)計(jì)耗時(shí)一年，集成至產(chǎn)品又需一年，且投產(chǎn)后還需在市場(chǎng)中服役數(shù)年。對(duì)于SoC設(shè)計(jì)而言，如何實(shí)現(xiàn)未來(lái)兼容，是一項(xiàng)頗具挑戰(zhàn)的課題。”

為未來(lái)需求做的設(shè)計(jì)考量，往往需要在當(dāng)下付出成本。Borkar表示：“如果我們開(kāi)發(fā)的專(zhuān)用硬件與當(dāng)前所需的工作負(fù)載實(shí)現(xiàn)精準(zhǔn)緊耦合，能效或許能大幅提升。在既定周期內(nèi)，我可對(duì)這款硬件進(jìn)行全方位的調(diào)優(yōu)與優(yōu)化，實(shí)現(xiàn)性能最大化。但顯然，這種設(shè)計(jì)的隱患在于，一旦客戶(hù)調(diào)整技術(shù)規(guī)格，或是推出新的網(wǎng)絡(luò)模型，硬件將完全無(wú)法適配，陷入極為被動(dòng)的局面。”

每個(gè)硬件開(kāi)發(fā)人員都必須找到合適的平衡點(diǎn)。ChipAgents公司的Wang表示。“架構(gòu)設(shè)計(jì)既需要足夠的專(zhuān)用化設(shè)計(jì)以保障功耗與性能表現(xiàn)，又需要具備足夠的靈活性，以適配快速演進(jìn)的AI工作負(fù)載。這使得系統(tǒng)級(jí)調(diào)度、數(shù)據(jù)移動(dòng)與軟件集成，與原始計(jì)算吞吐量同等重要，而這正是智能體式AI能夠發(fā)揮作用的領(lǐng)域——助力工程師權(quán)衡各類(lèi)設(shè)計(jì)取舍，應(yīng)對(duì)異構(gòu)協(xié)處理系統(tǒng)日益增長(zhǎng)的復(fù)雜度。”

在考慮面向未來(lái)的應(yīng)用時(shí)，需要考慮的不僅僅是運(yùn)算本身。“最初的NPU是為處理CNN工作負(fù)載而設(shè)計(jì)的，”Cooper表示，“矩陣乘法非常簡(jiǎn)單直接。但隨著Transformer的出現(xiàn)，情況就變得復(fù)雜一些。TOP運(yùn)算的重要性降低了，因?yàn)樗辉賰H僅是乘加運(yùn)算，還需要處理張量網(wǎng)絡(luò)的其他問(wèn)題，隨后大語(yǔ)言模型問(wèn)世，系統(tǒng)開(kāi)始受限于內(nèi)存帶寬——此前算力與帶寬的平衡被徹底打破，大語(yǔ)言模型的處理工作完全受內(nèi)存制約。再到如今的混合模式與多模態(tài)模型，視覺(jué)處理任務(wù)再次成為核心需求，不同的模型組合方式對(duì)應(yīng)著不同的設(shè)計(jì)參數(shù)，而這些處理單元都可被稱(chēng)作NPU。”

算子優(yōu)化或許只是相對(duì)簡(jiǎn)單的環(huán)節(jié)。Borkar稱(chēng)：“若將網(wǎng)絡(luò)模型拆解為一系列算子，多數(shù)客戶(hù)的算子需求中，有很大一部分是通用的。對(duì)于這類(lèi)通用算子，能夠?qū)崿F(xiàn)高性能、高能效的硬件支持。而問(wèn)題往往出在那些未納入前期規(guī)劃的算子上，需要找到適配的運(yùn)行方式，這也是能效問(wèn)題頻繁出現(xiàn)的環(huán)節(jié)。”

數(shù)據(jù)類(lèi)型的支持同樣面臨這一問(wèn)題。Cooper表示：“硬件可支持多種現(xiàn)有數(shù)據(jù)類(lèi)型，但隨著新數(shù)據(jù)類(lèi)型不斷涌現(xiàn)，就需要專(zhuān)門(mén)的運(yùn)算引擎來(lái)兼容未來(lái)可能出現(xiàn)的所有數(shù)據(jù)類(lèi)型。在某個(gè)節(jié)點(diǎn)上，必須通過(guò)提升硬件靈活性來(lái)實(shí)現(xiàn)產(chǎn)品的未來(lái)兼容設(shè)計(jì)，但這必然會(huì)帶來(lái)芯片面積的損耗。而NPU的設(shè)計(jì)目標(biāo)，是在保持可編程性的同時(shí)，實(shí)現(xiàn)能效的最大化。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.