![]()
“牽頭人能下決心是好事,但得堅持住。”
文丨趙宇
編輯丨龔方毅
特斯拉、蔚小理等都在自研芯片,理想是其中唯一用數(shù)據(jù)流架構的。這種架構概念已誕生 50 多年,學術界討論已久,但一直缺乏大規(guī)模商業(yè)化應用。
理想汽車 CEO 李想上月底在微博說,數(shù)據(jù)流架構是一種原生計算架構,代表了通用 AI 計算架構未來演進的趨勢。當時,這塊芯片的設計理念得到學界背書 —— 解析馬赫 100 芯片數(shù)據(jù)流架構的論文,入選計算機體系結構領域頂級會議 ISCA 2026。
“理想的重要突破在于敢用 VLA (Vision-Language-Action Model,視覺-語言-行動模型),并且多跨一步去做數(shù)據(jù)流架構。” 清華大學電子工程系長聘教授、無問芯穹發(fā)起人汪玉告訴《晚點 Auto》。
他還認為,數(shù)據(jù)流架構的優(yōu)勢是提升了計算效率,但代價是編譯難度更大。不過由于 AI 可以輔助人類編程,對于持續(xù)演進的智駕模型應用,數(shù)據(jù)流架構成為一種不錯的選擇。
汪玉長期從事智能芯片、高能效電路與系統(tǒng)相關研究,主持多項國家級以及企業(yè)聯(lián)合項目。2016 年,他將知識成果入股深度學習處理器公司深鑒科技(2018 年被賽靈思收購)。2023 年,他推動成立 AI 基礎設施企業(yè)無問芯穹。
近期,我們與汪玉聊了數(shù)據(jù)流架構的技術優(yōu)勢、局限性,以及車企繞開英偉達 CUDA 生態(tài)自研芯片是否現(xiàn)實等話題。
以下是我們的交流實錄,經(jīng)編輯。
數(shù)據(jù)流架構的雙面性:計算效率提升但編譯難度更大
晚點:理想自研芯片馬赫 100 采用數(shù)據(jù)流架構,你如何評價這條技術路線的優(yōu)劣勢?
汪玉:數(shù)據(jù)流架構是一個不錯的技術方向。
簡單來說,芯片處理計算的過程就像做數(shù)學題,先把兩個數(shù)相乘,然后相加。把每個乘法當作一個節(jié)點,結果傳給下一個加法器,這樣就形成了一個巨大的計算圖。數(shù)據(jù)流架構的好處是,數(shù)據(jù)在芯片的處理單元間直接流動,不需要反復讀取外部存儲器。
舉個例子,要把 500 個數(shù)加起來,可以用二叉樹方式——兩兩相加得到 250 個結果,再兩兩相加得到 125 個結果,依此類推。這就是數(shù)據(jù)流圖。如果用普通 CPU,因為它只有一個計算單元,就需要不斷地從存儲器里取數(shù)、計算、存回去,再取下一組數(shù)。如果采用數(shù)據(jù)流架構,雖然計算次數(shù)省不了,但存儲開銷能省很多。
去年云棲大會理想 CTO 謝炎也提到過,數(shù)據(jù)流架構讓數(shù)據(jù)在處理單元間直接流動,減少了反復訪問內存的開銷。
然而,數(shù)據(jù)流架構的應用難點在于,編譯器的代價會比較大。不過,現(xiàn)在 AI 技術很強大,可以用 AI 來幫助完成這些映射工作。甚至在設計算法時,就可以讓算法適配底層的計算架構。對于以 VLA 模型為代表的這類智駕模型應用,數(shù)據(jù)流架構是一個不錯的選擇。
晚點:Google 的 TPU 芯片是采用數(shù)據(jù)流架構嗎?
汪玉:Google 的 TPU 芯片,你要說它是數(shù)據(jù)流架構也行,因為很多芯片架構其實都有不同程度的數(shù)據(jù)流特性。
你可以把整個巨大的計算流圖做成一顆固定的芯片,也可以提取出通用的子圖模塊,讓這些模塊都能得到支持,再用它們拼接出更大的計算流圖。
這就像搭積木,你可以做一個巨大的固定模型,也可以做很多通用積木塊,然后用這些積木塊組裝出各種形狀。它有各種設計方法,讓工程師能在效率和通用性之間找到平衡點。
我從 2012 年開始做 CNN 算法的芯片架構研究時就發(fā)現(xiàn),要完成同樣功能可以用不同的 AI 模型結構。比如當年 VGG、ResNet 等各種不同的網(wǎng)絡結構都能做人臉識別。這說明如果硬件層面提供了某些計算模式,軟件算法可以學會并適應這些模式。關鍵不是說自動駕駛或大模型本身會完全固定,而是算法具有學習和適應硬件的能力。
晚點:適合 CNN 運算的芯片是否天然不適合做 Transformer 運算?
汪玉:要看你在哪一級做抽象。如果你專門做卷積運算,但 Transformer 里沒有卷積,就要把矩陣運算拆成卷積來處理,這樣代價就很高了。現(xiàn)在的 VLA 模型基本上包含了視覺、語言、行動三種模式的各種運算規(guī)律,而且短期內三五年大概率不會變:
Vision(視覺)部分主要吃算力,需要在一個較大的輸入特征圖上進行大量計算操作。因此,視覺相關的處理通常需要專門的卷積運算或者視覺編碼器來提取圖像特征。
Language(語言)部分通常是內存密集型任務,主要瓶頸在于需要大帶寬來支持大量的數(shù)據(jù)讀寫。數(shù)據(jù)流架構在這方面比較合適,能夠有效減少內存訪問的開銷。
Action(行動)部分的計算模式很不規(guī)律,需要用到的處理器類型相對多樣。
晚點:特斯拉 2019 年量產的 FSD 智駕芯片沒采用數(shù)據(jù)流架構,但說是為自動駕駛推理做了深度定制,這怎么理解?
汪玉:那時候還是面向 CNN 算法為主。到現(xiàn)在大模型的時代,理想一個比較重要的突破,還是它敢于去用 VLA,這是一個比較大的變化。然后現(xiàn)在所有芯片對 VLA 模型的支持都一般,傳統(tǒng)芯片支持 CNN 算法的較多。所以理想能把這件事情突破,而且多跨一步去做數(shù)據(jù)流架構,膽量挺大的。
架構骨架變化進入平穩(wěn)期,一代芯片能支持多代算法
晚點:DeepSeek 已經(jīng)證明,用相對小的算力也能做出性能優(yōu)秀的算法模型,智駕領域能否通過類似優(yōu)化降低算力需求?
汪玉:這就是軟硬件協(xié)同優(yōu)化。你有什么芯片,就在每一層都做修改。芯片受限就改算法或者軟件。通過這種垂直打通的優(yōu)化方式,才能產生更好的系統(tǒng)級效果。
晚點:現(xiàn)在摩爾定律放緩,業(yè)內嘗試用其他方式提升芯片性能,比如 Chiplet。你看好 Chiplet 技術嗎?
汪玉:Chiplet 肯定要做,因為它有兩個好處。
第一,單芯片現(xiàn)在不能做得更大了,主要受應力限制。一顆芯片大概是固定的幾百平方毫米,12 寸晶圓會被切成一個個芯粒,這個大小基本已經(jīng)固定。如果想做更大芯片,要用多個芯粒拼起來。
第二,可以把不同工藝的芯粒拼在一起。這種搭樂高的方式可以把不同功能單元組合,比如車載領域會用 CPU、GPU、NPU,還有數(shù)據(jù)流架構芯片等,如果用樂高的方式拼裝,其實會使得快速迭代變容易。
晚點:在提高智駕芯片算力利用率方面,你有沒有研究成果可以分享?
汪玉:我們從 2015 年就開始發(fā)論文講這個。一是在完成同樣功能的情況下把模型做小,這樣計算量、存儲量需求就少了,也就是在同樣算力下計算速度就會變快。二是壓縮和量化,就是把模型里每一個操作需要的比特數(shù)降下去,這樣底層芯片就可以用更高能效的低比特數(shù)單元來做。
就像在固定面積房間里,能擺 10 張沙發(fā),但能擺 100 張椅子。椅子就是低比特數(shù)的計算單元,等效算力變成原來 10 倍。這是為什么大家都用 FP4、FP8 而不用 FP32 的原因。
還有內存調度機制。最后都是矩陣向量乘法,怎么讓 100 把椅子每時刻都坐滿人,利用率就做起來了。這涉及架構設計和內存優(yōu)化策略。
晚點:從學術研究角度看,未來 3-5 年智駕芯片可能有哪些關鍵技術演進?尤其是學術界能看到,但工業(yè)界還沒落地的。
汪玉:內存堆疊可能是必須要做的事。從工藝角度看,Chiplet 解決面積墻問題,算力擴大靠芯粒拼接。下一個是存儲墻,怎么把內存布置好,快速拿到數(shù)據(jù)。未來大概率還是要把計算和存儲放得更近,不管是用 3D 堆疊還是其他方式。
晚點:相比端到端、VLA 這些智駕算法的迭代速度,芯片的研發(fā)周期顯然更長。這可能造成軟硬件的研發(fā)進度不匹配,如何解決這個問題?
汪玉:我現(xiàn)在的感受是 Backbone,就是模型骨架的變化沒那么大。比如 DeepSeek 模型已經(jīng)迭代了幾代,每一代里的關鍵算子,也就是計算流圖的差異,并不是很大。
晚點:所以雖然架構在變,其實用的歸根結底還是 Transformer。
汪玉:或者說是變種的 Transformer,然后這些變種 Transformer 架構每一代的變化也沒有那么大,因此用編譯器就能解決。所以,一顆芯片支持幾代不同算法應該問題不大,除非發(fā)生劇烈變化比如不用 Transformer 了。
晚點:有業(yè)界的人說,有可能會出現(xiàn)一種比 Transformer 更優(yōu)的架構。
汪玉:學術界看到的,至少三年后才到工業(yè)界應用,但目前學術界還沒看到。2017 年出的 Transformer,2022 年 11 月才被 ChatGPT 真正應用,用了 5 年,這已經(jīng)很快。Transformer 真正大規(guī)模商用是現(xiàn)在,所以沒那么快。
車企造芯算得過來賬:成本可控,關鍵在持續(xù)迭代
晚點:理想 2022 年啟動自研芯片,當時 VLA 和 Transformer 概念還不火,這對研發(fā)影響大嗎?
汪玉:2022 年開始研發(fā),真正流片要到 2024 年。在這個過程中,理想肯定看到了 Transformer 架構的潛力。數(shù)據(jù)流是馬赫 100 很重要的組成部分,但這顆芯片肯定還支持 CNN,包括一些支持向量運算的 CPU。
晚點:國外有廠商把數(shù)據(jù)流架構用在云端數(shù)據(jù)中心,但數(shù)據(jù)中心很少做推理。
汪玉:現(xiàn)在推理業(yè)務已經(jīng)起來了。Anthropic 三年間收入翻了 1000 倍,證明 Coding 業(yè)務爆發(fā)。國家數(shù)據(jù)局局長劉烈宏說,中國日均 Token 調用量已經(jīng)到 140 萬億。推理業(yè)務起來后,極致定制化的 AI 芯片一定要做,否則每個 Token 的成本降不下去。然后對于車載來說,其實不一定是每個 Token 的成本,而是每秒能輸出的 Token 數(shù)上不去。
晚點:如果是每秒的 Token 數(shù),那瓶頸還挺大。
汪玉:現(xiàn)在的人形機器人其實不能非常快速地移動,一方面是機械能力限制,另一方面其實是指揮控制頻率的問題。每次指揮相當于輸出 0 或 1,這就是一個 Token。假設希望每秒能指揮 1000 次,也就是毫秒級反應速度,對應每秒 1000 個 Token。這應當是端側追求的極致目標。如果是 70 億參數(shù)的模型,需要相當大的芯片才能達到每秒 1000 個 Token 的處理能力。
晚點:每秒 1000 個 Token 是機器人的要求,智駕現(xiàn)在大概是什么情況?
汪玉:智駕的圖像傳感器幀率一般在 30 幀以上,每一幀圖片一般會轉化數(shù)百個 Token 進行處理,在考慮多路攝像頭的情況下,輸入需要處理的 Token 一般在數(shù)千到上萬不等。從輸出的角度來看,輸出底盤的頻率一般在 100 Hz,每一次輸出的動作信息一般就十幾個 Token,因此也會對應每秒近 1000 個 Token 的輸出。
晚點:有業(yè)內人士認為,汽車里的空間更大,所以智駕芯片對先進制程的需求不如手機芯片迫切。你怎么看?
汪玉:那倒不會,因為成本差 1000 塊錢,競爭都很激烈。包括散熱也是個很大問題。為什么手機要用最先進的制程?其實是因為同樣能力下,更先進制程芯片的功耗會更低,供電和散熱可以做得更簡單。汽車是一樣的,現(xiàn)在車里的電子系統(tǒng)占比大約到 30% 了,跟智駕、娛樂相關的系統(tǒng)都靠電來支撐,這塊電量已經(jīng)上去了,所以能耗也是一個問題。
但更重要的是反應速度問題、實時性問題、性能問題。智駕要支持最好的模型,實現(xiàn)最快速度、最高能效,至少芯片的性能要足夠好。性能如果想足夠好,提升工藝和內存的對接方式都很重要。只靠芯片本身并不夠。
這是我比較喜歡理想的原因,它可以跟蘋果一樣,把應用、軟件、芯片和車一起優(yōu)化。這個維度做最好的就是蘋果。華為也得這么做,因為它被限制,必須做到極致,才能用落后工藝有比較好的表現(xiàn)。我非常贊成這個邏輯。
晚點:手機廠商自研芯片時,前幾代多少都有性能問題,理想第一代自研芯片的可用性會不會也存在疑問?
汪玉:如果要做一家偉大的公司,現(xiàn)在虧得起,牽頭人能下決心是好事,但得堅持住。
晚點:特斯拉自研 FSD 芯片后,蔚小理等廠商陸續(xù)開始自研芯片。車企自研智駕芯片的投入產出比能算得過來賬嗎?
汪玉:肯定能算過來賬,但核心是芯片得能用。如果真做出來能用、能持續(xù)迭代,第一自主可控,第二成本也降下去了。
晚點:大家之所以用英偉達芯片,一方面是它的芯片性能好,另一方面它有 CUDA 生態(tài)。國產廠商自研芯片后不用 CUDA 了,這個影響大嗎?
汪玉:CUDA 本身支持幾千個算子,但智駕的計算維度不需要這么多。以我做大模型的經(jīng)驗,VLA 模型估計就幾百個算子這個量級,所以其實軟件層面的代價比原來小很多。同時我們現(xiàn)在可以用 AI 寫算子,所以我不覺得 CUDA 會是很大壁壘。
晚點:“代價比原來小很多”,具體指什么?
汪玉:當時 CUDA 要支持很多應用,包括顯示、游戲、建筑繪圖,甚至天氣仿真等等。而現(xiàn)在只需要支持大模型,所以會容易很多。
題圖來源:Gemini
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.