公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。
請(qǐng)?jiān)徫蚁葟囊粋€(gè)老生常談的金融術(shù)語說起,這個(gè)詞最近悄然滲入了科技詞匯,但我恐怕不得不談?wù)劇白o(hù)城河”。幾十年前,沃倫·巴菲特推廣了這個(gè)詞,用來指代公司的競(jìng)爭(zhēng)優(yōu)勢(shì)。后來,一份據(jù)稱從谷歌泄露的備忘錄——題為《我們沒有護(hù)城河,OpenAI也沒有》——擔(dān)憂開源人工智能會(huì)摧毀大型科技公司的堡壘,此后,這個(gè)詞便出現(xiàn)在了硅谷的商業(yè)計(jì)劃書中。
幾年過去了,城堡的城墻依然堅(jiān)固。除了DeepSeek剛出現(xiàn)時(shí)引發(fā)的短暫恐慌之外,開源人工智能模型并沒有在性能上大幅超越專有模型。然而,無論是OpenAI、Anthropic還是谷歌,這些前沿實(shí)驗(yàn)室都還沒有形成真正意義上的護(hù)城河。
真正擁有護(hù)城河的公司是英偉達(dá)。其首席執(zhí)行官黃仁勛稱之為他最珍貴的“寶藏”。但對(duì)于一家芯片公司來說,這并非你想象中的硬件,而是名為CUDA的技術(shù)。這種聽起來像是被美國食品藥品監(jiān)督管理局(FDA)禁用的化學(xué)物質(zhì),或許正是人工智能領(lǐng)域真正的護(hù)城河。
CUDA 技術(shù)上屬于它代表統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture),但就像激光或潛水一樣,沒人會(huì)費(fèi)心去解釋這個(gè)縮寫詞;我們只會(huì)說“KOO-duh”。那么,這個(gè)至關(guān)重要的技術(shù)究竟有什么用呢?如果非要用一個(gè)詞來回答,那就是:并行化。
舉個(gè)簡單的例子。假設(shè)我們讓一臺(tái)機(jī)器填寫一個(gè) 9×9 的乘法表。使用單核計(jì)算機(jī),所有 81 道運(yùn)算都會(huì)逐一執(zhí)行。但擁有九個(gè)核心的 GPU 可以分配任務(wù),讓每個(gè)核心負(fù)責(zé)不同的列——一個(gè)核心處理 1×1 到 1×9 的運(yùn)算,另一個(gè)核心處理 2×1 到 2×9 的運(yùn)算,以此類推——速度提升九倍。現(xiàn)代 GPU 甚至可以更智能。例如,如果編程使其能夠識(shí)別交換律——7×9 = 9×7——它們就可以避免重復(fù)工作,將 81 道運(yùn)算減少到 45 道,幾乎將工作量減半。當(dāng)一次訓(xùn)練運(yùn)行的成本高達(dá)一億美元時(shí),每一次優(yōu)化都至關(guān)重要。
英偉達(dá)的GPU最初是為視頻游戲渲染圖形而設(shè)計(jì)的。2000年代初期,一位名叫伊恩·巴克(Ian Buck)的斯坦福大學(xué)博士生,最初也是因?yàn)橥嬗螒蚨佑|到GPU,他意識(shí)到GPU的架構(gòu)可以用于通用的高性能計(jì)算。他創(chuàng)建了一種名為Brook的編程語言,之后被英偉達(dá)聘用,并與約翰·尼科爾斯(John Nickolls)共同領(lǐng)導(dǎo)了CUDA的開發(fā)。如果人工智能真的帶來了一個(gè)永久性的白領(lǐng)底層階級(jí)和自主武器的時(shí)代,要知道,這一切都源于某個(gè)玩《毀滅戰(zhàn)士》(Doom)的人突發(fā)奇想,覺得惡魔的陰囊應(yīng)該以每秒60幀的速度抖動(dòng)。
CUDA本身并非一種編程語言,而是一個(gè)“平臺(tái)”。我之所以用這個(gè)詞,是因?yàn)椋拖瘛都~約時(shí)報(bào)》既是報(bào)紙又是游戲公司一樣,CUDA多年來已經(jīng)發(fā)展成為一個(gè)嵌套的AI軟件庫集合。每個(gè)函數(shù)都能為單個(gè)數(shù)學(xué)運(yùn)算節(jié)省幾納秒的時(shí)間——加起來,它們就能讓GPU(用業(yè)內(nèi)術(shù)語來說)“飛速運(yùn)轉(zhuǎn)” 。
現(xiàn)代圖形顯卡并非只是一塊塞滿芯片、內(nèi)存和風(fēng)扇的電路板。它是由緩存層級(jí)結(jié)構(gòu)和被稱為“張量核心”和“流式多處理器”的專用單元精心打造而成。從這個(gè)意義上講,芯片公司銷售的產(chǎn)品就像一個(gè)專業(yè)廚房,而更多的核心就如同更多的燒烤臺(tái)。但即便擁有30個(gè)燒烤臺(tái)的廚房,如果沒有一位能干的主廚巧妙地分配任務(wù),運(yùn)轉(zhuǎn)速度也不會(huì)更快——就像CUDA之于GPU核心那樣。
進(jìn)一步來說,那些針對(duì)單一矩陣運(yùn)算進(jìn)行優(yōu)化的手工調(diào)校的 CUDA 庫,就好比是只能完成一項(xiàng)任務(wù)的廚房工具——比如櫻桃去核器、蝦線去除器——對(duì)于家庭廚師來說或許是錦上添花,但如果你要處理上萬只蝦的內(nèi)臟,那就完全是浪費(fèi)了。這就引出了 DeepSeek。它的工程師們突破了這層原本就很深的抽象層,直接使用 PTX 進(jìn)行開發(fā),PTX 是一種用于英偉達(dá) GPU 的匯編語言。假設(shè)任務(wù)是剝蒜。未經(jīng)優(yōu)化的 GPU 會(huì)發(fā)出這樣的指令:“用指甲剝蒜皮。” CUDA 可以發(fā)出這樣的指令:“用刀背拍碎蒜瓣。” 而 PTX 則允許你定義每一個(gè)子指令:“將刀刃抬離砧板 2.35 英寸,使其與蒜瓣的赤道平行,然后用手掌向下拍打,力度為 36.2 牛頓。”
你現(xiàn)在應(yīng)該明白為什么 CUDA 對(duì)英偉達(dá)如此重要,而對(duì)其他公司來說又如此難以企及了。GPU 性能調(diào)優(yōu)是個(gè)棘手的問題。你不能隨便找個(gè)在市場(chǎng)街混跡的毛頭小子,給他一份 Claude Max 的方案,就指望他能搞定 GPU 內(nèi)核。編寫這種級(jí)別的代碼是一項(xiàng)極其艱巨的任務(wù)——除非你是 DeepSeek 的頂尖程序員。
在之前的“機(jī)器可讀性”專欄中,我對(duì)所分析的語言都已相當(dāng)熟悉。但這次并非如此。為了保持這一標(biāo)準(zhǔn),我決定花一天時(shí)間學(xué)習(xí) CUDA。結(jié)果,我整個(gè)下午都耗在了上面。
在流行的機(jī)器學(xué)習(xí)框架 PyTorch 中,一個(gè)簡單的矩陣乘法通常只需三行代碼就能完成,但在 CUDA 中卻需要五十多行代碼。事實(shí)證明,榨干性能的最后一滴油水是一項(xiàng)令人欽佩卻又極其繁瑣的工作。試探過后,我可以負(fù)責(zé)任地說,這護(hù)城河確實(shí)深不可測(cè)。
CUDA 的統(tǒng)治地位不僅建立在其生態(tài)系統(tǒng)的卓越品質(zhì)之上,更源于其強(qiáng)大的廠商鎖定效應(yīng)。由于現(xiàn)代機(jī)器學(xué)習(xí)框架都基于 CUDA 構(gòu)建,而 CUDA 又主要運(yùn)行在英偉達(dá)芯片上,因此即使 AMD 的芯片擁有更多的核心和顯存,其性能仍然遜色。僅僅根據(jù)規(guī)格參數(shù)來比較芯片,就好比僅僅根據(jù)氣缸數(shù)量來比較賽車,而真正的性能只能在賽道上才能體現(xiàn)。
第二點(diǎn)需要說明的是:我原本打算測(cè)試兩款芯片,但如果同時(shí)購買Nvidia H100和AMD MI300X,肯定會(huì)被康泰納仕集團(tuán)列入黑名單。所以,你們只能相信獨(dú)立研究人員的說法,他們發(fā)現(xiàn)即使AMD的紙面參數(shù)更好,但實(shí)際性能卻不如Nvidia。
英偉達(dá)在軟件方面的優(yōu)勢(shì)可能在于,與其他芯片公司不同,它雇傭的軟件工程師比硬件工程師還要多。如果我是AMD的負(fù)責(zé)人,我或許也會(huì)效仿。(不過誰會(huì)問我呢?)
每年都有這些新興的競(jìng)爭(zhēng)者試圖打破英偉達(dá)的護(hù)城河,最終卻只能被其吞噬。OpenCL 是一個(gè)由包括蘋果、AMD 和高通在內(nèi)的聯(lián)盟支持的開放標(biāo)準(zhǔn),它就像是 CUDA 之于 iOS 的失敗版 Android,幾乎沒有獲得任何發(fā)展。
與此同時(shí),AMD 針對(duì) CUDA 推出的 ROCm 版本,名字比 CUDA 更糟糕——難道要讀作“rock cum”嗎?(別想著招更多程序員了,趕緊換個(gè)市場(chǎng)營銷團(tuán)隊(duì)吧。)ROCm 也飽受 bug 和兼容性問題的困擾,以至于它的 Reddit 子版塊看起來就像個(gè)求助論壇。
別忘了英特爾。雖然很容易把它看作是一家日漸衰落的芯片制造商,但它近期的歷史表明,它也是一家日漸衰落的軟件公司。為了挽回顏面,它推出了 oneAPI,但到了 2026 年,我們完全可以肯定 CUDA 仍然占據(jù)主導(dǎo)地位。如果說有什么挑戰(zhàn)者,那就是由克里斯·拉特納 (Chris Lattner) 領(lǐng)導(dǎo)的Modular,這位傳奇語言設(shè)計(jì)師的代表作包括蘋果的 Swift 和 LLVM。
但公開的秘密是,就像理論物理學(xué)家連換輪胎都不會(huì)一樣,大多數(shù)人工智能研究人員甚至連一行C++代碼都寫不出來。優(yōu)秀的GPU內(nèi)核工程師寥寥無幾,而且其中許多人都在英偉達(dá)工作。早在人工智能研究人員開始利用影響力牟利之前,這些工程師就默默無聞地從事CUDA的研發(fā)工作。即使是那些值得信賴的編碼助手,編寫內(nèi)核代碼也仍然磕磕絆絆。
最終,英偉達(dá)或許更接近蘋果,而非AMD或英特爾。它之所以成為一家偉大的硬件公司,是因?yàn)樗举|(zhì)上是一家軟件公司。蘋果對(duì)抗安卓的護(hù)城河從來不僅僅是iPhone,而是整個(gè)生態(tài)系統(tǒng):iOS、App Store及其開發(fā)者。誠然,你可以把三星Galaxy對(duì)折,但你真的想用三星支付嗎?與此同時(shí),整個(gè)行業(yè)恐怕不得不忍受英偉達(dá)高昂的價(jià)格。
(來源:編譯自wired)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4404內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.