網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)其實(shí)是一家軟件公司

2026-05-12 09:22:45　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

請(qǐng)?jiān)徫蚁葟囊粋€(gè)老生常談的金融術(shù)語說起，這個(gè)詞最近悄然滲入了科技詞匯，但我恐怕不得不談?wù)劇白o(hù)城河”。幾十年前，沃倫·巴菲特推廣了這個(gè)詞，用來指代公司的競(jìng)爭(zhēng)優(yōu)勢(shì)。后來，一份據(jù)稱從谷歌泄露的備忘錄——題為《我們沒有護(hù)城河，OpenAI也沒有》——擔(dān)憂開源人工智能會(huì)摧毀大型科技公司的堡壘，此后，這個(gè)詞便出現(xiàn)在了硅谷的商業(yè)計(jì)劃書中。

幾年過去了，城堡的城墻依然堅(jiān)固。除了DeepSeek剛出現(xiàn)時(shí)引發(fā)的短暫恐慌之外，開源人工智能模型并沒有在性能上大幅超越專有模型。然而，無論是OpenAI、Anthropic還是谷歌，這些前沿實(shí)驗(yàn)室都還沒有形成真正意義上的護(hù)城河。

真正擁有護(hù)城河的公司是英偉達(dá)。其首席執(zhí)行官黃仁勛稱之為他最珍貴的“寶藏”。但對(duì)于一家芯片公司來說，這并非你想象中的硬件，而是名為CUDA的技術(shù)。這種聽起來像是被美國食品藥品監(jiān)督管理局（FDA）禁用的化學(xué)物質(zhì)，或許正是人工智能領(lǐng)域真正的護(hù)城河。

CUDA 技術(shù)上屬于它代表統(tǒng)一計(jì)算設(shè)備架構(gòu)（Compute Unified Device Architecture），但就像激光或潛水一樣，沒人會(huì)費(fèi)心去解釋這個(gè)縮寫詞；我們只會(huì)說“KOO-duh”。那么，這個(gè)至關(guān)重要的技術(shù)究竟有什么用呢？如果非要用一個(gè)詞來回答，那就是：并行化。

舉個(gè)簡單的例子。假設(shè)我們讓一臺(tái)機(jī)器填寫一個(gè) 9×9 的乘法表。使用單核計(jì)算機(jī)，所有 81 道運(yùn)算都會(huì)逐一執(zhí)行。但擁有九個(gè)核心的 GPU 可以分配任務(wù)，讓每個(gè)核心負(fù)責(zé)不同的列——一個(gè)核心處理 1×1 到 1×9 的運(yùn)算，另一個(gè)核心處理 2×1 到 2×9 的運(yùn)算，以此類推——速度提升九倍。現(xiàn)代 GPU 甚至可以更智能。例如，如果編程使其能夠識(shí)別交換律——7×9 = 9×7——它們就可以避免重復(fù)工作，將 81 道運(yùn)算減少到 45 道，幾乎將工作量減半。當(dāng)一次訓(xùn)練運(yùn)行的成本高達(dá)一億美元時(shí)，每一次優(yōu)化都至關(guān)重要。

英偉達(dá)的GPU最初是為視頻游戲渲染圖形而設(shè)計(jì)的。2000年代初期，一位名叫伊恩·巴克（Ian Buck）的斯坦福大學(xué)博士生，最初也是因?yàn)橥嬗螒蚨佑|到GPU，他意識(shí)到GPU的架構(gòu)可以用于通用的高性能計(jì)算。他創(chuàng)建了一種名為Brook的編程語言，之后被英偉達(dá)聘用，并與約翰·尼科爾斯（John Nickolls）共同領(lǐng)導(dǎo)了CUDA的開發(fā)。如果人工智能真的帶來了一個(gè)永久性的白領(lǐng)底層階級(jí)和自主武器的時(shí)代，要知道，這一切都源于某個(gè)玩《毀滅戰(zhàn)士》（Doom）的人突發(fā)奇想，覺得惡魔的陰囊應(yīng)該以每秒60幀的速度抖動(dòng)。

CUDA本身并非一種編程語言，而是一個(gè)“平臺(tái)”。我之所以用這個(gè)詞，是因?yàn)椋拖瘛都~約時(shí)報(bào)》既是報(bào)紙又是游戲公司一樣，CUDA多年來已經(jīng)發(fā)展成為一個(gè)嵌套的AI軟件庫集合。每個(gè)函數(shù)都能為單個(gè)數(shù)學(xué)運(yùn)算節(jié)省幾納秒的時(shí)間——加起來，它們就能讓GPU（用業(yè)內(nèi)術(shù)語來說）“飛速運(yùn)轉(zhuǎn)” 。

現(xiàn)代圖形顯卡并非只是一塊塞滿芯片、內(nèi)存和風(fēng)扇的電路板。它是由緩存層級(jí)結(jié)構(gòu)和被稱為“張量核心”和“流式多處理器”的專用單元精心打造而成。從這個(gè)意義上講，芯片公司銷售的產(chǎn)品就像一個(gè)專業(yè)廚房，而更多的核心就如同更多的燒烤臺(tái)。但即便擁有30個(gè)燒烤臺(tái)的廚房，如果沒有一位能干的主廚巧妙地分配任務(wù)，運(yùn)轉(zhuǎn)速度也不會(huì)更快——就像CUDA之于GPU核心那樣。

進(jìn)一步來說，那些針對(duì)單一矩陣運(yùn)算進(jìn)行優(yōu)化的手工調(diào)校的 CUDA 庫，就好比是只能完成一項(xiàng)任務(wù)的廚房工具——比如櫻桃去核器、蝦線去除器——對(duì)于家庭廚師來說或許是錦上添花，但如果你要處理上萬只蝦的內(nèi)臟，那就完全是浪費(fèi)了。這就引出了 DeepSeek。它的工程師們突破了這層原本就很深的抽象層，直接使用 PTX 進(jìn)行開發(fā)，PTX 是一種用于英偉達(dá) GPU 的匯編語言。假設(shè)任務(wù)是剝蒜。未經(jīng)優(yōu)化的 GPU 會(huì)發(fā)出這樣的指令：“用指甲剝蒜皮。” CUDA 可以發(fā)出這樣的指令：“用刀背拍碎蒜瓣。” 而 PTX 則允許你定義每一個(gè)子指令：“將刀刃抬離砧板 2.35 英寸，使其與蒜瓣的赤道平行，然后用手掌向下拍打，力度為 36.2 牛頓。”

你現(xiàn)在應(yīng)該明白為什么 CUDA 對(duì)英偉達(dá)如此重要，而對(duì)其他公司來說又如此難以企及了。GPU 性能調(diào)優(yōu)是個(gè)棘手的問題。你不能隨便找個(gè)在市場(chǎng)街混跡的毛頭小子，給他一份 Claude Max 的方案，就指望他能搞定 GPU 內(nèi)核。編寫這種級(jí)別的代碼是一項(xiàng)極其艱巨的任務(wù)——除非你是 DeepSeek 的頂尖程序員。

在之前的“機(jī)器可讀性”專欄中，我對(duì)所分析的語言都已相當(dāng)熟悉。但這次并非如此。為了保持這一標(biāo)準(zhǔn)，我決定花一天時(shí)間學(xué)習(xí) CUDA。結(jié)果，我整個(gè)下午都耗在了上面。

在流行的機(jī)器學(xué)習(xí)框架 PyTorch 中，一個(gè)簡單的矩陣乘法通常只需三行代碼就能完成，但在 CUDA 中卻需要五十多行代碼。事實(shí)證明，榨干性能的最后一滴油水是一項(xiàng)令人欽佩卻又極其繁瑣的工作。試探過后，我可以負(fù)責(zé)任地說，這護(hù)城河確實(shí)深不可測(cè)。

CUDA 的統(tǒng)治地位不僅建立在其生態(tài)系統(tǒng)的卓越品質(zhì)之上，更源于其強(qiáng)大的廠商鎖定效應(yīng)。由于現(xiàn)代機(jī)器學(xué)習(xí)框架都基于 CUDA 構(gòu)建，而 CUDA 又主要運(yùn)行在英偉達(dá)芯片上，因此即使 AMD 的芯片擁有更多的核心和顯存，其性能仍然遜色。僅僅根據(jù)規(guī)格參數(shù)來比較芯片，就好比僅僅根據(jù)氣缸數(shù)量來比較賽車，而真正的性能只能在賽道上才能體現(xiàn)。

第二點(diǎn)需要說明的是：我原本打算測(cè)試兩款芯片，但如果同時(shí)購買Nvidia H100和AMD MI300X，肯定會(huì)被康泰納仕集團(tuán)列入黑名單。所以，你們只能相信獨(dú)立研究人員的說法，他們發(fā)現(xiàn)即使AMD的紙面參數(shù)更好，但實(shí)際性能卻不如Nvidia。

英偉達(dá)在軟件方面的優(yōu)勢(shì)可能在于，與其他芯片公司不同，它雇傭的軟件工程師比硬件工程師還要多。如果我是AMD的負(fù)責(zé)人，我或許也會(huì)效仿。（不過誰會(huì)問我呢？）

每年都有這些新興的競(jìng)爭(zhēng)者試圖打破英偉達(dá)的護(hù)城河，最終卻只能被其吞噬。OpenCL 是一個(gè)由包括蘋果、AMD 和高通在內(nèi)的聯(lián)盟支持的開放標(biāo)準(zhǔn)，它就像是 CUDA 之于 iOS 的失敗版 Android，幾乎沒有獲得任何發(fā)展。

與此同時(shí)，AMD 針對(duì) CUDA 推出的 ROCm 版本，名字比 CUDA 更糟糕——難道要讀作“rock cum”嗎？（別想著招更多程序員了，趕緊換個(gè)市場(chǎng)營銷團(tuán)隊(duì)吧。）ROCm 也飽受 bug 和兼容性問題的困擾，以至于它的 Reddit 子版塊看起來就像個(gè)求助論壇。

別忘了英特爾。雖然很容易把它看作是一家日漸衰落的芯片制造商，但它近期的歷史表明，它也是一家日漸衰落的軟件公司。為了挽回顏面，它推出了 oneAPI，但到了 2026 年，我們完全可以肯定 CUDA 仍然占據(jù)主導(dǎo)地位。如果說有什么挑戰(zhàn)者，那就是由克里斯·拉特納 (Chris Lattner) 領(lǐng)導(dǎo)的Modular，這位傳奇語言設(shè)計(jì)師的代表作包括蘋果的 Swift 和 LLVM。

但公開的秘密是，就像理論物理學(xué)家連換輪胎都不會(huì)一樣，大多數(shù)人工智能研究人員甚至連一行C++代碼都寫不出來。優(yōu)秀的GPU內(nèi)核工程師寥寥無幾，而且其中許多人都在英偉達(dá)工作。早在人工智能研究人員開始利用影響力牟利之前，這些工程師就默默無聞地從事CUDA的研發(fā)工作。即使是那些值得信賴的編碼助手，編寫內(nèi)核代碼也仍然磕磕絆絆。

最終，英偉達(dá)或許更接近蘋果，而非AMD或英特爾。它之所以成為一家偉大的硬件公司，是因?yàn)樗举|(zhì)上是一家軟件公司。蘋果對(duì)抗安卓的護(hù)城河從來不僅僅是iPhone，而是整個(gè)生態(tài)系統(tǒng)：iOS、App Store及其開發(fā)者。誠然，你可以把三星Galaxy對(duì)折，但你真的想用三星支付嗎？與此同時(shí)，整個(gè)行業(yè)恐怕不得不忍受英偉達(dá)高昂的價(jià)格。

（來源：編譯自wired）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4404內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.