網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一個瘋子，造出便宜100倍的AI芯片

2026-02-23 15:18:48　來源: 傅盛

北京舉報

分享至

25個人，3000萬美金，兩年半。

做出了一塊碾壓英偉達(dá)旗艦GPU 10倍的芯片。

不是PPT，不是實驗室demo。芯片已經(jīng)量產(chǎn)，API已經(jīng)開放，開發(fā)者現(xiàn)在就能測。

做這件事的人叫Ljubisa Bajic。兩年前，他放棄了自己一手創(chuàng)辦的、估值32億美金的AI

芯片公司Tenstorrent。AI芯片賽道正火，資本瘋搶，所有人都覺得他瘋了。

但Bajic覺得，真正瘋的是這個行業(yè)——大家花幾十億美金造芯片，結(jié)果90%的算力都在搬數(shù)據(jù)，不在算數(shù)據(jù)。

他放不下一個問題：AI推理，為什么非得這么貴？

問題有多本質(zhì)？

你用ChatGPT問一個問題，背后是什么？是一堆服務(wù)器里的GPU，把一個幾十GB甚至幾百GB的模型文件，從內(nèi)存里反復(fù)搬運到計算單元，一個字一個字地算出來，再傳給你。

這個過程，每問一次，就搬一次。不是搬一次，是每生成一個token，都要把所有的模型權(quán)重過一遍。

NVIDIA的GPU賣這么貴，本質(zhì)上是在賣"通用性"——它什么模型都能跑。這種靈活性，代價是極大的浪費。好比你每次做飯，都要把整個菜市場搬進(jìn)廚房，然后再搬走。

Bajic想的是：如果你只做一道菜，為什么不直接把菜長在廚房里？

這就是Taalas的起點。

先說說Bajic這個人

他的履歷，光看都覺得累。在AMD做了十幾年，從工程師一路做到GPU芯片架構(gòu)師，主導(dǎo)過混合CPU-GPU芯片的整體設(shè)計。后來跳去Nvidia做了一年高級架構(gòu)師，結(jié)果又被AMD挖回去，當(dāng)了兩年集成電路設(shè)計總監(jiān)。

AMD、Nvidia、AMD——在兩家芯片巨頭之間來回蹦跶。不是他坐不住，是這個行業(yè)的頂尖人才就這樣，誰給更大的舞臺就去誰那兒。

再后來他自己出來創(chuàng)業(yè)，創(chuàng)辦了Tenstorrent——專做AI芯片。公司融了7億美金，估值一路飆到32億。為了補強團隊，他請來了芯片界的傳奇人物Jim Keller先擔(dān)任CTO——這個人在AMD設(shè)計過Zen架構(gòu)、在蘋果做過A系列芯片、在特斯拉搞過自動駕駛芯片，硅谷芯片圈的活化石。

Keller一開始以CTO身份加入，負(fù)責(zé)技術(shù)方向。但很快，Bajic發(fā)現(xiàn)這個人不只是能做技術(shù)——他能扛起整個公司。于是Bajic把他升為CEO，自己退到幕后。2022年秋天，Bajic徹底離開了Tenstorrent。

一手創(chuàng)辦的公司，估值32億，親手交給別人，然后走人。

他停下來想了六個月，然后做了一個更瘋的決定。

顛覆80年的基本假設(shè)

2023年，Bajic帶著他的妻子Lejla（AMD/Tenstorrent系統(tǒng)工程老兵，后出任COO），還有老搭檔Drago Ignjatovic（前Tenstorrent硬件VP，出任CTO），三個人，把這個想法從零開始做。

他們給這個方向起了個霸氣的名字：Hardcore Models.

口號只有六個字：The Model is The Computer.

不是模型運行在計算機上。模型本身，就是那臺計算機。

具體怎么做到的？

具體怎么做到的？Bajic的技術(shù)解釋，我覺得非常有意思。傳統(tǒng)芯片的邏輯是：有一堆計算單元，有一堆內(nèi)存，需要推理的時候，把模型權(quán)重從內(nèi)存搬到計算單元，算完結(jié)果，再吐出來。這中間有一道無形的"墻"——內(nèi)存帶寬墻。

你能算多快，取決于你能搬多快。這道墻，是整個AI算力行業(yè)幾十年的噩夢。Cerebras用一整個晶圓做計算，SambaNova和Groq用大量高速SRAM，本質(zhì)都是在想辦法把這道墻打薄。但墻還在。

Taalas的做法，是把這道墻徹底炸掉。

從1945年馮·諾依曼提出計算機架構(gòu)至今，有一個基本假設(shè)從沒變過：存儲是存儲，計算是計算，中間靠總線搬數(shù)據(jù)。八十年了，所有芯片都在這個框架里優(yōu)化。

Bajic說：我不優(yōu)化了，我把這個架構(gòu)廢了。

存儲和計算，合為一體。模型參數(shù)直接刻進(jìn)晶體管，晶體管本身既是存儲又是計算。不需要搬運，因為數(shù)據(jù)就長在計算的地方。

這才是真正瘋的地方——不是做一塊更快的芯片，而是否定了八十年來計算機的基本假設(shè)。

他們發(fā)明了一種叫"Mask ROM Recall Fabric"的架構(gòu)——直接把模型權(quán)重，在芯片制造的時候，固化進(jìn)晶體管里。不是寫進(jìn)內(nèi)存，是刻進(jìn)硅里。

他們用的是70年代手工晶體管級別的設(shè)計方法，一行一行地布局，像在手工雕刻。一共申請了14項專利。

結(jié)果

第一代芯片HC1，TSMC 6納米工藝，815平方毫米，530億個晶體管，功耗200W一張卡。

跑Llama 3.1 8B的推理速度：17,000 tokens/秒（每用戶）

NVIDIA最新的B200（Blackwell架構(gòu)）：大約1,800 tokens/秒

差了將近10倍。成本便宜20倍。功耗低10倍。

而且，因為速度太快，根本不需要"批處理"。HC1速度太快，每個用戶的請求直接實時響應(yīng)，延遲極低。

低延遲和低成本，原本是一對矛盾。Taalas說，我兩個都要。

代價與解法

你可能會問：這聽起來太好了，有什么代價？

有的。

每一個模型，對應(yīng)一款專屬芯片。你想跑Llama 3.1，就得用Llama 3.1的HC芯片。

Bajic說：不麻煩。他們和TSMC一起，設(shè)計了一套"兩層金屬"的快速更新方案——換個模型，只改芯片里的兩層金屬。從收到新模型的權(quán)重，到可以量產(chǎn)出貨：兩個月。

定制一塊專屬推理芯片，成本大概是訓(xùn)練成本的百分之一。

這個賬，算得過來。

更關(guān)鍵的是：模型更新的速度，正在放緩。用戶開始在乎"穩(wěn)定性"多過"新功能"。GPT-4到GPT-4.5到GPT-5，不少企業(yè)用戶反而不急著升級，因為已經(jīng)跑通的工作流不想被打亂。這種趨勢，恰恰給了HC芯片更大的生存空間。

25人，$3000萬

Taalas今年2月剛宣布完成$1.69億融資，總?cè)谫Y額達(dá)到$2.19億，投資方包括Fidelity（富達(dá)）。

他們總共只花了$3000萬在研發(fā)上。還有$1.7億在賬上沒動。

25個人，$3000萬，兩年半，做出了一個跑贏NVIDIA旗艦GPU 10倍的芯片。

這不是在吹牛。他們現(xiàn)在已經(jīng)有公開可用的API（chatjimmy.ai），開發(fā)者可以自己去測。

我見過太多創(chuàng)業(yè)團隊，動不動就說要做多大的事，然后花很多錢，很多年，產(chǎn)出一個平庸的結(jié)果。Taalas這個數(shù)字，讓我坐直了。

極度焦慮=極度效率

這件事讓我想到一個更大的問題：資源，到底是優(yōu)勢，還是束縛？

Taalas走了另一條路：用極度聚焦換來極度效率。

Bajic從AMD到Tenstorrent，再到Taalas，每次都在做減法：

AMD：做所有人的GPU
Tenstorrent：做AI時代的通用芯片
Taalas：只做一個模型的最優(yōu)硬件

越聚越窄，越聚越深，越聚越快。

我自己做獵豹的時候，也經(jīng)歷過類似的階段。做移動工具的那幾年，整個團隊想的就是一件事：如何在手機清理這件小事上，做到極致？

別人覺得這太窄，沒有未來。但正是這種極致的聚焦，讓我們在全球超過一億用戶。

Taalas讓我想到，這個道理在硬科技領(lǐng)域一樣成立——甚至更成立。因為硬件容錯率更低，極度聚焦，不是退而求其次，而是生存本能。

因為硬件容錯率更低。你不能"先發(fā)布再迭代"，每次流片都是真金白銀。極度聚焦，不是退而求其次，而是生存本能。

順便說，Taalas的VP of Products，叫Paresh Kharya。

這個人之前在NVIDIA做了三年數(shù)據(jù)中心業(yè)務(wù)高級產(chǎn)品負(fù)責(zé)人，然后去Google Cloud管了一段時間GPU和TPU的整個硬件產(chǎn)品線。

從NVIDIA和Google的內(nèi)部，主動跳槽去一個25人的初創(chuàng)公司。

這個選擇，很說明問題。見過最好的，選擇去做可能更顛覆的，這種判斷不輕易發(fā)生。

價格革命

當(dāng)然，Taalas面前還有很多沒解決的問題。

模型迭代越來越快，兩個月的交貨周期夠不夠？超大參數(shù)量的模型（數(shù)千億參數(shù)）怎么做，目前HC1只支持80億參數(shù)，HC2年底才出。客戶愿不愿意為"專用芯片"接受靈活性上的限制，這是真實的商業(yè)挑戰(zhàn)。

這些問題，都不是小問題。

但有一件事我覺得是確定的：AI推理的成本，必然會被打穿。

DeepSeek從訓(xùn)練端做到了，用更少的算力訓(xùn)練出接近GPT-4水平的模型。

Taalas從推理端做，把同一個模型的運行成本砍掉20倍。

兩條路，同一個方向——讓AI的使用成本趨近于零。

這不是一個技術(shù)故事，這是一場價格革命。

最后說一句話。

Bajic離開Tenstorrent的時候，所有人都說他瘋了——AI芯片賽道正熱，公司估值$32億，你走什么走？

但他停下來想了六個月，然后去做一件更瘋的事——否定馮·諾依曼架構(gòu)，把模型直接燒進(jìn)芯片。

現(xiàn)在他們拿著$2.19億，25個人，從加拿大多倫多出發(fā)，準(zhǔn)備在一個萬億美元的市場里，打出一道裂縫。

有時候，瘋子才能看到正常人看不到的路。

這件事的結(jié)局還沒寫完。但開頭，已經(jīng)很精彩了。

Taalas的HC1已經(jīng)可以申請API試用：taalas.com/api-request-form/。如果你在做AI應(yīng)用，不妨去測一下。17,000 tokens/秒是什么感覺，親眼看看。

關(guān)于EasyClaw

AI推理成本趨近于零的那一天，真正的價值不在算力，在應(yīng)用。

EasyClaw是我們做的AI Agent平臺——讓每個人都能擁有自己的AI助理，7×24小時幫你處理工作、獲取信息、管理日程。不需要寫代碼，不需要懂技術(shù)，開箱即用。

Taalas讓AI算力便宜100倍，EasyClaw讓AI能力人人可用。

easyclaw.com — 你的第一只龍蝦，在等你。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.