網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

推理ASIC的時(shí)代來(lái)了

2026-04-27 18:17:30　來(lái)源: 估值之家

上海舉報(bào)

分享至

4月22日，谷歌于拉斯維加斯召開(kāi)Cloud Next 2026大會(huì)，大會(huì)首先展示，谷歌目前有75%的新增代碼由AI生成（并由工程師審閱批準(zhǔn)），谷歌已經(jīng)進(jìn)入了AI Agent時(shí)代，并推出Workspace Intelligence、Gemini企業(yè)級(jí)Agent平臺(tái)等一系列AI Agent產(chǎn)品。

當(dāng)然最吸引資本市場(chǎng)注意力的是，谷歌推出了第八代TPU——這是十年以來(lái)，谷歌首次將訓(xùn)練ASIC與推理ASIC拆分，推出面向訓(xùn)練的TPU 8t和面向推理的TPU 8i，搭配自研Axion Arm CPU，構(gòu)建極致高效的算力體系。其中，尤其以TPU 8i推理ASIC，受到市場(chǎng)格外關(guān)注。

圖片說(shuō)明：谷歌TPU 8t與TPU 8i，數(shù)據(jù)來(lái)源于推特

推理像個(gè)無(wú)底洞，吞噬著一切算力

進(jìn)入2026年，以O(shè)penClaw為代表的AI Agent類(lèi)產(chǎn)品、和以Seedance、Nano Banana為代表的多模態(tài)產(chǎn)品，均進(jìn)入規(guī)模化應(yīng)用階段，驅(qū)動(dòng)全球算力需求呈現(xiàn)爆發(fā)式增長(zhǎng)。4月22日谷歌CEO表示，通過(guò)客戶(hù)直接使用API的方式，谷歌的模型每分鐘處理超過(guò)160億token，而上季度是100億token，環(huán)比增長(zhǎng)60%，直觀體現(xiàn)出人類(lèi)對(duì)AI工具的需求正以超預(yù)期的速度增長(zhǎng)。

而2026年僅僅是AI Agent的一個(gè)開(kāi)端，是少數(shù)人初步使用Agent，Agent滲透率極低的初期；未來(lái)還將伴隨Agent門(mén)檻降低、滲透率逐步提升、人與Agent共存的階段；最后進(jìn)入完全由Agent主導(dǎo)的階段。毫無(wú)疑問(wèn)，每躍升一個(gè)階段，都將呈現(xiàn)Token消耗量的指數(shù)級(jí)增長(zhǎng)。

圖片說(shuō)明：谷歌TPU 8t與TPU 8i，數(shù)據(jù)來(lái)源于騰訊開(kāi)發(fā)者社區(qū)

然而，盡管目前AI Agent還處在一個(gè)非常早期的階段，但作為一名普通消費(fèi)者，即便你不是專(zhuān)業(yè)投資者，你也能夠明顯感受到：算力嚴(yán)重不夠用了。

很簡(jiǎn)單，當(dāng)你現(xiàn)在使用Gemini、Claude或者GPT的時(shí)候，你會(huì)發(fā)現(xiàn)這些大模型的智商越來(lái)越低了，遠(yuǎn)遠(yuǎn)不如以前好用了。例如回答問(wèn)題時(shí)輸出的Token越來(lái)越短了，回答越來(lái)越偷懶了，上下文也不記憶了，錯(cuò)誤率越來(lái)越高了，幻覺(jué)也越來(lái)越嚴(yán)重了，更糟糕的是費(fèi)用還越來(lái)越貴了。

當(dāng)然，從專(zhuān)業(yè)投資者的角度，還需要用量化數(shù)據(jù)來(lái)審視這一現(xiàn)象。根據(jù)Ornn Compute的數(shù)據(jù)，今年以來(lái)，英偉達(dá)全系列GPU在云端數(shù)據(jù)中心的現(xiàn)貨租賃價(jià)格均大幅上漲，Blackwell系列芯片單小時(shí)租金已達(dá)4.08美元，較兩個(gè)月前的2.75美元上漲48%

SemiAnalysis的數(shù)據(jù)顯示，H100的一年期租賃合約價(jià)格已由2025年10月的低點(diǎn)約1.70美元/小時(shí)/GPU提升至2026年3月的2.35美元/小時(shí)/GPU，漲幅近40%。

更夸張的是，甚至連“老古董”A100的租賃價(jià)格也在上漲，截止到3月底達(dá)1.48美元/小時(shí)/GPU，環(huán)比上漲+6.5%（相比之下，2月份環(huán)比上漲+3.7%，1月份環(huán)比上漲+1.5%），標(biāo)志著環(huán)比漲幅連續(xù)第三個(gè)月加速。

圖片說(shuō)明：H100價(jià)格走勢(shì)，數(shù)據(jù)來(lái)源于SemiAnalysis

當(dāng)2020年發(fā)布的A100、2022年發(fā)布的H100還在因?yàn)楣┎粦?yīng)求而漲價(jià)時(shí)，那么最開(kāi)心的一定是那些普遍采用5年直線折舊的NeoCloud企業(yè)，那些殘值為“零”的老古董正在發(fā)光發(fā)熱。

資本市場(chǎng)已經(jīng)投出了這一票，無(wú)論是美股市場(chǎng)的CoreWeave、Nebius等等，還是A股市場(chǎng)的協(xié)創(chuàng)數(shù)據(jù)(300857.SZ)、宏景科技(301396.SZ)、利通電子(603629.SH)等等，其股價(jià)都走出了完全不遜于“光”的磅礴氣勢(shì)。

圖片說(shuō)明：年初至今，NeoCloud公司的股價(jià)完全不輸于EML公司，數(shù)據(jù)來(lái)源于Wind

毫無(wú)疑問(wèn)，推理需求正如同無(wú)底洞一樣，吞噬著所有的算力產(chǎn)能，也難怪馬斯克要發(fā)出“未來(lái)AI芯片將嚴(yán)重不足”的感慨了。

圖片說(shuō)明：特斯拉啟動(dòng)Terafab芯片工廠的原因，數(shù)據(jù)來(lái)源于新浪財(cái)經(jīng)

把訓(xùn)練和推理分開(kāi)做，正在成為行業(yè)共識(shí)

面對(duì)指數(shù)級(jí)增長(zhǎng)的推理需求，英偉達(dá)從去年12月以200億美元收購(gòu)了Groq，LPU甚至被黃仁勛認(rèn)為是重要性不亞于2019年收購(gòu)Mellanox的里程碑事件，再到近日谷歌推出第八代TPU拆分訓(xùn)練ASIC和推理ASIC，兩大巨頭殊途同歸，都指向了一件事情：推理ASIC的時(shí)代來(lái)了。

訓(xùn)練和推理，前者是在制造“硅基大腦”，后者是在使用“硅基大腦”，因此顯而易見(jiàn)的是，訓(xùn)練和推理對(duì)于算力的需求并不完全相同：訓(xùn)練拼的是力大飛磚的單卡算力（比如每秒的浮點(diǎn)運(yùn)算次數(shù)）、是極限的互聯(lián)集群規(guī)模（幾十萬(wàn)卡甚至上百萬(wàn)卡集群）等等；而推理拼的是內(nèi)存訪問(wèn)效率（如SRAM做的更大，緩存更多數(shù)據(jù)就近使用）、ASIC間的通信速度（減少芯片間的通信延遲）等等。

圖片說(shuō)明：谷歌TPU 8t與TPU 8i的核心參數(shù)差異，數(shù)據(jù)來(lái)源于華泰證券

毫無(wú)疑問(wèn)，推理需求將指數(shù)級(jí)增長(zhǎng)，且其需求量終將是訓(xùn)練需求的很多倍，這一點(diǎn)已基本成為行業(yè)共識(shí)，在這一共識(shí)之下，推理ASIC的崛起也是水到渠成，GPU不會(huì)落幕，只是可預(yù)見(jiàn)的未來(lái)，GPU的行業(yè)增速很難高于推理ASIC。

最后，推理ASIC的崛起，除了利好資本市場(chǎng)耳熟能詳?shù)腅ML、光模塊、NPO、MPO、OCS等光通信板塊外，國(guó)產(chǎn)的一批優(yōu)秀ASIC相關(guān)上市公司未來(lái)的業(yè)績(jī)?cè)鏊僖卜浅Ｖ档闷诖?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.