![]()
![]()
算力出海其實(shí)是“境外數(shù)據(jù)入關(guān)”,是境外數(shù)據(jù)進(jìn)入中國(guó)進(jìn)行“加工”之后再出國(guó),還需要相關(guān)的政策配合。
本文作者系盤古智庫(kù)高級(jí)研究員周濟(jì)、盤古智庫(kù)高級(jí)研究員牛站奎,文章首發(fā)于“鈦媒體”。
本文大約2300字,讀完約5分鐘。
當(dāng)前,市場(chǎng)上流行一種極度簡(jiǎn)化的商業(yè)敘事:將中國(guó)豐富的綠電資源視為人工智能時(shí)代的“新煤礦”。其基本邏輯可以表述為:利用西部低至0.3 元每度的電力優(yōu)勢(shì)驅(qū)動(dòng)大規(guī)模智算中心,通過(guò)算力芯片將電力轉(zhuǎn)化為可交易的詞元,再利用互聯(lián)網(wǎng)的零物流成本特征,將這些“數(shù)字產(chǎn)品”賣向全球。這一過(guò)程被形象地稱為“電力變算力,算力變?cè)~元,詞元換美金”。但是,這個(gè)敘事在現(xiàn)實(shí)中是不是真的成立,還需要進(jìn)一步探討的。
讓我們從最基礎(chǔ)的概念開(kāi)始復(fù)盤,什么是詞元?詞元是大語(yǔ)言模型(LLM)處理信息的最小神經(jīng)元輸入單位。在物理層面,大模型無(wú)法直接讀懂自然語(yǔ)言的文本流,必須通過(guò)分詞器(Tokenizer)將文本映射為離散的數(shù)字序列。每一個(gè)詞元在模型內(nèi)部都對(duì)應(yīng)一個(gè)高維空間中的向量(Embedding)。通俗的說(shuō),詞元不是字,也不是詞,而是模型進(jìn)行矩陣運(yùn)算時(shí)的“最小步長(zhǎng)”。所以,他可以作為計(jì)算任務(wù)的計(jì)量單位,也就會(huì)被進(jìn)一步的當(dāng)成消耗算力的計(jì)價(jià)單位。
但是,詞元的切分,是非常“因人而異”的事情,每個(gè)模型會(huì)有自己的切分算法。處理同樣的1000 字中文報(bào)告,有些模型可能只需要1200 個(gè)詞元,而有些可能需要1800 個(gè)。這種切分方式的差異,直接導(dǎo)致了下游計(jì)算量的基數(shù)不同。所以不同模型的詞元的“含金量”在分詞階段就已經(jīng)產(chǎn)生了分化。
進(jìn)一步看,模型處理詞元的過(guò)程是一個(gè)復(fù)雜的“自回歸”推理。當(dāng)用戶輸入一個(gè)詞元序列時(shí),模型會(huì)將其映射到多層Transformer架構(gòu)中。每一層都包含多頭注意力機(jī)制(Multi-Head Attention)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)。詞元向量都要與巨大的權(quán)重矩陣進(jìn)行點(diǎn)積運(yùn)算。在生成階段,每產(chǎn)生一個(gè)新的詞元,模型都要對(duì)之前所有的上下文詞元進(jìn)行一次完整的前向傳播計(jì)算。這意味著,隨著對(duì)話長(zhǎng)度的增加,計(jì)算壓力不是線性增加的,而是呈現(xiàn)出明顯的資源占用波動(dòng)。這種“邏輯推演”的本質(zhì)決定了,詞元的產(chǎn)出不是流水線上的物理組裝,而是一種高強(qiáng)度的數(shù)學(xué)模擬。在學(xué)術(shù)界和工程界,有一個(gè)公認(rèn)的近似估算:生成(或處理)1 個(gè) 詞元所需的浮點(diǎn)運(yùn)算次數(shù)約是2 倍的模型參數(shù)量。以一個(gè) 70B 參數(shù)的模型為例,每處理一個(gè)詞元需要硬件執(zhí)行1400 億次浮點(diǎn)運(yùn)算。一次1000個(gè)詞元的典型對(duì)話,背后是140 萬(wàn)億次的物理計(jì)算。在 Transformer 架構(gòu)中,注意力機(jī)制的計(jì)算量與上下文長(zhǎng)度的平方成正比(雖然 2026 年已有大量線性注意力技術(shù)的應(yīng)用,但資源占用依然顯著)。這意味著處理“長(zhǎng)文本”中的 1000 個(gè) 詞元,其成本遠(yuǎn)高于處理“短文本”中的 1000 個(gè)詞元。太復(fù)雜的原理不是本文要探討的內(nèi)容,但是核心是模型對(duì)詞元的處理“辦法”,和不同任務(wù)類型,都決定了不同的計(jì)算次數(shù)要求,也決定著后期的實(shí)際消耗。
那么,詞元的成本應(yīng)該怎么進(jìn)行估計(jì)呢?在不考慮:第一、基建成本;第二、模型能力冗余的情況下,我們將單位詞元的基礎(chǔ)價(jià)格拆解為一個(gè)完整數(shù)據(jù)推導(dǎo)機(jī)制:
![]()
從上述推導(dǎo)中可以看出,詞元(Token)的實(shí)際成本是高度依賴于模型能力和硬件成本的。一個(gè)高效率的模型,不但會(huì)讓用戶覺(jué)得“更聰明”,同時(shí)也能極大的節(jié)約處理任務(wù)的時(shí)長(zhǎng)。對(duì)于采用MoE(混合專家模型)架構(gòu)的模型,其單位詞元能耗得到了革命性的下降。因?yàn)樵谕评頃r(shí),模型僅激活5%-10% 的專家參數(shù)。這意味著,算法的進(jìn)步直接導(dǎo)致了“電→詞元”轉(zhuǎn)化率的 5-10 倍提升。這種軟件側(cè)的效率提升,其影響力遠(yuǎn)大于電價(jià)的降低。同樣的變化,還在硬件中,不考慮硬件進(jìn)步對(duì)模型支撐能力的飛躍,單獨(dú)計(jì)算單位價(jià)格實(shí)際算力的提升,也將極大的降低硬件折舊成本,效果大于電費(fèi)的降低。還有一個(gè)潛在的“金礦”,就是對(duì)于并行算力服務(wù)的協(xié)同管理優(yōu)化,也將降低詞元的成本。
按照一些智算中心的實(shí)際運(yùn)行數(shù)據(jù)顯示,全生命周期的電費(fèi)成本大約占到20%左右,而隨著技術(shù)的進(jìn)步,全系統(tǒng)PUE系數(shù)會(huì)降低,單位硬件成本升高但是算力提升更快,所以這一比例還是在逐步降低的,按照上述公式折合到詞元的成本中,電價(jià)占比會(huì)進(jìn)一步降低。所以,本質(zhì)上低電價(jià)的敘事是在一個(gè)占比不到五分之一的成本項(xiàng)上進(jìn)行優(yōu)化,但是如果算法架構(gòu)落后或者芯片效率偏低,乃至并行優(yōu)化不到位,電價(jià)優(yōu)勢(shì)會(huì)被瞬間抹平。綜合來(lái)看,詞元經(jīng)濟(jì)絕不是電力的直接產(chǎn)物,它是由模型、芯片、集群工程、以及能源稟賦共同作用下的復(fù)雜結(jié)果。甚至,電價(jià)的權(quán)重在先進(jìn)模型架構(gòu)中正不斷被算法優(yōu)化和硬件折舊所稀釋。
詞元作為一個(gè)非標(biāo)品,在商業(yè)競(jìng)爭(zhēng)中的銷售定價(jià)邏輯應(yīng)該遵循的是“效果導(dǎo)向定價(jià)”而非“成本加成定價(jià)”。在未來(lái),一個(gè)“好用的”模型的詞元價(jià)格完全可能是一個(gè)邏輯混亂的模型或者難以處理復(fù)雜問(wèn)題模型的價(jià)格的十倍。而這個(gè)價(jià)格差異的核心是模型自身的“智力溢價(jià)”,是對(duì)研發(fā)成本的回收和合理利潤(rùn)的賺取。
但是,電價(jià)的優(yōu)勢(shì)就那么不重要嗎?當(dāng)然不是。現(xiàn)在整個(gè)人工智能的生態(tài)系統(tǒng)的進(jìn)步速度都很快,技術(shù)的擴(kuò)算也不慢。通過(guò)上文對(duì)于詞元定價(jià)的推導(dǎo)分析,可以看出除了電力系統(tǒng)的建設(shè)或者說(shuō)電價(jià)的變化,其他要素都是相對(duì)的“快變量”,而電價(jià)是相對(duì)的“慢變量”。同樣的市場(chǎng)競(jìng)爭(zhēng)者,如果模型研發(fā)水平差異不大,都能夠買到(或生產(chǎn))水平差不多的芯片呢?從成本的角度來(lái)說(shuō),電價(jià)就會(huì)成為一個(gè)最重要的可變因素,而低電價(jià)背后的系統(tǒng)性優(yōu)勢(shì)不是一些競(jìng)爭(zhēng)者短期內(nèi)能夠趕超的。這個(gè)應(yīng)該說(shuō)是算力出海的核心優(yōu)勢(shì),不過(guò)要明確的概念是,算力出海其實(shí)是“境外數(shù)據(jù)入關(guān)”,是境外數(shù)據(jù)進(jìn)入中國(guó)進(jìn)行“加工”之后再出國(guó),還需要相關(guān)的政策配合。綜合來(lái)看,詞元出海的優(yōu)勢(shì)還是明顯的,但是需要的整個(gè)軟件、硬件的系統(tǒng)性進(jìn)步,是整個(gè)服務(wù)能力和政策開(kāi)放程度的提升,而不是單純的強(qiáng)調(diào)電價(jià)方面的優(yōu)勢(shì)。■
文章首發(fā)于“鈦媒體”
圖文編輯:張洵
責(zé)任編輯:劉菁波
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.