![]()
隨著 AI 的發(fā)展,Token這個詞早已從科技領(lǐng)域“破圈”,成了大眾的日常用語。
然而大家要么直呼Token,要么寫作“托肯”甚至“偷啃”,可謂五花八門。對于這個我們每天都要接觸到,甚至?xí)?shù)次用到的高頻詞,沒有正式中文翻譯確實說不過去。
這 段混亂的歷史,終于要終結(jié)了。
在2026年3月24日的中國發(fā)展高層論壇上,國家數(shù)據(jù)局正式給出了Token的官方中文:詞元。
劉烈宏局長表示,“詞元”不僅是智能時代的價值錨點,更是連接技術(shù)供給與商業(yè)需求的“結(jié)算單位”,為商業(yè)模式的落地提供了可量化的可能。
下面我們來追溯下Token的演進(jìn)史。
NLP時代的標(biāo)準(zhǔn)翻譯
其實,將Token稱作詞元的歷史頗為悠久。
在大型語言模型(LLM)爆發(fā)之前,AI有一個細(xì)分領(lǐng)域叫做“自然語言處理”,簡稱NLP。在NLP中,Token表達(dá)的就是詞、語素、詞位等各種語言符號的最小單元,其標(biāo)準(zhǔn)翻譯就是“詞元”。
但在當(dāng)時,這只是一個小眾的學(xué)術(shù)概念,并未進(jìn)入大眾視野。
大模型讓Token破圈
隨著ChatGPT引發(fā)的AI發(fā)展狂潮,Token的概念迅速蔓延到幾乎每一個行業(yè),每一個領(lǐng)域。
對于不了解NLP的大眾來說,這就是一個全新的詞,自然跟著業(yè)界一起叫Token。
再后來,隨著多模態(tài)大模型的發(fā)展,Token不再局限于語言,而是變成了AI能處理一切離散符號的最小單元,圖像、視頻、聲音等都可以拆解成Token。
此時,業(yè)界忙于獲取AI時代的船票,快馬加鞭地訓(xùn)練模型,推出各種產(chǎn)品,無暇顧及Token的名稱問題,也就沒有沒有形成一致認(rèn)可的翻譯。
是時候給Token定名了
截至今年3月,我國日均Token調(diào)用量已超過140萬億,相比2024年增長了1000多倍;相比2025年底,僅僅三個月時間就增長了40%多。
這表明,我國AI產(chǎn)業(yè)已進(jìn)入爆發(fā)期,迫切需要用中文表達(dá)這些基礎(chǔ)概念。如果說Token是“乳名”的話,是時候給它起個“大名”了。
那么,有哪些備選呢?
智元?
雖說Token是AI大模型的處理的數(shù)據(jù)最小單元,但它本身只是一串符號,比如文本的一個詞、一個字、一個標(biāo)點,或者一小塊圖像的像素集,和智能一點不沾邊。因此將其翻譯成“智元”是不合適的。
符元?
符元的支持者認(rèn)為Token本質(zhì)上只是符號空間的離散取值,是數(shù)據(jù)的載體,翻譯成“符元”是非常嚴(yán)謹(jǐn)?shù)摹_@一點確實沒錯,但終究是缺少使用基礎(chǔ)。
模元?
既然Token是大模型的的專屬計量單位,那就把它叫做“模元”吧,簡單直接。個人認(rèn)為,“模”多少有些指代不明的感覺,這個翻譯不如“符元”好,也缺少使用基礎(chǔ)。
最終,國家數(shù)據(jù)局沒有采納這些備選名,而是選擇尊重歷史回歸初心,將Token的中文名定為“詞元”。
詞元這名字到底好不好
相比于其他無根之水,詞元在NLP領(lǐng)域確實是業(yè)界認(rèn)可的翻譯。現(xiàn)在它的內(nèi)涵擴(kuò)展了,沿用下去并普及開來是最好的選擇。
正如在現(xiàn)代語境下的“火箭”并不是燃燒著烈火的箭矢,而是將人造衛(wèi)星送上太空的載具。
隨著Token的正名,AI產(chǎn)業(yè)發(fā)展也必將像搭乘火箭一樣,一飛沖天。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.