2026年3月23日,全國科學(xué)技術(shù)名詞審定委員會發(fā)布公告推薦“詞元”試用,AI領(lǐng)域核心術(shù)語Token定下正式中文譯名“詞元”。
好的翻譯,的確利于技術(shù)的科普、傳播。laser剛進(jìn)入中國時(shí),大陸最初音譯為“來塞”,臺灣地區(qū)則叫作“鐳射”,此外還有其他譯法,混亂的譯法給科研交流、科普帶來了極大困擾。錢學(xué)森反復(fù)斟酌,將laser統(tǒng)一譯為“激光”。這一譯法簡潔精準(zhǔn),既體現(xiàn)了激光是電子受激發(fā)后產(chǎn)生的這一技術(shù)特征,也方便了公眾認(rèn)識。這個(gè)翻譯比臺灣“鐳射”的譯法更好,雖然鐳射有音譯的成分,但因鐳字與放射性元素“鐳”相關(guān),在當(dāng)時(shí)還引發(fā)了恐慌。
但問題是,laser是一個(gè)相對單一的概念,而Token的含義則很多。
Token是AI大模型處理的數(shù)據(jù)最小單元。早在大語言模型之前,AI有一個(gè)領(lǐng)域叫作“自然語言處理”,簡稱NLP。在NLP中,Token表達(dá)的就是詞、語素、詞位等各種語言符號的最小單元,翻譯成“詞元”是很合適的。
![]()
后來,transformer模型從nlp領(lǐng)域,向圖像領(lǐng)域等更多模態(tài)延展。比如,將圖像分割為16×16的小塊(patches),每個(gè)patch就是一個(gè)“Token”。從nlp領(lǐng)域延伸過來,自然也就沿用了nlp領(lǐng)域的術(shù)語。不過,一般視覺模型的論文中會寫成image token,別的模態(tài)也會加上相應(yīng)的前綴。
隨著多模態(tài)大模型的發(fā)展,Token不再局限于語言,而是變成了AI能處理一切離散符號的最小單元,圖像、視頻、聲音等都可以拆解成Token,再用token作為單位來計(jì)算算力耗費(fèi)。
所以,“詞元”從字面上理解,概念比token變窄了。有程序員吐槽:“token在AI里不只是處理文字,現(xiàn)在圖像、視頻、語音都會被‘token化’處理,token既可以是一個(gè)漢字、一個(gè)詞根,也可以是一張圖片的像素塊、一段語音的片段。‘詞元’里的‘詞’字,直接把非文字模態(tài)排除在外,太片面了!”難道未來還要有“圖元” “視頻元” “音元” 嗎?
![]()
這就會導(dǎo)致一個(gè)問題。
維特根斯坦認(rèn)為,語言通過邏輯結(jié)構(gòu)與世界形成映射關(guān)系。在我看來,這種映射關(guān)系是多元的、整體的。翻譯必然丟掉其中一些映射關(guān)系。舉一個(gè)漢語的例子,花這個(gè)字的意思,最基本的含義是植物的器官。這個(gè)本意衍生出煙花、校花這類意義。花從名詞又衍生出形容詞的含義,形容顏色、式樣復(fù)雜。這個(gè)意思,又再次遞進(jìn),用來形容磨損或破損——因?yàn)槟p后的形態(tài)、形狀、圖案是復(fù)雜的,比如,玻璃花了,鞋子磨花了。因?yàn)槟p的意思,花字又產(chǎn)生了一個(gè)動詞意義:花費(fèi)、花銷、浪費(fèi)。
![]()
動詞意義的花費(fèi)、花銷;加上形容詞的樣式復(fù)雜;再加上花本身的名詞意義,綜合在一起,就是“花天酒地”這個(gè)成語中“花”的意思,表達(dá)一種鋪張浪費(fèi)、花樣繁多、女性混合在一起的綜合性、整體性意境。
這種整體性的含義,母語是中文的人,不難理解。但對學(xué)中文的外國人而言,他們想要理解“花朵”和“花錢”,為什么都是花字,是很難的——這就像中國人學(xué)英語那樣。至于外國人要領(lǐng)會“花天酒地”這個(gè)成語中的“花”字的整體性含義,就得要很多年,浸淫中文語境,才能領(lǐng)悟。
同樣的,如果把一張貓咪圖片拆解成token,說成拆解成詞元。這不僅僅是不符合日常認(rèn)知,也不僅僅是會給科普帶來困擾,更關(guān)鍵的是,缺失了整體性,會影響認(rèn)知框架,會對技術(shù)思維方式,形成潛移默化的影響。今后無數(shù)的技術(shù)人員,在使用token這個(gè)詞的時(shí)候,他們的思維會潛移默化地、更多地將token視為一個(gè)詞。所以,當(dāng)詞元的含義更狹窄的時(shí)候,使用詞元的人,對技術(shù)的思考也會相應(yīng)變窄。
一個(gè)“言說”影響思維的例子是,轉(zhuǎn)基因如果叫作生物育種,預(yù)制菜叫作塑料罐頭,那么,引發(fā)輿論的可能,引發(fā)輿論的強(qiáng)度就會小得多。因?yàn)橛N和罐頭,都是“傳統(tǒng)”之物。這就是“名詞中自帶的觀點(diǎn)”。
![]()
自動控制領(lǐng)域的術(shù)語robust,在學(xué)術(shù)圈被統(tǒng)一翻譯為“魯棒”性。“魯棒”在中文里沒有任何語義聯(lián)想,在公眾傳播層面,遭到一定的吐槽。有人調(diào)侃:“第一次看到‘魯棒性’,我還以為是山東出產(chǎn)的棒球棍。”但這是一個(gè)專業(yè)名詞,首先應(yīng)該考慮的不是公眾傳播,公眾自然會慢慢明白其意思。這類名字的翻譯,更需要考慮的是技術(shù)傳播。“魯”“棒”字,很好地包含了robust的整體性意思,不妨礙技術(shù)思維,所以,在我看來,這是一個(gè)很好的翻譯。
20世紀(jì)90年代,互聯(lián)網(wǎng)進(jìn)入中國時(shí),Internet曾有“因特網(wǎng)”“信息網(wǎng)絡(luò)”“互聯(lián)網(wǎng)”等多種譯法,然后權(quán)威統(tǒng)一定為“因特網(wǎng)”。不過,在后來的文字演變中,“互聯(lián)網(wǎng)”勝出。其實(shí),“因特網(wǎng)”這個(gè)翻譯,沒有考慮太多的語言在文化意義上的純潔,采用了音譯,在我看來,就是為了更好地保留其整體意義。
所以,token翻譯為詞元,是有所失的。凡事皆有得失,那么,“得”是什么呢?
有一種說法,統(tǒng)一譯名,是語言權(quán)力博弈,是在爭奪國際AI技術(shù)話語權(quán)。這種情況是存在的。典型的例子是對龍的翻譯。中國龍和西方龍,是不一樣的。中國龍是祥瑞神獸、象征皇權(quán),西方龍是邪惡怪物,往往要被騎士斬殺。英語中把龍翻譯為dragon,是找了一個(gè)英語語境中,最接近的形象。但西方傳統(tǒng)觀點(diǎn)在潛移默化中,就會產(chǎn)生對中國龍不好的印象,進(jìn)而影響對中國文化、中國的印象。所以,中國主動澄清,推廣龍的音譯long,是一個(gè)典型的消除文化誤會,爭奪國際話語權(quán)的例子。
![]()
另一個(gè)例子是漢城。漢城因位于漢江之北,得名“漢陽”。14世紀(jì)末朝鮮王朝定都漢陽后,改名為“漢城”。英語根據(jù)韓語發(fā)音,直譯為Hanseong”,然后,中文又根據(jù)拼寫和發(fā)音,譯為漢城。漢城帶有濃厚的古代政治文化色彩,使人容易聯(lián)想到韓國曾臣服于中國。“Seoul”一詞在韓語中本意為“首都”,早在19世紀(jì)末已非正式用于國際交流。到了2005年,韓國政府正式宣布“Seoul”為唯一官方英文名稱,并明確要求國際社會停止使用“Hanseong”,自然也就涉及到中文的“漢城”。怎么翻譯,當(dāng)然是一國自己的事,但尊重他國意愿,中國也采用了“首爾”這個(gè)譯法。推動這一更名,體現(xiàn)了韓國強(qiáng)化文化主體性的意圖。
問題是,前面兩個(gè)例子,都是主動干涉其他語言翻譯自身語言,但Token的英譯漢,僅僅是一個(gè)翻譯問題,不管中國人如何翻譯,英語中始終叫“token”,毫無影響。就像你在自己家里,把貓叫作狗,狗叫作貓,這也絲毫影響不了其他人怎么叫,更談不上所謂的爭奪貓狗話語權(quán)。這就像Chip一詞,不管是翻譯為“芯片”“晶片”“集成電路”還是“水晶寶石”“沙之寶”“沙寶亮”,都是中國人關(guān)起門來的事,與中國大陸半導(dǎo)體行業(yè)在全球話語體系中的主體性,沒有絲毫的關(guān)系。
![]()
實(shí)際上,英語對dragon的翻譯,就是一個(gè)典型“非要用現(xiàn)存的詞語去套外來概念,進(jìn)而產(chǎn)生誤導(dǎo)”的例子。反過來看,對token的翻譯,和西方對龍的翻譯,進(jìn)入了一模一樣的誤區(qū)。
所以,采用詞元這個(gè)字面翻譯,更多地保留了形式上文字的純潔性,但并不能爭取到所謂的話語權(quán),而在語義上的丟失,則會影響一代又一代的人,潛移默化的限制他們對AI底層原理的思維廣度、發(fā)散性,最終,是那寶貴的觸類旁通,靈光一現(xiàn)。這必然會產(chǎn)生深遠(yuǎn)的技術(shù)影響。
劉 遠(yuǎn) 舉
![]()
央視網(wǎng)、第一財(cái)經(jīng)、光明日報(bào)、騰訊大家、南方周末、新京報(bào)、南方都市報(bào)、FT中文網(wǎng)、澎湃等特約作家,多家智庫研究員。
關(guān)注時(shí)政、財(cái)經(jīng)、科技話題,以深度、專業(yè)、理性的態(tài)度,去掘現(xiàn)象背后的事實(shí)。
中國科技自媒體50人
第35屆中國新聞獎評論三等獎
第34屆中國經(jīng)濟(jì)新聞獎評論二等獎
第28屆北京新聞獎一等獎
2024年湖南新聞獎一等獎
騰訊大家年度作家獎
新浪最有價(jià)值專欄作家獎
紅辣椒評論年度佳作獎
已開快捷轉(zhuǎn)載,歡迎轉(zhuǎn)載
已開過白名單的公眾號,轉(zhuǎn)載請遵循轉(zhuǎn)載規(guī)則
您的關(guān)注是最好的支持!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.