![]()
新智元報道
編輯:元宇
【新智元導讀】4月28日,Google Translate滿20歲。Pichai親自發帖紀念,說Translate這20年,是從「認字」走到「讀懂」的過程。從統計模型,到神經網絡,再到能保留語調和呼吸節奏的Gemini原生語音模型,Translate的20年,背后是一條完整的AI進化鏈。
4月28日,Google Translate滿20歲。Pichai親自在X上發帖紀念:
谷歌翻譯已從二十年前的一個小型實驗,發展成為一款全球工具,每月10億人在用它,超過三分之一的實時翻譯會話持續超過5分鐘。
![]()
這個數字,讓兩個不會同一種語言的人可以在AI幫助下完成一次「自然對話」。
Pichai帖子中回顧了Translate的20年技術線:
2006年,Translate靠統計機器學習,在小型詞組里找規律;2016年,Google切換到神經網絡,翻譯第一次跳出「逐字對譯」;今天,Gemini模型接管,Translate從文本工具升級成實時對話工具,這讓翻譯變得更加智能和實用。
如今,借助Gemini模型,戴上耳機,你就可以擁有一個能保留原始語調和節奏的私人翻譯。
在Pichai看來,這是一種神奇的體驗,但他也提到了關于AI的一個有趣現象,當我們取得進展,我們就開始把它當作理所當然。
如果你遇到一個能用100種語言翻譯、速度還比任何人都快的人,你會覺得不可思議。今天,有一個產品能在近250種語言之間做到這一點,而我們卻幾乎只是聳聳肩。
網友Chetan Kumar回應道:「完全同意。當我們不了解創造這些卓越解決方案背后的技術、努力和艱辛時,就很容易把一切視為理所當然。」
![]()
另一位網友稱Google Translate曾經是自己最愛的翻譯應用,但大模型流行之后,自己幾乎不再使用它了,很高興看到它能隨著技術的進步有所改進。
![]()
從Pichai的帖子和網友回復中,可以感覺到:Google Translate的20年,可能是被低估的20年:它被ChatGPT、被各種大模型搶走了風頭,被遺忘在很多人的手機角落。
但它并沒停止進化,最近的一次,它又把每一代Google最強的AI模型,悄悄塞進自己的翻譯引擎里,讓翻譯第一次開始有了「語調」「節奏」和「呼吸感」。
![]()
Google官方發文紀念Translate 20周年
從「數詞頻」開始
2006年4月,Google Translate上線。
那個時候的翻譯,本質是統計學。技術術語叫SMT,Statistical Machine Translation,統計機器翻譯。
![]()
2006年4月,Google官方研究博客正式宣布他們的統計機器翻譯(SMT)系統上線
![]()
當時,Google向計算機輸入數十億字的文本,應用統計學習技術來構建翻譯模型。
也就是說:模型不懂語言,只會算概率。
這種翻譯什么風格?生硬、逐詞、機械,經常前言不搭后語。比如,中文菜單上的「雞腿」會被翻成「chicken thigh」,「老婆餅」會被翻成「wife cake」。
但這在2006年,它已經是當時最好的方案。
當時Google篤定一件事:翻譯質量,本質上是數據規模問題。
誰手里的雙語語料多,誰的統計模型就準,而Google當時正好坐擁全網最大的多語言文本庫。
這是Translate,也是后來大部分AI翻譯系統的共同起點。
神經網絡砍掉一大半錯誤率
2016年9月27日,Google Research發了一篇博客,宣布GNMT上線,即Google Neural Machine Translation,谷歌神經機器翻譯系統。
![]()
https://research.google/blog/a-neural-network-for-machine-translation-at-production-scale/
這是一次徹底的換血。
老系統的邏輯是:把一句話拆成短語,各自翻譯,再拼回去;
而GNMT的邏輯是:把一整句話當成一個單位,送進神經網絡,讓網絡自己學會把它「映射」成另一種語言。
按雙語人工評估,GNMT在多個主要語種對上將翻譯錯誤率降低了55%–85%。
普通用戶的體感是,從「翻出來勉強能猜個大概」一夜之間變成「翻出來基本能直接用」。
Google當時給了一組對照數據:在中英、英法等幾個主要語種對上,GNMT把翻譯錯誤率壓低了55%到85%。
中英翻譯,Translate在2016年直接100%使用GNMT,每天處理大約1800萬次翻譯請求。
GNMT背后是兩件事:一是Sequence-to-Sequence模型架構;二是當時剛剛部署的TPU張量處理器。
前者讓神經網絡第一次能處理變長輸入和變長輸出,后者把這種昂貴的計算壓到了產品級響應速度。
這兩件事都不是為翻譯單獨發明的,但Translate是它們第一個真正的產品級試驗場。
后來回頭看,GNMT是整個深度學習浪潮里,最早被推到10億用戶面前的產品之一。
GNMT還順便帶來一個意外能力:零樣本翻譯,沒有直接訓練過的語言對(比如日語→韓語),它也能翻出可讀的結果。
那是大模型時代到來之前,NLP在工業界最重要的一次落地,比ChatGPT早了6年。
大模型時代
一次新增110種語言
2022年到2024年,大模型登場,這次跳躍不是靠新架構,而是靠零樣本學習能力。
2022年,Google用Zero-Shot Machine Translation給Translate加了24種新語言。
所謂Zero-Shot,就是模型從沒見過這種語言的雙語對照,但能憑別的語言知識硬翻。
這在SMT時代是不可想象的。
到了2024年6月,Google直接用PaLM 2大語言模型,一次性給Translate加了110種語言,覆蓋額外6.14億人口。
這是Translate史上最大規模的一次語言擴展。
PaLM 2在這件事上扮演的角色,是「語言之間的遷移引擎」,使模型能夠高效學習相互接近的語言族。
比如學會了印地語,Awadhi和Marwadi就能跟著上;學會了法語克里奧爾,塞舌爾克里奧爾和毛里求斯克里奧爾就能跟著上。
這次擴張靠的是PaLM 2,不是Gemini。Gemini真正更深度地整合Translate,要等到2025年12月之后。
Gemini原生語音模型
翻譯開始有了「呼吸感」
2025年12月12日,Translate的最新一次換血落地。
Google官方博客直接挑明:把Gemini的最強翻譯能力,引入Translate。
![]()
https://blog.google/products-and-platforms/products/search/gemini-capabilities-translation-upgrades/
具體落地兩件事。
第一件,文本翻譯升級。
Gemini接管后,Translate終于能搞定俚語、習語和地方表達。
舉個例子:英文俚語stealing my thunder,字面是「偷我的雷」,實際意思是「搶我風頭」。老Translate會硬翻成字面意思。
Gemini接管的Translate,直接給出「搶走了我的所有關注」這種符合語境的翻譯。
這件事的本質是:Gemini不是在翻字,是在解析上下文。
第二件,也是更重要的一件:耳機實時翻譯Beta上線。
這是Translate第一次,把翻譯能力從「文本」推到「實時語音」層。
技術底座是一個新模型:Gemini 2.5 Flash Native Audio,這是谷歌的音頻原生模型。
這里的關鍵詞是原生音頻。
老的語音翻譯走的是三段鏈條:語音輸入,轉文本,翻譯文本,合成語音,每一段都有損耗。
語調沒了,情緒沒了,只剩一個機器人朗讀出來的翻譯稿。
Gemini 2.5 Flash Native Audio走的是另一條路:Google將其描述為原生speech-to-speech翻譯,而不是傳統的「語音識別—文本翻譯—語音合成」三段式體驗。
在這種模式下,模型保留說話人的intonation, pacing and pitch,即語調、節奏、音高,讓翻譯開始有了「呼吸感」。
20年
換了4代AI
把這幾次跳躍放一起看,會發現一個很有意思的規律:
每一代Google最關鍵的AI路線,最后幾乎都會在Translate里找到產品化落點。
2006年SMT時代,Translate是Google統計學習的早期落地場。
2016年深度學習時代,Translate是Sequence-to-Sequence和TPU走向全球產品的標志性場景。
2024年大模型時代,Translate用PaLM 2完成史上最大規模語言擴展。
2025年多模態時代,Gemini 2.5 Flash Native Audio把Translate推向原生語音實時翻譯。
20年,4代AI接力,這才是Translate真正的護城河,背后是一條從來沒斷過的算法接力鏈。
而一旦能力進入Translate,就有機會沿著Google的全球產品入口,被推向10億級用戶。
Google公布過一組數據:每月通過Translate、Search、Lens、Circle to Search這4個入口,合計翻譯的文字量,大約在1萬億詞。
![]()
OpenAI、DeepL都在語音交互和專業翻譯上給Google帶來壓力。但短期內,它們很難復制Google這種10億月活和多入口嵌入式分發。
相比Apple方案需要特定AirPods與較新iPhone,Google的耳機實時翻譯在支持地區可使用任意耳機。
這也是非常典型的Google打法:把能力軟件化、平臺化,然后跳過硬件的護城河。
Google稱,這個月最常被翻譯的短語是Thank you;過去20年里,很多月份也都是它。
Translate貫穿了Google多代AI技術路線:統計機器翻譯、神經機器翻譯、大語言模型擴語種、原生音頻實時翻譯。
但人最常說的那句話,幾乎從來沒變過,這件事可能比任何技術參數更值得注意。
參考資料:
https://x.com/sundarpichai/status/2049156908582617440
https://blog.google/products-and-platforms/products/translate/fun-facts-google-translate-20-years/2026
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.