![]()
AI應用風向標(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西5月15日報道,昨日,豆包輸入法macOS版正式上線,用戶終于可以在電腦上直接“張嘴打字”了。
![]()
和傳統輸入法里的“語音轉文字”功能不同,這次豆包輸入法主打的,是一整套AI語音輸入能力。
其背后采用的是豆包App同款語音模型,重點強調“邊說邊出字”“中英文混說”“智能糾錯”和“長文本輸入”等能力。
目前,豆包輸入法支持在任意對話框中實時語音轉文字,且沒有時長限制,適合長文案、小說、會議記錄等持續輸入場景。
同時,它還支持中英文混說、多種方言識別,無需手動切換輸入法,可自動識別語言。
在AI能力部分,豆包輸入法加入了“智能糾錯”和“個性化記憶”功能,其能夠自動修正部分語氣詞、語病和口誤,并逐漸記住用戶的改詞習慣,讓語音輸入越用越準。
此外,豆包輸入法還支持輕聲識別和抗噪能力,在辦公室、咖啡店、圖書館等環境中,也能進行低音量輸入。交互模式上,則提供“長按”和“免按”兩種方案。
![]()
某種程度上,AI語音輸入正在成為新的輸入趨勢。過去,語音輸入更多還是手機上的“臨時替代方案”,但隨著Vibe Coding等場景越來越普及,很多用戶開始長時間“和電腦說話”。
目前,市面上已經出現了微信輸入法、智譜AI輸入法(小凹)以及Typeless等AI語音輸入產品,其中不少已經開始收費。相比之下,豆包輸入法目前免費推出,這或許也會成為它吸引用戶的一大優勢。
那么問題來了:豆包輸入法,真的好用嗎?
這次,我們從延時、中文準確率、中英文混說、方言識別、智能糾錯以及個性化記憶幾個維度,對它進行了實測。
一、普通話幾乎邊說邊出,粵語還在等AI“補作業”
語音輸入最核心的問題,其實只有一個:跟不跟得上人說話。
在普通話場景下,豆包輸入法整體表現還是比較流暢的。無論是短句、長句,還是中英文混說,基本都能做到“邊說邊出字”。
主觀感受下來,它的首字延遲大概會略高于1秒,完整句子的生成延遲通常會控制在1秒以內。而且在連續長文本輸入過程中,它的整體卡頓感并不明顯。
但到了方言場景,尤其是粵語等復雜方言,體驗就會大不相同。它不像普通話那樣一句話剛說完立刻就能識別,反而是“先聽一遍,再靠AI后處理”。
很多時候,前半句幾乎沒識別出來,后面才開始通過上下文一點點修正。部分長句甚至會出現超過5秒以上的完整句延遲。
原句(粵語):嘩,出面做乜突然間落咁大雨嘅?係啰,明明頭先仲好地地。死火,我趕住出去呀。不過依家大風大雨,好易濕身?。唔使驚!我帶咗遮同埋雨褸添。都係你夠醒目! 對應普通話:“哇,外面怎么突然下這么大雨?就是啊,明明剛才還好好的。糟糕了,我趕著要出去呀。蕭漢過現在風大雨大,很容易濕身的。不用怕!我帶了傘還有雨衣呢。還是你夠聰明!”
![]()
比如在我們的測試中,第一句“哇,出面做乜突然間落咁大雨?”其實被完整識別了出來,準確度是沒有問題的。
但到了后半段,識別結果就開始出現較大偏差,大部分內容都沒有正確識別出來。
東北話的表現則明顯更穩定一些。在我們的測試里,除了“旮沓”等個別詞匯出現問題之外,其余內容大體都能正常識別。
原句(東北話):哎呀媽呀,咱東北這旮沓老好了,那雪下的老大了,跟棉花套子似的。凍梨啃一口,甜滋滋的,拔涼拔涼的。鐵鍋燉大鵝,那香味老霸道了。
![]()
閩南語則基本屬于“困難模式”。目前識別效果仍較差,很多句子幾乎無法正確轉寫。
當然,這本身也是整個行業里最難的問題之一。不同方言之間,口音、連讀和詞匯差異本來就很大。如果你本身會說方言,或許也可以自己試試看,它到底能聽懂多少。
二、甄嬛傳名場面沒翻車,但外國人名還是有點難
中文準確率,是這類產品另一個核心能力。
這次,我們專門選了兩個“難題”。
第一個,是《甄嬛傳》“滴血認親”名場面。因為文言式表達、人物稱謂、停頓節奏和長句結構,本身都比較復雜,對語音識別其實很不友好。
原話:臣妾要告發熹貴妃私通,混亂后宮,罪不容誅。宮規森嚴,祺貴人不得信口雌黃。臣妾若有半句虛言,便叫五雷轟頂,永不超生。我還以為是什么毒誓呢,生死之事誰又能知啊?可見祺貴人不是真心的了。臣妾以瓜爾佳氏一族起哲,若有半句虛言全族無后而終。
![]()
但實際測試下來,豆包輸入法的表現比預期更穩定。它在長文本輸出過程中,能夠持續進行動態修正。包括人稱、斷句、標點,甚至部分誤讀內容,都會在后續識別過程中不斷調整。
最終結果里,文言表達、標點符號和整體句意沒有錯誤。這種“邊識別邊回改”的機制,近乎可以看成AI寫作過程中的實時潤色。
第二個測試,則是科技新聞場景。我們讀了一段關于“馬斯克訴奧爾特曼案第三周庭審”的內容,重點測試它對外國人名的識別能力。
這一部分難度更高。因為很多英文人名本身就存在多種中文譯法,而且中文互聯網里也沒有統一標準。
原話:馬斯克訴奧爾特曼案進入第三周,被告方關鍵證人相繼出庭,微軟CEO薩提亞·納德拉、OpenAI聯合創始人兼前首席科學家伊利亞·蘇茨克維,以及OpenAI基金會董事會主席布雷特·泰勒作證。此前在第二周庭審中,馬斯克方主導舉證,OpenAI前CTO米拉·穆拉蒂、前董事海倫·托納、塔莎·麥考利、前員工羅茜·坎貝爾,以及非營利治理專家戴維·希澤等證人的證詞和庭審材料陸續浮出。
![]()
實際結果里,部分名字能夠正確識別,但也出現了譯名不統一的問題。比如“戴維·希澤(David Schizer)”并沒有被識別成常見譯名,部分外國人名中間的分隔點“·”也出現缺失。
日常聊天問題不大,但如果是新聞寫作、法律文件或正式場景,后續還是需要人工再核對一遍。
三、中英文混說準確率很高,“外企黑話”也能聽懂
如果說方言是困難模式,那中英文混說,則是豆包輸入法目前完成度較高的一部分。
無論是人名、英文縮寫,還是各種辦公場景的常用語,它都能較穩定地識別出來。而且,它對于中英文切換時的斷句和標點處理,也比傳統輸入法自然很多。
原句:Jennifer,晚上跟Global的會議改到明天早晨7點,你記得reschedule一下。還有換個大點的meeting room,因為FinanceEric and HR的Susie也要參加,還有提前把要講的topic再go through一遍。辛苦跟Laura說下,會上幫忙記下meeting minutes。so far我就想起這么多,如果有新的update我再跟你sync。
![]()
很多時候,用戶輸出并不需要刻意放慢語速。整體主觀感受下來,中英文混說場景的準確率,大概率已經可以穩定達到95%以上。
對于外企辦公的人來說,這部分功能其實是比較實用的。
四、能清理語氣詞,但暫時還不會“主動潤色”
相比識別能力,“智能糾錯”其實是這次最讓人期待的功能之一。它涉及一個問題:AI到底應該“忠實記錄”,還是主動讓AI幫你改。
從實際測試來看,豆包輸入法目前整體偏向前者。比如一些簡單語氣詞,像“嗯”和“呃”之類,它確實可以自動清理。
但更復雜的口語化重復、邏輯跳躍或者臨時改句,它目前還不會主動幫你重寫。
例如們在測試時說:“我想11點……不對,是11點半,請李銘喝咖啡。”
![]()
最終輸出里,“11點”并不會被自動刪掉,而是完整保留了用戶原本的修改過程。
包括一些講話過程中不斷反復修改句子的情況,它也不會主動整理成更通順的書面語言,盡量保留原話。
![]()
目前,市面上一些AI語音輸入產品,如Typeless和智譜AI輸入法(小凹),已經開始覆蓋“自動潤色”“自動改寫”等功能。它們會主動刪除廢話、重組句子,直接幫用戶優化表達。
相比之下,豆包輸入法當前的策略會更保守一些,強調對原始表達的保留。
五、改錯一次之后,它就會記住你的寫法
個性化改詞,是這次體驗里最實用的功能之一。
比如在人名場景里,語音識別經常會遇到同音字問題。
第一次輸入時,系統可能會給出錯誤寫法。這時候,用戶只需要手動修改一次。等到第二次再語音輸入同樣的人名時,豆包就會優先采用用戶之前修改后的版本。
![]()
長期使用后,這種“記憶”也是是明顯感知到的。除了人名之外,一些公司名、產品名或者固定術語,也存在類似情況。這類高頻專有名詞,其實是很多人日常語音輸入里最容易反復修改的部分。
結語:不需要鍵盤了?或許我們更需要一個麥克風
相比鍵盤輸入,語音輸入最大的優勢,其實一直都是“更快”。
而在AI能力加入之后,語音輸入也不再只是簡單“轉文字”了。實時修正、自動斷句、上下文記憶,以及更高的識別準確率,都開始讓它變得更實用。
與此同時,語音輸入的使用場景也在擴大。
過去,很多人只會在開車、走路時偶爾使用語音輸入。但現在,隨著輕聲識別、抗噪等能力出現,辦公室、咖啡店、圖書館等環境,也開始能夠正常使用。
某種程度上,AI語音輸入法正在重新改變人與電腦的輸入方式。或許未來很多人想打字,第一反應不是找鍵盤,而是先找麥克風。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.