網易首頁 > 網易號 > 正文申請入駐

今天，用了豆包新品，我想扔掉鍵盤了！

2026-05-15 21:22:14　來源: 智東西

北京舉報

分享至

AI應用風向標（公眾號：ZhidxcomAI）
作者｜江宇
編輯｜漠影

智東西5月15日報道，昨日，豆包輸入法macOS版正式上線，用戶終于可以在電腦上直接“張嘴打字”了。

和傳統輸入法里的“語音轉文字”功能不同，這次豆包輸入法主打的，是一整套AI語音輸入能力。

其背后采用的是豆包App同款語音模型，重點強調“邊說邊出字”“中英文混說”“智能糾錯”和“長文本輸入”等能力。

目前，豆包輸入法支持在任意對話框中實時語音轉文字，且沒有時長限制，適合長文案、小說、會議記錄等持續輸入場景。

同時，它還支持中英文混說、多種方言識別，無需手動切換輸入法，可自動識別語言。

在AI能力部分，豆包輸入法加入了“智能糾錯”和“個性化記憶”功能，其能夠自動修正部分語氣詞、語病和口誤，并逐漸記住用戶的改詞習慣，讓語音輸入越用越準。

此外，豆包輸入法還支持輕聲識別和抗噪能力，在辦公室、咖啡店、圖書館等環境中，也能進行低音量輸入。交互模式上，則提供“長按”和“免按”兩種方案。

某種程度上，AI語音輸入正在成為新的輸入趨勢。過去，語音輸入更多還是手機上的“臨時替代方案”，但隨著Vibe Coding等場景越來越普及，很多用戶開始長時間“和電腦說話”。

目前，市面上已經出現了微信輸入法、智譜AI輸入法（小凹）以及Typeless等AI語音輸入產品，其中不少已經開始收費。相比之下，豆包輸入法目前免費推出，這或許也會成為它吸引用戶的一大優勢。

那么問題來了：豆包輸入法，真的好用嗎？

這次，我們從延時、中文準確率、中英文混說、方言識別、智能糾錯以及個性化記憶幾個維度，對它進行了實測。

一、普通話幾乎邊說邊出，粵語還在等AI“補作業”

語音輸入最核心的問題，其實只有一個：跟不跟得上人說話。

在普通話場景下，豆包輸入法整體表現還是比較流暢的。無論是短句、長句，還是中英文混說，基本都能做到“邊說邊出字”。

主觀感受下來，它的首字延遲大概會略高于1秒，完整句子的生成延遲通常會控制在1秒以內。而且在連續長文本輸入過程中，它的整體卡頓感并不明顯。

但到了方言場景，尤其是粵語等復雜方言，體驗就會大不相同。它不像普通話那樣一句話剛說完立刻就能識別，反而是“先聽一遍，再靠AI后處理”。

很多時候，前半句幾乎沒識別出來，后面才開始通過上下文一點點修正。部分長句甚至會出現超過5秒以上的完整句延遲。

原句（粵語）：嘩，出面做乜突然間落咁大雨嘅？係啰，明明頭先仲好地地。死火，我趕住出去呀。不過依家大風大雨，好易濕身?。唔使驚！我帶咗遮同埋雨褸添。都係你夠醒目！對應普通話：“哇，外面怎么突然下這么大雨？就是啊，明明剛才還好好的。糟糕了，我趕著要出去呀。蕭漢過現在風大雨大，很容易濕身的。不用怕!我帶了傘還有雨衣呢。還是你夠聰明!”

比如在我們的測試中，第一句“哇，出面做乜突然間落咁大雨？”其實被完整識別了出來，準確度是沒有問題的。

但到了后半段，識別結果就開始出現較大偏差，大部分內容都沒有正確識別出來。

東北話的表現則明顯更穩定一些。在我們的測試里，除了“旮沓”等個別詞匯出現問題之外，其余內容大體都能正常識別。

原句（東北話）：哎呀媽呀，咱東北這旮沓老好了，那雪下的老大了，跟棉花套子似的。凍梨啃一口，甜滋滋的，拔涼拔涼的。鐵鍋燉大鵝，那香味老霸道了。

閩南語則基本屬于“困難模式”。目前識別效果仍較差，很多句子幾乎無法正確轉寫。

當然，這本身也是整個行業里最難的問題之一。不同方言之間，口音、連讀和詞匯差異本來就很大。如果你本身會說方言，或許也可以自己試試看，它到底能聽懂多少。

二、甄嬛傳名場面沒翻車，但外國人名還是有點難

中文準確率，是這類產品另一個核心能力。

這次，我們專門選了兩個“難題”。

第一個，是《甄嬛傳》“滴血認親”名場面。因為文言式表達、人物稱謂、停頓節奏和長句結構，本身都比較復雜，對語音識別其實很不友好。

原話：臣妾要告發熹貴妃私通，混亂后宮，罪不容誅。宮規森嚴，祺貴人不得信口雌黃。臣妾若有半句虛言，便叫五雷轟頂，永不超生。我還以為是什么毒誓呢，生死之事誰又能知啊？可見祺貴人不是真心的了。臣妾以瓜爾佳氏一族起哲，若有半句虛言全族無后而終。

但實際測試下來，豆包輸入法的表現比預期更穩定。它在長文本輸出過程中，能夠持續進行動態修正。包括人稱、斷句、標點，甚至部分誤讀內容，都會在后續識別過程中不斷調整。

最終結果里，文言表達、標點符號和整體句意沒有錯誤。這種“邊識別邊回改”的機制，近乎可以看成AI寫作過程中的實時潤色。

第二個測試，則是科技新聞場景。我們讀了一段關于“馬斯克訴奧爾特曼案第三周庭審”的內容，重點測試它對外國人名的識別能力。

這一部分難度更高。因為很多英文人名本身就存在多種中文譯法，而且中文互聯網里也沒有統一標準。

原話：馬斯克訴奧爾特曼案進入第三周，被告方關鍵證人相繼出庭，微軟CEO薩提亞·納德拉、OpenAI聯合創始人兼前首席科學家伊利亞·蘇茨克維，以及OpenAI基金會董事會主席布雷特·泰勒作證。此前在第二周庭審中，馬斯克方主導舉證，OpenAI前CTO米拉·穆拉蒂、前董事海倫·托納、塔莎·麥考利、前員工羅茜·坎貝爾，以及非營利治理專家戴維·希澤等證人的證詞和庭審材料陸續浮出。

實際結果里，部分名字能夠正確識別，但也出現了譯名不統一的問題。比如“戴維·希澤（David Schizer）”并沒有被識別成常見譯名，部分外國人名中間的分隔點“·”也出現缺失。

日常聊天問題不大，但如果是新聞寫作、法律文件或正式場景，后續還是需要人工再核對一遍。

三、中英文混說準確率很高，“外企黑話”也能聽懂

如果說方言是困難模式，那中英文混說，則是豆包輸入法目前完成度較高的一部分。

無論是人名、英文縮寫，還是各種辦公場景的常用語，它都能較穩定地識別出來。而且，它對于中英文切換時的斷句和標點處理，也比傳統輸入法自然很多。

原句：Jennifer，晚上跟Global的會議改到明天早晨7點，你記得reschedule一下。還有換個大點的meeting room，因為FinanceEric and HR的Susie也要參加，還有提前把要講的topic再go through一遍。辛苦跟Laura說下，會上幫忙記下meeting minutes。so far我就想起這么多，如果有新的update我再跟你sync。

很多時候，用戶輸出并不需要刻意放慢語速。整體主觀感受下來，中英文混說場景的準確率，大概率已經可以穩定達到95%以上。

對于外企辦公的人來說，這部分功能其實是比較實用的。

四、能清理語氣詞，但暫時還不會“主動潤色”

相比識別能力，“智能糾錯”其實是這次最讓人期待的功能之一。它涉及一個問題：AI到底應該“忠實記錄”，還是主動讓AI幫你改。

從實際測試來看，豆包輸入法目前整體偏向前者。比如一些簡單語氣詞，像“嗯”和“呃”之類，它確實可以自動清理。

但更復雜的口語化重復、邏輯跳躍或者臨時改句，它目前還不會主動幫你重寫。

例如們在測試時說：“我想11點……不對，是11點半，請李銘喝咖啡。”

最終輸出里，“11點”并不會被自動刪掉，而是完整保留了用戶原本的修改過程。

包括一些講話過程中不斷反復修改句子的情況，它也不會主動整理成更通順的書面語言，盡量保留原話。

目前，市面上一些AI語音輸入產品，如Typeless和智譜AI輸入法（小凹），已經開始覆蓋“自動潤色”“自動改寫”等功能。它們會主動刪除廢話、重組句子，直接幫用戶優化表達。

相比之下，豆包輸入法當前的策略會更保守一些，強調對原始表達的保留。

五、改錯一次之后，它就會記住你的寫法

個性化改詞，是這次體驗里最實用的功能之一。

比如在人名場景里，語音識別經常會遇到同音字問題。

第一次輸入時，系統可能會給出錯誤寫法。這時候，用戶只需要手動修改一次。等到第二次再語音輸入同樣的人名時，豆包就會優先采用用戶之前修改后的版本。

長期使用后，這種“記憶”也是是明顯感知到的。除了人名之外，一些公司名、產品名或者固定術語，也存在類似情況。這類高頻專有名詞，其實是很多人日常語音輸入里最容易反復修改的部分。

結語：不需要鍵盤了？或許我們更需要一個麥克風

相比鍵盤輸入，語音輸入最大的優勢，其實一直都是“更快”。

而在AI能力加入之后，語音輸入也不再只是簡單“轉文字”了。實時修正、自動斷句、上下文記憶，以及更高的識別準確率，都開始讓它變得更實用。

與此同時，語音輸入的使用場景也在擴大。

過去，很多人只會在開車、走路時偶爾使用語音輸入。但現在，隨著輕聲識別、抗噪等能力出現，辦公室、咖啡店、圖書館等環境，也開始能夠正常使用。

某種程度上，AI語音輸入法正在重新改變人與電腦的輸入方式。或許未來很多人想打字，第一反應不是找鍵盤，而是先找麥克風。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.