網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

「動嘴辦公」火起來了！TRAE SOLO讓打工人張嘴就能干活

2026-04-27 18:33:34　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困犀牛

【新智元導(dǎo)讀】Voice Working來了！TRAE SOLO把「說話」變成主力干活方式，口語自動清洗、說錯自動糾正、一句話調(diào)Skill切模式。

動動嘴就能指揮你的電腦干活了！

朋友們，現(xiàn)在要寫個代碼、處理幾個文件連字都不用打啦。

你端著咖啡，靠在陽臺椅子上，對著胸前一個硬幣大小的麥克風(fēng)說——

幫我整一個用戶登錄模塊唄，手機(jī)號驗證碼、密碼登錄、微信登錄都得有。安全這塊注意下，輸錯3次就鎖10分鐘，密碼記得加密存。接口返回的格式統(tǒng)一一下，順便把日志和異常捕獲也加上。

然后你喝了口咖啡，屏幕上就已經(jīng)跑出了完整的代碼框架，接口文檔自動生成，測試用例一條沒落。

這就是最近流行的Voice Working。

從此以后，嘴巴就是你的鍵盤。

這次的語音輸入

跟你想的不一樣

最近，TRAE SOLO為了抓Voice Working這波趨勢，居然和Insta360的麥克風(fēng)Mic Air聯(lián)名推出了一款套裝。

我們拿到了這套組合，完整體驗了一把。

相比起來，大多數(shù)語音轉(zhuǎn)文字工具，本質(zhì)上干的是「聽寫」的活兒。你說什么，它就原封不動地記什么。最后你看著一屏幕的語氣詞和斷句混亂的文字，還得花時間自己整理，等于白忙活。

但TRAE SOLO完全不一樣。

你說一堆口水話，智能結(jié)構(gòu)化轉(zhuǎn)錄會幫你整理成結(jié)構(gòu)清晰的可執(zhí)行指令。

你說錯了改口，語義理解與自動修正能識別你的自我糾正，只保留最終結(jié)論。

你說「調(diào)那個Skill」，功能語音直調(diào)就能幫你一句話切過去。

具體怎么個事，咱們來看一波實測。

說一大段，它全接住，連Skill都調(diào)好了

比如你在工位上坐累了，想站起來走一走，同時把代碼搞定。

只需要在領(lǐng)口磁吸上一枚硬幣大小的Mic Air。它只有7.9克，戴上之后幾乎感覺不到它的存在。

來回踱步時，腦子里轉(zhuǎn)著一段代碼，邊想邊說：

嗯你看一下這段Python代碼啊，就是那個do_stuff函數(shù)，太亂了真的，啥都塞一塊了，幫我重構(gòu)一下吧。我大概說一下要求哈，先把這個大函數(shù)拆開，嗯，拆成三個吧，一個專門負(fù)責(zé)請求數(shù)據(jù)的、一個處理數(shù)據(jù)做分級的、還有一個寫數(shù)據(jù)庫加記日志的。不對，日志單獨拆出來，拆成四個。就是職責(zé)分清楚點，別全堆一起。然后那個錯誤處理太亂了，到處都是try except和print，統(tǒng)一一下，改成自定義異常往外拋，哦對了，改成async await異步的，requests換成aiohttp那種。還有啊，注釋加上，type hints加上，變量名別叫r、d、f這種鬼看得懂的名字，規(guī)范一點。那個score > 60寫了兩遍，SQL拼接也有注入風(fēng)險，這些冗余的和有問題的邏輯都清理掉，參數(shù)化查詢搞一下。對了單元測試也補上，pytest就行，差不多就這些。用Plan模式幫我規(guī)劃一下。

這么長的口噴輸出，連續(xù)說了好幾分鐘，中間沒有一次斷連。

值得一提的是，Mic Air傳輸幾乎零延遲。

TRAE SOLO 一下子就能抓住重點，立即總結(jié)出結(jié)構(gòu)化可以執(zhí)行的指令。

所有英文的專業(yè)名詞全部抓準(zhǔn)。

接著，TRAE SOLO就會使用指令中提到的Plan模式，開始瘋狂輸出。

十分鐘后再一看電腦，代碼已經(jīng)跑完了，就等你驗收。

這里有個細(xì)節(jié)，我們說完「拆成三個」之后，又改成「不對，拆成四個」。

如果是傳統(tǒng)的語音轉(zhuǎn)文字工具，就會把前后兩個版本都保留下來，AI不知道該聽哪句。

而TRAE SOLO則能識別這種自我修正，自動保留最終結(jié)論，刪掉被推翻的信息。說錯了沒關(guān)系，AI只留結(jié)論。

多端協(xié)同，任務(wù)不中斷。你的踱步思考時間，變成了生產(chǎn)力。

除了改代碼，TRAE SOLO還能幫你處理日常工作中的所有類型文件。

比如「幫我寫個腳本調(diào)用FFmpeg，把這些視頻批量轉(zhuǎn)成H.265的1080p，音頻提取出來存成MP3。對了，視頻左下角把文件名印上去當(dāng)水印，省得我弄混。調(diào)用那個批量處理的Skill。」

TRAE SOLO生成腳本、自動執(zhí)行。

很快，不僅MP3和腳本完美完成，處理后的視頻水印也都能按照要求加上去。

同樣的場景，還可以用來批量重命名文件、批量壓縮圖片、批量加水印。以前需要找各種小工具拼湊的流程，現(xiàn)在一句話搞定。

值得一提的是「調(diào)用那個批量處理的Skill」這句，和前面重構(gòu)代碼時說的「用Plan模式」一樣，這是TRAE SOLO的功能語音直調(diào)能力。

切模式、調(diào)Skill、換模型，不用找菜單，語音指令模糊匹配，開口就行。

東一句西一句，它全聽懂，還理成清單

寫代碼、處理文件，這些都是手頭上的活兒。但工作中還有一類更日常的場景：老板突然甩過來的需求。

有個場景大家肯定不陌生。老板開會的時候腦子一轉(zhuǎn)，冒出個想法，散會立馬要結(jié)果。

現(xiàn)在，我們推門出來就可以趁熱把老板的話復(fù)述一遍：

趕緊看一下用戶反饋，大家都在抱怨啥，什么問題比較集中，最好能看出個比例來。反饋特別多的那種要單獨拎出來……

TRAE SOLO拿到這段話之后，首先做的是口語清洗。語氣詞、重復(fù)、沒說完的半句話，全部自動過濾。你拿到的是一段干凈的、可以立刻交給AI執(zhí)行的文本。

接下來，就是語義理解能力發(fā)威了。它不只是去掉噪音，而是真正聽懂了你在說什么。

你說「反饋特別多的那種要單獨拎出來」，它理解為高頻問題提取。你說「有些人就是提個建議，有些是真用著不爽了」，它歸納為情感分類維度，建議類和負(fù)面體驗類分開處理。

這些都是大白話到專業(yè)任務(wù)的語義躍遷，不是簡單的語音轉(zhuǎn)文字能做到的。

最終整理好的任務(wù)清單，可以說是既清晰又簡潔：

分析用戶反饋內(nèi)容，按問題類型聚類并計算比例，提取高頻問題單獨標(biāo)注，區(qū)分用戶態(tài)度，生成含柱狀圖和餅圖的Markdown報告，數(shù)據(jù)來源為用戶上傳的附件。

算下來，從開完會到出結(jié)果，大概三五分鐘就搞定了。

輸出的分析報告，從內(nèi)容到圖表，都相當(dāng)豐富、細(xì)致，基本上是可以拿來就用的水平。

并且，所有結(jié)果都被自動存到了本地文件夾里，隨時可以取用。

現(xiàn)在，不用再抓耳撓腮地去回憶了，想到就開口說：

我要梳理一下AI Coding賽道，正好Cursor最近新聞挺多的。你幫我把核心功能、用戶體驗、商業(yè)模式這幾塊拆一下，補補競品，然后做個對比表格，維度的話就功能差異、用戶畫像、怎么收費的……最后幫我總結(jié)一下壁壘在哪，還有潛在風(fēng)險，模型依賴啊留存啊這些。

同樣，口語清洗自動完成，「維度的話就」「模型依賴啊留存啊這些」這些口語碎片被過濾掉了。

另外，Cursor、AI Coding這些隨口就蹦出來的英文，TRAE SOLO也一個沒漏，中英夾雜說到底也能跟得上。

語義理解層面，它把一段意識流拆成了三個清晰的任務(wù)模塊：

Cursor核心功能/體驗/商業(yè)模式拆解、3-5個競品對比表格（含功能差異、用戶畫像、收費模式、近兩版本更新）、壁壘總結(jié)與風(fēng)險建議。

剛說完，研究框架直接出來了。

就連前幾天600億美元被馬斯克買斷期權(quán)這事，都給你分析得明明白白的。

我們最后只需要再過一遍結(jié)果、調(diào)調(diào)細(xì)節(jié)，就可以交差了。

周圍再吵，它只聽你說，噪音一鍵消了

到這兒你可能會說，安安靜靜對著電腦說話，當(dāng)然好使。那要是周圍亂成一鍋粥呢？

比如坐在網(wǎng)約車上，突然接到一個緊急需求。司機(jī)在放音樂，導(dǎo)航在播報，外面還有喇叭聲。

這要是用筆記本內(nèi)置麥克風(fēng)，聲音基本就全混一起了。

但現(xiàn)在，夾上Mic Air直接開口就行。

它具備48kHz采樣率和全向拾音的能力，輕聲說句指令都能精準(zhǔn)捕捉。外加一鍵AI降噪，背景噪音幾乎都能被壓掉，只留人聲。

有了這段清晰的語音，TRAE SOLO很快就處理成了干凈的Prompt：

幫我寫份PRD，明天上午跟研發(fā)需求評審用。這個功能的核心流程是：用戶注冊登錄后創(chuàng)建項目，邀請同事協(xié)作，完成后導(dǎo)出報告。界面包含首頁、項目列表、編輯頁及設(shè)置頁。需考慮網(wǎng)絡(luò)超時、權(quán)限不足等異常情況，并設(shè)計埋點（分為用戶行為類和頁面維度曝光類）。

到家之后時候，一份結(jié)構(gòu)完整的PRD已經(jīng)在屏幕上等著你了。在Word里下載下來，稍微潤色就能發(fā)給研發(fā)評審。

不得不說，TRAE這次確實是把語音辦公當(dāng)一條完整鏈路來打磨，從聲音采集到智能轉(zhuǎn)錄，每一環(huán)都不掉鏈子。

而且這條路還在往前走。

TRAE SOLO預(yù)計4月底上線實時問答互動，你可以像跟同事聊天一樣，和AI語音討論問題，實時對話、實時轉(zhuǎn)錄。

Voice Working

正在發(fā)生的工作方式革命

今年以來，語音AI賽道突然變得異常擁擠。

IBM和Deepgram官宣合作，把語音能力嵌入企業(yè)級AI平臺。

OpenAI的gpt-realtime持續(xù)迭代，實時語音對話已經(jīng)做到了近乎人類水平的流暢度。

Google發(fā)布了Gemini 3.1 Flash Live，一個端到端的原生音頻模型，能感知語氣、語速、情緒，還支持90多種語言。

這些動作背后指向同一個趨勢：語音正在從「輔助輸入」升級為「主力交互」。

過去我們對語音交互的印象，大概還停留在對著手機(jī)喊「Hey Siri幫我定個鬧鐘」的階段。

但現(xiàn)在的Voice Working，遠(yuǎn)不是這么簡單的事。

它背后的核心邏輯是，人類最自然的表達(dá)方式就是說話，打字其實是一種「被迫的翻譯」。

腦子里想的是一段連貫的思路，但你得把它拆成一個個字符，用手指一個個敲出來。

這中間的信息損耗和效率損失，遠(yuǎn)比我們以為的要大。

當(dāng)語音識別的準(zhǔn)確率足夠高、語義理解足夠深、響應(yīng)速度足夠快的時候，「說著干活」就不再是一個噱頭。

而TRAE，是在AI Coding領(lǐng)域率先把這件事做到產(chǎn)品級的玩家。

下一個生產(chǎn)力入口是嘴

隨著TRAE SOLO的智能體已經(jīng)能夠自主拆解任務(wù)、調(diào)用工具、完成執(zhí)行，人類的角色就從「操作者」變成了「決策者」。

決策者最自然的表達(dá)方式是什么？

是說話。

截至目前，TRAE的全球注冊用戶超過600萬，月活突破160萬，覆蓋近200個國家和地區(qū)。

這一次語音輸入功能的上線，加上和Insta360的聯(lián)名硬件合作，等于把Voice Working從概念變成了一套完整的解決方案。軟件端有智能轉(zhuǎn)錄、語義理解和功能直調(diào)，硬件端有專業(yè)級的無線收音保障。

今天，TRAE SOLO語音輸入功能正式上線。

試試看，張嘴就能干活的感覺，用過就回不去了。

參考資料：

https://www.trae.cn/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.