![]()
新智元報道
編輯:好困 犀牛
【新智元導(dǎo)讀】Voice Working來了!TRAE SOLO把「說話」變成主力干活方式,口語自動清洗、說錯自動糾正、一句話調(diào)Skill切模式。
動動嘴就能指揮你的電腦干活了!
朋友們,現(xiàn)在要寫個代碼、處理幾個文件連字都不用打啦。
你端著咖啡,靠在陽臺椅子上,對著胸前一個硬幣大小的麥克風(fēng)說——
幫我整一個用戶登錄模塊唄,手機(jī)號驗證碼、密碼登錄、微信登錄都得有。安全這塊注意下,輸錯3次就鎖10分鐘,密碼記得加密存。接口返回的格式統(tǒng)一一下,順便把日志和異常捕獲也加上。
然后你喝了口咖啡,屏幕上就已經(jīng)跑出了完整的代碼框架,接口文檔自動生成,測試用例一條沒落。
這就是最近流行的Voice Working。
從此以后,嘴巴就是你的鍵盤。
這次的語音輸入
跟你想的不一樣
最近,TRAE SOLO為了抓Voice Working這波趨勢,居然和Insta360的麥克風(fēng)Mic Air聯(lián)名推出了一款套裝。
我們拿到了這套組合,完整體驗了一把。
![]()
相比起來,大多數(shù)語音轉(zhuǎn)文字工具,本質(zhì)上干的是「聽寫」的活兒。你說什么,它就原封不動地記什么。最后你看著一屏幕的語氣詞和斷句混亂的文字,還得花時間自己整理,等于白忙活。
但TRAE SOLO完全不一樣。
你說一堆口水話,智能結(jié)構(gòu)化轉(zhuǎn)錄會幫你整理成結(jié)構(gòu)清晰的可執(zhí)行指令。
你說錯了改口,語義理解與自動修正能識別你的自我糾正,只保留最終結(jié)論。
你說「調(diào)那個Skill」,功能語音直調(diào)就能幫你一句話切過去。
具體怎么個事,咱們來看一波實測。
說一大段,它全接住,連Skill都調(diào)好了
比如你在工位上坐累了,想站起來走一走,同時把代碼搞定。
只需要在領(lǐng)口磁吸上一枚硬幣大小的Mic Air。它只有7.9克,戴上之后幾乎感覺不到它的存在。
![]()
來回踱步時,腦子里轉(zhuǎn)著一段代碼,邊想邊說:
嗯你看一下這段Python代碼啊,就是那個do_stuff函數(shù),太亂了真的,啥都塞一塊了,幫我重構(gòu)一下吧。我大概說一下要求哈,先把這個大函數(shù)拆開,嗯,拆成三個吧,一個專門負(fù)責(zé)請求數(shù)據(jù)的、一個處理數(shù)據(jù)做分級的、還有一個寫數(shù)據(jù)庫加記日志的。不對,日志單獨拆出來,拆成四個。就是職責(zé)分清楚點,別全堆一起。然后那個錯誤處理太亂了,到處都是try except和print,統(tǒng)一一下,改成自定義異常往外拋,哦對了,改成async await異步的,requests換成aiohttp那種。還有啊,注釋加上,type hints加上,變量名別叫r、d、f這種鬼看得懂的名字,規(guī)范一點。那個score > 60寫了兩遍,SQL拼接也有注入風(fēng)險,這些冗余的和有問題的邏輯都清理掉,參數(shù)化查詢搞一下。對了單元測試也補上,pytest就行,差不多就這些。用Plan模式幫我規(guī)劃一下。
這么長的口噴輸出,連續(xù)說了好幾分鐘,中間沒有一次斷連。
值得一提的是,Mic Air傳輸幾乎零延遲。
TRAE SOLO 一下子就能抓住重點,立即總結(jié)出結(jié)構(gòu)化可以執(zhí)行的指令。
所有英文的專業(yè)名詞全部抓準(zhǔn)。
![]()
接著,TRAE SOLO就會使用指令中提到的Plan模式,開始瘋狂輸出。
![]()
十分鐘后再一看電腦,代碼已經(jīng)跑完了,就等你驗收。
![]()
![]()
這里有個細(xì)節(jié),我們說完「拆成三個」之后,又改成「不對,拆成四個」。
如果是傳統(tǒng)的語音轉(zhuǎn)文字工具,就會把前后兩個版本都保留下來,AI不知道該聽哪句。
而TRAE SOLO則能識別這種自我修正,自動保留最終結(jié)論,刪掉被推翻的信息。說錯了沒關(guān)系,AI只留結(jié)論。
多端協(xié)同,任務(wù)不中斷。你的踱步思考時間,變成了生產(chǎn)力。
除了改代碼,TRAE SOLO還能幫你處理日常工作中的所有類型文件。
比如「幫我寫個腳本調(diào)用FFmpeg,把這些視頻批量轉(zhuǎn)成H.265的1080p,音頻提取出來存成MP3。對了,視頻左下角把文件名印上去當(dāng)水印,省得我弄混。調(diào)用那個批量處理的Skill。」
TRAE SOLO生成腳本、自動執(zhí)行。
很快,不僅MP3和腳本完美完成,處理后的視頻水印也都能按照要求加上去。
同樣的場景,還可以用來批量重命名文件、批量壓縮圖片、批量加水印。以前需要找各種小工具拼湊的流程,現(xiàn)在一句話搞定。
![]()
![]()
![]()
值得一提的是「調(diào)用那個批量處理的Skill」這句,和前面重構(gòu)代碼時說的「用Plan模式」一樣,這是TRAE SOLO的功能語音直調(diào)能力。
切模式、調(diào)Skill、換模型,不用找菜單,語音指令模糊匹配,開口就行。
東一句西一句,它全聽懂,還理成清單
寫代碼、處理文件,這些都是手頭上的活兒。但工作中還有一類更日常的場景:老板突然甩過來的需求。
有個場景大家肯定不陌生。老板開會的時候腦子一轉(zhuǎn),冒出個想法,散會立馬要結(jié)果。
現(xiàn)在,我們推門出來就可以趁熱把老板的話復(fù)述一遍:
趕緊看一下用戶反饋,大家都在抱怨啥,什么問題比較集中,最好能看出個比例來。反饋特別多的那種要單獨拎出來……
TRAE SOLO拿到這段話之后,首先做的是口語清洗。語氣詞、重復(fù)、沒說完的半句話,全部自動過濾。你拿到的是一段干凈的、可以立刻交給AI執(zhí)行的文本。
接下來,就是語義理解能力發(fā)威了。它不只是去掉噪音,而是真正聽懂了你在說什么。
你說「反饋特別多的那種要單獨拎出來」,它理解為高頻問題提取。你說「有些人就是提個建議,有些是真用著不爽了」,它歸納為情感分類維度,建議類和負(fù)面體驗類分開處理。
這些都是大白話到專業(yè)任務(wù)的語義躍遷,不是簡單的語音轉(zhuǎn)文字能做到的。
最終整理好的任務(wù)清單,可以說是既清晰又簡潔:
分析用戶反饋內(nèi)容,按問題類型聚類并計算比例,提取高頻問題單獨標(biāo)注,區(qū)分用戶態(tài)度,生成含柱狀圖和餅圖的Markdown報告,數(shù)據(jù)來源為用戶上傳的附件。
算下來,從開完會到出結(jié)果,大概三五分鐘就搞定了。
輸出的分析報告,從內(nèi)容到圖表,都相當(dāng)豐富、細(xì)致,基本上是可以拿來就用的水平。
![]()
![]()
并且,所有結(jié)果都被自動存到了本地文件夾里,隨時可以取用。
![]()
![]()
![]()
![]()
![]()
現(xiàn)在,不用再抓耳撓腮地去回憶了,想到就開口說:
我要梳理一下AI Coding賽道,正好Cursor最近新聞挺多的。你幫我把核心功能、用戶體驗、商業(yè)模式這幾塊拆一下,補補競品,然后做個對比表格,維度的話就功能差異、用戶畫像、怎么收費的……最后幫我總結(jié)一下壁壘在哪,還有潛在風(fēng)險,模型依賴啊留存啊這些。
同樣,口語清洗自動完成,「維度的話就」「模型依賴啊留存啊這些」這些口語碎片被過濾掉了。
另外,Cursor、AI Coding這些隨口就蹦出來的英文,TRAE SOLO也一個沒漏,中英夾雜說到底也能跟得上。
語義理解層面,它把一段意識流拆成了三個清晰的任務(wù)模塊:
Cursor核心功能/體驗/商業(yè)模式拆解、3-5個競品對比表格(含功能差異、用戶畫像、收費模式、近兩版本更新)、壁壘總結(jié)與風(fēng)險建議。
剛說完,研究框架直接出來了。
就連前幾天600億美元被馬斯克買斷期權(quán)這事,都給你分析得明明白白的。
![]()
我們最后只需要再過一遍結(jié)果、調(diào)調(diào)細(xì)節(jié),就可以交差了。
![]()
![]()
![]()
![]()
周圍再吵,它只聽你說,噪音一鍵消了
到這兒你可能會說,安安靜靜對著電腦說話,當(dāng)然好使。那要是周圍亂成一鍋粥呢?
比如坐在網(wǎng)約車上,突然接到一個緊急需求。司機(jī)在放音樂,導(dǎo)航在播報,外面還有喇叭聲。
這要是用筆記本內(nèi)置麥克風(fēng),聲音基本就全混一起了。
但現(xiàn)在,夾上Mic Air直接開口就行。
它具備48kHz采樣率和全向拾音的能力,輕聲說句指令都能精準(zhǔn)捕捉。外加一鍵AI降噪,背景噪音幾乎都能被壓掉,只留人聲。
有了這段清晰的語音,TRAE SOLO很快就處理成了干凈的Prompt:
幫我寫份PRD,明天上午跟研發(fā)需求評審用。這個功能的核心流程是:用戶注冊登錄后創(chuàng)建項目,邀請同事協(xié)作,完成后導(dǎo)出報告。界面包含首頁、項目列表、編輯頁及設(shè)置頁。需考慮網(wǎng)絡(luò)超時、權(quán)限不足等異常情況,并設(shè)計埋點(分為用戶行為類和頁面維度曝光類)。
到家之后時候,一份結(jié)構(gòu)完整的PRD已經(jīng)在屏幕上等著你了。在Word里下載下來,稍微潤色就能發(fā)給研發(fā)評審。
![]()
不得不說,TRAE這次確實是把語音辦公當(dāng)一條完整鏈路來打磨,從聲音采集到智能轉(zhuǎn)錄,每一環(huán)都不掉鏈子。
而且這條路還在往前走。
TRAE SOLO預(yù)計4月底上線實時問答互動,你可以像跟同事聊天一樣,和AI語音討論問題,實時對話、實時轉(zhuǎn)錄。
Voice Working
正在發(fā)生的工作方式革命
今年以來,語音AI賽道突然變得異常擁擠。
IBM和Deepgram官宣合作,把語音能力嵌入企業(yè)級AI平臺。
OpenAI的gpt-realtime持續(xù)迭代,實時語音對話已經(jīng)做到了近乎人類水平的流暢度。
Google發(fā)布了Gemini 3.1 Flash Live,一個端到端的原生音頻模型,能感知語氣、語速、情緒,還支持90多種語言。
這些動作背后指向同一個趨勢:語音正在從「輔助輸入」升級為「主力交互」。
過去我們對語音交互的印象,大概還停留在對著手機(jī)喊「Hey Siri幫我定個鬧鐘」的階段。
但現(xiàn)在的Voice Working,遠(yuǎn)不是這么簡單的事。
它背后的核心邏輯是,人類最自然的表達(dá)方式就是說話,打字其實是一種「被迫的翻譯」。
腦子里想的是一段連貫的思路,但你得把它拆成一個個字符,用手指一個個敲出來。
這中間的信息損耗和效率損失,遠(yuǎn)比我們以為的要大。
當(dāng)語音識別的準(zhǔn)確率足夠高、語義理解足夠深、響應(yīng)速度足夠快的時候,「說著干活」就不再是一個噱頭。
而TRAE,是在AI Coding領(lǐng)域率先把這件事做到產(chǎn)品級的玩家。
下一個生產(chǎn)力入口是嘴
隨著TRAE SOLO的智能體已經(jīng)能夠自主拆解任務(wù)、調(diào)用工具、完成執(zhí)行,人類的角色就從「操作者」變成了「決策者」。
決策者最自然的表達(dá)方式是什么?
是說話。
截至目前,TRAE的全球注冊用戶超過600萬,月活突破160萬,覆蓋近200個國家和地區(qū)。
這一次語音輸入功能的上線,加上和Insta360的聯(lián)名硬件合作,等于把Voice Working從概念變成了一套完整的解決方案。軟件端有智能轉(zhuǎn)錄、語義理解和功能直調(diào),硬件端有專業(yè)級的無線收音保障。
今天,TRAE SOLO語音輸入功能正式上線。
試試看,張嘴就能干活的感覺,用過就回不去了。
參考資料:
https://www.trae.cn/
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.