![]()
編輯丨&
智能可穿戴設備的研發與設計,往往會伴隨著人文關懷的色彩。這些功能各異的系統在各自的領域往往能強有力的技術支持,而 AI 的搭載能協助捕捉更細節的生物信號,完成更精細的操作。
來自英國劍橋大學與北京航天大學等多所高校的實驗團隊介紹了一套由人工智能驅動的智能喉嚨(IT)系統,將喉部肌肉震動與動脈脈沖信號與 LLM 相結合,實現流暢且情感表達的交流。該系統在與無名中風患者的測試中,實現了 4.2%的單詞錯誤率,2.9%的句子錯誤率。
相關研究內容以「Wearable intelligent throat enables natural speech in stroke patients with dysarthria」為題,于 2026 年 1 月 19 日刊登于《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-68228-9
解讀身體正在說什么
對中風、ALS 或帕金森患者而言,語言并不是“消失了”,而是被困在身體里。他們仍然能組織語義、仍然有情緒、仍然知道自己想說什么,但聲音無法穩定、連續地被表達出來。
過去幾十年,輔助交流技術(AAC)始終在嘗試彌合這道鴻溝,但實際上真正缺失的是一種既貼近身體、又理解語言本身的系統。上述團隊所提出的 IT 系統就彌補了這其中的缺陷。
該系統能夠捕捉喉部肌肉的外部振動和頸動脈脈搏信號,實時整合無聲語音和情緒狀態分析。此外,其還能生成個性化、符合語境的句子,準確反映患者的意圖。
![]()
圖示:為中風構音障礙患者開發的 IT 示意圖。
這個系統所搭配的柔性智能頸環核心是印刷在彈性織物上的石墨烯應變傳感器,可檢測低至0.1% 的微小應變,頻率范圍覆蓋無聲發音相關的快速肌肉活動。通過各向異性結構與隔離層,這個頸環對細微應變的響應超過了10%。
![]()
圖示:IT 的硬件與數據收集。
此外,IT 系統選擇了一條更接近真實語言的路線,它能以約100 ms為時間尺度進行 token 預測,不再強制分詞或分句。用戶可以連續“默念”,系統持續輸出語言流的同時,還能通過知識蒸餾將模型計算延遲降低76%,保證整條鏈路足夠快,避免“人已經想完一句話,系統還在反應上一句”。
解碼與 LLM 代理
除此之外,團隊還將 DFT 頻率提取納入解碼流程之中,這種方法使端到端神經網絡能夠自動提取最相關特征,以進行無需手動特征工程的情感分類。結果顯示 DFT 在解碼準確性方面有顯著提升。最優模型是帶有 DFT 的 1D 卷積神經網絡,準確率達到 83.2%。
在臨床觀察中,團隊觀察到即使是無聲默念短語,也會導致肌肉疲勞等現象,讓發聲出現偏差。為了減少相應的體力損失與保留預期信息,團隊引入了智能擴展選項,允許患者表達簡潔的符號,這些符號會自動豐富為完整且符合上下文的句子。
而為了確保句子自然且連貫,他們引入了兩個基于GPT-4o-mini AP I的 LLM 代理:符號合成代理(TSA)和句子擴展代理(SEA)。
![]()
圖示:LLM 代理框架與性能評估。
TSA 將 token 標簽直接合并為患者無聲表達的詞語,并將它們組合成句子;而 SEA 則利用情緒標簽和客觀信息,將這些基本句子擴展為連貫、個性化的表達。這兩個代理生成的句子都會被發送到開源的文本轉語音模型,并以匹配后的語音進行播放。在實際應用中,用戶完成無聲表達與句子播放之間的延遲大約為 1 秒。
智能發聲
全面的分析和用戶反饋肯定了 IT 在流暢度、準確性、情感表達和個性化方面的高績效。該系統的成功來自于其能夠捕捉高質量信號的超靈敏紡織應變傳感器,高分辨率的標記化分割技術使用戶能夠無表達延遲地進行連續溝通。
該系統采用的 LLM 代理的集成實現了智能糾錯和上下文適應,實現了卓越的解碼準確率,用戶滿意度提升了55%。
這只是個開始。團隊還在積極擴大研究隊列,納入更多構音障礙患者,并計劃擴大語言數據庫,實現更高的覆蓋率。硬件與軟件的升級也同樣在他們的準備之中。團隊表示,他們希望自己的成果能協助有關病患改善他們的生活質量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.