![]()
新智元報道
編輯:桃子
【新智元導讀】Voice Agent終于能打實戰了!這家中國公司靠一套Model + Harness的方法論,正在重新定義金融級Agent的標桿,也撬動了黃仁勛所預言的百萬億美元市場。
Voice Agent賽道,從來不缺故事。
2024年,GPT-4o橫空出世,全球科技圈集體高潮——「AI終于會說話了」。
緊接著,數以百計的Voice Agent創業公司如雨后春筍般冒出,融資消息一個接一個。
![]()
硅谷的投資人們畫了一個萬億級的大餅:AI語音智能體將重塑一切電話交互場景。
但到了2026年,畫風變了。
絕大多數通用Voice Agent,在實驗室里表現驚艷,到了真實業務里卻頻頻翻車——
聽不懂方言、扛不住噪音、一被打斷就「邏輯崩盤」、合規紅線踩了又踩。
尤其是金融、保險、醫療這些更復雜、專業的場景,通用方案幾乎集體啞火。
就在行業還在糾結「Voice Agent到底能不能用」的時候,一家中國公司給出了答案。
通用方案水土不服,垂類需要「場景原生」
深耕汽車金融11年的易鑫,沒有去追「通用AI」的風口,而是扎進了最難啃的垂類場景。
為此,他們自研了一套「工業級」Voice Agent系統。
它集Multi-Agent協同架構、Turn-Taking模型、場景降噪引擎和多語言TTS大模型于一體。
要理解易鑫Voice Agent的價值,首先要理解一個殘酷的現實:通用AI方案在汽車金融面前幾乎是「裸考」。
業內大廠Voice Agent方案,大多是追求普適性與標準化——
在通用場景可以快速落地,但對汽車金融這類鏈路復雜、合規嚴苛、業務節點密集的垂直場景,適配度始終不足。
更現實的問題是,通用方案追求「播音員級」的優美音色,側重聽覺體驗,本質是「體驗優先」。
但在電銷場景里,一個聲音好聽但沒有「人味」、不懂業務的AI,反而讓客戶秒掛。
易鑫的做法截然不同。
在表層,他們選用貼合車主溝通習慣的音色,適配方言場景;
但在深層,真正讓客戶不掛電話的,是Agent不僅兼顧了親和力與合規嚴謹性,還學會了老電銷那種「先共情再辦事」的對話直覺。
核心目標只有一個:優化客戶體驗,提升轉化率,實現「業務優先」的價值閉環。
這就是「通用適配」和「場景原生」的根本區別。
前者在試圖讓一把萬能鑰匙打開所有鎖,后者在為每一把鎖量身打造鑰匙。
把自由聊天,變成「精密流水線」
易鑫Voice Agent最核心的技術突破,是其基于文本的Multi-Agent協同架構。
這里有一個行業背景需要交代:目前絕大多數企業,哪怕是最簡單的單Agent方案,都不敢直接推上生產環境。
原因很簡單,通用Agent可控性差、工具調用不穩定、任務容錯率低。
一旦模型「自由發揮」,在金融合規場景里就是災難。
易鑫的解法是:把一通復雜的銷售電話,拆解成多個高度專注的「小任務」,分配給不同的Agent專項處理。
具體而言,系統部署了四大Agent板塊:問候與結束、資質確認、添加微信、咨詢問答。
每個Agent專注處理一個細分任務。這套架構的精妙之處,在于以下三個「硬核」設計:
第一,一個任務節點只管一件事。
汽車金融場景真實的電銷SOP包含身份確認、需求確認、資質確認、添加微信等一系列遞進環節。
如果把所有規則塞進一個巨大的Prompt里,大模型會瞬間「過載」,極易出現幻覺——不知道先干啥、容易聽錯話、或被客戶一句話帶偏。
所以易鑫的做法是:把整個流程切成一個個任務節點。
每個任務節點只負責一件事,并且擁有獨立的指令、話術示例和工具集,AI被嚴格限定在當前任務范圍內——達不成目標,就無法進入下一個任務節點。
第二,流程走到哪一步,系統說了算。
一般來說,傳統做法是讓LLM自己判斷「接下來該干什么」,比如輸出「關鍵詞」決定流程走向。
但這種方式極其脆弱,AI一旦「想岔了」,整個對話就跑偏了。
為此,易鑫專為流程流轉上一把「物理鎖」。具體來說:
每個任務節點完成后,Agent輸出了符合格式要求的結果,才會被視為正確的「交接信號」,流程才能往下走。
不僅如此,系統在啟動時,就會強制校驗所有任務節點之間的跳轉關系是否真實存在。
如果某個節點指向了一個根本不存在的下游環節,直接報錯攔截。
AI想「自由發揮」,系統根本不給它機會。
第三,用戶打斷時,AI不會「記混」。
電話里用戶隨時可能打斷插話,這是常態。但對AI來說,這是個大麻煩。
普通單體文本Agent會把所有生成內容塞進記憶,導致后續業務邏輯錯亂。
易鑫的處理方式是,對話記錄不由模型自己管,而是交給外部框架統一管理——
當用戶打斷時,系統只保留用戶實際聽到的那部分內容,再追加用戶的新輸入。
這樣,當流程從「破冰問候」推進到「資質確認」時,下一個任務節點拿到的對話記錄是干干凈凈、完整還原真實通話的,不會因為中途被打斷就記串了。
Multi-Agent協同架構把電銷從「不可控的自由對話」,變成了可追溯、可質檢、可合規、可復制、可運營優化的SOP。
這才是Agent能進核心業務的前提。
讓AI選擇性失聰,掌握「說話的藝術」
如果說Multi-Agent架構是「大腦」,那降噪引擎和Turn-Taking模型就是「耳朵」和「嘴巴」。
要讓AI打好一通電話,第一步是聽得清,第二步才是接得住。
先說「聽」,降噪引擎要解決的,是讓AI學會「選擇性失聰」。
真實電銷場景里,客戶可能在地鐵上、馬路邊,甚至嘈雜的工地里接電話。
背景噪音經常讓AI產生「幻聽」:鳴笛聲、他人交談聲被錯誤識別為客戶指令,產生大量「無效輪次」(Noise Rounds),直接干擾AI的決策邏輯,導致Voice Agent頻繁「亂插話」或「答非所問」。
易鑫AI團隊上線的場景適配降噪引擎,在兩個關鍵維度實現了突破:
低信噪比噪音消除率80%,將嘈雜環境的壓力分散到降噪模型,在最低限度損傷音頻的情況下,處理好絕大部分干擾AI決策的噪音。
同時,通過語義保真算法,確保主說話人的語音特征完美保留,ASR識別準確率不降反升。
聽清楚了,下一個問題是:什么時候該開口?
這正是Turn-Taking要解決的「對話節奏」問題。
在真實電話場景中,每個人的說話習慣千差萬別:有人語速極快,有人說一半停下來想想再繼續。
傳統方案,AI要么在人還沒說完時就插嘴搶,要么人說完了半天沒反應,兩種體驗都讓人想掛電話。
為此,易鑫自研的Yx-Turn預測模型,核心任務只有一個:判斷客戶到底說完了沒有。
![]()
它同時聽兩樣東西。
一是聲學信號,包括客戶的語氣、停頓、拖音等。
二是語義理解,比如客戶說的話里有沒有「嗯…我想一下」、「那你看這樣行不行」這類未完待續的意思。
模型將每輪會話的交互狀態分為三種:發言結束(EOT)、繼續發言(CT)和掛起等待(WAIT),并通過三階段演進式數據構建策略,逐步從「不搶話」進化到「讀懂意圖」。
舉個例子,當用戶說「等一下」時,系統識別為掛起狀態,回應「好的,不著急」,保持收音不中斷,同時繼續等待客戶后續發言。
更值得一提的是框架層的「兜底策略」。在全雙工對話中,用戶隨時可能打斷AI。
易鑫采用了創新的消息合并策略:將未完成消息暫存至緩沖區,設置觀察等待期,若用戶繼續表達,系統自動合并新舊消息,確保LLM基于完整上下文推理;若識別為無意發聲或噪聲,則自動過濾。
這徹底解決了傳統方案中「用戶一打斷,AI就失憶」的尷尬。
這套機制還解決了行業公認的「幽靈回復」(嗯、額、啊等語氣詞)難題,系統能精確區分用戶是在隨聲附和,還是在給出答復,不再因誤判導致邏輯跳步或搶話。
這項技術聽起來不夠「性感」,但在電銷場景里,它直接決定了用戶愿不愿意繼續聽下去。
用易鑫高級算法工程師的話說,「我們的目標不是訓練一個技術最牛的模型,而是訓練一個最懂易鑫業務的模型」。
這種務實到骨子里的技術哲學,恰恰是易鑫Voice Agent能跑通生產環境的底層原因。
橫掃多種語言,劍指全球市場
Voice Agent的最后一塊拼圖,是語音合成(TTS)。
基于覆蓋全國340余個城市的業務網絡,易鑫自研TTS大模型已全面適配普通話,同時支持四川、天津、東北、河南、廣東、福建、湖南等多地主流方言。
更值得關注的是全球化布局。
易鑫TTS已支持英語、西班牙語、葡萄牙語等主流語言,并針對日本、馬來西亞、新加坡、澳大利亞、墨西哥、巴西等核心出海市場進行了深度本地化定制,兼容多個小語種及變體,可覆蓋全球大部分主流汽車金融商業化語音場景。
這一成績離不開易鑫在技術層面的深耕。
為還原真人般的聲音,易鑫搭建了三層語音數據體系——標準語音數據、真實口語數據和專業錄音數據,讓模型聽足夠多樣、真實的聲音。
為深度貼合汽車金融業務特性,模型對專屬場景、專業術語、業務話術做了專項調優,使音色、情感、語調、語速和本土化適配等效果全面升級。
在訓練策略上,團隊引入GRPO強化學習方法進行后訓練:
從內容準確性、音色還原度、情感表現力、聽感自然度這四個維度由「AI評委」對合成的語音進行打分(獎勵),最后會匯總成一個綜合獎勵信號,驅動模型持續進化。
![]()
模型學會的不只是「怎么說」,而是什么時候、以什么方式說,才最契合人類的情感邏輯。
Model + Harness,
一套真正能打的Voice Agent方法論
如果把上述技術能力拆開來看,每一項都有不少公司在做。
但易鑫Voice Agent真正的差異化,在于它背后的一套完整方法論:Model與Harness的深度結合。
英偉達CEO黃仁勛曾預言,AI Agent等AI技術將創造100萬億美元的市場。
但預言要落地,便需要這個關鍵公式:Agent = Model + Harness。
所謂Model,是指大模型本身的能力:語義理解、意圖識別、文本生成、語音合成。這是AI系統的「智力」。
所謂Harness,則是約束、駕馭和編排模型能力的工程化架構:結構化狀態機、防幻覺協議、外部記憶管理、合規流程門控、工具調用治理。這是AI系統的「紀律」。
在真實的生產環境里,一個沒有Harness約束的強模型,就像一匹沒有韁繩的野馬,跑得越快,翻車越狠。
在易鑫Voice Agent系統中,這個理念被貫徹到了每一個技術模塊:
自研Agentic大模型XinMM-AM1提供300億參數級的語義理解能力;
而全雙工交互框架、Multi-Agent協同架構、Turn-Taking模型和降噪引擎等模塊,共同構成了Harness體系。
![]()
易鑫是一家AI驅動的金融科技平臺,2017年在香港上市,2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣,全球擁有員工5000多人,核心產品為Agentic AI解決方案,深度賦能汽車金融全鏈路。Voice Agent是易鑫Agentic AI解決方案的關鍵拼圖,可應用于電銷、預審、客服等多個場景。
兩者融合,才把不可控的LLM變成了聽指揮、守紀律、能實戰的生產級數字員工。
同時,這套Voice Agent還調用了豐富的「金融專屬工具」——線索質量核查、渠道風險識別、網絡化欺詐識別、欺詐聲紋檢測、情緒分析、流程合規檢測,以及加微申請、短信發送、知識庫檢索等通用工具。
Model負責「想」,Harness負責「管」,工具鏈負責「干」——
三位一體,才是工業級Voice Agent的完整形態。
實戰數據亮眼
所有技術敘事的終點,都指向一個樸素的問題:效果到底怎么樣?
易鑫Voice Agent交出的成績單足夠硬氣:
接通率媲美人工坐席,加微成功率超越人工。
在電銷場景中,「接通」只是起點,真正有價值的動作是把線索轉化為合規的私域客戶。
這意味著,后續可以持續觸達、深度運營。
易鑫Voice Agent的接通加微轉化率可達20%以上,這個數字在行業里已屬前列。
跨多個會話連續推進,線索流失率大幅下滑。
傳統電銷最大的痛點之一是線索跟進不及時、不連續——人工坐席忙不過來、跟進節奏不穩定、記錄不完整。
易鑫Voice Agent能夠及時、持續追蹤每一條線索,效率大幅提升。
更讓人興奮的是落地速度:這套系統專為汽車金融全場景定制,支持低代碼快速部署。
而且其模塊化架構天然支持場景遷移,80%的流程不變,只需替換20%的業務節點,就能快速適配新業務線。
未來,這套方案還將向泛金融領域延伸,為保險、銀行等場景提供同級別的智能語音解決方案。
有用,才是最高級的技術
回過頭看,Voice Agent賽道的競爭格局已經日漸清晰:通用方案追求廣度,垂類方案追求深度。
而在汽車金融這個合規嚴苛、鏈路復雜、專業性極強的戰場上,「廣度」解決不了任何真實問題。
易鑫用11年的行業沉淀,證明了一件事:
真正的工業級AI,從來不是模型參數的軍備競賽,而是對業務的深刻理解與工程化能力的深度融合。
當行業還在爭論Voice Agent的技術路線時,易鑫已經在真實的生產線上,用每一通電話、每一個轉化數字,定義著「場景原生」AI的行業標準。
有用,才是最高級的技術。而易鑫正在證明,這句話不是口號。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.