斷網(wǎng)可用！首款全雙工全模態(tài)大模型技術(shù)報告發(fā)布，附一鍵安裝包

2026-04-28 17:15:00　來源: 新智元

北京舉報

分享至

新智元報道

編輯：YHluck

【新智元導(dǎo)讀】MiniCPM-o 4.5技術(shù)報告發(fā)布，附深度解讀。MiniCPM-o 4.5是業(yè)界首個端到端全雙工全模態(tài)大模型，采用自研Omni-Flow流式全模態(tài)架構(gòu)。同步發(fā)布官方在線Demo、全模態(tài)全雙工官方API和文檔、Windows/macOS一鍵安裝包地址，最低12GB顯存GPU即可運(yùn)行。

你有沒有想過，不用聯(lián)網(wǎng)、僅用一張消費(fèi)級顯卡，就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人AI助手？它既能實時感知環(huán)境變化、同步理解你的意圖，又能全程保護(hù)隱私。

這就是MiniCPM-o 4.5所能做到的。在技術(shù)創(chuàng)新下，它僅憑9B參數(shù)，實現(xiàn)了業(yè)界首個端到端全雙工全模態(tài)大模型，讓這種端側(cè)普惠成為現(xiàn)實。自2026年2月模型發(fā)布以來，在Hugging Face上的下載量已突破25萬+。

模型用例展示：https://openbmb.github.io/minicpm-o-4_5-omni/

在線體驗（無需注冊/下載）：https://minicpmo45.modelbest.cn/

今天，面壁智能聯(lián)合OpenBMB開源社區(qū)、清華大學(xué)THUNLP實驗室和THUMAI 實驗室正式發(fā)布MiniCPM-o 4.5技術(shù)報告，首次公開面壁智能在全雙工全模態(tài)交互領(lǐng)域的核心技術(shù)——Omni-Flow流式全模態(tài)框架。

技術(shù)報告：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在技術(shù)報告發(fā)布的同時，MiniCPM-o 4.5同步推出在線體驗Demo、全模態(tài)全雙工API、端側(cè)安裝包Comni和Demo倉庫。

在線體驗Demo

在線Demo是MiniCPM-o 4.5的原型示例網(wǎng)頁應(yīng)用，展現(xiàn)傳統(tǒng)輪次交互、語音雙工交互、視頻雙工交互三大類應(yīng)用原型，并完整開放模型支持的全部配置，包括 prompt 和參考音頻設(shè)置。

Demo可在手機(jī)、電腦端直接訪問，并配套提供排隊、錄制、保存、分享、回看等功能，提升用戶體驗。

? 在線體驗（手機(jī)端推薦）

https://minicpmo45.modelbest.cn/mobile/

? 在線體驗（電腦端推薦）

https://minicpmo45.modelbest.cn/

全模態(tài)全雙工API

同步開放的MiniCPM-o 4.5 API支持全模態(tài)全雙工實時交互，全雙工下無需 VAD 機(jī)制控制對話輪次，便于開發(fā)者基于MiniCPM-o 4.5構(gòu)建應(yīng)用。

API使用https://api.modelbest.cn/minicpmo45/v1/端點，目前免費(fèi)開放。詳細(xì)使用方式見 API 文檔。

? MiniCPM-o 4.5 API 文檔

https://api.modelbest.cn/minicpmo45/docs

Windows/macOS端側(cè)安裝包Comni

MiniCPM-o 4.5已基于 llama.cpp完成模型量化和推理性能優(yōu)化，實測最低 12GB顯存的RTX 5070即可流暢運(yùn)行全雙工模式（RTF0.4)，極大降低了個人端側(cè)部署的準(zhǔn)入門檻。

為進(jìn)一步降低端側(cè)部署的操作門檻，桌面軟件Comni集成了模型下載、環(huán)境安裝和Demo運(yùn)行能力，提供Windows/macOS版本。

軟件包下載鏈接如下：

Windows：

GitHub：

https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe；

ModelScope：

https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe

硬件要求：12GB+顯存GPU，如RTX 4080/RTX 4090/RTX 5070/RTX 5080/RTX 5090

macOS：

GitHub：

https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg；

ModelScope：

https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg

硬件要求：M1-M5 Max/M5 Pro 建議內(nèi)存16G以上

上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運(yùn)行過程，包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。

Demo倉庫開源和Linux部署

上述Demo的全棧代碼已開源，Linux用戶可克隆代碼倉并部署完整的Demo服務(wù)。這也是首批可本地部署的全雙工全模態(tài)交互演示項目之一。

?Demo GitHub 倉庫：

https://github.com/OpenBMB/MiniCPM-o-Demo

為什么「全雙工」是AI交互的下一站？

人類交流是流暢、并行的。我們邊聽邊思考，甚至可以打斷對方。

但過去，AI 與人類的交互模式是半雙工的，像用對講機(jī)：你說完，它才能處理；它說的時候，又聽不見你的新指令。

AI與人類的不同頻，使得大多數(shù)用戶無法在與大模型產(chǎn)品的交互中獲得良好的體驗感，甚至由于交流的「時空割裂」逐漸失去耐心。長此以往，大模型在多模態(tài)場景的落地?zé)o疑大大受阻。

而MiniCPM-o 4.5在全球范圍內(nèi)首創(chuàng)「全雙工全模態(tài)」，模型能在持續(xù)感知環(huán)境（看視頻、聽聲音）的同時進(jìn)行思考和響應(yīng)，這讓AI從一個被動的工具變成了一個可以主動幫助人類的真正助手。

這背后離不開面壁智能與清華大學(xué)共同研發(fā)的Omni-Flow流式全模態(tài)框架。本次技術(shù)報告也首次披露了Omni-Flow的技術(shù)核心：

簡單來說，它創(chuàng)造了一個共享的「時間軸」，把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內(nèi)，完成一次「感知-思考-響應(yīng)」的循環(huán)。

這套機(jī)制從底層賦予了模型持續(xù)感知和即時反應(yīng)的能力，是MiniCPM-o實現(xiàn)全雙工的基石。

此外，MiniCPM-o 4.5 本次發(fā)布并堅持開源可本地部署的Web Demo，這對開發(fā)者與用戶意味著：

絕對的隱私安全：全天候陪伴式AI會接觸大量敏感信息。數(shù)據(jù)不出本地，是最好的隱私保護(hù)。
斷網(wǎng)也能跑的可靠性：沒有網(wǎng)絡(luò)也能用。即使在隧道、野外，你的AI助手也不會「掉線」。
開發(fā)者的游樂場：完整的Demo前后端代碼已開源。你可以基于此快速構(gòu)建自己的全雙工多模態(tài)應(yīng)用，無論是智能座艙、無障礙輔助還是具身智能，MiniCPM-o 4.5都能成為你將想象變成現(xiàn)實的助推器。

技術(shù)報告深度解讀

揭秘MiniCPM-o 4.5的實現(xiàn)之道

MiniCPM-o 4.5 采用端到端全模態(tài)架構(gòu)，總參數(shù)量 9B。核心設(shè)計包括：

全模態(tài)端到端架構(gòu)：多模態(tài)編碼器/語音解碼器與LLM通過隱藏狀態(tài)緊密連接，在高壓縮率下實現(xiàn)通用視覺、聽覺感知和語音對話。
時分復(fù)用機(jī)制：將并行多模態(tài)流劃分為周期性時間片內(nèi)的順序信息組，實現(xiàn)高效的流式處理。
可配置語音建模：支持文本+音頻雙系統(tǒng)提示，通過參考音頻和角色提示詞即可實現(xiàn)聲音克隆角色扮演。
雙模式支持：同一模型支持傳統(tǒng)的輪次交互模式與Omni-Flow全模態(tài)全雙工模式。

實時交互

Omni-Flow流式全模態(tài)框架

傳統(tǒng)多模態(tài)模型將交互視為一系列孤立的回合，而Omni-Flow將其重塑為一個連續(xù)的過程。

圖1：交互范式的演進(jìn)，MiniCPM-o 4.5 實現(xiàn)了最右側(cè)的全雙工流式交互

如圖所示，Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流，在時間上進(jìn)行精確切片和對齊。

模型不再是被動地等待用戶輸入完成，而是以極高的頻率（例如每秒一次）持續(xù)刷新自己的「世界觀」，并自主決定在哪個時間點介入（說話或提醒）。

這套機(jī)制原生支持了打斷、插話等高級交互行為，徹底擺脫了對外部VAD(語音活動檢測) 等輔助工具的依賴。

端到端架構(gòu)：

9B模型如何協(xié)同工作？

為了實現(xiàn)Omni-Flow，面壁智能團(tuán)隊設(shè)計了一套高效的端到端全模態(tài)架構(gòu)，總參數(shù)量9B。

圖2：MiniCPM-o 4.5 的端到端全模態(tài)架構(gòu)

其核心組件包括：

視覺編碼器（0.4B）：SigLIP-ViT，負(fù)責(zé)「看」。
音頻編碼器（0.3B）：Whisper-Medium，負(fù)責(zé)「聽」。
LLM基座（8B）：Qwen3-8B，負(fù)責(zé)「思考」和理解。
語音Token解碼器（~0.3B）：輕量級 Llama 架構(gòu)，負(fù)責(zé)將 LLM 的「想法」（文本）轉(zhuǎn)化為語音單元。
聲碼器: 將語音單元合成為最終的波形。

這個架構(gòu)最巧妙的設(shè)計之一是：LLM 基座只生成文本 Token，而專業(yè)的語音合成任務(wù)「外包」給了一個更小、更專業(yè)的語音解碼器。

這避免了讓大模型直接處理復(fù)雜的聲學(xué)任務(wù)，從而保證了其核心的語言和推理能力不受損害。同時通過各模塊的token級稠密連接，保證了模型能力的高上限。

為實時而生：

TAIL語音生成方案

流式語音的一大難題是延遲。為了讓語音聽起來自然，模型通常需要「預(yù)讀」一大段文本，但這會導(dǎo)致輸出的語音遠(yuǎn)遠(yuǎn)滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里，這是致命的。

因此，面壁智能團(tuán)隊提出了TAIL（Time-Aligned Interleaving）方案，可以讓每個語音塊的生成都緊緊跟隨其對應(yīng)的文本塊，而不是讓文本「搶跑」太多。

同時，通過一個輕量級的「預(yù)讀」(pre-look) 機(jī)制，解決了跨詞發(fā)音的連貫性問題。最終，TAIL在保證音頻流暢悅耳的同時，將語音輸出與交互發(fā)生的延遲降到了最低。

性能表現(xiàn)

9B模型硬剛業(yè)界頂尖

參數(shù)規(guī)模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中，展現(xiàn)了與 SOTA 大模型掰手腕的實力。

推理效率：在顯存方面，MiniCPM-o 4.5的INT4量化版僅需11GB顯存即可運(yùn)行，幾乎是Qwen3-Omni INT4版本的一半，使得其在消費(fèi)級顯卡上的本地部署成為可能。

在性能方面，MiniCPM-o 4.5的推理速度也更快，其INT4版本的解碼速度達(dá)到了212tokens/s，比Qwen3快了40%以上，響應(yīng)延遲更低。

綜合視覺能力：在OpenCompass、MMBench等多個視覺基準(zhǔn)上，9B的 MiniCPM-o 4.5與Gemini 2.5 Flash表現(xiàn)相當(dāng)。

全模態(tài)與全雙工交互：在需要聯(lián)合音視頻理解的基準(zhǔn)上，MiniCPM-o 4.5全面超越了Gemini 2.5 Flash和Qwen3-Omni。在全雙工視頻理解基準(zhǔn)LiveSports-3K-CC上，其勝率（54.4%）更是大幅領(lǐng)先專用的流式視頻模型。

語音生成：無論是中文還是英文，MiniCPM-o 4.5的語音生成質(zhì)量（字符/單詞錯誤率更低）和情感表現(xiàn)力都優(yōu)于Qwen3-Omni和業(yè)界領(lǐng)先的CosyVoice2。

真 · 全雙工，潛力無限

全雙工全模態(tài)大模型不是一個遙遠(yuǎn)的概念，而是會催生一系列全新的應(yīng)用，例如：

主動式伴侶：在你烹飪、修理或運(yùn)動時，給你實時的指導(dǎo)和提醒。
無障礙輔助：成為視障人士的「眼睛」，為視障人士持續(xù)觀察環(huán)境，主動播報綠燈亮起、水杯將滿等關(guān)鍵環(huán)境信息，幫助他們安全生活。
智能座艙：持續(xù)監(jiān)控路況和駕駛員狀態(tài)，主動提示「左側(cè)有可用車位」并引導(dǎo)泊車，提供更智能、更及時的安全預(yù)警和駕駛輔助。
具身智能：作為機(jī)器人的「大腦」，持續(xù)感知動態(tài)環(huán)境并自主決策交互時機(jī)。

這些場景的共同點是：需求并非一次性問答，而是需要AI作為「沉默的觀察者」和「及時的提醒者」融入動態(tài)生活流——這正是傳統(tǒng)輪次對話模型無法勝任的。

MiniCPM-o 4.5是原生全雙工模型，擺脫了對VAD的依賴。

這意味著：支持general聲音感知（環(huán)境噪音、音樂等，不僅是語音）；畫面變化跟進(jìn)更快（native全雙工，無需等上句說完）；AI 說話時可被實時引導(dǎo)改變內(nèi)容。

當(dāng)然，MiniCPM-o 4.5目前還存在可提升空間，如長時間交互的穩(wěn)定性、主動行為的豐富性等。

多模態(tài)智能的下一個前沿，不僅在于模型能力的擴(kuò)展，更在于重新思考智能表達(dá)的交互范式。Omni-Flow和MiniCPM-o 4.5是面壁智能在這一方向上的關(guān)鍵探索。

開放與協(xié)作將持續(xù)推動人機(jī)交互演進(jìn)。歡迎所有開發(fā)者試用模型、參與討論、貢獻(xiàn)代碼，共同探索人機(jī)交互的未來！

? 技術(shù)報告 PDF：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

? 在線體驗：

https://minicpmo45.modelbest.cn/

?手機(jī)端體驗鏈接：

https://minicpmo45.modelbest.cn/mobile/

? GitHub Demo（含本地安裝包）：

https://github.com/OpenBMB/MiniCPM-o-Demo

? Hugging Face 下載鏈接：

https://huggingface.co/openbmb/MiniCPM-o-4_5

? ModelScope 下載鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

對于demo安裝、api調(diào)用或模型使用中您遇到任何問題、或者想分享交流，歡迎掃碼加入飛書群。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.