面壁智能 投稿
量子位 | 公眾號 QbitAI
面壁智能公開了自己在全雙工全模態交互領域的核心技術——
Omni-Flow 流式全模態框架。
![]()
今天,面壁智能聯合OpenBMB開源社區、清華大學THUNLP實驗室和THUMAI實驗室,正式發布MiniCPM-o 4.5技術報告。
過往大模型均為半雙工交互模式,類似對講機式輪次對話。
用戶與AI無法并行交流,AI無法實時感知環境、不能被打斷插話,存在交互時空割裂,用戶體驗差,嚴重制約多模態AI落地應用。
MiniCPM-o 4.5是面壁智能今年2月發布的全雙工全模態模型,也是業界首個端到端全雙工全模態大模型。
該模型參數規模約9B,支持視頻、音頻、文本流輸入及文本與語音的連續輸出。
利用MiniCPM-o 4.5,不用聯網、僅用一張消費級顯卡,你就能在個人電腦上擁有一個“邊看、邊聽、邊說、還能主動提醒”的類人AI助手。
目前,MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能優化,實測最低12GB顯存的RTX 5070即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側部署的準入門檻。M1-M5 Max(包含M5 Pro)的MAC設備亦可使用,建議內存超過16G。
下面這支視頻展示了MiniCPM-o 4.5在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。
模型發布至今,抱抱臉下載量已突破25萬+。
技術報告發布之外,MiniCPM-o 4.5還同步推出在線體驗Demo、全模態全雙工API、端側安裝包Comni和Demo倉庫。
核心依托Omni-Flow流式全模態框架
MiniCPM-o 4.5極致流暢的全雙工交互體驗,核心依托于面壁智能與清華大學聯合研發的Omni-Flow流式全模態框架。
這也是本次技術報告公開的核心底層技術。
該框架打破傳統模型孤立的回合式交互邏輯,搭建起毫秒級統一時間軸。
通過時分復用機制,Omni-Flow流式全模態框架將視覺、音頻、文本等多模態并行信息流,精準對齊、拆分重組為周期性時序信息組。
模型以每秒一次的高頻次持續刷新環境認知,實時更新對場景和用戶意圖的理解,全程無需依賴外部VAD語音活動檢測工具,原生支持持續感知、即時響應、自由打斷。
在模型架構上,MiniCPM-o 4.5采用輕量化端到端全模態設計,整體僅9B參數,由四大核心模塊高效協同構成:
- 0.4B參數SigLIP-ViT視覺編碼器負責環境視覺感知;
- 0.3B參數Whisper-Medium音頻編碼器完成聲音信息采集;
- 8B參數Qwen3-8B LLM基座承擔核心思考與語義理解;
- 搭配0.3B參數輕量級語音Token解碼器實現語音生成。
![]()
模塊化分工設計各司其職、高效聯動,既保留了大模型強大的理解推理能力,又規避了復雜聲學任務對核心算力的損耗。
同時搭配自研TAIL時間對齊交錯語音生成方案,精準匹配文本與語音輸出節奏。
在保證語音流暢自然、情感飽滿的前提下,最大限度降低交互延遲,徹底解決流式對話卡頓、滯后、銜接生硬的行業難題。
參數不大,但實力不容小覷。
在多項權威評測基準中實現越級對標,MiniCPM-o 4.5綜合性能比肩甚至超越多款行業前沿大模型。
![]()
在視覺能力上,模型OpenCompass綜合得分77.6、MMBench英文得分87.6,整體表現對標Gemini 2.5 Flash,圖像理解、數學推理、文檔解析能力表現優異。
在全模態動態交互、視頻場景理解領域,MiniCPM-o 4.5的優勢更為突出。
Daily-Omni、Video-Holmes等多項評測數據顯示,MiniCPM-o 4.5優于Gemini 2.5 Flash等大模型的表現;在LiveSports-3K-CC全雙工視頻基準測試中,勝率達到54.4%,領先各類專用流式視頻模型。
同時模型推理效率優勢顯著。
INT4量化版本顯存占用大幅降低,僅需12GB顯存即可運行,解碼速度可達212 tokens/s,相較同類模型提速40%以上,響應延遲更低,性價比與落地優勢拉滿。
![]()
除此之外,模型搭載多項實用特色功能,適配多元化使用場景。
MiniCPM-o 4.5全面支持中英雙語實時語音對話,語音生成質量行業領先,中文CER、英文WER錯誤率低于CosyVoice2等主流模型,情感表現力更強。
支持簡易參考音頻即可完成聲音克隆與角色扮演,音色自然逼真。
延續MiniCPM-V系列優勢,擁有前沿的OCR文檔解析能力,支持高清圖像、高幀率視頻處理,多語言解析能力覆蓋30余種語言。
同時,模型原生兼容傳統輪次對話、Omni-Flow全雙工流式交互兩種模式,無縫切換,兼顧精準問答與實時流式交互需求,適配各類使用場景。
兼顧普通用戶體驗與開發者二次開發需求
為讓技術真正落地普惠,MiniCPM-o 4.5打造了全渠道、全人群的開放落地體系,兼顧普通用戶體驗與開發者二次開發需求。
面向普通用戶,官方開放無需注冊、無需下載的在線體驗Demo,同時推出適配Windows、macOS系統的桌面端Comni一鍵安裝包,簡化部署流程,普通用戶可快速上手體驗全雙工AI交互能力。
面向廣大開發者,平臺免費開放全雙工實時WebSocket API,提供完整規范的接口文檔,支持快速接入各類應用;同時完整開源Demo前后端代碼,開放Linux部署方案,支持開發者自由二次開發、自定義調試,助力各類全模態AI應用快速落地。
依托原生全雙工、持續感知、主動交互的核心能力,MiniCPM-o 4.5突破了傳統AI單次問答的場景局限,解鎖了大量全新流式交互應用場景。
在生活服務領域,有望作為沉浸式智能陪伴助手,在用戶運動、烹飪、日常勞作時實時答疑、主動提醒、全程指導。
在無障礙公益領域,可為視障人群提供實時環境感知服務,主動播報路況、設備狀態、環境變化,成為可靠的“視覺輔助助手”。
在智能車載領域,可以持續監測路況與駕駛員狀態,主動預警風險、提示可用車位、輔助泊車,提升駕駛安全性。
在具身智能領域,可作為機器人核心大腦,持續感知動態環境、自主決策交互時機,適配智能機器人、智能家居等智能化場景,覆蓋生活化、公益化、工業級多維度需求。
可以說,MiniCPM-o 4.5把“主動式AI”從概念變成了可以在你電腦上跑起來的東西。
當然,團隊也在技術報告中坦誠指出了當前不足:
長時間交互的穩定性、主動行為的豐富性、對復雜場景的魯棒性,都還有提升空間。
但這不妨礙它已經立起了一個新的起點——全雙工全模態、端側可部署、全棧開源,這條路線跑通了。
目前,MiniCPM-o 4.5在線體驗、API、端側安裝包、Demo代碼倉庫,所有入口都已在GitHub和面壁官網上線。
感興趣的小伙伴可以直接上手體驗~
期待大家在評論區反饋。
技術報告PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
在線體驗:
https://minicpmo45.modelbest.cn/
在線體驗(手機端推薦):
https://minicpmo45.modelbest.cn/mobile/
GitHub Demo(含本地安裝包):
https://github.com/OpenBMB/MiniCPM-o-Demo
抱抱臉:
https://huggingface.co/openbmb/MiniCPM-o-4_5
魔搭:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.