網易首頁 > 網易號 > 正文申請入駐

將 600 億參數大模型裝進手機的瓶頸，終于被中國 AI 公司突破了

2026-05-25 12:08:20　來源: 愛范兒

廣東舉報

分享至

一個 8B 參數的大模型，通常需要約 16GB 顯存。參數越多，越吃顯存，這就是為什么，內存價格一天比一天高。

現在，有一種方法，可以省下 6 倍顯存，卻幾乎不損耗模型性能。

過去兩年，圍繞這個看似極端的思路，一條全球性的技術競賽正在成型。而就在這條賽道上，一個完全基于國產算力的方案，剛剛給出了自己的第一個回答。

模型被壓到了不到 3B，同時，能力卻可以保留 97%，甚至更進一步，如果結合 MoE 架構，未來可以直接在一部 8GB 內存的手機，運行 600 億參數的大模型。

聽上去匪夷所思，怎么做到的？

三個值，能跑大模型嗎

傳統大模型用非常精確的數字存儲，意味著每個權重可以取幾萬種不同的數值，精度很高，但也很占內存。三值量化是一個極端的反向操作：直接把可選的數值從幾萬種砍到三種。技術上，這被稱為 1.58-bit，因為編碼三個值恰好需要約 1.58 個二進制位。

這個壓縮有多極端？打個比方：如果傳統大模型的權重是一幅全彩照片，三值量化就是把它壓成只有黑、白、灰三色的極簡圖形。

直覺上你會覺得這必然損失慘重。但過去兩年的研究反復證明，模型權重里存在大量冗余信息。三個值，如果分配得當，足以承載絕大部分的模型能力。

這不是一個新概念。2024 年，微軟研究院發布了 BitNet b1.58，第一次系統論證了三值大模型可以逼近全精度模型的性能。微軟隨后在去年進一步發布了 BitNet b1.58 2B4T，一個 20 億參數、4 萬億 token 訓練的開源三值模型。上個月，美國公司 PrismML 發布了 Ternary Bonsai 系列，宣稱是首批商業可用的 1.58-bit 模型。

上：Llama FP16架構，下：微軟研究院開發的BitNet架構

學術界也同樣在跟進：Tequila 提出了解決三值量化中「死權重陷阱」的新方法，TernaryLM 探索了從零開始的原生三值訓練。

一條全球賽道正在成型。但有一個關鍵問題始終沒有被回答：

三值大模型訓練，能在國產算力上跑通嗎？

昇騰上的第一次

這一次，在華為鯤鵬昇騰開發者大會（KADC 2026）上，面壁智能給出了答案。

BitCPM-CANN 是面壁智能聯合清華大學、OpenBMB 開源社區發布的三值大模型系列。它的意義不僅在于「又發了一個三值模型」。在全球賽道上，BitCPM-CANN 做到了三個此前沒有人做到的事情。

第一次，在華為昇騰上端到端完成三值大模型訓練。此前所有公開的三值模型訓練都在 NVIDIA GPU 上完成。國產芯片陣營第一次擁有了自己的三值訓練能力。第一次，一次性把規模推到 8B。此前昇騰上的低比特訓練停留在較小規模的驗證階段。BitCPM-CANN 直接發布了 0.5B、1B、3B、8B 四個檔位，覆蓋從手機到 PC 的完整端側場景。第一次，實現了與全精度模型的完整對照評測。11 項任務、四大類評測（常識、閱讀理解、學科知識、數學推理），1B 到 8B 檔位的能力保留率在 95.7%到 97.2%之間。

97.2%的能力保留率意味著什么？在 ARC、CMMLU、GSM8K 等主流評測中，BitCPM-CANN 三值模型與同尺寸 MiniCPM4 全精度模型的差距，已經小于許多全精度模型之間的差距。其中，3B 檔位的保留率最高，達到 97.2%。

而且，這不只是論文里的數字，是能真正可以「拿來就用」的成果。BitCPM-CANN 的全部尺寸版本已經開源，0.5B 到 8B 四個檔位都可以直接下載復現。

對于熟悉面壁智能 MiniCPM 系列的開發者來說，BitCPM-CANN 就是 MiniCPM 家族的三值版本，還是一套生態。在同一個 GitHub 社區，家族前輩積累了 3 萬顆星、Hugging Face 總下載量超 3000 萬的「家產」，現在生長出來了新的方向。

6 倍顯存，從服務器到手機都「吃到紅利」

相比 BF16 全精度模型，BitCPM-CANN 節省約 6 倍顯存，這個數字開發者最能直接感知：一個 8B 參數的全精度模型需要約 16GB 顯存，BitCPM-CANN 三值版本不到 3GB，可以流暢運行在一部手機上，配合 MoE 與激活范圍約束，60B 規模的模型有望裝入終端設備。

硬件端也已經準備好了。高通最新的旗艦芯片 8850 和 8397 支持 2-bit 原生推理，BitCPM-CANN 提供的恰好是可以直接喂進去的低比特權重。

芯片廠商等供給，模型廠商等芯片，現在兩邊同時到位了，怎么不是一種「雙向奔赴」。

手機廠商對端側大模型的投入一直在加速。上周 Google I/O 上，Gemini Intelligence 全面接管 Android 設備，從手機到手表到車機；蘋果也將在 6 月 WWDC 上展示下一代 Apple Intelligence 的重大升級。

兩大手機操作系統同時發力，共同指向一個現實：手機端側要跑越來越強的 AI，內存就是最硬的瓶頸。誰能用更少的內存跑更強的模型，誰就掌握了下一輪競爭的主動權。

實際上，如果結合整個 AI 產業正在經歷的陣痛，價值又會更上一層樓：4 月時，高盛把全年 DRAM 價格漲幅預期上調到 280%，美銀預估全球 HBM 市場將達到 546 億美元。

AI 基礎設施最緊缺的資源就是內存，6 倍顯存紅利意味著不增加物理內存，就能把模型能力提升數倍。在內存持續漲價的情況下，這不是優化，是剛需。

三值量化不是「用精度換內存」的妥協。當 97%的能力被保留下來時，說明傳統 16 位模型里大量的精度可能是冗余的。三個值，足以承載一個大模型的絕大部分知識。低比特不再是工程上的節省手段，而是一種新的權重知識承載方式。

為什么是面壁智能，為什么是現在

當 AI 從云端走向終端，端側模型正在成為個人智能設備的核心能力。手機、電腦、車機，每一個貼近用戶的終端都在等一個足夠小、足夠強、足夠省內存的模型。這條賽道的勝負手，不會是那些只會把模型做大的團隊，而是能把模型做小、做輕、做到真正能跑起來的玩家。

為什么是面壁智能，能在端側大模型這條路上，一直走在前沿？這個問題的答案不在 BitCPM-CANN 本身，而在這家公司過去幾年，一直在做的一件看起來有些「不合群」的事。

面壁智能從成立之初就押注效率，在國內大多數團隊追逐更大模型的時候，他們花了大量時間做底層訓練框架 BM-Train，解決「怎么用更少的資源，訓出足夠好的模型」，這套基礎設施積累是后來一切的起點。

在 1.58-bit 方向上，面壁智能的判斷早于行業共識。許多數團隊還在猶豫極低比特是否可行時，面壁智能就選定了這條路線，先在 GPU 上跑通了完整的訓練流程和方法論，再整體遷移到昇騰平臺上。可以說，BitCPM-CANN 不是把一個模型移植到了國產芯片上，而是把一整套經過驗證的訓練方法、效率路線和工程體系，搬進了國產算力的底座。

在模型層面，面壁智能的端側模型 MiniCPM 系列在 GitHub 上積累了超過 3 萬顆星，Hugging Face 開源總下載量超過 3000 萬，是端側大模型領域最受歡迎的中國開源模型家族。

BitCPM-CANN 正是 MiniCPM 家族向三值量化的延伸，遠不止一個展示性的「PPT 模型」，是一個真正可復用的工程地基。它背后的訓練鏈路已經被沉淀為昇騰低比特訓練的基礎設施，后續所有想在昇騰上做低比特訓練的團隊，都可以在同一套底座上起步。

值得一提的是，BitCPM-CANN 還在華為昇騰上完成了端到端的三值訓練，訓練效率達到常規基線的 95%。這證明了這套方法論不依賴特定硬件平臺，國產算力同樣可以跑通。

不是等硬件變得足夠強大來適應模型，要讓模型變得足夠聰明來適應硬件。

從訓練端的華為昇騰，到推理端的終端芯片，再到開源的模型和訓練腳本，這是一條完整的國產閉環，框架國產，芯片國產，模型國產，方法論自主。面壁智能的下一步已經明確：進一步提升模型的能力保留率，用 MoE 架構擴展更大規模模型的容量，把 6 倍顯存紅利完整釋放到部署中。更長遠的目標，是覆蓋從預訓練到對齊的全流程低比特化。

從底層訓練框架 BM-Train，到端側模型家族 MiniCPM，再到 BitCPM-CANN，面壁智能用幾年時間搭建了一套完整的端側大模型技術體系。在全球賽道上，面對微軟、PrismML，面壁智能展現出了獨特的不同優勢之處在于：從框架、方法論、模型到芯片適配，構建了一條完整的端側技術路線。

當 AI 競爭從「誰的模型更大」轉向「誰能讓智能真正跑在每一臺設備上」時，掌握端側技術話語權的人，才站在了最有利的位置。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.