撰文| 郝 鑫
編輯| 吳先之
大模型決定了“腦容量”,定義了模型的知識上限與智能天花板。
低比特技術,則是讓大模型“小而強”的魔法,它重新排列了每一個“腦細胞”的密度。這條路指向兩個明確的方向:要么在有限的內存與顯存資源下,塞進參數規模更大的模型;要么讓同樣大小的模型,跑得更快、更省電。
低比特模型一直處于小眾賽道,直到今年內存價格一年漲了5倍,倒逼整個大模型行業尋求性價比更高的落地解決方案。
而早在2024年下半年,面壁智能就開始押注2-bit及以下的技術路線。彼時,面壁智能AI Infra團隊在訓練時觀察到,從BF16到INT4(從高精度到底精度),模型能力損失極小,說明“甜蜜點”一定在更低處。
基于此,他們在當時形成了兩個“反共識”:更低比特的模型,能獲得更高的知識密度;內存是模型行業最稀缺的資源,未來一定會變得越來越值錢。
帶著這樣的判斷,面壁智能在GPU上率先驗證了BitCPM系列。到今年,他們將這套方法論完整遷移到了華為昇騰,端到端跑通了國產算力平臺的1.58-bit訓練。
![]()
測試數據顯示,相比傳統BF16精度,BitCPM-CANN在推理階段釋放約6倍顯存空間,同時將模型能力保留率維持在90%–97.2%。這意味著,同等模型能力在終端運行,只需過去1/6的內存。
1.58-bit的極限挑戰
“1.58-bit是技術極限驗證的探針”。
面壁智能AI Infra技術負責人、清華大學計算機系高性能所的水木學者博士后李宇軒向光子星球解釋,開源發布最極端的1.58-bit,目的是為了驗證極低位寬量化感知訓練之路能否走通。
![]()
“1.58-bit是保證訓練穩定、模型能力不崩塌的最低位寬要求。如果這都能成功訓練并保持高能力,那么2-bit、4-bit、8-bit等更寬松的低比特方案自然更容易實現,且效果更好”,這是一種取法乎上,僅得乎中的技術策略,即先攻克最難的點,然后再向下兼容。
如何獲得參數更小卻更強的模型?行業中傳統的解法是PTQ(后訓練量化),即先用高精度如BF16完成模型訓練,再將其權重壓縮至INT8或INT4。
INT4是一種4位整數精度,相比BF16節省4倍內存,是目前低比特量化的“實用基準線”,而1.58-bit則是突破這條線,向極限壓縮進一步逼近的探索。
這本質是一種以精度換內存的做法,壓縮越狠,性能損失越大。就好比把一本寫好的名著,壓縮成口袋書,每個字只能用原來4/1的墨水寫,結果是字跡模糊、內容丟失,有的地方甚至看不懂。
正是看到了PTQ的弊端,面壁智能在訓練上采用了先做QAT(量化感知訓練)、再蒸餾的方案。李宇軒表示,這個方案的核心是既能穩定收斂,又能保留全精度能力。這相當于作者最初就知道要被制作成口袋書,直接用更簡潔的語言表達相同的內容,所以壓縮后依然清晰可讀。
以前我們認為,位寬越大、精度越高,模型就越聰明。但面壁智能的實踐證明,重要的不是每個參數占多大地方,而是占的每一寸地方裝了多少知識。低比特訓練不再是,為了省內存而犧牲精度的妥協,而是一種全新的思路:用最少的資源,承載最高的知識密度。
根據BitCPM-CANN與同尺寸MiniCPM-4全精度模型家族在常識、閱讀理解、學科知識、數學與推理等11項任務上的1:1性能對照。
![]()
BitCPM-CANN三個尺寸模型的能力保留率達到95.7%-97.2%,即使是能力保留最弱的0.5B,保留率也達到了90%以上,幾乎保留下來原本大模型的能力。
我們來簡單算筆賬,同樣一個8B大小的模型,用傳統BF16格式存,光權重就要吃掉16GB空間,普通手機根本裝不下。但用1.58-bit格式存,釋放6倍顯存占有空間,所占大小手機差不多相當于一部完整的高清電影。
李宇軒告訴我們,未來他們將進行更精細化的數據處理,將0.5B檔的模型能力保留率提升至95%。同時結合MoE架構,利用稀疏專家擴展容量上限,60B參數的超大模型有望裝入手機。
跑出一條國產低比特之路
內存價格暴漲,正在倒逼行業算清楚經濟賬。
公開信息顯示,2026年DDR5內存價格暴漲數倍,32G條從年初的500元漲至超4000元,HBM更是天價。
這讓本身就對價格敏感的端側廠商陷入了兩難境地。有手機廠商告訴我們,用戶期待更強的AI能力,但內存漲價3-5倍后,若維持原內存升級節奏,價格翻倍;不漲配置則體驗倒退,用戶不買單;漲價又怕丟失市場,部分旗艦機型已經被迫原地踏步。
要解決上面的難題,國產替代是一個解決思路。國產廠商長鑫存儲已率先破局,DDR5實現量產,其價格比國際同類產品低15%-20%。換用國產內存,同樣容量立省兩成,從源頭上緩解了成本壓力。
低比特技術則指向另一條路徑,不在“買內存”上省錢,而是在“用內存”上極致壓縮。廠商無需堆砌更多內存,就能讓手機跑起參數量翻倍的模型。結果是,用戶既能感知AI體驗升級,廠商又能實現降本。這正是今年行業突然重視低比特模型的根本原因,跳出學術探索范圍,低比特模型未來可能成為化解端側AI商業焦慮的那把鑰匙。
在此基礎上,面壁智能填補了國產低比特大模型市場的空白。其BitCPM-CANN是首個在昇騰上端到端,原生完成訓練的1.58-bit極低比特大模型,從算子、算法到訓練框架全是國產。這證明了國產算力平臺不僅能訓,還能訓出世界領先的極低比特模型。
國產NPU陣營也第一次擁有自己的1.58-Bit低比特訓練棧,無需再繞道CUDA驗證、遷移。一旦做完,就是基礎設施級的沉淀。之后所有面向昇騰的低比特訓練,都將建立在同一套底座之上。最終結果顯示,整體顯存節能約6倍,推理速度快了2到4倍。
![]()
李宇軒介紹,在適配華為昇騰、推進低比特訓練過程中,核心卡點主要集中在軟件生態與工程調優層面。
在軟件生態上,華為昇騰的編程門檻較高、熟悉其工具鏈的開發者較少,尤其在長上下文支持方面有欠缺,面壁智能團隊為此花費了大量調試時間。
低比特訓練本身也存在諸多工程難點。如果量化器選錯,模型效果會斷崖式下降。訓練流程需要精細調優,必須先做量化感知訓練讓模型進入穩定收斂態,再引入蒸餾,這個“甜蜜點”需要大量實驗才能找到。低位寬模型在某些基礎能力上容易退化,需要針對性補數據,用更耐心的方式準備訓練集。
參考面壁智能AI Infra團隊的經驗,在既有GPU經驗積累的前提下,跑通昇騰全鏈路仍需三周到一個多月,更大模型適配時間會更長。
此次BitCPM-CANN將多種數據以可復現的方式開源。
“像OpenAI和DeepSeek,推動全行業做強化學習一樣,我們也希望向行業證明,在國產芯片做極低比特訓練一樣可行。”
生態議價權
過去,模型廠商、芯片廠商與終端廠商各自為戰。
模型在英偉達上訓練,芯片廠商只管賣算力,終端廠商負責集成。但在端側AI時代,這條清晰的鏈條正在模糊,而低比特技術,正成為連接三方的核心紐帶。
對模型廠商而言,低比特技術是核心競爭力。誰能拿出更小、更快、能力保留率更高的模型,誰就能贏得終端廠商的訂單。面壁智能開源BitCPM-CANN模型,本質上就是試圖建立“低比特模型的標準”,以吸引芯片和終端廠商主動圍繞其生態進行適配。
對芯片廠商來說,硬件已先行一步。高通驍龍8 Gen 4等旗艦芯片已原生支持2-bit推理。但硬件跑起來,缺的是高質量的低比特模型。面壁智能這樣的模型廠商恰好補上了供給側的空檔,讓芯片廠商的硬件能力真正有了用武之地。雙方深度合作,如面壁智能與華為昇騰,共同優化算子、校準量化參數,形成軟硬一體的護城河。
站在終端廠商角度,低比特模型直接決定了產品的AI體驗與成本結構。手機廠商不再只是采購芯片、預裝模型,而是需要與模型廠商聯合調優,甚至定制專屬模型。這種深度綁定,使得終端廠商一旦選定合作方,就難以輕易切換,生態鎖定自然形成。
模型公司與終端廠商的協作,甚至深入到了訓練階段。面壁智能對低比特模型能力損失的商業化處理,就是一個很好的例證。
用戶在手機、汽車上真正高頻使用的,是文本總結、語音助手、信息檢索這些功能,而不是寫代碼或解高等數學題。那些冷門能力,絕大多數用戶一年也未必用上一次。
面壁智能正是抓住了這一點,通過后訓練,把低比特模型那3%-5%的能力損失,集中到了這些低頻功能上。結果就是核心場景的精度近乎完整保留,用戶完全感覺不到體驗下降,而廠商的成本卻實實在在地降了下來。
現階段,能夠提供穩定、高效、易部署的低比特模型的公司,將在端側AI生態中占據核心生態位。因為它既是算法提供者,也是芯片優化伙伴,還是終端廠商的AI能力外包方。這種多重身份帶來的議價能力和生態影響力,遠超傳統“賣模型授權”的商業模式。
關于未來更大的想象來自于,當60B大模型封裝進手機,會發生什么?
![]()
目前端側主流的3B-8B模型,能力大致相當于小學生或初中生,能回答常識問題、做簡單推理,但面對復雜邏輯、長上下文、專業領域知識時容易出錯。60B模型則完全不同,端側AI將具備解數學競賽題、分析法律文書、解讀金融報表等專業能力。
當60B模型完全運行在手機本地時,許多原本必須依賴云端的重任務將變得即時、私密與永遠可用。從原來設定鬧鐘、查天氣升級為規劃旅行路線、比價購物;從簡單補全函數,到生成完整模塊、調試bug;從寫標題、文案,到能寫完整報告等。并且上述所有行為,不聯網、不上傳數據、零延遲。
這背后是低比特技術、國產算力與端側芯片的交匯。算法讓模型變小,芯片讓模型跑快,內存讓它裝得下。當這三條曲線同時越過臨界點,端側AI的基建就搭建完成了。
一旦端側AI基建就位,超級應用或許也不就再遙遠了。
微信號|TMTweb
公眾號|光子星球
別忘了掃碼關注我們!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.