網易首頁 > 網易號 > 正文申請入駐

萬字深度｜面壁智能，在效率的極限處，連續穿越AGI的周期

2026-05-07 21:46:02　來源: 胡說成理

河南舉報

分享至

站在2026年的今天回看，中國大模型產業的敘事，大多圍繞兩個關鍵詞展開：規模與應用。

一方面，是不斷被刷新參數上限的模型競賽，仿佛只有“更大”才能通向“更強”；另一方面，是圍繞API調用、Agent與行業落地展開的商業化肉搏。幾乎所有公司，都在這兩條路徑之間尋找自己的位置，試圖在算力軍備競賽與用戶增長之間求得一線生機。

但如果把時間線拉長，會發現有一類公司，其路徑并不完全遵循這兩條主線。

面壁智能就是其中一個典型。

這家公司并不以參數規模見長，在傳播上也不追求高調，但它卻長期領跑在另一條更隱蔽的技術軌道上：圍繞“如何在有限資源下構建更高能力的模型”這一問題，持續推進。

這使它形成了一種少見的技術路線——不是由產品規模或用戶數量定義，而是由一套穩定且一貫的技術判斷所塑造。在巨頭林立、算力為王的時代，面壁智能走出了一條以“智能密度”為核心，從云端向端側，從通用向垂直的“精益”突圍之路。

——導語

不是參與者，而是范式的連續跨越者

通往AGI的道路上，企業發展路徑的城頭變幻大王旗，甚至比技術的煥新來的更快。

2023年5月，行業曾用“AI六小虎”總結中國大模型創業的核心陣營：智譜AI、MiniMax、百川智能、零一萬物、月之暗面、階躍星辰。這些明星公司均有著履歷光鮮的創始團隊，一度被視為中國大模型產業的風向標。

然而，資本的聚光燈遠比技術路徑更易轉向。短短兩年間，這個組合已經面目全非。2025年1月，零一萬物創始人李開復明確宣布不再追求訓練超大模型，公司逐漸轉變為一家AI應用與工程公司。2025年9月，百川智能創始人王小川通過全員信明確——專注醫學，減少多余動作。兩員大將前后腳退出了基座模型的競賽。

取而代之的是新概念的涌現。“AGI五小龍”成為了繼“六小虎”之后新的行業明星群體。這一組合中的五家企業——智譜AI、MiniMax、月之暗面、階躍星辰與面壁智能——都以AGI為終極目標。

前四家早已聲名在外，而面壁智能，則是最新加入這一行列、也最具路徑個性的那一個。

這是一家既“老”且“新”的公司。

說它“老”，是因為其核心團隊至今仍和清華大學NLP實驗室（THUNLP）有著極其密切的聯動，其在大模型領域的積累可以追溯到2019年，甚至更早。2020年12月，團隊發布了國內首個中文大模型CPM-1，成為后來中國奠基性大模型“悟道”系列的首發主力陣容。可以說，這支團隊親歷了中國大模型從無到有的全過程。

說它“新”，是因為面壁智能在2022年8月才正式成立，且這一時間點要早于ChatGPT引發的創業熱潮——這意味著面壁的創業決策并非跟風，而是基于團隊對技術趨勢的獨立研判。而它真正旗幟鮮明地主攻端側大模型，則是在2023年8月之后完成的一次戰略性轉折。

這就是面壁智能最核心的特征：與技術成就相比，其真正的核心能力，并不僅僅在于某一具體技術棧，而在于核心團隊對“范式切換”的持續判斷能力——從知識圖譜轉向預訓練，從預訓練到高效訓練，從大參數模型轉向端側高效模型、再到今年火熱的本地類Claw產品,甚至 AI 制造 AI——每一次轉換，面壁都踩在了技術范式更迭的前夜。

國內的公司無論是大廠還是以技術出身的創業公司，脫離了中國高校的學術圈之后都會有一個問題——他們很難時刻緊跟最前沿的技術。而面壁不同，它始終與清華實驗室保持著深度連接，由此保持了許多思想上的活力。

換言之，面壁不只是一家公司，它是一個從學術創新土壤中持續汲取養分的有機體。

傳統的技術競爭像是攀登珠峰，目標明確，大家比拼的是誰爬得快；而大模型時代更像是一片沙漠里的“淘寶”，沒有人知道寶藏（AGI）的確切坐標，大家都在根據自己的直覺和地圖摸索。更重要的是，即使你挖到了寶藏，但隨時可能有人挖到更大寶藏的消息傳來，讓你痛悔不已——本質上，這是一場追求誰能活下來和持續發現寶藏的“無限游戲”。

而面壁之所以選擇端側，并非因為端側是終點，而是因為在資源極度受限的端側“沙漠”中，他們找到了一條能讓自己活得更久、跑得更快的路徑。

這是一家罕見的，對走一條完全自主的技術路線心里有數，并有超前洞見性的企業。它并不盲目追隨“大力出奇跡”的主流敘事，而是選擇了一條人跡罕至的“密度定律”之路。

從“密度定律”出發的技術路線

2023年，當整個行業都在為ChatGPT 的發布而顫抖，紛紛砸下重金試圖堆砌算力復刻“千億美元級”的模型時，面壁智能卻在做一件看起來“很蠢”的事：他們砍掉了原本計劃中的萬億參數大模型（CPM-D），轉而全力投入一個參數規模極小的模型研發。

從2020年GPT-3問世后聯合智源研究院做出中國第一個十億級參數的的中文大模型CPM-1，到 2022年做出百億級參數的CPM-B，再到2023年8月果斷暫停萬億參數路線并轉向端側——每一次行業拐點的到來，面壁似乎都提前半步聞到了風向——這就是我前面提到的“洞見力”。

這種判斷力在2023年的那個夏天達到了關鍵一躍。當時，“六小虎”們都在瘋狂融資、囤積算力，目標是“誰先達到GPT-4水平誰就是霸主”。面壁卻在一個內部會議上做出了一個反共識的決定：不做萬億模型。

“當時走了這條路，之后很有可能就是萬劫不復的深淵，”面壁智能首席研究員韓旭回憶，“會抽干所有資源，最后還不一定達到效果。”

2023年8月，面壁正式將戰略目標調整為：在2024年發布一個參數小于百億、能力約等于ChatGPT的模型。這個決定在當時看來近乎冒險——當所有人都在往云上沖刺時，為什么要往終端轉移？

因為面壁意識到，云側大模型的道路過于擁擠。更重要的是，云側大模型的計算成本、運營成本和隱私問題，使其難以真正“讓智能走進千家萬戶”——而這句話，恰好是面壁智能的slogan。

于是，一個大膽的目標被定了下來：做一個小于百億參數的模型，讓它達到ChatGPT的水平，并通過終端設備賦能千家萬戶。這是面壁端側路線的真正起點。

但端側并不是一個隨意選擇的結果，它背后有一套完整的技術哲學，也就是如今被稱為“大模型領域的摩爾定律”的“密度定律”。

所謂的大模型智能的密度定律，來自于面壁團隊持續的探索。可以說，對這個規律的探索和感悟，才是支持面壁智能發展的底層思維模式——大模型的智能密度每100天提升一倍。

這其中，智能密度 = 模型能力 / 推理算力能耗。

2025年，這一規律得到進一步深化，面壁智能的高層在公開演講中指出：大模型智能密度每3.3個月翻一番，意味著同等能力的模型，在3.3個月后僅需要一半的參數就能實現。

這就是面壁的核心理論框架。當行業普遍將參數規模視為能力核心時，面壁已經轉向了一個不同的函數：參數規模只是大模型的變量之一，而不是決定性變量。真正決定模型價值的，是單位參數所承載的有效智能。

這一思路的自然結果，在工程層面，就體現為在模型尺寸的收斂與效率的飆升這兩個看似矛盾的追求中尋找最佳平衡點。

但這種平衡不是沒有上限的，它建立在主流端側的算力限制之內。韓旭回憶說：“這個上限，在這一定律最早成型的時代背景下，是能夠在一臺采用高通驍龍8gen3芯片和8GB內存的手機上，勉強跑起來當時主流大模型的能力。”

嚴格的硬件上限之內對性能的極致追求，也是沿著這條路，面壁智能才一步步走到了今天。

回看面壁端側模型的產品迭代時間線，可以清晰地看到這條密度定律在工程層面的兌現過程：

2024年2月，面壁推出首個端側大模型MiniCPM，僅用24億參數的模型實現了超越同期百億參數模型的能力，一出手就打響了“小鋼炮”的名號。

此后，他們用40億參數的模型，實現了接近甚至超越GPT-3.5的能力；用80億參數模型逼近GPT-4的能力。這打破了“模型必須大”的迷信，證明了通過架構優化和數據質量的提升，小模型也能具備大智慧。

為了在有限資源下訓練大模型，面壁很早就自研了分布式訓練框架BMTrain。這不僅是對標DeepSpeed或Megatron的工程實現，更是其“密度定律”的體現——僅用32張卡甚至更少的資源，就可以啟動百億級模型的訓練，極大地降低了大模型的準入門檻。

更重要的是，在開始大批量訓練模型之前，他們建立了一套“模型風洞”機制——借鑒航空工業的空氣動力學理論，在小模型上快速實驗、驗證方案，再推演到大尺寸模型上。“我們在小范圍內把所有方案都嘗試完之后，最終得到一個最優方案，再去訓更大尺寸的模型，”韓旭解釋，“這樣可以降低大量的試錯成本。”

隨后接踵而至的，就是面壁在兩到三年里沖到端側超頭部的一連串驚人之舉。

2024年5月，多模態端側模型MiniCPM-V發布，以80億參數實現了多模態綜合性能超越GPT-4V、Gemini Pro等云側模型，首次在手機、平板等終端設備上實現多模態實時推理。

但讓這款模型真正廣為人知的，是其后來被美國頂尖高校斯坦福的一個AI團隊抄襲，引發了國際學術圈的軒然大波，最終以抄襲者致歉撤下模型告終。

面壁的端側多模態研究果也于2024年 7 月登上《Nature》子刊《Nature Communications》，標志著中國高效大模型的技術創新獲得國際學術界的最高認可

2025年1月，MiniCPM-o 2.6發布，以80億參數量在iPad上實現媲美GPT-4o的全模態實時流式視頻理解與高級語音對話能力，成為開源社區彼時最強語音通用模型與最強端側視覺通用模型。

2025年8月，MiniCPM-V 4.5開源，以80億參數量實現視頻理解、OCR、文檔解析能力的端側SOTA，用別人不到九分之一的參數做到了更強的效果。

2026年1月，行業首個全雙工全模態大模型MiniCPM-o 4.5發布，僅90 億參數的精簡體量，實現了語音、視頻、文本的全模態同步交互，從「一問一答」進化為「類人即時自由對話」。

目前看大模型公司，已經過了單看參數量的階段，更核心的pk是迭代速度和再迭代速度。而面壁證明了這兩個能力，自己全都具備。

具備的最有力證據，就是圖中的這條迭代曲線：

注：「密度定律」的曲線圖

有人問：為什么面壁智能明明走的是一條看似不那么主流的端側路線，但卻依舊被歸集于“AGI五小龍”的行列中？

這是因為，端側不是算力貧弱的代名詞，而是一種可攻可守的研發策略，它的終點同樣是AGI，而且是智力密度更高的AGI。

韓旭對此有一個精準的總結：“訓練端側模型的過程也是尋找大模型方法論的過程，能讓端側模型訓練成功的方法論，把參數規模放大，卡加多，很快就能把更大的模型給訓出來。只要掌握了方法論，訓練極大參數規模的模型，難點更多的是在算力基礎設施高效性和穩定性等工程性問題上。通向AGI的路線，是學術、工程、資源分配的組合優化問題。”

換言之，做端側模型的技術積累是向上兼容的，但反過來卻未必能行。一個長期聚焦云側的大模型公司可能并不知道如何讓大模型在手機芯片上以最佳效率運行。小參數尺寸的端側模型對數據質量會更為敏感，對大參數尺寸云側大模型成功的方案未必能成功訓練端側模型。但面壁則隨時可以把小模型的技術“放大”。只要給它足夠的資源和不長的時間，它就可以是一家標準意義上的大模型前沿企業。

韓旭舉的一個例子十分有趣：“現在開源的大模型家族里，不乏有極其優秀的大模型家族衍生出的小尺寸模型，最經典的比如Meta的Llama，它們也可以在端側設備上面跑，但它的效率絕對無法超過面壁智能的同尺寸模型。歸根結底，是其仍然采用了較原始的Transformer架構，而沒有充分考慮端側的特點進行設計。相反，我們同樣通過很多精巧的架構設計和模型強化訓練，使之更符合密度定律，也因此才能在端側更具競爭力——而這是那些主打大尺寸模型的企業很少會有的積累和水磨功夫。”

事實也證明了這一點——面壁不僅在端側領先，在法律領域等需要大參數模型，但由于合規性的要求又必須在本地設備上實現數據閉環的業務上，同樣具備全棧能力。甚至可以說的大一點——限制條件越多的環境，面壁的優勢就越明顯。

換言之，面壁強迫自己小，是因為追求小而精，同時具備隨時變大的能力，正如那句俗語一樣：“金麟本非池中物，一遇風云便化龍”。

小團隊的“跨層能力”與穿越周期的韌性

在組織形態上，面壁呈現出另一種反常識的特征：規模不大，但技術能力覆蓋面極廣。

面壁的團隊規模遠小于互聯網巨頭，也小于其它“小虎”，甚至核心研發人員只有幾十人。然而，這幾十人的團隊卻同時具備了三類稀缺能力，構成了其“跨層能力”的護城河。

首先，是模型結構的精益優化能力：面壁擁有極強的算法創新能力。從早期的CPM系列到MiniCPM，他們通過MoE（混合專家）架構、稀疏化計算等技術，實現了模型的“瘦身”與“增肌”。

在這個追求小而更強的過程中，面壁不是單純做應用調優，也不是只在模型之上疊一層 Prompt 或 Agent 框架，而是深入到訓推框架、數據治理、結構優化等大模型全技術鏈路。

從訓練框架BMTrain，到后來的稀疏架構InfLLM、低比特量化方法BitCPM、推理框架CPM.cu和ArkInfer，這些組件都集成在 MiniCPM 系列（尤其是 MiniCPM-4）中，形成了體系化的高效端側大模型方案，而且指向了同一個方向：不是僅僅“使用”現成大模型，而是在重新組織和加速“模型如何被訓練、被部署、被優化”的過程。

“抽象起來，大模型技術就兩條線”，韓旭分析，“數據決定模型能力，芯片和架構決定模型效率，前者是高質量的數據治理，后者是高度軟硬協同的架構設計與優化。”

面壁與DeepSeek被業內稱為兩家“國內最會做架構改進的公司"，但兩者的戰場截然不同：DeepSeek緊抓云側大算力場景，在萬卡集群上榨干算力價值；面壁則聚焦單張端側芯片，在功耗、散熱、訪存帶寬的嚴苛約束下追求極致效率。很多大模型企業，采用保守的傳統架構，通過同一批數據訓練多個尺寸模型；面壁則針對端側芯片特性，做了大量稀疏計算、近存計算等底層優化。

其次，是數據與訓練方法的獨特性：面壁是行業內最早提出“數據質量優于數據規模”的團隊之一。他們不盲目堆砌數據，而是通過數據合成、清洗和蒸餾技術，構建了高信息密度的訓練集。

韓旭曾談起，早期團隊在 ChatGPT 爆發前后，就已經做了大量指令微調和數據合成探索，也開源了很多有影響力的數據集，只是當時還沒有把它單獨作為一個顯性技術點提出來。也就是說，他們早期對于模型對齊、數據合成、蒸餾、用大模型清洗和擴展訓練數據這些方法，十分熟悉。

而在此后，MiniCPM 系列相關產品里，高質量數據樣本混入、多階段數據精細安排、用大模型輔助數據構造等做法，已經成為其“小模型高性能”路線的一部分。

最后，也是最強悍的是，面壁科技具備對底層硬件的極致優化能力。

這是面壁最獨特的“掃地僧”屬性。

在采訪中，面壁的受訪人透露，幾乎所有國產芯片廠商在遇到軟件棧優化難題時，都會直接找到面壁。面壁不僅是技術使用者，更是技術驗證者與構建者。他們參與了協助華為昇騰、鯤鵬，以及寒武紀、天數智芯等國產芯片構建和優化軟件棧，甚至能在沒有GPU的情況下，利用華為鯤鵬CPU實現大模型推理。

也就是說，硬件企業在自家的軟件團隊之外，還經常會找來面壁智能做外腦。這樣的結果，是面壁智能與國產硬件企業有了極其密切的聯系。

一個鮮明的例子，是我們前面提到的，2026年1月，MiniCPM-o 4.5發布。具有標志性的意義的是，該模型發布當天即完成對六大主流AI芯片（天數智芯、華為昇騰、平頭哥、海光、沐曦等）的適配與開源上線，實現端到端推理性能全面超越各芯片原生方案。如果沒有和硬件廠家長期的配合，一個端側模型極少能得到這樣的各家寵愛。

當然，這也是被逼出來的。在面壁最早的公司化階段，做 Infra 不是錦上添花，而是生存所迫。當時的各種問題，如算力不足、國產芯片不成熟、現成框架不完善，這“逼著我們必須往下走”。

也正因此，團隊后來逐漸發展出對芯片、推理框架和底層軟件棧的較強適配與優化能力。面壁今年也在不斷解決一個現實問題：端側芯片是碎片化的，如果不能在算法和硬件之間實現解耦、代碼復用和跨平臺高效部署，模型再強也很難真正落地。ArkInfer 這類技術，實際上解決的就是“一次開發，處處運行”的問題。

這意味著，面壁并不只是技術使用者，它也是技術驗證者和構建者。

在很多公司里，模型結構、數據訓練、硬件部署、商業化應用常常是彼此分開的：有人只做模型，有人只做工程，有人只管賣產品。而面壁的罕見之處，在于它把這些能力壓進了同一個組織之中，使得其人才的能力密度極高，正因為如此，它的影響力并不首先體現在用戶規模和市場聲量上，而體現在它為什么能持續穿越周期上。

同樣值得關注的是面壁的“前進四”人才培養機制。

面壁內部將研發團隊視為一個“人才培養平臺”——首席科學家劉知遠和韓旭本身就是清華教師，他們在面壁的身份是“帶人做前沿探索”，培養最頂尖的大模型人才，那些技術棧成熟、能獨當一面的人才，會被輸送到各團隊領導前沿項目同時培養更多人才。這種產學研深度融合的工作機制有效解決了大模型前沿技術高速演進與產業化需求之間的經典矛盾，也就是我們說的“始終有新鮮血液進來”的問題。因此面壁智能的一大優勢是原生的高水平人才培養能力。

從 GPT-3 的“大力出奇跡”，到 DeepSeek 等路線所代表的“優質、低成本訓練”，再到智能體時代，面壁看到的從來不是一個固定答案，而是一連串問題定義方式的變化。面壁之所以能歸入今天所謂“AGI 五小龍”的討論范圍，不是因為它突然變高調了，而是因為行業逐漸意識到：當大模型競爭從“誰更大”轉向“誰更高效、誰更可落地、誰更適合分發”時，面壁這類公司的價值反而會越來越明顯。

正是這種“以一當十”的技術密度，賦予了面壁穿越周期的能力。

端側模型的光明未來

在大部分AGI企業還在被反復追問“未來商業的終局模式到底是什么”的時候，面壁智能的商業化圖景，顯得既實在，又有很高的天花板。

首先，是端側路線中的“端”的價值。

和很多新的AI能力都處于“靈魂找不到肉體”的迷茫中不同，“端側”一開始就決定了面壁智能的商業化落地道路很清晰。

這是因為，沒有一個清晰功能定位的“端側”，是根本不會被制造出來的。

汽車就是最大的端側設備之一。以谷歌的Waymo為例，所有的自動駕駛能力都建立在端側之上，只有極少數非駕駛場景中會用到云側，這也改變了人們對端側“弱”的刻板印象，告訴人們：端側也可以很強大。

在汽車領域，MiniCPM系列先后搭載于長安馬自達EZ-60和吉利銀河M9等量產車型，合作方覆蓋吉利、長安、大眾、廣汽、長城、極氪等頭部車企。2025年，面壁將汽車業務線提升為一級組織，直接向CEO李大海匯報。

在具身智能方向，面壁與樂聚機器人聯合研發的人形機器人已深度集成MiniCPM-V 4.5端側多模態模型，可實現在嘈雜環境中的實時視覺理解與主動決策。

我們能接觸到的一切“端”，如手機、PC、車、可穿戴設備、邊緣設備、具身智能、智能駕駛，都在渴求更大的端側能力——這些終端場景的共同特點，是對成本、時延、響應速度、私密性和可持續運行有現實要求。云側大模型把能力集中在 API 上，適合訓練和統一調度，但成本高、調用重、依賴網絡，也天然不適合所有場景。相比之下，端側模型如果足夠強，就意味著能力可以被“分布化”地放置到各類設備之中：成本結構被重構，調用門檻下降，場景適配變得更靈活。

除了傳統意義上的硬件端側，“龍蝦”、“愛馬仕”等智能體調度框架，也極大的拉升了面壁智能的發展想像的天花板。

所有的人都在養蝦或養馬，但也都困惑于安全、成本、易用性等問題上，而在面壁智能的布局中，這些已經有了答案——在智能體時代，端側模型的意義遠不止“沒有網絡時的平替”，它指向三個“協同”：端云協同、軟硬協同、數模協同。端云協同解決的是成本與隱私的平衡；軟硬協同意味著模型設計與芯片發展的緊密耦合；數模協同則指向記憶管理，面壁聯同清華開源的UltraRAG框架，就試圖解決智能體“自己養蝦養出bug”的混亂現狀，讓數據與模型能力形成雙向迭代。

更深層的變革還藏在于AI能力的分發方式。如果未來終端芯片持續進化，甚至可能出現ASIC化的端側AI芯片——將大模型能力直接“焊”入硬件，徹底擺脫對云的依賴。

“如果走到那一天，不存在云這個概念，去中心化就是終局，”韓旭說，“大家都有自己的AI infa，不再依賴中心化的集群在部署給所有人服務。”

這不僅是技術的變革，更是AI和人關系的一種重塑，對此，面壁智能想的很遠很遠——面壁智能創始人劉知遠提出的“密度定律”和“摩爾定律”既是兩個時代的產物，又同樣對端側算力和端側模型能力的發展有驚人的預測洞察——

“摩爾定律”下，算力分為了超算、云算與端算，其中端算是云算的十四倍（IDC數據顯示）；同樣，“密度定律”下，根據智力的密度，大模型智能也將分為超級智能（AI for Science，讓 AI 像人類最強大腦科學家們一樣解決最難的科學問題）、云上智能與端側智能。

如果把兩個定律對照起來看，我們不難得出這樣的結論——未來大模型智能的中最耀眼的可能屬于超級智能，但從廣度和滲透率上，搭載端側大模型的設備量可能是現在手機保有量的幾倍、幾十倍，像面壁智能這樣建立起端側護城河的企業，未來的商業天花板是極高的。

結語

在一個被參數規模與資本驅動的時代，面壁智能提供了一種不同的參照系。

它的價值，不在于是否擁有最大的模型，也不在于是否擁有最多的用戶，而在于：它持續在回答一個更基礎的問題——模型究竟如何變強？

在“大算力+大數據”的暴力美學之外，面壁智能證明了“高智能密度+極致工程化”的可行性。它像一個在沙漠中尋找寶藏的智者，不靠人海戰術，而是依靠精準的羅盤（技術判斷）和高效的行軍（工程能力）。

通往AGI的路線，我們需要探索更多的可能性。面壁智能走了一條看上去人更少，但難度更高甚至是最高的路徑。這或許就是它最終成功的終局模式的前提：在效率的極限處，看見未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.