![]()
大模型技術從“云端”向“終端”轉移的過程中,實用主義終將戰勝性能堆砌。
作者丨陳嘉欣
編輯丨馬曉寧
5月13日,AI圈同時炸了兩件事。
第一件事是頂級CV學者何愷明帶著MIT團隊,發布了人生第一個語言模型ELF。
105M參數,不走GPT自回歸的老路,全程在連續embedding空間里做擴散,最后一步才離散化回文字。發布僅幾小時,X上的討論就炸了——"Kaiming出品,必屬精品"。
![]()
第二件事是清華系團隊面壁智能開源了新一代「小鋼炮」MiniCPM-V 4.6。
這款模型在Artificial Analysis的智能指數上拿了13分,比Qwen3.5-0.8B高出整整3個點,卻只有它1/19的推理token消耗量。而且它僅1.3B,一張4090就能“爆改”。
![]()
同一天發生的兩件事都在指向一個問題:AI行業正在經歷一個微妙的轉折,從"堆算力"轉向"省算力"。
2026上半年,當DeepSeek V4、Qwen3.5、Gemma 4這些大廠還在卷千億參數時,端側小模型的已經迎來了新一輪浪潮,如今社區最大的聲音已經不是"誰家模型最大",而是"誰家模型最小、最快、最省硬件"。
01
算力降維:從"堆H100"到"一張4090就夠了"
面壁智能這次開源的MiniCPM-V 4.6,最炸裂的不是參數規模本身,而是效率。
先看一組數據:在Artificial Analysis的智能指數測試中,MiniCPM-V 4.6以5.4M output token完成全部測試,同期測試的Qwen3.5-0.8B非推理版用了101M,推理版用了233M。前者是后者的1/19和1/43。
![]()
1/43是什么概念?別人做43次推理的算力,它能做43次。
再看吞吐量:在256并發、1000張圖像的高壓測試下,MiniCPM-V 4.6單張RTX 4090的吞吐量比Qwen3.5-0.8B高出1.6倍。
![]()
清華系的1.3B"小鋼炮",同樣把硬件門檻拉到了極致,一張消費者級別的RTX 4090就能跑。不需要H100,不需要A100。一臺游戲顯卡就能部署AI模型做二次開發。放在一年前,這是不敢想的。
這些數據放在一起,指向同一個結論:AI的參數競賽正在讓位于效率競賽。
一位曾經在Meta和momenta任職,目前現在做具身創業的研究者向雷峰網表示,小模型在端側的優勢不是理論上的,是實打實的商業選擇。"大多數用戶不需要一個能寫論文的模型,他們需要的是一個能隨時響應、不掉線的模型"。
另一位高通的負責人也向雷峰網表示了類似觀點:“參數越少,越容易在本地做微調、越容易適配每個人的使用習慣。個人AI時代,模型不需要記住全人類的知識,只需要記住你一個人的就夠了"。
沿著這條思路往下看,你會發現小模型干的遠遠不只是"省算力"這么簡單。
02
架構換道:從"預測下一個詞"到"連續空間擴散"
何愷明的ELF,走了一條和GPT完全不同的路。
先搞清楚一個背景。兩年多來,AI對話模型的根基幾乎都是"預測下一個詞",把一句話拆成一個個token,依次猜下一個該是什么。這條路GPT證明了有效,但也有一條為人熟知的軟肋:生成速度慢、且沒法回頭修改已經生成的詞。
擴散模型在圖像領域早就證明了"不按順序也能生成高質量內容",Stable Diffusion從一團噪聲逐步恢復為一張圖像,比自回歸生成靈活得多。但在語言領域,這條路一直走得磕磕絆絆。
問題出在哪?現有的大多數擴散語言模型(DLM)雖然在"做擴散",但操作的對象仍然是離散token,本質上還是在有限的離散空間里"洗牌",沒有真正發揮擴散的連續優勢。
何愷明團隊的解法干凈利落:全程留在連續embedding空間里去噪,只在最后一步離散化成文字。
![]()
這就像以前做雕塑,是一塊塊往上堆泥巴(順序生成每個token);現在是把一整塊石頭里的多余部分全部磨掉(在連續空間逐次去噪),最后一步才刻上細節。效率更高,而且能全局統籌。
這種解法起手就和之前完全不一樣。所以ELF 105M參數、45B訓練token、32步采樣,就跑贏了現有的DLM方案,不需要額外蒸餾。
沿著架構創新的方向再看MiniCPM-V 4.6。它采用LLaVA-UHD v4架構,視覺編碼器的計算量降低了約50%。這意味著,處理一張3136×3136的高分辨率圖像,在RTX 4090上只需要75.7ms。以前這是云端的活,現在端側芯片就能干。
從"預測下一個詞"到"連續空間中去噪",從"云端算力"到"端側芯片",這兩條看似獨立的創新線,正在指向同一個方向:AI模型的底層架構,正在從"一個超大的黑箱"變成"一個精巧的、分工明確的小系統"。
架構變了,生態也會變。小,正在成為新的"大"。
03
拉開AI輕量化浪潮的序幕
根據AI科技評論的觀察,目前市場上關于AI輕量化的三個變化正在發生。
變化一:端側AI從概念到標配。MiniCPM-V 4.6已經能在手機上跑,不需要聯網,不需要云。2026年下半年,你會看到更多手機廠商把端側模型作為賣點,直接打出"本地跑模型"的旗號。
變化二:架構創新正在打破Scaling Law的壟斷。ELF證明了語言模型不一定非要自回歸。MiniCPM證明了1.3B也能打。Scaling Law說"越大越好",但ELF和MiniCPM說"夠用就好,夠快更好"。當架構創新成為新的競爭力源頭,"堆參數"的軍備競賽模式正在失效。
變化三:商業模式與落地場景由“算力競賽”轉向“成本優化”。企業端不再盲目追大,多數 B 端場景如智能客服、文檔輔助等開始傾向于定制化的輕量級模型,因為其推理成本僅為超大模型的數十分之一,更符合商業閉環。
何愷明下場做語言模型,面壁開源第五代端側模型,高通押注個人AI。站在2026年5月回頭看,這些不是孤立的新聞。它們拼出了同一個信號:AI輕量化浪潮的序幕已經拉開。
AI 的未來不再是“越大越好”,而是“在足夠的聰明度下,越輕越貴”。如何做更好的小模型,這或許才是2026年AI行業最值得關注的方向。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.