網易首頁 > 網易號 > 正文申請入駐

同一天兩件大事！小模型直接掀翻千億參數，走向效率為王

2026-05-14 08:36:37　來源: AI科技評論

廣東舉報

分享至

大模型技術從“云端”向“終端”轉移的過程中，實用主義終將戰勝性能堆砌。

作者丨陳嘉欣

編輯丨馬曉寧

5月13日，AI圈同時炸了兩件事。

第一件事是頂級CV學者何愷明帶著MIT團隊，發布了人生第一個語言模型ELF。

105M參數，不走GPT自回歸的老路，全程在連續embedding空間里做擴散，最后一步才離散化回文字。發布僅幾小時，X上的討論就炸了——"Kaiming出品，必屬精品"。

第二件事是清華系團隊面壁智能開源了新一代「小鋼炮」MiniCPM-V 4.6。

這款模型在Artificial Analysis的智能指數上拿了13分，比Qwen3.5-0.8B高出整整3個點，卻只有它1/19的推理token消耗量。而且它僅1.3B，一張4090就能“爆改”。

同一天發生的兩件事都在指向一個問題：AI行業正在經歷一個微妙的轉折，從"堆算力"轉向"省算力"。

2026上半年，當DeepSeek V4、Qwen3.5、Gemma 4這些大廠還在卷千億參數時，端側小模型的已經迎來了新一輪浪潮，如今社區最大的聲音已經不是"誰家模型最大"，而是"誰家模型最小、最快、最省硬件"。

算力降維：從"堆H100"到"一張4090就夠了"

面壁智能這次開源的MiniCPM-V 4.6，最炸裂的不是參數規模本身，而是效率。

先看一組數據：在Artificial Analysis的智能指數測試中，MiniCPM-V 4.6以5.4M output token完成全部測試，同期測試的Qwen3.5-0.8B非推理版用了101M，推理版用了233M。前者是后者的1/19和1/43。

1/43是什么概念？別人做43次推理的算力，它能做43次。

再看吞吐量：在256并發、1000張圖像的高壓測試下，MiniCPM-V 4.6單張RTX 4090的吞吐量比Qwen3.5-0.8B高出1.6倍。

清華系的1.3B"小鋼炮"，同樣把硬件門檻拉到了極致，一張消費者級別的RTX 4090就能跑。不需要H100，不需要A100。一臺游戲顯卡就能部署AI模型做二次開發。放在一年前，這是不敢想的。

這些數據放在一起，指向同一個結論：AI的參數競賽正在讓位于效率競賽。

一位曾經在Meta和momenta任職，目前現在做具身創業的研究者向雷峰網表示，小模型在端側的優勢不是理論上的，是實打實的商業選擇。"大多數用戶不需要一個能寫論文的模型，他們需要的是一個能隨時響應、不掉線的模型"。

另一位高通的負責人也向雷峰網表示了類似觀點：“參數越少，越容易在本地做微調、越容易適配每個人的使用習慣。個人AI時代，模型不需要記住全人類的知識，只需要記住你一個人的就夠了"。

沿著這條思路往下看，你會發現小模型干的遠遠不只是"省算力"這么簡單。

架構換道：從"預測下一個詞"到"連續空間擴散"

何愷明的ELF，走了一條和GPT完全不同的路。

先搞清楚一個背景。兩年多來，AI對話模型的根基幾乎都是"預測下一個詞"，把一句話拆成一個個token，依次猜下一個該是什么。這條路GPT證明了有效，但也有一條為人熟知的軟肋：生成速度慢、且沒法回頭修改已經生成的詞。

擴散模型在圖像領域早就證明了"不按順序也能生成高質量內容"，Stable Diffusion從一團噪聲逐步恢復為一張圖像，比自回歸生成靈活得多。但在語言領域，這條路一直走得磕磕絆絆。

問題出在哪？現有的大多數擴散語言模型（DLM）雖然在"做擴散"，但操作的對象仍然是離散token，本質上還是在有限的離散空間里"洗牌"，沒有真正發揮擴散的連續優勢。

何愷明團隊的解法干凈利落：全程留在連續embedding空間里去噪，只在最后一步離散化成文字。

這就像以前做雕塑，是一塊塊往上堆泥巴（順序生成每個token）；現在是把一整塊石頭里的多余部分全部磨掉（在連續空間逐次去噪），最后一步才刻上細節。效率更高，而且能全局統籌。

這種解法起手就和之前完全不一樣。所以ELF 105M參數、45B訓練token、32步采樣，就跑贏了現有的DLM方案，不需要額外蒸餾。

沿著架構創新的方向再看MiniCPM-V 4.6。它采用LLaVA-UHD v4架構，視覺編碼器的計算量降低了約50%。這意味著，處理一張3136×3136的高分辨率圖像，在RTX 4090上只需要75.7ms。以前這是云端的活，現在端側芯片就能干。

從"預測下一個詞"到"連續空間中去噪"，從"云端算力"到"端側芯片"，這兩條看似獨立的創新線，正在指向同一個方向：AI模型的底層架構，正在從"一個超大的黑箱"變成"一個精巧的、分工明確的小系統"。

架構變了，生態也會變。小，正在成為新的"大"。

拉開AI輕量化浪潮的序幕

根據AI科技評論的觀察，目前市場上關于AI輕量化的三個變化正在發生。

變化一：端側AI從概念到標配。MiniCPM-V 4.6已經能在手機上跑，不需要聯網，不需要云。2026年下半年，你會看到更多手機廠商把端側模型作為賣點，直接打出"本地跑模型"的旗號。

變化二：架構創新正在打破Scaling Law的壟斷。ELF證明了語言模型不一定非要自回歸。MiniCPM證明了1.3B也能打。Scaling Law說"越大越好"，但ELF和MiniCPM說"夠用就好，夠快更好"。當架構創新成為新的競爭力源頭，"堆參數"的軍備競賽模式正在失效。

變化三：商業模式與落地場景由“算力競賽”轉向“成本優化”。企業端不再盲目追大，多數 B 端場景如智能客服、文檔輔助等開始傾向于定制化的輕量級模型，因為其推理成本僅為超大模型的數十分之一，更符合商業閉環。

何愷明下場做語言模型，面壁開源第五代端側模型，高通押注個人AI。站在2026年5月回頭看，這些不是孤立的新聞。它們拼出了同一個信號：AI輕量化浪潮的序幕已經拉開。

AI 的未來不再是“越大越好”，而是“在足夠的聰明度下，越輕越貴”。如何做更好的小模型，這或許才是2026年AI行業最值得關注的方向。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

從智能體到賽博員工，生產力智能涌現

機器之心Pro 2026-05-15 18:02:32
0 跟貼 0
微軟被曝考慮收購大模型創企，SpaceX也看上了同一家

智東西 2026-05-14 20:37:16
2 跟貼 2

為了應付老板的Token消耗KPI，亞馬遜員工竟這樣做

機器之心Pro 2026-05-15 12:43:58
0 跟貼 0

實測兩款AI工具后，我開始認真考慮“一人公司”了

智東西 2026-05-15 19:03:22
0 跟貼 0
當模型調用成為生產成本，中國移動國際AI Hub給出了答案

雷科技 2026-05-15 20:24:49
0 跟貼 0

今天，用了豆包新品，我想扔掉鍵盤了！

智東西 2026-05-15 21:22:14
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
5大看點拿走不謝！離中國AIGC產業峰會只有5天啦

量子位 2026-05-15 19:40:11
0 跟貼 0

“00后”回母校捐20億Token，到底捐的是什么？

新浪財經 2026-05-15 12:46:26
0 跟貼 0
174億元！國內最大Token大單，首次開標

智東西 2026-05-14 11:01:16
132 跟貼 132
北師大智慧學習研究院院長黃榮懷：一些通用大模型如直接進校園，可能帶來不良信息輸入等風險

紅星新聞 2026-05-15 18:24:32
0 跟貼 0
國內最早布局“人類學習”路線的具身公司，數億元融資落地！

量子位 2026-05-15 10:19:35
0 跟貼 0
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
77 跟貼 77
數智驅動·慧領未來——濟寧醫學院舉辦AI賦能教育論壇暨精神醫學教育大模型MentalEdu AI發布會

閃電新聞 2026-05-15 20:34:54
0 跟貼 0
關注丨長春凈月第二個大模型落地！“師道”教師教育學科垂直領域大模型在凈月高新區首發

凈月新城市生活 2026-05-15 17:06:26
0 跟貼 0
日本版“星鏈”軍事偵察網啟用

央視新聞客戶端 2026-05-14 17:14:48
3270 跟貼 3270
Codex App實測：跟龍蝦思路迥異，OpenAI終于挽回點顏面

雷科技 2026-05-15 20:29:39
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112
比官宣直降5萬！全新理想L9憑什么被叫作“智能體”？

EV世紀 2026-05-15 20:26:22
0 跟貼 0
招牌職業隊中甲墊底，青訓人才大量流失，“中國足球之鄉”梅州究竟怎么了？

文匯報 2026-05-15 04:30:13
933 跟貼 933
蘇州高新區企業給汽車裝上“智能中樞”丨高新優品

中國高新 2026-05-15 16:14:15
0 跟貼 0
Need is all you need：AI接手Coding后，程序員最值錢能力只剩？

量子位 2026-05-15 17:52:01
0 跟貼 0
聯發科押注“智能體化”

華爾街見聞官方 2026-05-14 15:45:47
0 跟貼 0
武功山景區遭“臭屁蟲”圍攻？有游客調侃“張嘴能吃飽”，景區提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
984 跟貼 984
掌握一半模型！解決矩形面積難題就很簡單！

奧數輕松學 2026-05-11 16:17:48
17 跟貼 17
47歲貨拉拉司機，初二輟學，卻在AI圈建了Agents王國

36氪 2026-05-14 15:07:44
4 跟貼 4
聰明的戰士駕駛智能魚雷，炸毀鬼子的軍艦

影中見影 2026-05-12 19:05:11
2 跟貼 2
南京4個區，區政府主要領導調整

上觀新聞 2026-05-15 18:08:13
8 跟貼 8
魔芯科技發布VGGT系列成果，實現動態高保真重建并獲新一輪融資

機器之心Pro 2026-05-14 12:48:44
0 跟貼 0
“早晚高峰只能龜速前進” ！深圳水官高速免費通行僅半月，網友吐槽太堵！專家建議

南方都市報 2026-05-15 09:02:51
261 跟貼 261
豹5/豹8閃充版上市，底層硬件升級，顛覆傳統越野車？

苑叔聊車官方賬號 2026-05-14 10:57:48
6 跟貼 6
烏克蘭現多款低成本武器：多由手工焊接或用膠帶纏繞

紅星新聞 2026-05-15 18:47:49
466 跟貼 466
男子立夏后去釣魚，竟直接用空鉤釣到了魚，網友：在資源面前，一切技術都是浮云

氧氣周末 2026-05-14 14:31:14
0 跟貼 0
龍蝦硬件能讓電池更健康，支持智能充電器

愛范兒 2026-03-10 04:18:42
0 跟貼 0
大哥開車秀導航，打敗智能的，竟然是最原始的它

笑出豬叫研究所 2026-05-12 17:39:49
3 跟貼 3
2026年具身賽道平均薪酬如何？哪些大牛最搶手？未來人才去哪找？

新浪財經 2026-05-15 20:41:32
0 跟貼 0
900V高壓架構+6C麒麟電池新款極氪009值得期待嗎？

天天汽車 2026-05-13 19:39:35
0 跟貼 0
中國外交官坦言對歐洲很失望

環球網資訊 2026-05-15 06:49:14
122 跟貼 122
遮天蔽日！森林狼整個系列賽在文班亞馬防守下全隊82投28中

北青網-北京青年報 2026-05-15 19:52:04
2 跟貼 2
這才真正開發了東北大米，米家智能變壓IH電飯煲

河馬叭叭叭 2026-05-12 19:45:57
0 跟貼 0

AI科技評論

點評學術，服務AI

7280文章數 20751關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

游戲

本地

旅游

教育

手機 / 數碼

房產 / 家居

同一天兩件大事！小模型直接掀翻千億參數，走向效率為王

直降千元起步！蘋果華為率先開啟618讓利

生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

德約科維奇買的球隊，從第6級聯賽升入法甲

方媛為何要來《桃花塢6》沒苦硬吃？

騰訊掉隊，馬化騰戳破真相

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

PGYTECH推出GO Ultra趣拍套裝，可組合實現拍立得照片打印功能

PS5獨占神作銷量太慘了！首周僅4614份 第二周消失

用蘇繡的方式，打開江西婺源

瓣瓣一線｜門票優惠、公益講解！河南三門峽送出“5·19”游玩大禮包 ?

綿陽涪城區發布2026年義務教育招生公告（附劃片范圍、招生計劃）

PS5獨占神作銷量太慘了！首周僅4614份第二周消失