<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不用人類手寫訓練框架了!AI自己寫代碼,訓出1B端側「小鋼炮」

      0
      分享至



      機器之心編輯部

      你的電腦里,或許很快會住進一只會聊天的「小怪獸」。

      它不需要龐大的云端算力,也不必每一次對話都把請求發往遠處的數據中心。它可以安靜地待在本地設備里,隨時被喚醒,陪你聊天、回答問題、處理簡單任務,甚至在沒有網絡的時候繼續運行。

      這聽起來像是一個輕量、有趣的 AI「桌寵」場景,但背后其實對應著大模型行業正在發生的一次路線分化。

      過去很長一段時間,大模型給人的印象都是龐然大物:數百億甚至上千億參數起步,推理依賴云端數據中心,背后是高昂的算力、電力和調用成本。模型越大,能力越強,幾乎成了行業默認的進步方向。

      但端側模型不能簡單復制這條路。

      它要進入個人電腦、手機、車機和邊緣設備,就必須足夠高效、足夠快,也必須足夠省資源;并且,端側模型要真正留在用戶身邊,還需要低延遲、低成本,最好還能本地運行、斷網可用。

      這也是面壁一直押注的方向:用極致高效模型,盡可能換取極強的能力。

      5 月 25 日,面壁開源最新一代端側文本基座大模型 MiniCPM5-1B。這是一款面向開發者和終端設備的 1B 級「小鋼炮」模型,主打低成本部署、高效運行和端側友好

      相比動輒幾十億、幾百億參數的主流模型,面壁發布的 1B 規模已經小到一個近乎反直覺的程度。但在終端設備上,這個模型已經具備本地部署的基礎條件,可以支撐一類輕量、本地化的 AI 應用,如回答問題,輔助工作,陪你聊天,甚至驅動一只桌面上隨時待命的數字「桌寵」。

      基于面壁 MiniCPM 系列端側模型開發的 AI 桌寵交互演示。項目地址:https://github.com/OpenBMB/MiniCPM-Desk-Pet(本項目基于 clawd-on-desk 項目二次開發)

      面壁想讓 MiniCPM5-1B 成為「每個人都養得起的 AI」。

      更特別的是,MiniCPM5-1B 背后還「站著」ForgeTrain,全球首個完全由 AI 編寫的生產級大模型訓練框架,訓練效果與英偉達 Megatron 對齊,訓練速度比后者快 10%,相當于同等算力下成本降低 10%。

      也就是說,面壁這次不只是開源了一個 1B 小尺寸模型,更是一條完整的路線:用 AI 編寫預訓練框架,再由這個框架參與端側基座模型的預訓練,已經跑通了。

      榜單上的小鋼炮:僅憑 1B 參數,超越不止一檔

      端側模型的難點在于,模型越小,能力損失往往越明顯。

      在云端,大模型可以通過更大的參數規模、更高的訓練成本、更復雜的推理機制來換取能力。

      但端側模型不能簡單走這條路,它需要在有限參數、有限算力、有限內存中,盡可能榨出更高的智能密度。還要盡可能減少延遲,在網絡不穩定甚至斷網的情況下保持可用。

      這也是 MiniCPM5-1B 最值得關注的地方。它不是單純把參數規模壓到 1B,而是在壓縮模型體量的同時,盡可能保住了端側模型最需要的通用能力。

      在公開榜單中,MiniCPM5-1B 在同尺寸模型中打出了很強的競爭力:綜合知識、數學推理、代碼編程、工具調用等核心能力維度,均超越了同規模的主要競爭對手,包括 Qwen3.5-0.8B/think 和 LFM2.5-1.2B-Thinking 等。





      在權威模型評測榜單 Artificial Analysis Intelligence Index(AA-Index)上,MiniCPM5-1B 再次刷新模型的智能密度上限:僅以 1B 參數規模取得17.9 分位列「小尺寸模型」榜單第一,超越了所有 2B 參數以下模型,相比 3 個月前發布的 Qwen3.5-2B(16.3 分),MiniCPM5-1B 不僅效果更優,參數量還減少了一半。

      這一結果進一步驗證了面壁持續觀察到的密度定律大模型的智能密度正在以約每 3.5 個月翻一番的速度持續提升。更小的模型,正在承載更高的智能密度





      由此可見,MiniCPM5-1B 的應用邊界被進一步打開。過去,這類小模型更多被用于簡單對話、基礎問答和輕量任務;但 MiniCPM5-1B 的表現說明,在有限參數和有限算力條件下,小尺寸模型也可以承載更復雜的推理、代碼和工具調用能力。

      低門檻部署,才是端側 AI 的入口

      對于開發者來說,MiniCPM5-1B 最實在的價值在于:它真的很好部署。

      這件事聽起來簡單,但在端側大模型里并不容易。很多模型在論文和榜單上表現不錯,一到真實設備上就會遇到各種問題:模型權重太大,普通電腦內存根本吃不消;顯存要求太高,消費級設備跑不動;量化后能力掉點明顯;推理框架適配麻煩;環境配置復雜;換一臺設備,又要重新踩一遍坑。

      結果就是,模型雖然開源了,但真正能把它順利跑起來的開發者并不多。對普通用戶而言,更不用說把它放進本地應用里長期使用了。

      這正是端側模型面臨的困境:它不只是要「開源可下載」,還要「本地能部署」。MiniCPM5-1B 很好的解決了這些問題。

      從精度選擇上看,FP16 精度權重約 2GB,適合 GPU 和高端筆記本以及服務器;INT8 量化后約 1GB,幾乎無性能損失,覆蓋主流筆電和邊緣計算盒子;INT4 / Q4 量化后僅 0.5GB,手機、平板、車機都能跑。也就是說,一張半張 SD 卡的空間,就能裝進一個達到同級全球最優水平的語言模型。

      更進一步,MiniCPM5-1B 還支持純 CPU 環境運行,也可以在瀏覽器中部署。這表明它不再只屬于服務器和高端顯卡,更是有機會進入普通設備,成為一個真正本地化的語言模型。

      這帶來的變化很直接:許多輕量 AI 應用不必再完全依賴云端 API,也不必每一次交互都把請求發往數據中心。只要設備性能滿足要求,模型就可以在本地完成推理,在弱網甚至離線環境下繼續運行。

      這也是端側模型真正走向應用的前提:不是讓用戶知道模型已經開源,而是讓開發者真的能把它裝進設備、接入應用,并在真實場景里跑起來。

      從本地助手到 AI 桌寵:小模型真正進入應用

      一個端側模型好不好用,還取決于能不能方便微調、推理、部署和集成。

      MiniCPM5-1B 在微調側支持 LlamaFactory、ms-swift,開發者如果想基于私有數據做領域適配,可以直接接入已有工具鏈,而不必從頭搭建訓練流程。

      推理側,支持 SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight 等工具和框架,如此一來開發者不需要從零搭建一整套模型使用鏈路,而可以在已有生態中快速上手。

      更進一步,面壁還提供了安裝部署相關的 skills。用戶可以直接調用自己的龍蝦,或者使用 Claude Code 等代碼智能體,按照 skills 自動完成安裝和部署。這進一步降低了從「下載模型」到「本地跑起來」之間的操作門檻。

      Skills 鏈接:https://github.com/OpenBMB/MiniCPM/tree/minicpm5#agent-skills--one-click-deploy--finetune

      上述這些能力對端側模型來說非常重要。

      因為端側應用的場景非常碎片化,大家需求各不相同,比如離線客服、桌面寵物、車機交互等,這些場景有一個共同點,它們不一定需要最大的模型,但需要一個足夠輕、便宜、容易部署、還足夠穩定的模型。

      MiniCPM5-1B 正好適配這些場景,它讓開發者有機會把一個具備真實語言能力的模型,放進日常的終端入口里。

      前面提到的 AI 桌寵就是一個很好的例子。

      首先,桌寵需要長期常駐。它不能像一個臨時打開的網頁應用,用完即走,而是要像一個輕量系統組件一樣停留在用戶桌面上。這就要求模型足夠小,不能長期占用太多內存和算力。

      其次,桌寵需要即時響應。用戶問它一個問題,或者讓它提醒一個事項,它都要快速給出反饋。如果每次都依賴云端調用,不僅延遲更高,成本也會隨著使用頻率迅速增加。

      這正是 MiniCPM5-1B 這類端側模型的優勢所在。它小到可以被放進普通終端,支持本地運行,可以減少對云端 API 的依賴;還保留了對話、理解、推理和工具調用等基礎能力,足以支撐一類輕量但高頻的本地 AI 應用。

      MiniCPM5-1B 不僅能聊天,更擁有深入系統底層的端側 Agent 自主執行能力。

      當模型足夠小,開發者才有空間把它放進更多設備;從而圍繞它做二次開發。這是大模型走向「個人 AI」時代的一個微小但堅實的腳印。

      模型尺寸變小以后,數據質量變得更重要

      性能躍升的背后,是數據質量的底層支撐。

      這次,面壁同步開放了數據治理相關成果,包括開源高質量預訓練數據集 UltraData(含最新版本Ultra?FineWeb?L3)。

      現階段,大模型訓練中有一個逐漸被行業接受的判斷:單純擴大數據規模的邊際收益在下降,模型能力的提升越來越依賴數據質量而不是數據數量。

      這對小尺寸模型尤其重要。

      大模型參數多,多少還能吸收一部分數據噪聲;但對 1B 級模型來說,什么數據進入訓練集、數據如何配比、低質量數據如何剔除等等,都會直接影響最終能力。

      面壁建立了一套從 L0 到 L4 的分級數據治理體系,對高知識密度的中文網頁、英文網頁和數學語料進行了大量數據合成工作,最終形成的開源數據集隨模型一起發布。



      來源論文:https://arxiv.org/pdf/2602.09003

      基于這套開源數據,開發者可以直接微調或訓練自己的小模型,而不必從頭建立數據處理管線。這是面壁在小模型路線上一貫的開放策略,開源不只是發布權重,而是把整個工程體系的關鍵環節都開放出來。

      ForgeTrain:AI 寫出的訓練框架

      MiniCPM5-1B 有兩個發布版本:一個后訓練版本;另一個是預訓練完成的 Base Model 版本。而這個 Base Model,有一個不尋常的出身,由 ForgeTrain 參與預訓練完成。

      ForgeTrain 是一個大模型訓練框架,類似于英偉達的 Megatron。但 ForgeTrain 有一個根本性的不同:構成它的每一行代碼,沒有一位人類工程師參與,都是由 AI 完成的

      這和 Vibe Coding 有根本上的不同,ForgeTrain 使用 Harness + Agent loop 技術,一旦 Agent 開始編寫代碼,不需要人類介入。此外,作為訓練框架,它要處理分布式訓練、并行策略、顯存管理、通信效率、算子調用、硬件適配和訓練穩定性。任何一個細節出錯,都可能讓一次預訓練消耗掉大量算力。

      所以,ForgeTrain 真正要證明的是 AI 能不能寫出一套能支撐真實模型訓練的生產級系統軟件。

      其結果是,在英偉達 H100 GPU 上,ForgeTrain 的訓練效果與 Megatron 對齊,速度領先 10%。換算成成本,相當于同等計算預算下,訓練成本有望下降約 10%。在大模型預訓練這種高成本環節里,幾個百分點的效率提升,都會直接對應算力、電力和時間成本的下降。

      更重要的是,ForgeTrain 也完成了對華為昇騰系列等國產算力的適配。ForgeTrain 在華為昇騰上預訓練 MiniCPM5-1B,相比昇騰大模型訓練框架 MindSpeed 也有10%的加速。

      未來國產芯片的軟件生態,或許不再需要完全依賴人力去一點點修補和追趕,而可以由 AI 快速「鍛造」出來。

      由此可見,MiniCPM5-1B 不只是一個模型版本,它更像是一次真實壓力測試:AI 寫出的訓練框架,已經開始參與訓練新的 AI 模型。

      這也是「AI 制造 AI」在這次發布中最實在的一層含義:AI 還沒有替代完整模型研發流程,但已經進入了模型生產鏈路中的關鍵軟件環節。

      業內對這一方向已有共識。Anthropic 創始人 Dario Amodei 將自動化 AI 研究定性為 AGI 時間表最強的加速器;OpenAI、谷歌 DeepMind、xAI 也把「AI 加速 AI 研究」寫進戰略核心;Andrej Karpathy 今年 3 月提出的 AutoResearcher,則從算法層面展示了 AI 自主優化模型的可行性。

      但在此之前,所有探索都停留在算法層面或研究原型階段。面壁的 ForgeTrain,第一次在「生產級訓練框架」這一基礎設施粒度上完成了驗證,是率先交卷的。

      這背后,是面壁首創的「鍛造工程」(Forge Engineering)軟件范式在支撐,它不是維護一個通用框架,而是讓 AI 為每一款芯片、每一個模型「現場鍛造」出專屬的、高效的軟件。

      結語

      MiniCPM5-1B 背后,是面壁兩年多來在「極致端側大模型」這條路上的持續積累。

      2024 年 2 月,第一代 MiniCPM 以 2.4B 的身軀超越了 Mistral-7B,打響了「小鋼炮」系列的第一炮。MiniCPM 3.0 將 4B 參數做出了超越 GPT-3.5 的水準,量化后僅 2GB 內存,讓「端側 ChatGPT 時刻」第一次不再是噱頭。MiniCPM 4.0 則把稀疏架構引入端側,以 22% 的訓練開銷追平 Qwen3-8B,并實現了 600 Token/s 的極速推理。

      而 MiniCPM5-1B 的特殊之處在于兩點:能力更強,用 1B 體量實現對同級甚至更高級模型的性能超越;出身不同,其基座模型版本,由 AI 自己編寫的訓練框架 ForgeTrain 鍛造而成。

      面壁選擇的這條路線,從來不是單純把模型做小。而是在小參數、低內存、低算力的約束下,依然保住足夠高的智能密度。

      MiniCPM5-1B 要回答的,正是這個問題:當一個模型足夠輕、足夠便宜、足夠容易部署時,它還能不能足夠聰明?

      這一次,面壁給出的答案不只來自模型本身。ForgeTrain 參與 Base Model 預訓練,表明 MiniCPM5-1B 是「AI 制造 AI」路線的一次模型級驗證;UltraData 則指向另一條暗線,小規模模型要做強,不能只靠堆數據規模,更要依賴高質量的數據治理。

      MiniCPM5-1B 的發布,不只是「小鋼炮」系列的又一次升級。它更像是面壁把端側模型背后的生產方式也一起推到了臺前:模型能力、訓練框架、數據治理、部署生態,共同決定了一個 1B 模型能走多遠。

      如果說云端大模型的主戰場是能力上限,那么端側模型的主戰場就是智能密度。MiniCPM5-1B 的意義正在于此:一個足夠小的模型,也可以在合適的工程體系支撐下,進入個人電腦、手機、車機和邊緣設備,成為開發者真正能部署、用戶真正能感知的本地智能。

      現在,MiniCPM5-1B 已經開源,部署指南與微調文檔同步上線。

      下一只住進你電腦里的 AI「桌寵」,或許就從這個 MiniCPM5-1B 模型開始。

      最后,附上一些鏈接供大家參考:

      • Hugging Face 鏈接:https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B
      • GitHub 鏈接:https://github.com/OpenBMB/MiniCPM
      • ModelScope 鏈接:https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
      • GitCode:https://ai.gitcode.com/OpenBMB/MiniCPM5-1B
      • 魔樂社區:https://modelers.cn/models/OpenBMB/MiniCPM5-1B
      • ForgeTrain開源鏈接:https://github.com/OpenBMB/ForgeTrain

      文中視頻鏈接:https://mp.weixin.qq.com/s/2tdHV01FL_YGUmZQ12DS2A

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女商人花570萬“競拍”后房錢兩空,糾紛還是詐騙?|紅星調查

      女商人花570萬“競拍”后房錢兩空,糾紛還是詐騙?|紅星調查

      紅星新聞
      2026-05-26 16:39:17
      凌晨2點打電話叫醒村民的“謝會計”遇難,妻子弟弟仍失聯

      凌晨2點打電話叫醒村民的“謝會計”遇難,妻子弟弟仍失聯

      紅星新聞
      2026-05-26 17:26:13
      突發!上海DPOY懷特塞德缺席總決賽G1 馬典成臨時頂替進名單

      突發!上海DPOY懷特塞德缺席總決賽G1 馬典成臨時頂替進名單

      醉臥浮生
      2026-05-26 18:43:49
      央視三胎宣傳片翻車惹爭議:看似溫情勸生,為何嚇退無數年輕人?

      央視三胎宣傳片翻車惹爭議:看似溫情勸生,為何嚇退無數年輕人?

      大稻網絡科技
      2026-05-25 15:23:25
      2026一季度財政自給率:浙江96%領跑,10多個省不足50%

      2026一季度財政自給率:浙江96%領跑,10多個省不足50%

      風向觀察
      2026-05-26 11:27:00
      武契奇前腳離開,后面塞爾維亞就亂了

      武契奇前腳離開,后面塞爾維亞就亂了

      鳳眼論
      2026-05-26 14:16:31
      “只要大陸敢打,我就敢送”,他公開宣稱

      “只要大陸敢打,我就敢送”,他公開宣稱

      安安說
      2026-05-24 15:20:17
      第三輪第六批中央生態環境保護督察公布廣東廣西兩省區典型案例

      第三輪第六批中央生態環境保護督察公布廣東廣西兩省區典型案例

      新京報
      2026-05-26 10:14:20
      15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

      15分鐘滅國警告!俄羅斯攤牌:若敢碰加里寧格勒,就讓立陶宛消失

      觀史搜尋著
      2026-05-25 10:50:13
      紅軍村的鋼鐵洪流:西方裝甲撕開俄軍十年防線

      紅軍村的鋼鐵洪流:西方裝甲撕開俄軍十年防線

      律法刑道
      2026-05-25 17:49:18
      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      映射生活的身影
      2026-05-26 15:56:12
      泡藥楊梅后遺癥:你一樣一樣地爛了,我一樣一樣地戒了!

      泡藥楊梅后遺癥:你一樣一樣地爛了,我一樣一樣地戒了!

      行者殷濤
      2026-05-26 12:35:34
      教育是不是生大病了?網傳現在的中學生都過得很壓抑…

      教育是不是生大病了?網傳現在的中學生都過得很壓抑…

      慧翔百科
      2026-05-26 11:29:48
      曝央視分銷世界杯版權進賬30億元 博主:你還信FIFA只收央視4億?

      曝央視分銷世界杯版權進賬30億元 博主:你還信FIFA只收央視4億?

      風過鄉
      2026-05-26 13:01:16
      官方通報“維也納酒店牙刷刷馬桶”“全季酒店用客人牙刷洗杯子后放回”:約談涉事酒店負責人,責令立即整改,將根據調查核實情況嚴肅處理

      官方通報“維也納酒店牙刷刷馬桶”“全季酒店用客人牙刷洗杯子后放回”:約談涉事酒店負責人,責令立即整改,將根據調查核實情況嚴肅處理

      大風新聞
      2026-05-26 11:12:07
      曝蘇超球員與未成年發生關系!未滿14歲最高死刑 不滿18可算強奸

      曝蘇超球員與未成年發生關系!未滿14歲最高死刑 不滿18可算強奸

      念洲
      2026-05-26 16:59:59
      伊朗總統下令恢復國際互聯網接入

      伊朗總統下令恢復國際互聯網接入

      澎湃新聞
      2026-05-26 03:34:09
      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      智谷趨勢
      2026-05-20 17:04:05
      韜定律掀的是臺積電們的桌子

      韜定律掀的是臺積電們的桌子

      智遠同學
      2026-05-25 21:23:45
      尼克斯重返總決賽!布倫森1999年總決賽萌照曝光,冥冥自有天意

      尼克斯重返總決賽!布倫森1999年總決賽萌照曝光,冥冥自有天意

      仰臥撐FTUer
      2026-05-26 14:34:08
      2026-05-26 18:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13087文章數 142653關注度
      往期回顧 全部

      科技要聞

      中國AI要向外卷,而不只是做第二個OpenAI

      頭條要聞

      25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

      頭條要聞

      25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

      體育要聞

      上賽季差點降入英甲,下賽季要踢英超了

      娛樂要聞

      臺媒貼臉!S媽被問大S嗑藥當場沉默

      財經要聞

      中國鋁行業爆單 下一個“煤炭”大周期?

      汽車要聞

      涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

      態度原創

      本地
      藝術
      房產
      公開課
      軍事航空

      本地新聞

      用云錦的方式,打開江蘇南京

      藝術要聞

      中國之美,美到極致!

      房產要聞

      招商地產接盤碧桂園!??谶@個爛尾豪宅,要徹底改命?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊在阿巴斯港附近短暫交火 交戰過程披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产情侣激情在线对白| 免费看成人欧美片爱潮app| 午夜无码成人A片免费| 97人妻碰碰碰久久久久禁片| 在线天堂中文在线资源网| 丁香婷婷五月| 精品人妻伦九区久久aaa片69 | 日韩亚洲精品国产第二页| www.亚洲精品长腿丝袜| 亚洲 日韩 在线精品| 99久热这里精品免费观看| 国产精品丝袜久久久久久不卡| 国产精品福利午夜久久香蕉| 91巨炮在线| 亚洲日本va午夜在线电影| 国产日韩欧美在线观看不卡| 高潮喷水抽搐无码免费| 亚洲二区中文字幕在线| 亚洲区中文字幕| 精品1卡二卡三卡四卡老狼| 日本草逼| 日本少妇喷水一区二区| 欧洲高清无码在线| 国产精品自拍视频免费看| 亚洲精品老司机| 色无码日韩无码精品| 中文字幕有码无码人妻AV蜜桃| 亚洲国产福利成人一区二区| 亚洲V天堂V手机在线| 少妇口述最爽的3p交换经历| 吃奶呻吟打开双腿做受在线视频| 欧美激情综合色综合啪啪五月| 欧美VA免费精品高清在线| 国产无码十八禁| 日本极品少妇videossexhd| jizzjizz亚洲| 国产成人精品午夜二三区波多野| 91香蕉视频18| 精品国产经典三级在线看| 久久人与动人物a级毛片| 亚洲欧美日本韩国|