![]()
作者 | 李楠
郵箱 | linan@pingwest.com
當AI能力以肉眼可見的速度變強,使用它的代價也在同步攀升。以至于“AI太費錢”從一句牢騷,變成了真實的商業困境。
但有問題,就會有解決問題的人。最近我們圍觀了一場名為“投海Tech Show”的活動現場。其中就有幾位創業者,試圖把AI變成每個人更觸手可及的基礎設施。
這里面包括身在校園的年輕博士,也有再次出發的產業老兵。有人致力于當下的“節流”,讓現有模型跑得更便宜;有人則著眼未來的“開源”,去太空為AI尋找近乎無限的能源。
有意思的是,他們本身都與海淀這個科技創新高地聯系緊密。本場活動的Tech Show項目均源自海淀區“五方六力”科技成果轉化機制挖掘推薦,技術成果來源于清華、北大、北航、北郵等高校。
而借用海淀“投資于人、投資于未來”的理念,從這場活動看,一個不必焦慮于AI賬單的未來,有點眉目了。
1
一、硬核的00后,要打破算力定價權
王冠博是這天最年輕的創始人之一,清華計算機博士在讀,00后。他走上臺的第一件事不是介紹公司,而是講了一個讓他想清楚方向的時刻。
那是2025年2月,DeepSeek剛剛爆火。彼時市面上還沒有Manus,也沒有Claude Code。他看著DeepSeek的測試數據,注意到一個細節:僅僅加入深度思考功能,Token消耗量就跳漲了數倍。
“那時候我就在想,未來一定不是單純的Chatbot的形式,”他在臺上說,“未來一定是multi pipeline復雜的任務流程。你只加一個深度思考,Token就有4倍,甚至多出10倍的提升,multi pipeline可能是千倍、甚至萬倍的Token爆炸。”
![]()
幾個月后,龍蝦的出現證明了他的判斷。一個普通的AI任務,調用的Token量可能是過去對話場景的數百倍。代價由誰承擔?最終還是用戶和開發者。
王冠博想解決這個問題。他們把問題的解法鎖定在“端側”。
在他們看來,用戶并不在意模型跑在云端還是本地,他們只想要“又便宜又好用”。正是基于這一理念,他們要做的不是端側小模型,而是把云端大模型真正部署到端側。
但這里有個非常現實的障礙,那就是內存。市面上一萬元左右的消費級設備最多24G內存,刨去系統和應用占用,留給模型推理的不過8G,只能跑2B參數的小模型,而2B模型根本解決不了像龍蝦這類復雜任務的需求。
“很多品牌廠商面臨一個困境,”王冠博說,“能不能既將模型本地化,也把‘龍蝦’本地化,而且模型本地化是能解決‘龍蝦’需求的模型,它就需要是一個大十幾B甚至百B的模型。”
萬格智元的方案,是從算法、系統、芯片三個層次同時入手。他報出了幾個數字:以35B的模型為例,他們的系統只需要4.7GB內存,內存開銷大幅下降,而推理速度則在極低內存消耗下提升了約30倍。
臺下一位投資人追問:“怎么解決帶寬限制的問題?”王冠博的回答展示了他研究的深度:不是硬堆內存,而是改變數據加載方式,“以位寬的方式按比特去load,之后邊load邊算,是一個極致的流水線式的調度,以一個極低的激活參數量配合IO帶寬,讓算和取、存和算來實現高效并行。”
突破是具體的:純CPU就能運行35B、80B、120B參數大模型;把本地部署成本從萬元級降到千元級。
此前萬格智元完成千萬級融資時,有投資方評價,這支清華博士團隊用普通CPU實現了主流模型在本地生成Token,“擺脫了行業對昂貴GPU資源的依賴”。
概括起來,這個00后要做的,是AI時代的“自來水”。不是把算力鎖在云端機房里出售,而是把它帶回每一臺普通電腦。他這樣形容自己的00后團隊:“能干、能熬、能做”。
1
二、把AI裝進口袋,還不用多花錢
同樣在臺上講端側的,還有另一位清華計算機系在讀博士——萬象智維CEO王拓為。
王拓為本科、博士都在清華就讀,研究方向聚焦于移動端設備上的大模型系統優化。用他自己的話說,這是一件“比云端難得多”的事情。
云端有充沛的計算資源,但在端側,算力、內存、功耗、散熱,都是約束。而在給定的硬件條件下,把一個程序的性能跑到極致,是王拓為興趣所在。
![]()
眼下AI正在從“會說”走向“會做”。大模型從內容生成走向結果交付。智能體天然地從單輪對話走向7×24小時持續運行,并且單次任務也需要更長的上下文處理能力,都讓Token調用量呈現指數級增長。
而從實際需求出發,人們不是任何時候都需要基于云側的超強智能,很多時候,反倒希望有一種夠用,但是“更快、更安全、更節省的本地化的算力。”再加上,隨著端側模型結構創新和端側推理技術演進,王拓為判斷,端側智能的窗口期已經到來。
不過這種機會未必屬于已有的硬件。在王拓為看來,當前幾類AI方案都有短板。
云側方案看起來能力最強,但上下文并非天然存在于云上,每次調用都需要把數據重新上傳組織,引入巨大的傳輸開銷和隱私風險。而“無論是手機還是電腦,本質上都是以用戶的通用需求為導向所設計”,真正能穩定分配給智能體的算力資源非常有限,并且數據封閉在各自的生態里,無法形成統一的個人上下文系統。
至于Agent主機,雖然能在本地持續運行模型,“但依然不夠便捷,依賴網絡,使用鏈路也更長”。
萬象智維給出的解法,是一塊卡片大小的端側硬件——它以第三方的姿態,貼在手機背面或揣進口袋,連接手機、電腦、耳機等所有可穿戴設備,“在不同的設備和不同的生態之間建立起上下游匯總的渠道”。
簡單來說,他們要在這塊硬件上部署本地大模型,實現敏感上下文在本地處理,讓云端與本地模型高效協同。而這一切都是免費的。“因為端側的算力天然就被我們所擁有,用戶并不需要為每一次額外調用付出成本。”
支撐這套方案的,是兩套自研技術。
一個是端側模型推理引擎OmniInfer,集成了團隊近五年的推理優化能力。王拓為及其團隊曾花兩個月時間反匯編底層硬件指令代碼,重新編寫高性能算子,最終實現了相比CPU方案接近20倍的性能提升,可部署模型參數量達到原來的2倍,甚至能在手機上支撐100K長度的超長上下文。
另外是OmniClaw,一個端側任務執行系統。它通過云端和本地模型協同,“在任務效果不降級的情況下實現成本的大幅下降”。
臺下投資人提問,用戶從哪里切入。王拓為的答復是三步走:第一步面向海外極客用戶開啟眾籌,讓他們在本地卡片式算力平臺上發揮全部構想;第二步靠口碑走向重度使用者,針對其辦公和使用場景做深度優化;最終走向普通用戶。
“當我們每個人把日常全部上下文都提供給模型的時候,每個人的Token都不會夠用。”顯然,萬象智維不想讓大家有這種遺憾。
1
三、老兵再出發,讓AI少消耗多出活
講完年輕人,再來看看產業老兵。
明日新程創始人李笛,是這次活動最資深的創業者。他之前最被人熟悉的身份,是“微軟小冰之父”,但他想做的從來不止于打造一個“小冰”,而是堅信,智能體才是未來人機共生網絡中屬于AI的節點。
2025年底,也是在中關村國際創新中心的路演日活動上,明日新程首次公開亮相。之后依托海淀區的人才與科研資源,形成專業化的AI技術布局。成立一個季度,已連續完成兩輪融資。
![]()
李笛講的核心問題,在臺上說來直接:今天的多智能體框架,有兩個根本性缺陷。
第一是協同失控。他舉了一個例子:晚上睡前給AI Agent安排了一個任務,第二天早上起來,“你會發現它們幾個討論的結果是,決定把你的郵箱全部清空,決定把一些代碼寫得非常亂”。他們還做過實驗發現,當多個智能體沒有良好協同機制時,“往往是那個比較笨的會去說服那幾個比較好的”——越好的模型越善于合理化對方的觀點,最終拉低整體結果。
第二是成本爆炸。如果協同機制做得粗糙,沒有很好的基于控制的方法去處理真正的上下文,一句“你好”就可能消耗非常非常多的Token。
明日新程從人類智慧中破解這些難題。李笛認為,研究群體智能的運作規律,唯一藍本就是人類。因為人類是大家所能接觸到的唯一的高級認知智能體,并且,在人類社會漫長的歷史周期里,“絕大部分的時候都是良幣驅逐劣幣。”
為此,明日新程專門梳理過1800年到2020年人類文獻,拆解“群體智慧”的演進脈絡,探索智能體之間的動態協同,選出leader、通過辯論和反思形成決策的方法體系。最終,他們帶來了一套名為“團子”的多智能體協同框架。
成效是顯著的。李笛介紹,團子的智能深度穩定超越任何單一大模型所產生的結果,可追溯決策形成的全部過程,并且推理成本還比Google Deep Research低50%以上。
還有投資人追問:這是不是另一種OpenClaw?而李笛表示,他們和OpenClaw有30%的相似、70%的不同——相似在都是reactive+proactive的場景,不同在于,OpenClaw完全沒有多智能體協同,也沒有多智能體進化,而團子有著使用強化學習的進化機制。
這帶來充滿想象力的前景。“群體智能是一個全新的框架層,下面是大模型,上面是各種各樣的ToC、ToB應用,無論你的應用是基于難題還是基于24小時以上的長程任務,都能通過群體智能的方式規范和約束它。”
總的來看,明日新程既要讓AI更聰明能干,也要讓AI更便宜可用。
1
四、打造極致太空AI Token Machine,把Token變便宜
以上種種是為AI“節流”,有人則想為AI“開源”。
一葦宇航同樣是扎根于海淀的一家公司。公司創始人邢若粼是北郵博士。在他眼中,“智能的上界,其實就是能源的邊界。”
要用好AI,必須掌握充分的能源。邢若粼判斷,地面能源和場地終將觸及天花板,有近乎無限場地和太陽能資源的太空,才是未來AI的最佳容器。
這絕不是異想天開。其實在2025年底,馬斯克便公開表示:“3年內,太陽能AI衛星或將成為成本最低的AI計算方式。”隨后,SpaceX被曝出基于Starlink V3衛星改造太空算力的計劃,谷歌公布了“太陽捕手”計劃,一場圍繞太空算力的全球競賽,已經鳴槍。
![]()
邢若粼用一個有趣的比喻來講項目愿景:“我們做的事情,其實就是打造一臺極致的AI Token Machine。”
想法很酷,當然挑戰更不簡單。宇宙射線會擊穿芯片、造成數據翻轉。傳統解法是花大價錢采購抗輻射的航天級器件,但這意味著成本極高、商業化艱難。
一葦宇航走了另一條路——用軟件的冗余對抗硬件的脆弱性。在老股東麟閣創投的一篇文章中可以看到,一葦宇航自研了一套基于Rust的雙內核操作系統RROS,而思路和SpaceX的Starlink一脈相承:接受單點失效的可能性,但通過架構冗余確保系統整體可用。根據在軌實測,RROS可在200毫秒內完成故障切換,平均無故障時間超過1萬小時。
這帶來了一種誘人的商業圖景:把芯片發射到太空,組成星座,用太陽能驅動算力,把能源轉化成Token,再用Token的收入繼續加強整個制造環節。“這是一場工業體系對地面傳統的基建IDC模式徹底的顛覆,它是一個閉環的飛輪,這個效應會不斷自我加強。”
長遠看,這甚至可以形成AI for AI的循環,讓AI自己來迭代這套太空算力系統——基于Token的消耗產生更多Token,構建新時代的商業飛輪。
有意思的是,這個看似最為硬核的創業故事,有個頗為詩意的名字。“一葦宇航”取自達摩“一葦渡江”的典故。達摩一葦渡江傳播自己的理念,邢若粼和他的團隊想在茫茫宇宙中“擴展人類意識的邊界”,并且要在五年內,追趕乃至超越SpaceX的10萬瓦級衛星算力。
概括而言,一葦宇航最終優化的是端到端產生Token的成本。當大量算力可以在太空軌道上運轉,地球上的我們,大概不必再為AI賬單焦慮了。
1
有必要再提一句這些項目的地理坐標:海淀。
一個好項目可以在一個季度內完成兩輪融資,有野心改變未來的在校生不必猶豫就能大膽創業。這些事以前都是小概率,現在正變得越來越普遍。很難說這跟海淀的土壤沒有關系。
跟這里的創業者聊天,很容易得到類似的反饋:在這兒做AI和硬科技,不用跨區就能對接研發、測試和場景。從種子期到成長期,有人幫你把投融資、政策申報、孵化服務全鏈條跑通。這意味著你可以把絕大部分精力,留給技術攻堅本身。
這其實是一種很稀缺的托底。在介紹中關村科學城創投生態時,中關村科學城公司副總經理聶麗霞說,海淀正在持續構建“投資本+投資源+強服務”的創投 生 態體系。
從這個角度看,AI的賬單大概真的會變便宜。但這不只因為創業者們在發揮才智、技術在演化進步,也因為有人愿意,先把創新本身的代價壓下來一截。比起解決某一個技術命題,這也許是更重要的事。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.