網易首頁 > 網易號 > 正文申請入駐

告別天價賬單：端云協同與記憶革命，讓 Agent 告別「燒錢時代」丨 GAIR Live 029

2026-05-03 11:36:11　來源: 雷峰網

北京舉報

分享至

“當 Agent 不再是昂貴的實驗品，而是像水和電一樣的基礎設施時，真正的 AI 時代才算真正降臨。”

作者丨岑峰

2026 年，大模型行業的敘事中心正在經歷一場痛苦但必然的位移：從追逐參數規模的“算力競賽”，轉向追求任務落地的“工程突圍”。在這場位移中，AI Agent無疑是最被寄予厚望的終極形態，但它正面臨一堵名為“Token 焦慮”的圍墻。

為什么 Agent 的普及如此之難？因為我們正處于一種極其低效的生產模式中：為了讓 Agent 維持對話的連貫性，系統不得不反復加載數萬字的上下文；一次簡單的任務調度，往往伴隨著不可預測的高昂賬單；而數據隱私在端與云的頻繁傳輸中，更是變得岌岌可危。

Agent 的普及，正困在安全、成本與智能的“不可能三角”中。

但這究竟是模型推理的硬性支出，還是系統基建效率低下的隱形成本？為了拆解這一本質命題，雷峰網舉辦了“從 Token 焦慮到記憶革命”主題的GAIR Live線上圓桌。論壇由雷峰網岑峰主持，特邀：

李志宇記憶張量 MemTensor 聯合創始人兼 CTO；
閆宇坤 Qiyuan Lab 副研究員清華大學 THUNLP 實驗室客座研究員

兩位專家，通過圓桌討論，揭示了智能體基建如何通過“空間分流”與“時間管理”，重構 AI Agent 的成本價值秩序：閆宇坤領導的 EdgeClaw 試圖通過“端云協同”的物理分級，從架構源頭切斷無效 Token 的消耗；而李志宇掌舵的 MemTensor 則通過“記憶工程”，在既有架構下通過精細化的狀態管理榨取極限效率。

從“聊天框”到“任務操作系統”的范式躍遷

討論的核心共識在于：我們正處于從“對話模型”向“任務執行系統”跨越的關鍵期。

年初 OpenClaw的爆紅，本質上是全球開發者對“智能體操作系統”雛形的集體狂歡，但狂歡之后是沉重的成本賬單。閆宇坤指出，目前的 Agent 依然處于“蒸汽機時代”，雖能拉動生產力磨盤，卻因為頻繁加載背景信息產生了巨大的資源浪費。“有時一句簡單的‘你好’，可能因為重復加載背景信息而消耗五六萬 Token。”

這種低效直接導致了商業閉環的斷裂。當 Agent 想要具備真正的“生產力”，它必須從單一任務執行向跨領域協作躍遷。而這種躍遷的前提，是必須解決安全、成本與復雜度這三座大山。

空間破局：端云協同與隱私物理分級

針對“Token 焦慮”，閆宇坤代表的 EdgeClaw 給出了空間維度的答案：端云協同，從架構源頭切斷無效損耗。

EdgeClaw 提出了一套“安全高效并行龍蝦養殖技術”，其核心邏輯是將端側定義為“個人秘書”，負責隱私隔離與日常處理；將云側定義為“行業專家”，負責處理高難度、非敏感的復雜邏輯。

EdgeClaw設置了三級隱私分級路由，通過將任務分為“公共級（S1）”、“脫敏級（S2）”和“本地級（S3）”，Agent 能夠自主決定數據的流向。這不僅鎖定了安全的下限，更重要的是，它通過在端側預處理、脫敏和精簡，大幅減少了發往云端的“廢料 Token”。

閆宇坤算了一筆極具沖擊力的財務賬：一臺高性能端側顯卡的采購成本，僅相當于高頻調用三四個月云端頂級 API 的費用。這意味著，本地硬件正在從“變動費用”變為“固定資產”。一旦任務遷移至本地，邊際成本趨近于零。這種財務結構的重構，將徹底激發 Agent 在垂直場景下的真實潛能，讓用戶不再因為“擔心賬單”而對 AI 畏手畏腳。

時間管理：從“提示詞工程”到“記憶工程”

如果說端云協同解決了“在哪里計算”的問題，李志宇掌舵的 MemTensor 則解決了“如何有效記住”的問題：將行業視野從空間轉向時間，從暴力堆砌上下文轉向精細化的記憶分層。

李志宇提出了一個直擊本質的觀點：“在 Agent 的賬單里，回憶比記住更燒錢。”

過去，行業普遍迷信“超長上下文（Long Context）”，認為 128K 乃至 1M 的窗口能解決所有問題。但暴力堆砌上下文的后果是成本的指數級爆炸。MemTensor 倡導的“記憶工程”，強調對記憶進行分層管理：

明文記憶（Textual Memory）：快速寫入，但讀取成本高；
參數化記憶（Parametric Memory）：通過訓練將知識內化，讀取極快但寫入代價大；
激活記憶（KV Cache 管理）：優化計算中間態，提升響應速度。

為了對抗高頻、重復加載帶來的賬單爆炸，MemTensor 引入了操作系統管理內存的邏輯。通過“Agentic 抽取”模式，系統不再是被動地存儲文本片段，而是主動識別信息的完備性。

例如，當用戶提到“老地方”時，系統會在寫入階段就完成溯源和補全。這種精準調度能力，能將原本需要召回的 10K 上下文壓縮至 6K 的精準片段，從而在不損耗智能的前提下實現成本的極限下探。

價值重構：記憶作為未來的“數字資產中心”

圓桌另一個深刻共識是：記憶管理不僅是降本增效的手段，更是Agent時代未來 AI 商業模式的基石。

李志宇提出了一個顛覆性的愿景：“記憶市場（Memory Store）”：在長期交互中，一個 Agent 吸收了大量專業領域的思辨邏輯和專家經驗，這些被參數化、結構化的記憶包，本身就是極具商業價值的資產。當記憶可以被脫敏、打包并上架，用戶訂閱的將不再是一個冷冰冰的通用模型，而是一段被內化的智慧，也進一步將記憶從成本中心徹底轉變為價值中心。

閆宇坤則補充了“智能自演化”的概念。本地模型由于擁有私有數據和持續交互，會自發進行“蒸餾”和“對齊”，這種“越用越聰明、越用越便宜”的成長性，是云端通用模型無法提供的核心護城河。

邁向“智能體力資源管理”時代

2026 年已近三分之一，Token 焦慮的破局點已經明朗：破局的關鍵不在于等待大模型單價的下降，而在于系統工程的全面優化。

未來的社會將進入“智能體力資源管理”的時代。就像我們要對人力資源進行合理配置一樣，未來我們也需要根據任務的難度、隱私等級和成本敏感度，在分布式節點中合理分配智能資源。

當 Agent 不再是昂貴的實驗品，而是像水和電一樣隨處可得、成本可控的基礎設施時，真正的 AI 時代才算真正降臨。

以下是此次圓桌討論的精彩分享，AI 科技評論進行了不改原意的編輯整理：

Token 焦慮的根源：AI Agent落地的生死線

岑峰：各位嘉賓、朋友，晚上好。歡迎參加由雷峰網主辦的 GAIR Live 線上圓桌。

今年以來，AI Agent 領域經歷了一場大起大落。從年初OpenClaw（俗稱“龍蝦”）引爆開發者社區，到近期監管層面關注智能體的數據安全，市場情緒在狂熱與焦慮間反復。雖然智能體在調用工具、處理復雜事務上的效率令人驚嘆，但隨之而來的高昂API 賬單卻成為其從“實驗室玩具”走向“生產力工具”的最大障礙。

究其原因，智能體為了維持對話的連貫性與個性化，往往需要重復加載數以萬計的上下文 Token。這種低效的“記憶”方式導致了嚴重的“Token焦慮”。今天我們想深挖一個本質命題：這些燒掉的資源究竟是模型推理的硬性支出，還是系統基建效率低下的隱形成本？在安全、成本與智能這三者構成的“不可能三角”中，我們是否只能三選二？

為此，我們邀請了兩位具有代表性的專家，從端云協同與記憶管理兩個視角，共同拆解這一難題。

接下來，有請兩位專家簡單介紹自己的相關工作，以及對Token焦慮和技術破局的理解。

閆宇坤：感謝岑老師。在深入探討之前，我們需要審視大模型形態的演進：我們正從單純的“對話式模型”轉向“專業智能體系統”，即從簡單的交流轉向特定的任務執行。

OpenClaw 及類似產品的出現，標志著“智能體操作系統”的誕生。它們實現了從單一任務執行向靈活能力定制的跨越。然而，目前的 OpenClaw雖然展現了機器人控制、生物實驗等炫酷場景，其本質仍依賴于人工定制的Skill。它目前的處境就像汽車剛發明時的樣子——雖不華麗且故障頻發，但它預示著一個新時代的到來。要讓智能體真正普及，必須解決三個核心痛點：安全保障、使用成本與任務復雜度。

以 OpenClaw 為例，如開發者 API Key 泄露隱私安全問題頻出，且運行成本極高。有時一句簡單的“你好”可能因為重復加載背景信息而消耗五六萬Token，此外，目前多數智能體僅能處理簡單任務，尚無法完成跨領域的復雜協作。

針對這些問題， EdgeClaw采用了端云協同范式。我們將這種模式戲稱為“安全高效并行龍蝦養殖技術”。

在我們的架構中，端側模型被定義為“個人助理”的“秘書”角色，它不需要極強的邏輯推理能力，但必須深度理解用戶行為和偏好。端側是用戶的安全下限，負責隱私隔離；云側則是“行業專家”，負責性能上限。它部署千億級參數模型和專業工具，但與用戶隱私物理隔離。

這就好比家庭醫生與專科醫生的協作：小病小痛由端側醫生直接開藥解決；遇到疑難雜癥，端側醫生負責整理病歷、剔除敏感信息，再一次性提交給云側專家。這種方式既保證了隱私，又通過減少冗余交互降低了Token 成本。

另外，EdgeClaw 引入了核心的“模型路由”機制，根據任務的隱私敏感度進行分級處理，定義數據安全邊界：

S1 級（公共級）：無任何隱私風險。如進行公開信息調研，任務直接由云端模型執行。
S2 級（脫敏級）：涉及部分隱私。如代碼審查任務中包含 API Key，先由端側模型識別并隱去敏感字段，再將脫敏后的數據發往云端。
S3 級（本地級）：高度敏感任務。隱私信息本身即是任務核心，脫敏后無法執行，此類任務強制在端側本地運行。

除了安全分級，我們還引入了“項目記憶”機制。不同于傳統的時間軸記憶，它按項目聚合信息，有效防止多任務并行的記憶混淆。此外，系統內置“性價比路由”，根據不同模型的Token 單價和任務難度，自動匹配最優執行路徑。實測顯示，在圖文內容創作等場景下，EdgeClaw 可將綜合成本降低約 80%。

李志宇：剛才宇坤談到了架構上的分流，我從“記憶管理”這一系統視角來回應。MemTensor 的核心邏輯是以認知能力驅動第一性原理建模。

回顧 AI 交互的發展：2024 年初，用戶主要在做 Prompt Engineering，通過調優提示詞激發模型預訓練能力，但模型往往“轉頭就忘”，新開窗口即丟失所有個性化設定。隨后，隨著模型支持 128K乃至 1M 的超長上下文，行業進入了 Context Engineering階段。然而，暴力堆砌上下文會導致成本呈指數級爆炸，這就是“龍蝦”這類應用最初被詬病燒錢的原因。

我們倡導并推動 Memory Engineering（記憶工程）。它不是簡單地增加窗口長度，而是對狀態進行全鏈路管理，讓智能體不僅能“記住”，還能在交互中“學習”，實現越用越聰明。

我們將記憶管理拆解為：抽取、組織、檢索、更新、共享五個步驟。在實際業務流中，記憶的抽取和更新最容易產生幻覺，例如模型錯誤歸檔用戶信息。為了解決這些問題，MemOS提出了業界首個三層分層記憶模型：

第一層：明文記憶（Textual Memory）。寫入速度最快，但讀取效率低。在跨場景調用時，大規模文本的重復加載成本極高。目前很多 API 廠商提供的“緩存命中優惠”本質上就是在優化這一層。
第二層：參數化記憶（Parametric Memory）。通過模型訓練將知識內化進權重。讀取極快，能隨主鏈路激活，但寫入（訓練）代價高昂，無法滿足實時更新需求。
第三層：激活記憶（Activation Memory）。介于兩者之間。通過對計算過程中的中間態進行管理，可以極大提高首字延遲和 Token 補全效率。

MemOS 目前在云服務端的月調用量已突破 3500萬次，開源社區關注度極高。我們的商業邏輯分為四個層級：

按 API 調用收費：為云端 Agent 提供記憶增強服務。
按設備授權收費：與手機、硬件廠商合作，部署本地化記憶模型。
按 Token 優化分成：通過 KV Cache 管理和淺層優化直接降低客戶的 Token 賬單，從節省的成本中獲利。
云算力協同：與 GPU 云廠商合作，優化底層存儲與計算效率。

我們認為，記憶管理絕非調調 Prompt 那么簡單。它是一場涉及存算效率、模型對齊和系統調度的全方位戰爭。

用“物理分級”與“記憶工程”擊穿成本黑洞

岑峰：感謝兩位的分享。針對 Token 焦慮，兩位呈現了不同的解題路徑。EdgeClaw 是從架構重構入手，通過“端云協同”和“物理分級”從源頭上切斷無效 Token的消耗；MemOS 則是從系統優化切入，在既有架構下通過“記憶分層”和“智能調度”榨取極限效率。

接下來回到用戶視角，Token焦慮最核心的痛點究竟是什么？是單次對話的昂貴感，還是賬單的不可預測性？

閆宇坤：用戶焦慮的根源確實涵蓋了這些方面。目前最尖銳的問題在于透明度的缺失。大多數用戶可以接受為價值付費，但無法接受算力成本的無端損耗。比如用戶僅僅輸入一句簡單的問候，系統可能因為重復加載背景信息或調用了不必要的復雜模型，瞬間消耗數萬Token。因此，我們必須從架構層面建立完善的消耗統計與日志系統，首先讓用戶“錢花得明白”。

在建立透明度的基礎上，我們需要解決“性價比偏好”的對齊問題。性價比本身是一個極具主觀色彩的概念：某些任務交給端側微型模型處理只需幾分錢，而交給頂級云端模型可能耗資數百倍。我們希望賦予Agent 遵循用戶價值觀的能力。如果用戶傾向于極致節省，Agent 應該學會如何在保證基本任務完成的前提下，優先使用端側資源。

此外，我們還在探索一種動態演化的路徑。最初，Agent 解決復雜任務可能需要頻繁向云端專家“求助”，產生較高的 Token成本。但隨著交互的深入，系統會自動記錄云端的執行經驗與思維模式，并逐步將其蒸餾、遷移至端側模型。這意味著隨著使用時間的增加，端側模型的成功率會不斷提升，整體成本隨之呈現出持續下降的曲線。這種“越用越便宜”的成長性，才是緩解用戶長效焦慮的關鍵。

岑峰：宇坤提到的確定性訴求非常關鍵。但在工程現實中，像“分析五年來的郵件并生成洞察報告”這樣的復雜的任務往往會跨越不同敏感等級的數據。這種精細化的分級路由，是否會因為判斷邏輯過于復雜而增加系統負擔，反而抬高了整體工程成本？EdgeClaw又是如何精準定義本地處理與云端協作的邊界？

閆宇坤：頻繁的路由判斷確實是一把雙刃劍。在最初的設計中，我們曾嘗試在每次模型調用時都進行一次隱私和性價比檢測，但這直接導致了明顯的感知延遲和計算冗余。更嚴重的是，云端服務通常具備上下文緩存復用機制，頻繁的路由切換如果打亂了這種連續性，反而會導致 Token 成本上升。

為了平衡這一矛盾，我們在工程上采取了“分段判別”的策略。我們不再對整個宏觀任務進行一次性判斷，也不再對每一次原子化的 API 調用進行干預，而是將判斷邏輯錨定在Agent 與 Sub-agent的交互節點上。這種中等顆粒度的控制，既能保證隱私協議不會在復雜鏈路中失效，又將判斷頻率降到了系統可承受的范圍內，有效緩解了延遲。我們在“小紅書內容創作”場景下的實測數據證明，這種策略在保持產出質量的前提下，能將原本 10美元以上的任務成本大幅壓縮至 2 美元左右。

至于如何定義本地與云端的邊界，這是一個典型的個性化命題。EdgeClaw 提供了一套包含 Prompt描述和任務標簽的默認配置。系統會初步判斷一個任務是屬于邏輯深奧的“推理型”還是流程簡單的“執行型”。同時，我們支持用戶介入修改這些判別規則。更前沿的一點是，我們正在引入“路由自演化”機制，通過收集用戶對任務結果的反饋，讓路由器自發學習并對齊用戶的性價比傾向。這種邏輯與目前的技能自演化異曲同工，最終讓模型能夠通過學習，自主識別哪些任務該留在本地，哪些必須上云。

岑峰：宇坤給出了空間維度的答案，現在我們將視角轉回時間的維度。志宇，您提到記憶機制對節省 Token 至關重要。但我希望明確一個認知：這些Token 是在記憶“存儲”環節省下的，還是在記憶“檢索”環節省下的？換言之，在 Agent 的成本賬單里，究竟是“記住”更燒錢，還是“回憶”更燒錢？

李志宇：這是一個直擊本質的問題。如果將 Agent記憶的五個閉環（抽取、組織、檢索、更新、共享）進行成本拆解，我的結論非常明確：回憶或者說檢索與加載才是真正的高頻算力黑洞。

“記住”的過程主要發生在寫入階段，涉及記憶的抽取、總結與結構化處理。雖然這個過程需要模型去判斷是否去重、是否進行參數化轉化，但它相對低頻，通常是一次性投入。只要沒有發生大規模的信息更新，一條信息一旦入庫，其存儲成本是恒定的。

相比之下，“回憶”是每一次推理行為的必經之路。如果沒有高效的記憶系統，Agent會表現得非常“暴力”：哪怕用戶提出一個“你好”這樣的簡單問題，系統為了維持個性化，可能會從后臺檢索出數個龐大的Markdown 文檔或長達上萬字的對話摘要，一股腦地塞進 Prompt。這種高頻、海量的重復加載，是導致賬單爆炸的主因。

因此，MemOS系統的優化核心在于提升“寫入質量”以反哺“檢索效率”。我們致力于將冗長的歷史對話轉化為更緊湊、可復用的記憶片段。這好比做菜，如果在準備階段（寫入）能把菜擇得干凈、切得標準，那么在炒菜（推理）時，不僅速度快，還能最大限度避免廢料產生的無效熱量。總結來說，雖然燒錢的行為發生在后期的回憶階段，但解決問題的源頭必須回到寫入階段的精細化建模上。

岑峰：提到“精細化建模”，MemOS 將長時記憶切分為片段并進行選擇性加載。但在實際應用中，“必要記憶”的界限非常模糊。如果 Agent因為追求節省而漏掉了關鍵信息，導致用戶不得不進行多輪澄清，省下的 Token會不會被增加的對話輪次所抵消？這種系統優化的天花板在哪里？

李志宇：這確實是所有開發者最擔心的問題。在記憶系統中，我們遵循“Garbage in, Garbage out”的原則。所謂的“必要記憶”，既不是壓縮比例越高越好，也不是保留原文越多越好。

如果壓縮過狠，比如將其完全轉化為高度抽象的知識圖譜，雖然節省了空間，但會丟失大量的邏輯上下文，對模型的推理能力要求極高。如果采取“懶惰記憶”模式，僅做簡單的文本切片，雖然處理速度快，但片段之間缺乏語義和版本的關聯，召回時往往碎片化，難以支撐復雜的長程決策。

我們定義的“必要記憶”是一種“最小自包含狀態”。舉個例子：用戶說“請幫我預定星期五在老地方的聚會”。傳統的系統可能直接把這句話存下來，但當 Agent以后回憶起這條信息時，它會對“老地方”感到困惑。

在 MemOS的邏輯中，系統在抽取時如果發現信息不完備，會觸發“等待”或“溯源”機制：要么從歷史庫中找尋“老地方”的定義，要么等待下一輪對話補全信息后再進行存儲。我們追求的是在抽取階段就將檢索、推理與任務規劃融合在一起。近期我們開源的MemReader模型就在嘗試這種“Agentic 抽取”模式：讓模型主動識別當前信息的完備性，確保每一個存入的片段都是最小且邏輯閉環的。

實測顯示，通過這種“預判式”的存儲，我們可以用更少的記憶片段實現同等甚至更高精度的回答。原來可能需要召回 10K 的上下文，現在只需 6K左右的“自包含片段”就能解決問題。這種精準調度的能力，決定了系統優化的天花板，它不僅減少了無效的回憶，更從根本上規避了因信息缺失導致的行為反彈。

范式之變：端側算力的“極限壓榨”與跨平臺記憶資產化

岑峰：總結這一輪的討論，我們達成了兩個關鍵共識：Token 焦慮的本質是系統行為的不可預測性，端云協同通過物理分級重新構建了這種確定性；而 Token消耗的大頭在于高頻的回憶環節，系統優化通過精準切分，減少冗余信息的無效加載。

我們進一步討論技術問題，我們注意到 EdgeClaw的路線圖高度強調本地模型的作用。目前端側算力與模型能力正呈指數級增長，那么未來是否會出現一種可能，當本地模型足夠強大時，云端模型將失去其邏輯中樞的地位，退化為僅負責聯網檢索的輔助插件？

閆宇坤：關于本地模型的邊界問題，我們需要從硬件與算法兩個維度動態觀察。雖然我個人對本地能力的全面爆發持樂觀態度，認為越來越多的復雜任務將回歸端側，但在可預見的階段內，云端模型依然保持著性能上限的優勢。

本地模型的深遠意義在于，它正從單純的隱私“防火墻”進化為智能體的“個性化演化中心”。當智能體真正作為生產力工具進入專業領域時，會產生大量無法上云的極細分、極專業的垂直任務。云端大模型受限于商業成本與通用性標準，很難為每一個用戶提供定制化的微調服務。

而本地硬件的成熟，為智能體的“自演化”埋下了伏筆。未來一兩年內，隨著敏捷微調和在線學習技術的落地，本地模型可以在與用戶的持續交互中，實時吸收行業 Know-how和個人偏好。這種基于本地專用硬件、模型與垂直數據的閉環，將構建出比云端更具深度的專業技能。

此外，端云協同只是第一步，未來的前進方向是“多節點協同”。不同的本地模型可能具備不同的專業能力，通過端與端、節點與節點之間的協作，可以實現比單一云端中樞更高效的任務分發。總結來說，云端將愈發趨向于通用智能的輸出，而本地側則負責專業化與個性化的深度沉淀。

岑峰：宇坤描繪的端云分工極具前景，但這也引發了另一個疑慮：對于個人用戶或小微企業而言，購買高性能端側硬件本身就是一筆不菲的“隱性成本”。EdgeClaw如何平衡硬件投入與 Token 節省之間的財務賬本？

閆宇坤：硬件門檻確實是一個客觀存在的成本。以目前主流的英偉達端側計算卡（如如DGX spark）為例，初始采購成本約為 3萬人民幣。對比來看，如果高頻調用云端千億級參數模型的API，在連續運行三到四個月后，其累計消耗的 Token 費用便足以覆蓋這臺硬件的成本。

但我們需要轉換思考視角：云端 API是持續流出的“變動成本”，而本地硬件是可折舊的“固定資產”。更深層的邏輯在于對存量價值的挖掘。目前許多企業內部其實存在大量閑置算力，EdgeClaw的初衷并非強迫用戶增購硬件，而是通過端云協同框架，將這些已有的資源轉化為生產力。

這種模式改變了用戶的消費心理。在使用純云端應用（如 OpenClaw 早期版本）時，用戶往往因為高昂的 Token費用而表現得畏手畏腳，這實際上抑制了智能體的創新使用。一旦任務遷移至本地，邊際成本趨近于零，用戶會被激勵著將硬件性能壓榨至極限。

為了進一步降低準入門檻，EdgeClaw 正在通過自動化調度支持“任意組合”。用戶既可以利用現有筆記本顯卡搭配云端便宜的API，也可以在企業內網部署小型服務器集群。通過與算力平臺的對接，我們致力于讓本地模型的啟動與維護變得像調用云端接口一樣簡單，讓這種“重構成本”在系統演化中被最大程度攤薄。

岑峰：系統重構需要周期，而系統優化則提供了即時的價值窗口。志宇，MemOS將操作系統管理內存的邏輯引入記憶管理。但操作系統面對的是確定性的物理地址空間，而AI 記憶面對的是高度抽象的語義空間。在 MemOS 中，定義記憶“冷熱”的標準究竟是什么？

李志宇：操作系統的尋址邏輯確實無法直接照搬，但在設計理念上，我們引入了“利用概率與頻率”作為語義空間的判定準則。

在 MemOS系統中，記憶的冷熱判別不是簡單地按時間倒序排列。雖然“時間衰減”是一個關鍵權重，但我們更看重三個核心指標：訪問頻率、任務相關性以及狀態延續性。我們會評估某條記憶如果被“遺忘”（即未被召回），是否會對用戶當前的決策產生不可逆的影響。

舉個例子，用戶在三個月前設定了一個長期財務目標，隨后一直未提及。從時間軸上看，這段記憶已經進入了“極冷區”。但當用戶今天突然問起“幫我根據之前的規劃做一下報表”時，系統會在第一個Query進入時識別出該任務與那個舊目標的強語義關聯，從而瞬間預熱并激活三個月前的所有相關片段。這種“冷記憶”的瞬時喚醒，是基于當前運行的“價值狀態”而非單純的物理周期。

這種設計本質上是在解決存算成本的平衡。鑒于目前GPU顯存的昂貴，我們不可能將海量歷史信息全部常駐顯存。我們必須通過模型預測，將大概率不再被需要的記憶下放到“冷備存儲”。

這里存在的 Trade-off 是：一旦預測失敗，從冷備區找回記憶會帶來額外的首字延遲和算力開銷。因此，MemOS核心競爭力的體現，就在于如何通過更精準的語義路由，降低這種喚醒成本，確保系統在激活與冷備之間實現動態平衡，而不是僵化地進行“一刀切”。

岑峰：既然記憶調度涉及額外的預測與計算，那么在工程實戰中，調度行為本身消耗的算力，與它所節省的 Token 成本之間，是否存在一個平衡點？MemOS在不同場景下的優化表現如何？

李志宇：調度的經濟學確實是 MemOS框架中最重要的模塊。如果調度的開銷過大，系統就會陷入“空轉”的陷阱。我們的破局思路是“大小模型分治”。

我們不再依賴像 GPT-4o這樣昂貴的通用大模型來執行記憶管理任務。相反，我們訓練了一系列面向記憶領域的“專有微型模型”，專門負責記憶抽取、價值判定、版本更新和重排（Rerank）。這些模型規模極小，但對記憶邏輯的理解極深。通過這種方式，我們用極低成本的計算，替代了原本需要消耗高價值Token 才能完成的上下文篩選工作，從而大幅壓低了總成本。

此外，我們從系統層到硬件層進行了聯合優化。通過預填充（Prefill）與解碼（Decode）分離的機制，以及對閑時算力的負載均衡，我們確保了推理鏈條的低時延，同時保證算力資源沒有被浪費。

從實際場景的波動來看，優化收益與任務的復雜度和長程性呈正相關。

- 低頻短會話：對于僅有幾百 Token 的短平快交互，由于上下文本身極短，簡單拼接進 Prompt 的效率最高，此時記憶調度的收益并不顯著。

- 長程復雜任務：當 Agent 需要運行一小時甚至更久來解決某個專業問題時，記憶管理的作用會被顯著放大。精準的調度能將原本需要召回的 10K上下文壓縮至 6K 的核心自包含片段，這種 Token 節約的收益是指數級的。

岑峰：MemOS 聚焦于長對話場景下的優化，而 EdgeClaw則更激進地提倡將高頻任務搬到本地。這種“系統優化”與“架構重構”的關系，究竟是競爭對手還是互補伙伴？

閆宇坤：我非常有信心認為它們是互補關系。從技術本質上講，架構重構與系統優化是相互正交的。EdgeClaw 的路由機制完全可以與 MemOS的記憶調度邏輯無縫結合。

現在開發模式正在發生巨變。以往跨系統的集成可能需要數周的溝通與開發，但在如今 Web Coding 與 AI輔助生成的加持下，我們可以快速構建原型并進行試錯。將MemOS 的分層記憶特性接入 EdgeClaw 的路由節點，可能只需要兩三天的調優周期。這種低難度的組合，讓“治標”與“治本”可以并行不悖。

李志宇：我完全贊同。如果將端云協同視為智能體的物理存在形態，那么記憶操作系統就是智能體的“狀態中樞”。

無論在端側還是云側運行，Agent都繞不開“狀態持續性”的命題。端側擅長實時交互與隱私處理，云側擅長跨任務整合與大規模計算。但在未來，用戶會擁有手機、車機、電腦等多個端。如何保證用戶在手機上聊到一半的任務，能在車機上無縫延續？這需要一套跨越物理節點的“長期狀態層”來管理。

端和云解決的是“計算哪里最快、最省”的問題，而記憶操作系統解決的是“狀態如何無縫遷移、如何持續演化”的問題。即便未來端側算力無限大，我們依然需要一個邏輯層來治理不同設備間的認知一致性。因此，端云是一種算力協同方式，而記憶管理是狀態協同方式，二者共同構成了未來智能體能夠 7×24小時無縫存在的底座。

展望未來：當“投入產出比”擊敗“參數崇拜”

岑峰：感兩位老師不僅達成了技術上的共識，更揭示了智能體從“工具”向“數字生命”演化的必經之路：算力的歸算力，狀態的歸狀態，最終通過精準的調度實現效率與智能的共振。我們將繼續深入：當安全與成本達成妥協，智能的上限又該如何突破？

隨著架構優先和漸進演化兩條路線的日益清晰，記憶正從單純的成本中心轉向價值中心。在端云協同的愿景中，敏感高頻任務本地化，復雜推理上云端。那么，端與云的算力配比將如何演化？到 2027年，本地模型預期能覆蓋多大比例的任務？這種預測是基于摩爾定律的慣性，還是模型蒸餾等技術的突圍？

閆宇坤：關于端云算力的配比，可以從短期與長期兩個維度審視。短期內，云端由于基礎設施成熟、算力節點密集，依然占據主導地位。目前端側算力的多樣化程度極高，尚未出現能夠廣譜適配所有硬件的通用模型。但隨著用戶回歸理性，不再盲目追求全量上云，云端算力會趨于飽和，端側占比將隨著模型能力的提升而穩步增長。

從長期來看，到 2027 年左右，本地模型能覆蓋的任務比例可能不再是一個簡單的百分比問題。我們的愿景是實現一種“永遠在線”的端側模式。這意味著端側算力將不再是被動等待指令的任務執行者，而是被“拉滿”的主動協作方。

舉例來說，目前的模式是用戶要求 Agent 明天準備一份報告素材，Agent 收集完資料便處于靜默狀態，直到提醒用戶。而在“永遠在線”的架構下，Agent接收任務后，會在截止日期前的所有閑置時間里，自發地進行深度調研、素材優化和內容潤色。即便是一個需要 20 分鐘完成的PPT，它會在后臺持續尋找更精準的論據和更優的表達。這種模式對端側算力提出了極限挑戰，它不僅依賴于模型蒸餾等降準技術，更依賴于工作流和記憶機制的底層重構。我們有信心到 2027年，這種主動尋找任務、利用剩余算力創造價值的架構能夠真正落地。

岑峰：宇坤描繪了端側優先的延伸，而 MemOS則更傾向于成為跨平臺的記憶中樞。當記憶成為智能體的核心資產，平臺的商業模式會發生怎樣的轉變？記憶的所有權與定價權又該如何界定？

李志宇：記憶產業的演進與早期云計算非常相似。在第一階段，我們將其視為一種“能力收費”模式（Memory as a Service）。此時主要解決的是讓Agent 從“無記憶”變為“有記憶”，通過 API 調用量、存儲空間或包月套餐來變現，這本質上是一種工具型收費。

到了第二階段，記憶將演進為“基礎設施層”或“長期狀態中樞”。平臺不僅提供存儲和檢索，更負責跨端、跨 Agent的狀態管理。在企業組織內部，這涉及記憶的權限隔離、版本回滾、生命周期管理及安全審計。此時，用戶訂閱的是一套跨系統的協同機制，而非簡單的API。

第三階段則是“生態與價值變現”階段。當平臺上積累了足夠多的用戶記憶，它將類似于“數字賬號登錄”一樣的存在。如果一個新應用想要提供極致的個性化服務，就必須接入這套記憶系統。

在所有權方面，我們從設計之初就明確，記憶的所有權絕對屬于用戶或企業。平臺提供的是管理和加工服務，而非占有資產。但我們要為用戶開辟“記憶變現”的渠道。比如一位資深律師，其Agent 在長期的交互中吸收了大量的法律思辨邏輯和專家經驗，這個 Agent 形成的參數化與激活記憶包就具備了極高的商業價值。我們計劃打造“Memory Store”，允許用戶將這種高價值記憶包上架，其他用戶可以通過訂閱來加載這些特定領域的“智慧”，實現真正意義上的數字分身商業化，而不僅僅是簡單的角色扮演。

岑峰：2026 年已近三分之一，請兩位預測一下，到今年年底，Token焦慮的破局點會是什么？是殺手級應用的出現，還是端側算法的爆發，亦或是商業模式的徹底創新？

閆宇坤：我更傾向于認為破局點在于“使用模式的突破”。目前國內雖然存在“養龍蝦”的熱潮，但整體使用方式依然比較粗放。用戶往往不清楚 Agent究竟能解決什么問題，也不知道其性價比邊界在哪里。

我們需要一個“殺手級”的模式來教育市場。這種模式能直觀地告訴用戶，Agent 在什么時候是生產力工具，在什么時候提供的是情緒價值。當錢花在哪里、Token消耗產生多少回報被梳理清楚后，焦慮自然會消失。焦慮的根源不是消耗多，而是產出與支出的不對等。

李志宇：破局的關鍵在于“結果密度”。Token 焦慮表面看是賬單問題，本質上是用戶對價值感知的缺失。如果你花了幾塊錢 Token卻換來一份讓你拍案叫絕的報告，你下次會毫不猶豫地付費；但如果換來的是一堆毫無意義的幻覺，一分錢都會覺得貴。

從技術側看，破局點在于“流量分流”的成熟。目前大多數用戶和 Agent廠商并不具備精準的成本管理能力，導致高價值模型被浪費在低價值任務上。如果有一套成熟的路由方案，能把小任務導向端側模型，把長程任務導向緩存復用路徑，賬單自然會變得優雅。未來的產品形態可能會演變為：用戶發布一條指令，多個Agent 競標給出結果，用戶只為那個認可的結果付費。這種模式會將 Token壓力的焦慮從用戶側轉嫁給廠商。廠商如果不能提供更優的效能比，就會在市場中失去競爭力。

岑峰：Token 焦慮和記憶成本的矛盾不僅存在于智能體領域，在自動駕駛、游戲 NPC、金融風控等場景同樣存在。你們的解法是否具有跨領域的通用性？

李志宇：所有的焦慮都可以拆解為“投入產出比”。在游戲領域，我們通過記憶機制能讓 NPC具備更長期的性格連貫性，顯著提升了用戶的在線時長和交互意圖。當這種業務層面的回報變得可衡量時，記憶管理的成本就不再是負擔。這種邏輯在金融風控對長周期行為的追蹤上同樣適用。

閆宇坤：我有一個稍微“暴論”的觀點：未來社會將進入“智能體力資源管理”的時代。過去我們研究人力資源的合理分配，未來我們需要研究如何根據任務難度、隱私等級和成本敏感度，在分布式節點中合理分配智能資源。無論是哪個領域，只要涉及到智能的調用，都存在對通解的需求。我們希望提出的這套架構能成為這種資源分配的底層標準。

岑峰：感謝兩位。今天的討論非常深刻。EdgeClaw 的端云協同試圖從源頭切斷 Token 損耗的“血脈”；而 MemOS的記憶調度則在現有架構內榨取每一分效率。

短期看，系統優化能讓用戶少燒錢；長期看，系統重構將讓 Token焦慮成為歷史名詞。正如兩位嘉賓所言，記憶正在從成本中心演變為價值中心。未來的核心命題將不再是“這項工作要花多少錢”，而是“這段記憶能帶來什么”。這或許才是真正意義上的范式轉移。感謝宇坤，感謝志宇，也感謝所有在線聽眾的參與。本場直播到此結束，謝謝大家。

YouTube：https://youtu.be/aoRUaH_GNqQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.