<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      告別天價賬單:端云協同與記憶革命,讓 Agent 告別「燒錢時代」丨 GAIR Live 029

      0
      分享至



      當 Agent 不再是昂貴的實驗品,而是像水和電一樣的基礎設施時,真正的 AI 時代才算真正降臨。

      作者丨岑峰

      2026 年,大模型行業的敘事中心正在經歷一場痛苦但必然的位移:從追逐參數規模的“算力競賽”,轉向追求任務落地的“工程突圍”。在這場位移中,AI Agent無疑是最被寄予厚望的終極形態,但它正面臨一堵名為“Token 焦慮”的圍墻。

      為什么 Agent 的普及如此之難?因為我們正處于一種極其低效的生產模式中:為了讓 Agent 維持對話的連貫性,系統不得不反復加載數萬字的上下文;一次簡單的任務調度,往往伴隨著不可預測的高昂賬單;而數據隱私在端與云的頻繁傳輸中,更是變得岌岌可危。

      Agent 的普及,正困在安全、成本與智能的“不可能三角”中。

      但這究竟是模型推理的硬性支出,還是系統基建效率低下的隱形成本?為了拆解這一本質命題,雷峰網舉辦了“從 Token 焦慮到記憶革命”主題的GAIR Live線上圓桌。論壇由雷峰網岑峰主持,特邀:

      • 李志宇 記憶張量 MemTensor 聯合創始人兼 CTO;

      • 閆宇坤 Qiyuan Lab 副研究員 清華大學 THUNLP 實驗室客座研究員

      兩位專家,通過圓桌討論,揭示了智能體基建如何通過“空間分流”與“時間管理”,重構 AI Agent 的成本價值秩序:閆宇坤領導的 EdgeClaw 試圖通過“端云協同”的物理分級,從架構源頭切斷無效 Token 的消耗;而李志宇掌舵的 MemTensor 則通過“記憶工程”,在既有架構下通過精細化的狀態管理榨取極限效率。

      01

      從“聊天框”到“任務操作系統”的范式躍遷

      討論的核心共識在于:我們正處于從“對話模型”向“任務執行系統”跨越的關鍵期。

      年初 OpenClaw的爆紅,本質上是全球開發者對“智能體操作系統”雛形的集體狂歡,但狂歡之后是沉重的成本賬單。閆宇坤指出,目前的 Agent 依然處于“蒸汽機時代”,雖能拉動生產力磨盤,卻因為頻繁加載背景信息產生了巨大的資源浪費。“有時一句簡單的‘你好’,可能因為重復加載背景信息而消耗五六萬 Token。”

      這種低效直接導致了商業閉環的斷裂。當 Agent 想要具備真正的“生產力”,它必須從單一任務執行向跨領域協作躍遷。而這種躍遷的前提,是必須解決安全、成本與復雜度這三座大山。

      02

      空間破局:端云協同與隱私物理分級

      針對“Token 焦慮”,閆宇坤代表的 EdgeClaw 給出了空間維度的答案:端云協同,從架構源頭切斷無效損耗。

      EdgeClaw 提出了一套“安全高效并行龍蝦養殖技術”,其核心邏輯是將端側定義為“個人秘書”,負責隱私隔離與日常處理;將云側定義為“行業專家”,負責處理高難度、非敏感的復雜邏輯。

      EdgeClaw設置了三級隱私分級路由,通過將任務分為“公共級(S1)”、“脫敏級(S2)”和“本地級(S3)”,Agent 能夠自主決定數據的流向。這不僅鎖定了安全的下限,更重要的是,它通過在端側預處理、脫敏和精簡,大幅減少了發往云端的“廢料 Token”。

      閆宇坤算了一筆極具沖擊力的財務賬:一臺高性能端側顯卡的采購成本,僅相當于高頻調用三四個月云端頂級 API 的費用。這意味著,本地硬件正在從“變動費用”變為“固定資產”。一旦任務遷移至本地,邊際成本趨近于零。這種財務結構的重構,將徹底激發 Agent 在垂直場景下的真實潛能,讓用戶不再因為“擔心賬單”而對 AI 畏手畏腳。

      03

      時間管理:從“提示詞工程”到“記憶工程”

      如果說端云協同解決了“在哪里計算”的問題,李志宇掌舵的 MemTensor 則解決了“如何有效記住”的問題:將行業視野從空間轉向時間,從暴力堆砌上下文轉向精細化的記憶分層。

      李志宇提出了一個直擊本質的觀點:“在 Agent 的賬單里,回憶比記住更燒錢。”

      過去,行業普遍迷信“超長上下文(Long Context)”,認為 128K 乃至 1M 的窗口能解決所有問題。但暴力堆砌上下文的后果是成本的指數級爆炸。MemTensor 倡導的“記憶工程”,強調對記憶進行分層管理

      1. 明文記憶(Textual Memory):快速寫入,但讀取成本高;

      2. 參數化記憶(Parametric Memory):通過訓練將知識內化,讀取極快但寫入代價大;

      3. 激活記憶(KV Cache 管理):優化計算中間態,提升響應速度。

      為了對抗高頻、重復加載帶來的賬單爆炸,MemTensor 引入了操作系統管理內存的邏輯。通過“Agentic 抽取”模式,系統不再是被動地存儲文本片段,而是主動識別信息的完備性。

      例如,當用戶提到“老地方”時,系統會在寫入階段就完成溯源和補全。這種精準調度能力,能將原本需要召回的 10K 上下文壓縮至 6K 的精準片段,從而在不損耗智能的前提下實現成本的極限下探。

      04

      價值重構:記憶作為未來的“數字資產中心”

      圓桌另一個深刻共識是:記憶管理不僅是降本增效的手段,更是Agent時代未來 AI 商業模式的基石

      李志宇提出了一個顛覆性的愿景:“記憶市場(Memory Store)”:在長期交互中,一個 Agent 吸收了大量專業領域的思辨邏輯和專家經驗,這些被參數化、結構化的記憶包,本身就是極具商業價值的資產。當記憶可以被脫敏、打包并上架,用戶訂閱的將不再是一個冷冰冰的通用模型,而是一段被內化的智慧,也進一步將記憶從成本中心徹底轉變為價值中心。

      閆宇坤則補充了“智能自演化”的概念。本地模型由于擁有私有數據和持續交互,會自發進行“蒸餾”和“對齊”,這種“越用越聰明、越用越便宜”的成長性,是云端通用模型無法提供的核心護城河。

      05

      邁向“智能體力資源管理”時代

      2026 年已近三分之一,Token 焦慮的破局點已經明朗:破局的關鍵不在于等待大模型單價的下降,而在于系統工程的全面優化。

      未來的社會將進入“智能體力資源管理”的時代。就像我們要對人力資源進行合理配置一樣,未來我們也需要根據任務的難度、隱私等級和成本敏感度,在分布式節點中合理分配智能資源。

      當 Agent 不再是昂貴的實驗品,而是像水和電一樣隨處可得、成本可控的基礎設施時,真正的 AI 時代才算真正降臨。

      以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:


      Token 焦慮的根源:AI Agent落地的生死線

      岑峰:各位嘉賓、朋友,晚上好。歡迎參加由雷峰網主辦的 GAIR Live 線上圓桌。

      今年以來,AI Agent 領域經歷了一場大起大落。從年初OpenClaw(俗稱“龍蝦”)引爆開發者社區,到近期監管層面關注智能體的數據安全,市場情緒在狂熱與焦慮間反復。雖然智能體在調用工具、處理復雜事務上的效率令人驚嘆,但隨之而來的高昂API 賬單卻成為其從“實驗室玩具”走向“生產力工具”的最大障礙。

      究其原因,智能體為了維持對話的連貫性與個性化,往往需要重復加載數以萬計的上下文 Token。這種低效的“記憶”方式導致了嚴重的“Token焦慮”。今天我們想深挖一個本質命題:這些燒掉的資源究竟是模型推理的硬性支出,還是系統基建效率低下的隱形成本?在安全、成本與智能這三者構成的“不可能三角”中,我們是否只能三選二?

      為此,我們邀請了兩位具有代表性的專家,從端云協同與記憶管理兩個視角,共同拆解這一難題。

      接下來,有請兩位專家簡單介紹自己的相關工作,以及對Token焦慮和技術破局的理解。

      閆宇坤:感謝岑老師。在深入探討之前,我們需要審視大模型形態的演進:我們正從單純的“對話式模型”轉向“專業智能體系統”,即從簡單的交流轉向特定的任務執行。

      OpenClaw 及類似產品的出現,標志著“智能體操作系統”的誕生。它們實現了從單一任務執行向靈活能力定制的跨越。然而,目前的 OpenClaw雖然展現了機器人控制、生物實驗等炫酷場景,其本質仍依賴于人工定制的Skill。它目前的處境就像汽車剛發明時的樣子——雖不華麗且故障頻發,但它預示著一個新時代的到來。要讓智能體真正普及,必須解決三個核心痛點:安全保障、使用成本與任務復雜度。

      以 OpenClaw 為例,如開發者 API Key 泄露隱私安全問題頻出,且運行成本極高。有時一句簡單的“你好”可能因為重復加載背景信息而消耗五六萬Token,此外,目前多數智能體僅能處理簡單任務,尚無法完成跨領域的復雜協作。

      針對這些問題, EdgeClaw采用了端云協同范式。我們將這種模式戲稱為“安全高效并行龍蝦養殖技術”。

      在我們的架構中,端側模型被定義為“個人助理”的“秘書”角色,它不需要極強的邏輯推理能力,但必須深度理解用戶行為和偏好。端側是用戶的安全下限,負責隱私隔離;云側則是“行業專家”,負責性能上限。它部署千億級參數模型和專業工具,但與用戶隱私物理隔離。

      這就好比家庭醫生與專科醫生的協作:小病小痛由端側醫生直接開藥解決;遇到疑難雜癥,端側醫生負責整理病歷、剔除敏感信息,再一次性提交給云側專家。這種方式既保證了隱私,又通過減少冗余交互降低了Token 成本。

      另外,EdgeClaw 引入了核心的“模型路由”機制,根據任務的隱私敏感度進行分級處理,定義數據安全邊界:

      • S1 級(公共級): 無任何隱私風險。如進行公開信息調研,任務直接由云端模型執行。

      • S2 級(脫敏級): 涉及部分隱私。如代碼審查任務中包含 API Key,先由端側模型識別并隱去敏感字段,再將脫敏后的數據發往云端。

      • S3 級(本地級): 高度敏感任務。隱私信息本身即是任務核心,脫敏后無法執行,此類任務強制在端側本地運行。

      除了安全分級,我們還引入了“項目記憶”機制。不同于傳統的時間軸記憶,它按項目聚合信息,有效防止多任務并行的記憶混淆。此外,系統內置“性價比路由”,根據不同模型的Token 單價和任務難度,自動匹配最優執行路徑。實測顯示,在圖文內容創作等場景下,EdgeClaw 可將綜合成本降低約 80%。

      李志宇:剛才宇坤談到了架構上的分流,我從“記憶管理”這一系統視角來回應。MemTensor 的核心邏輯是以認知能力驅動第一性原理建模。

      回顧 AI 交互的發展:2024 年初,用戶主要在做 Prompt Engineering,通過調優提示詞激發模型預訓練能力,但模型往往“轉頭就忘”,新開窗口即丟失所有個性化設定。隨后,隨著模型支持 128K乃至 1M 的超長上下文,行業進入了 Context Engineering階段。然而,暴力堆砌上下文會導致成本呈指數級爆炸,這就是“龍蝦”這類應用最初被詬病燒錢的原因。

      我們倡導并推動 Memory Engineering(記憶工程)。它不是簡單地增加窗口長度,而是對狀態進行全鏈路管理,讓智能體不僅能“記住”,還能在交互中“學習”,實現越用越聰明。

      我們將記憶管理拆解為:抽取、組織、檢索、更新、共享五個步驟。在實際業務流中,記憶的抽取和更新最容易產生幻覺,例如模型錯誤歸檔用戶信息。為了解決這些問題,MemOS提出了業界首個三層分層記憶模型:

      • 第一層:明文記憶(Textual Memory)。 寫入速度最快,但讀取效率低。在跨場景調用時,大規模文本的重復加載成本極高。目前很多 API 廠商提供的“緩存命中優惠”本質上就是在優化這一層。

      • 第二層:參數化記憶(Parametric Memory)。 通過模型訓練將知識內化進權重。讀取極快,能隨主鏈路激活,但寫入(訓練)代價高昂,無法滿足實時更新需求。

      • 第三層:激活記憶(Activation Memory)。 介于兩者之間。通過對計算過程中的中間態進行管理,可以極大提高首字延遲和 Token 補全效率。

      MemOS 目前在云服務端的月調用量已突破 3500萬次,開源社區關注度極高。我們的商業邏輯分為四個層級:

      1. 按 API 調用收費: 為云端 Agent 提供記憶增強服務。

      2. 按設備授權收費: 與手機、硬件廠商合作,部署本地化記憶模型。

      3. 按 Token 優化分成: 通過 KV Cache 管理和淺層優化直接降低客戶的 Token 賬單,從節省的成本中獲利。

      4. 云算力協同: 與 GPU 云廠商合作,優化底層存儲與計算效率。

      我們認為,記憶管理絕非調調 Prompt 那么簡單。它是一場涉及存算效率、模型對齊和系統調度的全方位戰爭。

      用“物理分級”與“記憶工程”擊穿成本黑洞

      岑峰:感謝兩位的分享。針對 Token 焦慮,兩位呈現了不同的解題路徑。EdgeClaw 是從架構重構入手,通過“端云協同”和“物理分級”從源頭上切斷無效 Token的消耗;MemOS 則是從系統優化切入,在既有架構下通過“記憶分層”和“智能調度”榨取極限效率。

      接下來回到用戶視角,Token焦慮最核心的痛點究竟是什么?是單次對話的昂貴感,還是賬單的不可預測性?

      閆宇坤:用戶焦慮的根源確實涵蓋了這些方面。目前最尖銳的問題在于透明度的缺失。大多數用戶可以接受為價值付費,但無法接受算力成本的無端損耗。比如用戶僅僅輸入一句簡單的問候,系統可能因為重復加載背景信息或調用了不必要的復雜模型,瞬間消耗數萬Token。因此,我們必須從架構層面建立完善的消耗統計與日志系統,首先讓用戶“錢花得明白”。

      在建立透明度的基礎上,我們需要解決“性價比偏好”的對齊問題。性價比本身是一個極具主觀色彩的概念:某些任務交給端側微型模型處理只需幾分錢,而交給頂級云端模型可能耗資數百倍。我們希望賦予Agent 遵循用戶價值觀的能力。如果用戶傾向于極致節省,Agent 應該學會如何在保證基本任務完成的前提下,優先使用端側資源。

      此外,我們還在探索一種動態演化的路徑。最初,Agent 解決復雜任務可能需要頻繁向云端專家“求助”,產生較高的 Token成本。但隨著交互的深入,系統會自動記錄云端的執行經驗與思維模式,并逐步將其蒸餾、遷移至端側模型。這意味著隨著使用時間的增加,端側模型的成功率會不斷提升,整體成本隨之呈現出持續下降的曲線。這種“越用越便宜”的成長性,才是緩解用戶長效焦慮的關鍵。

      岑峰:宇坤提到的確定性訴求非常關鍵。但在工程現實中,像“分析五年來的郵件并生成洞察報告”這樣的復雜的任務往往會跨越不同敏感等級的數據。這種精細化的分級路由,是否會因為判斷邏輯過于復雜而增加系統負擔,反而抬高了整體工程成本?EdgeClaw又是如何精準定義本地處理與云端協作的邊界?

      閆宇坤:頻繁的路由判斷確實是一把雙刃劍。在最初的設計中,我們曾嘗試在每次模型調用時都進行一次隱私和性價比檢測,但這直接導致了明顯的感知延遲和計算冗余。更嚴重的是,云端服務通常具備上下文緩存復用機制,頻繁的路由切換如果打亂了這種連續性,反而會導致 Token 成本上升。

      為了平衡這一矛盾,我們在工程上采取了“分段判別”的策略。我們不再對整個宏觀任務進行一次性判斷,也不再對每一次原子化的 API 調用進行干預,而是將判斷邏輯錨定在Agent 與 Sub-agent的交互節點上。這種中等顆粒度的控制,既能保證隱私協議不會在復雜鏈路中失效,又將判斷頻率降到了系統可承受的范圍內,有效緩解了延遲。我們在“小紅書內容創作”場景下的實測數據證明,這種策略在保持產出質量的前提下,能將原本 10美元以上的任務成本大幅壓縮至 2 美元左右。

      至于如何定義本地與云端的邊界,這是一個典型的個性化命題。EdgeClaw 提供了一套包含 Prompt描述和任務標簽的默認配置。系統會初步判斷一個任務是屬于邏輯深奧的“推理型”還是流程簡單的“執行型”。同時,我們支持用戶介入修改這些判別規則。更前沿的一點是,我們正在引入“路由自演化”機制,通過收集用戶對任務結果的反饋,讓路由器自發學習并對齊用戶的性價比傾向。這種邏輯與目前的技能自演化異曲同工,最終讓模型能夠通過學習,自主識別哪些任務該留在本地,哪些必須上云。

      岑峰:宇坤給出了空間維度的答案,現在我們將視角轉回時間的維度。志宇,您提到記憶機制對節省 Token 至關重要。但我希望明確一個認知:這些Token 是在記憶“存儲”環節省下的,還是在記憶“檢索”環節省下的?換言之,在 Agent 的成本賬單里,究竟是“記住”更燒錢,還是“回憶”更燒錢?

      李志宇:這是一個直擊本質的問題。如果將 Agent記憶的五個閉環(抽取、組織、檢索、更新、共享)進行成本拆解,我的結論非常明確:回憶或者說檢索與加載才是真正的高頻算力黑洞。

      “記住”的過程主要發生在寫入階段,涉及記憶的抽取、總結與結構化處理。雖然這個過程需要模型去判斷是否去重、是否進行參數化轉化,但它相對低頻,通常是一次性投入。只要沒有發生大規模的信息更新,一條信息一旦入庫,其存儲成本是恒定的。

      相比之下,“回憶”是每一次推理行為的必經之路。如果沒有高效的記憶系統,Agent會表現得非常“暴力”:哪怕用戶提出一個“你好”這樣的簡單問題,系統為了維持個性化,可能會從后臺檢索出數個龐大的Markdown 文檔或長達上萬字的對話摘要,一股腦地塞進 Prompt。這種高頻、海量的重復加載,是導致賬單爆炸的主因。

      因此,MemOS系統的優化核心在于提升“寫入質量”以反哺“檢索效率”。我們致力于將冗長的歷史對話轉化為更緊湊、可復用的記憶片段。這好比做菜,如果在準備階段(寫入)能把菜擇得干凈、切得標準,那么在炒菜(推理)時,不僅速度快,還能最大限度避免廢料產生的無效熱量。總結來說,雖然燒錢的行為發生在后期的回憶階段,但解決問題的源頭必須回到寫入階段的精細化建模上。

      岑峰:提到“精細化建模”,MemOS 將長時記憶切分為片段并進行選擇性加載。但在實際應用中,“必要記憶”的界限非常模糊。如果 Agent因為追求節省而漏掉了關鍵信息,導致用戶不得不進行多輪澄清,省下的 Token會不會被增加的對話輪次所抵消?這種系統優化的天花板在哪里?

      李志宇:這確實是所有開發者最擔心的問題。在記憶系統中,我們遵循“Garbage in, Garbage out”的原則。所謂的“必要記憶”,既不是壓縮比例越高越好,也不是保留原文越多越好。

      如果壓縮過狠,比如將其完全轉化為高度抽象的知識圖譜,雖然節省了空間,但會丟失大量的邏輯上下文,對模型的推理能力要求極高。如果采取“懶惰記憶”模式,僅做簡單的文本切片,雖然處理速度快,但片段之間缺乏語義和版本的關聯,召回時往往碎片化,難以支撐復雜的長程決策。

      我們定義的“必要記憶”是一種“最小自包含狀態”。舉個例子:用戶說“請幫我預定星期五在老地方的聚會”。傳統的系統可能直接把這句話存下來,但當 Agent以后回憶起這條信息時,它會對“老地方”感到困惑。

      在 MemOS的邏輯中,系統在抽取時如果發現信息不完備,會觸發“等待”或“溯源”機制:要么從歷史庫中找尋“老地方”的定義,要么等待下一輪對話補全信息后再進行存儲。我們追求的是在抽取階段就將檢索、推理與任務規劃融合在一起。近期我們開源的MemReader模型就在嘗試這種“Agentic 抽取”模式:讓模型主動識別當前信息的完備性,確保每一個存入的片段都是最小且邏輯閉環的。

      實測顯示,通過這種“預判式”的存儲,我們可以用更少的記憶片段實現同等甚至更高精度的回答。原來可能需要召回 10K 的上下文,現在只需 6K左右的“自包含片段”就能解決問題。這種精準調度的能力,決定了系統優化的天花板,它不僅減少了無效的回憶,更從根本上規避了因信息缺失導致的行為反彈。

      范式之變:端側算力的“極限壓榨”與跨平臺記憶資產化

      岑峰:總結這一輪的討論,我們達成了兩個關鍵共識:Token 焦慮的本質是系統行為的不可預測性,端云協同通過物理分級重新構建了這種確定性;而 Token消耗的大頭在于高頻的回憶環節,系統優化通過精準切分,減少冗余信息的無效加載。

      我們進一步討論技術問題,我們注意到 EdgeClaw的路線圖高度強調本地模型的作用。目前端側算力與模型能力正呈指數級增長,那么未來是否會出現一種可能,當本地模型足夠強大時,云端模型將失去其邏輯中樞的地位,退化為僅負責聯網檢索的輔助插件?

      閆宇坤:關于本地模型的邊界問題,我們需要從硬件與算法兩個維度動態觀察。雖然我個人對本地能力的全面爆發持樂觀態度,認為越來越多的復雜任務將回歸端側,但在可預見的階段內,云端模型依然保持著性能上限的優勢。

      本地模型的深遠意義在于,它正從單純的隱私“防火墻”進化為智能體的“個性化演化中心”。當智能體真正作為生產力工具進入專業領域時,會產生大量無法上云的極細分、極專業的垂直任務。云端大模型受限于商業成本與通用性標準,很難為每一個用戶提供定制化的微調服務。

      而本地硬件的成熟,為智能體的“自演化”埋下了伏筆。未來一兩年內,隨著敏捷微調和在線學習技術的落地,本地模型可以在與用戶的持續交互中,實時吸收行業 Know-how和個人偏好。這種基于本地專用硬件、模型與垂直數據的閉環,將構建出比云端更具深度的專業技能。

      此外,端云協同只是第一步,未來的前進方向是“多節點協同”。不同的本地模型可能具備不同的專業能力,通過端與端、節點與節點之間的協作,可以實現比單一云端中樞更高效的任務分發。總結來說,云端將愈發趨向于通用智能的輸出,而本地側則負責專業化與個性化的深度沉淀。

      岑峰:宇坤描繪的端云分工極具前景,但這也引發了另一個疑慮:對于個人用戶或小微企業而言,購買高性能端側硬件本身就是一筆不菲的“隱性成本”。EdgeClaw如何平衡硬件投入與 Token 節省之間的財務賬本?

      閆宇坤:硬件門檻確實是一個客觀存在的成本。以目前主流的英偉達端側計算卡(如 如DGX spark)為例,初始采購成本約為 3萬人民幣。對比來看,如果高頻調用云端千億級參數模型的API,在連續運行三到四個月后,其累計消耗的 Token 費用便足以覆蓋這臺硬件的成本。

      但我們需要轉換思考視角:云端 API是持續流出的“變動成本”,而本地硬件是可折舊的“固定資產”。更深層的邏輯在于對存量價值的挖掘。目前許多企業內部其實存在大量閑置算力,EdgeClaw的初衷并非強迫用戶增購硬件,而是通過端云協同框架,將這些已有的資源轉化為生產力。

      這種模式改變了用戶的消費心理。在使用純云端應用(如 OpenClaw 早期版本)時,用戶往往因為高昂的 Token費用而表現得畏手畏腳,這實際上抑制了智能體的創新使用。一旦任務遷移至本地,邊際成本趨近于零,用戶會被激勵著將硬件性能壓榨至極限。

      為了進一步降低準入門檻,EdgeClaw 正在通過自動化調度支持“任意組合”。用戶既可以利用現有筆記本顯卡搭配云端便宜的API,也可以在企業內網部署小型服務器集群。通過與算力平臺的對接,我們致力于讓本地模型的啟動與維護變得像調用云端接口一樣簡單,讓這種“重構成本”在系統演化中被最大程度攤薄。

      岑峰:系統重構需要周期,而系統優化則提供了即時的價值窗口。志宇,MemOS將操作系統管理內存的邏輯引入記憶管理。但操作系統面對的是確定性的物理地址空間,而AI 記憶面對的是高度抽象的語義空間。在 MemOS 中,定義記憶“冷熱”的標準究竟是什么?

      李志宇:操作系統的尋址邏輯確實無法直接照搬,但在設計理念上,我們引入了“利用概率與頻率”作為語義空間的判定準則。

      在 MemOS系統中,記憶的冷熱判別不是簡單地按時間倒序排列。雖然“時間衰減”是一個關鍵權重,但我們更看重三個核心指標:訪問頻率、任務相關性以及狀態延續性。我們會評估某條記憶如果被“遺忘”(即未被召回),是否會對用戶當前的決策產生不可逆的影響。

      舉個例子,用戶在三個月前設定了一個長期財務目標,隨后一直未提及。從時間軸上看,這段記憶已經進入了“極冷區”。但當用戶今天突然問起“幫我根據之前的規劃做一下報表”時,系統會在第一個Query進入時識別出該任務與那個舊目標的強語義關聯,從而瞬間預熱并激活三個月前的所有相關片段。這種“冷記憶”的瞬時喚醒,是基于當前運行的“價值狀態”而非單純的物理周期。

      這種設計本質上是在解決存算成本的平衡。鑒于目前GPU顯存的昂貴,我們不可能將海量歷史信息全部常駐顯存。我們必須通過模型預測,將大概率不再被需要的記憶下放到“冷備存儲”。

      這里存在的 Trade-off 是:一旦預測失敗,從冷備區找回記憶會帶來額外的首字延遲和算力開銷。因此,MemOS核心競爭力的體現,就在于如何通過更精準的語義路由,降低這種喚醒成本,確保系統在激活與冷備之間實現動態平衡,而不是僵化地進行“一刀切”。

      岑峰:既然記憶調度涉及額外的預測與計算,那么在工程實戰中,調度行為本身消耗的算力,與它所節省的 Token 成本之間,是否存在一個平衡點?MemOS在不同場景下的優化表現如何?

      李志宇:調度的經濟學確實是 MemOS框架中最重要的模塊。如果調度的開銷過大,系統就會陷入“空轉”的陷阱。我們的破局思路是“大小模型分治”。

      我們不再依賴像 GPT-4o這樣昂貴的通用大模型來執行記憶管理任務。相反,我們訓練了一系列面向記憶領域的“專有微型模型”,專門負責記憶抽取、價值判定、版本更新和重排(Rerank)。這些模型規模極小,但對記憶邏輯的理解極深。通過這種方式,我們用極低成本的計算,替代了原本需要消耗高價值Token 才能完成的上下文篩選工作,從而大幅壓低了總成本。

      此外,我們從系統層到硬件層進行了聯合優化。通過預填充(Prefill)與解碼(Decode)分離的機制,以及對閑時算力的負載均衡,我們確保了推理鏈條的低時延,同時保證算力資源沒有被浪費。

      從實際場景的波動來看,優化收益與任務的復雜度和長程性呈正相關。

      - 低頻短會話: 對于僅有幾百 Token 的短平快交互,由于上下文本身極短,簡單拼接進 Prompt 的效率最高,此時記憶調度的收益并不顯著。

      - 長程復雜任務: 當 Agent 需要運行一小時甚至更久來解決某個專業問題時,記憶管理的作用會被顯著放大。精準的調度能將原本需要召回的 10K上下文壓縮至 6K 的核心自包含片段,這種 Token 節約的收益是指數級的。

      岑峰:MemOS 聚焦于長對話場景下的優化,而 EdgeClaw則更激進地提倡將高頻任務搬到本地。這種“系統優化”與“架構重構”的關系,究竟是競爭對手還是互補伙伴?

      閆宇坤:我非常有信心認為它們是互補關系。從技術本質上講,架構重構與系統優化是相互正交的。EdgeClaw 的路由機制完全可以與 MemOS的記憶調度邏輯無縫結合。

      現在開發模式正在發生巨變。以往跨系統的集成可能需要數周的溝通與開發,但在如今 Web Coding 與 AI輔助生成的加持下,我們可以快速構建原型并進行試錯。將MemOS 的分層記憶特性接入 EdgeClaw 的路由節點,可能只需要兩三天的調優周期。這種低難度的組合,讓“治標”與“治本”可以并行不悖。

      李志宇:我完全贊同。如果將端云協同視為智能體的物理存在形態,那么記憶操作系統就是智能體的“狀態中樞”。

      無論在端側還是云側運行,Agent都繞不開“狀態持續性”的命題。端側擅長實時交互與隱私處理,云側擅長跨任務整合與大規模計算。但在未來,用戶會擁有手機、車機、電腦等多個端。如何保證用戶在手機上聊到一半的任務,能在車機上無縫延續?這需要一套跨越物理節點的“長期狀態層”來管理。

      端和云解決的是“計算哪里最快、最省”的問題,而記憶操作系統解決的是“狀態如何無縫遷移、如何持續演化”的問題。即便未來端側算力無限大,我們依然需要一個邏輯層來治理不同設備間的認知一致性。因此,端云是一種算力協同方式,而記憶管理是狀態協同方式,二者共同構成了未來智能體能夠 7×24小時無縫存在的底座。

      展望未來:當“投入產出比”擊敗“參數崇拜”

      岑峰:感兩位老師不僅達成了技術上的共識,更揭示了智能體從“工具”向“數字生命”演化的必經之路:算力的歸算力,狀態的歸狀態,最終通過精準的調度實現效率與智能的共振。我們將繼續深入:當安全與成本達成妥協,智能的上限又該如何突破?

      隨著架構優先和漸進演化兩條路線的日益清晰,記憶正從單純的成本中心轉向價值中心。在端云協同的愿景中,敏感高頻任務本地化,復雜推理上云端。那么,端與云的算力配比將如何演化?到 2027年,本地模型預期能覆蓋多大比例的任務?這種預測是基于摩爾定律的慣性,還是模型蒸餾等技術的突圍?

      閆宇坤:關于端云算力的配比,可以從短期與長期兩個維度審視。短期內,云端由于基礎設施成熟、算力節點密集,依然占據主導地位。目前端側算力的多樣化程度極高,尚未出現能夠廣譜適配所有硬件的通用模型。但隨著用戶回歸理性,不再盲目追求全量上云,云端算力會趨于飽和,端側占比將隨著模型能力的提升而穩步增長。

      從長期來看,到 2027 年左右,本地模型能覆蓋的任務比例可能不再是一個簡單的百分比問題。我們的愿景是實現一種“永遠在線”的端側模式。這意味著端側算力將不再是被動等待指令的任務執行者,而是被“拉滿”的主動協作方。

      舉例來說,目前的模式是用戶要求 Agent 明天準備一份報告素材,Agent 收集完資料便處于靜默狀態,直到提醒用戶。而在“永遠在線”的架構下,Agent接收任務后,會在截止日期前的所有閑置時間里,自發地進行深度調研、素材優化和內容潤色。即便是一個需要 20 分鐘完成的PPT,它會在后臺持續尋找更精準的論據和更優的表達。這種模式對端側算力提出了極限挑戰,它不僅依賴于模型蒸餾等降準技術,更依賴于工作流和記憶機制的底層重構。我們有信心到 2027年,這種主動尋找任務、利用剩余算力創造價值的架構能夠真正落地。

      岑峰:宇坤描繪了端側優先的延伸,而 MemOS則更傾向于成為跨平臺的記憶中樞。當記憶成為智能體的核心資產,平臺的商業模式會發生怎樣的轉變?記憶的所有權與定價權又該如何界定?

      李志宇:記憶產業的演進與早期云計算非常相似。在第一階段,我們將其視為一種“能力收費”模式(Memory as a Service)。此時主要解決的是讓Agent 從“無記憶”變為“有記憶”,通過 API 調用量、存儲空間或包月套餐來變現,這本質上是一種工具型收費。

      到了第二階段,記憶將演進為“基礎設施層”或“長期狀態中樞”。平臺不僅提供存儲和檢索,更負責跨端、跨 Agent的狀態管理。在企業組織內部,這涉及記憶的權限隔離、版本回滾、生命周期管理及安全審計。此時,用戶訂閱的是一套跨系統的協同機制,而非簡單的API。

      第三階段則是“生態與價值變現”階段。當平臺上積累了足夠多的用戶記憶,它將類似于“數字賬號登錄”一樣的存在。如果一個新應用想要提供極致的個性化服務,就必須接入這套記憶系統。

      在所有權方面,我們從設計之初就明確,記憶的所有權絕對屬于用戶或企業。平臺提供的是管理和加工服務,而非占有資產。但我們要為用戶開辟“記憶變現”的渠道。比如一位資深律師,其Agent 在長期的交互中吸收了大量的法律思辨邏輯和專家經驗,這個 Agent 形成的參數化與激活記憶包就具備了極高的商業價值。我們計劃打造“Memory Store”,允許用戶將這種高價值記憶包上架,其他用戶可以通過訂閱來加載這些特定領域的“智慧”,實現真正意義上的數字分身商業化,而不僅僅是簡單的角色扮演。

      岑峰:2026 年已近三分之一,請兩位預測一下,到今年年底,Token焦慮的破局點會是什么?是殺手級應用的出現,還是端側算法的爆發,亦或是商業模式的徹底創新?

      閆宇坤:我更傾向于認為破局點在于“使用模式的突破”。目前國內雖然存在“養龍蝦”的熱潮,但整體使用方式依然比較粗放。用戶往往不清楚 Agent究竟能解決什么問題,也不知道其性價比邊界在哪里。

      我們需要一個“殺手級”的模式來教育市場。這種模式能直觀地告訴用戶,Agent 在什么時候是生產力工具,在什么時候提供的是情緒價值。當錢花在哪里、Token消耗產生多少回報被梳理清楚后,焦慮自然會消失。焦慮的根源不是消耗多,而是產出與支出的不對等。

      李志宇:破局的關鍵在于“結果密度”。Token 焦慮表面看是賬單問題,本質上是用戶對價值感知的缺失。如果你花了幾塊錢 Token卻換來一份讓你拍案叫絕的報告,你下次會毫不猶豫地付費;但如果換來的是一堆毫無意義的幻覺,一分錢都會覺得貴。

      從技術側看,破局點在于“流量分流”的成熟。目前大多數用戶和 Agent廠商并不具備精準的成本管理能力,導致高價值模型被浪費在低價值任務上。如果有一套成熟的路由方案,能把小任務導向端側模型,把長程任務導向緩存復用路徑,賬單自然會變得優雅。未來的產品形態可能會演變為:用戶發布一條指令,多個Agent 競標給出結果,用戶只為那個認可的結果付費。這種模式會將 Token壓力的焦慮從用戶側轉嫁給廠商。廠商如果不能提供更優的效能比,就會在市場中失去競爭力。

      岑峰:Token 焦慮和記憶成本的矛盾不僅存在于智能體領域,在自動駕駛、游戲 NPC、金融風控等場景同樣存在。你們的解法是否具有跨領域的通用性?

      李志宇:所有的焦慮都可以拆解為“投入產出比”。在游戲領域,我們通過記憶機制能讓 NPC具備更長期的性格連貫性,顯著提升了用戶的在線時長和交互意圖。當這種業務層面的回報變得可衡量時,記憶管理的成本就不再是負擔。這種邏輯在金融風控對長周期行為的追蹤上同樣適用。

      閆宇坤:我有一個稍微“暴論”的觀點:未來社會將進入“智能體力資源管理”的時代。過去我們研究人力資源的合理分配,未來我們需要研究如何根據任務難度、隱私等級和成本敏感度,在分布式節點中合理分配智能資源。無論是哪個領域,只要涉及到智能的調用,都存在對通解的需求。我們希望提出的這套架構能成為這種資源分配的底層標準。

      岑峰:感謝兩位。今天的討論非常深刻。EdgeClaw 的端云協同試圖從源頭切斷 Token 損耗的“血脈”;而 MemOS的記憶調度則在現有架構內榨取每一分效率。

      短期看,系統優化能讓用戶少燒錢;長期看,系統重構將讓 Token焦慮成為歷史名詞。正如兩位嘉賓所言,記憶正在從成本中心演變為價值中心。未來的核心命題將不再是“這項工作要花多少錢”,而是“這段記憶能帶來什么”。這或許才是真正意義上的范式轉移。感謝宇坤,感謝志宇,也感謝所有在線聽眾的參與。本場直播到此結束,謝謝大家。

      YouTube:https://youtu.be/aoRUaH_GNqQ

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      退市邊緣的聞泰科技,還有什么牌打?

      退市邊緣的聞泰科技,還有什么牌打?

      新浪財經
      2026-05-07 15:14:22
      美媒:在特朗普訪華前,中國正以強硬的立場對抗美國制裁。

      美媒:在特朗普訪華前,中國正以強硬的立場對抗美國制裁。

      阿七說史
      2026-05-06 15:51:18
      就在剛剛!中國男籃官宣名單調整!2米26高塔入選,近期賽程公布

      就在剛剛!中國男籃官宣名單調整!2米26高塔入選,近期賽程公布

      老吳說體育
      2026-05-07 14:46:09
      謝娜仨女兒全像張杰,這才是基因的 “降維打擊”

      謝娜仨女兒全像張杰,這才是基因的 “降維打擊”

      南萬說娛26
      2026-05-07 09:33:49
      游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

      游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

      街機時代
      2026-05-06 15:00:03
      ST洲際:未到退市紅線

      ST洲際:未到退市紅線

      每日經濟新聞
      2026-05-07 15:57:06
      臺官員曝賴清德成功返臺內幕,大陸出手阻止未果,背后有難言之隱

      臺官員曝賴清德成功返臺內幕,大陸出手阻止未果,背后有難言之隱

      共工之錨
      2026-05-07 00:04:56
      十年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

      十年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

      小蘭聊歷史
      2026-04-26 08:44:22
      精力旺盛,昨日首發的國安外援拉莫斯出現在北京環球影城

      精力旺盛,昨日首發的國安外援拉莫斯出現在北京環球影城

      懂球帝
      2026-05-07 17:05:07
      美日菲“肩并肩2026”聯合演習中,一張熟悉的面孔再次出現

      美日菲“肩并肩2026”聯合演習中,一張熟悉的面孔再次出現

      三叔的裝備空間
      2026-05-06 23:40:02
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      哈佛提醒:防肌肉流失別只補蛋白!這6種營養才是關鍵

      哈佛提醒:防肌肉流失別只補蛋白!這6種營養才是關鍵

      橘子約定
      2026-05-05 20:49:53
      何賽飛霸氣回應兒子跟她姓:這是我結婚的唯一條件,不同意就換人

      何賽飛霸氣回應兒子跟她姓:這是我結婚的唯一條件,不同意就換人

      五四觀娛
      2026-05-05 12:11:52
      32歲凱恩快哭了!壓哨破門+轟14球仍難救拜仁,生涯仍無歐冠冠軍

      32歲凱恩快哭了!壓哨破門+轟14球仍難救拜仁,生涯仍無歐冠冠軍

      我愛英超
      2026-05-07 05:33:10
      1200萬預賠款已到賬!瀏陽煙花廠爆炸遇難者,人均賠多少?

      1200萬預賠款已到賬!瀏陽煙花廠爆炸遇難者,人均賠多少?

      陳博世財經
      2026-05-07 14:13:52
      季后賽200俱樂部?硬唐場均18+10掃被高估質疑 布朗:他非常關鍵

      季后賽200俱樂部?硬唐場均18+10掃被高估質疑 布朗:他非常關鍵

      顏小白的籃球夢
      2026-05-07 17:55:51
      一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

      一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

      混沌錄
      2026-05-06 16:51:09
      奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

      奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

      尋墨閣
      2026-05-06 06:33:51
      黃仁勛:中國絕不能獲得最先進芯片!

      黃仁勛:中國絕不能獲得最先進芯片!

      中國半導體論壇
      2026-05-06 12:43:35
      重慶洪崖洞景區奶芙店私自增加所售奶芙制品重量,官方通報

      重慶洪崖洞景區奶芙店私自增加所售奶芙制品重量,官方通報

      界面新聞
      2026-05-07 15:36:33
      2026-05-07 18:39:00
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      69257文章數 656123關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      媒體:不是中國離不開世界杯 是世界杯更需要中國

      頭條要聞

      媒體:不是中國離不開世界杯 是世界杯更需要中國

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      孫楊強迫拉張豆豆手那一幕,我看笑了,也看怒了

      財經要聞

      金融“風暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      健康
      房產
      藝術
      數碼
      手機

      干細胞治燒燙傷面臨這些“瓶頸”

      房產要聞

      負債23億,抵押482畝地!海南這家巨頭,慘遭拍賣!

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      數碼要聞

      華為MatePad Pro Max平板海外首發,預裝HarmonyOS 4.3系統

      手機要聞

      消息稱某子系迭代旗艦工程機配備6.6英寸中屏+8500mAh電池

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人黄色一级大片| 免费人成视频在线| 欧美国产精品嫩嫩的| 国产A级毛片久久久精品毛片| 丝袜美腿在线观看播放一区| 91大神在线免费观看| 亚洲无线码一区在线观看| 国产欧美日韩一区二区三区| 中文字幕无码传媒| 亚洲人av毛片一区二区| 人妻丰满熟妇av无码区app| 福利一区福利二区微拍刺激| 丝袜人妻一区二区三区网站| 亚洲qingse中文| 亚洲中文字幕AⅤ无码| 国产女人久久久| 国产大片黄在线观看私人影院| 久久久久亚洲精品无码网址色欲| 上司人妻互换hd无码| 国产专区国产av| 欧美一级高清片久久99| 伊人依成久久人综合网| 一卡二卡三卡视频| 免费一级黄色好看的国产| 亚洲Av综合日韩精品久久久| 免费看无码特级毛片| 亚洲乱妇老熟女爽到高潮的片| 99热在线精品国产观看| 国产成人久久| 精品国产污网站在线观看15 | 日韩精品一区二区亚洲| 国产激情AV小说| 性一交一乱一视频免费观看| 亚洲人ⅴsaⅴ国产精品| 亚洲国产A∨无码影院| 成人va亚洲va欧美天堂| 亚洲成av一区二区三区| 色偷偷女人的天堂亚洲网| 91视频五区| 延安市| jizz亚洲人|