![]()
小時候有個魔性廣告,叫“今年過節不收禮,收禮只收腦白金”。
于是經歷過那個年代的人,通常把“補腦”和“腦白金”綁定在了一起。至于這玩意兒到底有沒有用?這我不好說。
20多年過去了,AI時代到來,我突然發現,現在的AI也開始吃“腦白金”了。
你有沒有類似的經歷。比如說跟某個AI聊到第30輪,它突然“失憶”了。你前面剛說過的需求,它轉頭就忘得一干二凈。你用Claude寫了一下午代碼,第二天重新打開,它對昨天的任務毫無印象,你問它某個代碼,它只能從頭過一遍代碼庫再回答你。
整個AI行業,苦這個系統性“老年癡呆癥”久矣。
于是,一個新興產業誕生了。從外掛層、系統層、模型層給AI喂“賽博腦白金”。
比如在GitHub上已經有5萬多顆星的Claude-Mem,還有DeepSeek DSA、阿里的Qwen3-Next這樣的底層架構優化,整個產業都在瘋狂給AI增加記憶力。
AI再聰明,記不住事兒也白搭。
那么2026年,到底都有哪些“賽博腦白金”在給AI補腦,它們各自的配方又是什么?
01
賽博腦白金產品圖鑒
壓縮式記憶管理是第一種思路,核心邏輯是把長篇大論變成“小作文”。
當然和咱們貼吧論壇看到的那些小作文肯定不一樣了,這種“小作文”是給大模型看的,只有上下文中的關鍵信息。
這類產品不是擴大AI的記憶容量,而是讓同樣的空間裝下更多東西。就像你整理行李箱一樣,你把衣服揉成團,你可能只塞得下幾件衣服,但你要是疊好了再放進去,就能塞很多衣服。
Claude-Mem是這個領域最火的產品。
這個項目在2025年底發布,到現在GitHub上已經有5萬多顆星了。它專門為Claude Code設計,解決的就是記憶太短的問題。
Claude-Mem的做法很巧妙,它通過5個生命周期鉤子自動捕獲你和AI的所有對話,然后用AI本身來壓縮這些信息。會話開始時加載輕量級索引,需要時再展開詳細內容,模仿人類記憶的工作方式。
這種“漸進式披露”的設計很聰明。
你不需要一次性把所有歷史對話都塞進上下文窗口,而是先看個目錄,需要哪部分再調出來。
它這個做法就像我寫文章講故事,你不能一上來就把事情都說了,你得先說個時間線,多少多少年間,然后再說那個時間段發生的事。
類似的技術還有LongLLMLingua和Acon。
LongLLMLingua通過提示詞壓縮實現高達20倍的壓縮率,特別適合那些只能通過API調用、看不到內部結構的黑盒模型。
Acon則更進一步,它在自然語言空間里做壓縮優化,在AppWorld等基準測試中把內存使用降低了26%到54%,同時基本不影響任務表現。
這些工具本質上都在做同一件事,用更少的token說更多的話。
![]()
但壓縮終究有極限,你再怎么壓縮,到最后至少得保留基本信息。
這時候就需要第二種思路,外掛式記憶系統。
如果說壓縮是“節流”,外掛記憶就是“開源”。這類系統不再試圖把所有東西塞進AI的上下文窗口,而是在模型外部建立一個獨立的記憶倉庫。
需要的時候,AI可以主動去這個倉庫里翻找相關信息。
Mem0是這個方向的代表作品。它采用動態提取、整合和檢索的架構,把對話中的關鍵信息存儲到外部數據庫。
需要時通過語義相似度檢索相關記憶。實驗數據顯示,Mem0在LOCOMO基準測試中比OpenAI的記憶系統提升了26%,同時響應時間降低91%, token使用量減少90%以上。
LOCOMO是目前較有代表性的長期對話記憶基準之一。
它包含單跳問題、時序問題、多跳問題和開放域問題四大類。單跳問題考驗AI能否記住單個事實,多跳問題則要求AI綜合多次對話中分散的信息。
Mem0在多跳問題上的F1分數達到28.64,J分數51.15,明顯超過其他方案。
這說明它不只是能記住零散的事實,還能把這些事實串聯起來。
更有意思的是MemGPT,不過它現在已經改叫Letta了。它的工作原理是把LLM視為操作系統,實現類似計算機虛擬內存的分層管理。
跟蘋果Mac用的儲存技術原理一樣,當物理內存不夠用時,系統會把暫時不用的數據挪到硬盤上,需要時再調回來。
MemGPT把這套邏輯搬到了AI記憶管理上。它通過顯式的讀寫操作讓模型自主管理內存,在工作記憶、短期記憶和長期記憶之間靈活調度。
這個設計的精妙之處在于,它不是人為規定什么該記什么該忘,而是讓AI自己決定。AI可以調用函數把當前不重要的信息寫入外部存儲,也可以在需要時把舊記憶讀回上下文窗口。
這種自主管理能力讓AI的記憶系統跟我們是一樣的。
我們也不是把所有經歷都時刻記在腦子里,而是需要時才努力回憶。
還有Zep、Second Me、Cognee等一系列產品,它們各有特色但殊途同歸,都是在模型的固定上下文窗口之外構建可擴展的外部記憶層。
第三種思路叫做軟提示編碼。
這種方法不存儲文本,而是把提示詞編碼成連續的可訓練嵌入或鍵值對。像是500xCompressor這樣的架構,能通過軟提示編碼實現了高達480倍的壓縮率。
這個技術的本質是給AI發明一套“暗號”。就像“今晚老地方”這句話一樣,這是只有你和你朋友之間才懂的梗,一個眼神、一個詞就能想到一塊去。
軟提示編碼也是這樣,用幾個特殊token就能讓模型回想起大段內容。這些特殊token在人類看來毫無意義,但對模型來說,它們是高度濃縮的信息載體。
這種方法的壓縮率遠超前兩種,但也有明顯的局限。
這些編碼后的“暗號”只對訓練過的特定模型有效,換個模型就不認識了。而且編碼過程需要額外的訓練成本,不像前兩種方法那樣即插即用。所以軟提示編碼更適合那些長期使用同一個模型、對壓縮率要求極高的場景。
這三種外掛式的解決方案各有千秋。
壓縮式記憶管理實現簡單,成本低,但壓縮率有上限。外掛式記憶系統容量幾乎無限,但需要額外的數據庫和檢索機制。軟提示編碼壓縮率最高,但靈活性最差。實際應用中,很多產品會把這幾種方法結合起來,在不同場景下選擇最合適的策略。
但這些終究是“打補丁”。它們在模型外部做文章,沒有觸及問題的根源。真正的突破,需要從模型架構本身下手。
02
從架構層面動刀子
前面說的那些方案,它們能緩解記憶問題,卻無法根治。因為問題的根源在Transformer架構本身是有缺陷的,注意力機制的計算復雜度是序列長度的平方。上下文窗口每擴大一倍,計算成本就翻四倍。
這不是工程優化能解決的,需要從數學原理上重新設計。
DeepSeek Sparse Attention(DSA)是這個方向的代表性突破。
DSA在2025年隨DeepSeek-V3.2-Exp一起發布,核心思想是“不是所有token都需要互相看”。傳統的全量注意力機制里,每個token都要和序列中的所有其他token計算注意力分數。
這在短序列里沒問題,但當上下文窗口擴展到幾十萬token時,計算量就變得不可接受了。
DSA采用兩階段設計:先用一個輕量級的“索引器”快速評估哪些token最相關,然后只對這些精選出來的token做完整的注意力計算。
核心注意力計算從對所有token做精算,變成只對top-k候選做精算;索引器仍要掃描候選歷史,但用更輕量的低維/低精度方式降低成本。
關鍵在于,這種稀疏化是動態的、基于內容的。不像有些方法只看固定窗口內的token或隨機采樣,DSA會根據實際內容決定哪些token重要。
說白了,就是讓AI先快速掃一遍所有內容,找出跟當前問題最相關的那些部分,然后只仔細看這些重點。就像你看書找資料一樣,你不可能逐字逐句讀,你會先翻目錄和關鍵詞,定位到相關章節再去仔細閱讀。
這讓它在大幅降低計算量的同時,幾乎不損失模型性能。在各種推理任務和智能體環境的測試中,DSA的表現和全量注意力基本持平。
另一個重要方向是混合注意力架構。
這個思路認為,不是所有層都需要昂貴的全量注意力。大部分層可以用更便宜的線性注意力或狀態空間模型,只在關鍵位置保留全量注意力。
阿里的Qwen3-Next在2025年9月發布,核心是Hybrid Attention機制。它用Gated DeltaNet加Gated Attention替代傳統全量注意力,原生支持256K上下文,理論上可擴展到100萬token。
Gated DeltaNet是一種線性注意力變體,計算復雜度從平方降到線性。但純粹的線性注意力在某些任務上表現不如全量注意力,所以Qwen3-Next采用3:1的混合比例。每3層用Gated DeltaNet,1層用Gated Attention。
這個設計很聰明。
線性注意力層負責處理大部分的上下文信息,成本低但能力稍弱。全量注意力層則在關鍵位置做精細的全局建模,成本高但效果好。兩者配合,既保證了性能,又大幅降低了計算開銷。
官方數據顯示,Qwen3-Next-80B-A3B-Base相比Qwen3-32B-Base,在超過32K上下文時有10倍推理吞吐優勢。
月之暗面的Kimi Linear,采用Kimi Delta Attention加全局MLA,也是3:1比例的混合架構。
Kimi Delta Attention本質上是對Gated DeltaNet的改進。在100萬token場景下,KV cache最多減少75%,解碼吞吐最高提升6倍。
這些混合架構的共同點是,他們都把長上下文處理從“每個token都互相看一遍”改成“多數層用更便宜的記憶狀態,少數層保留全局注意力”。
換個說法,你開車得用導航吧?
大部分時間你只需要看著前方道路和路標往前走,這是“便宜的記憶狀態”。但到了復雜路口,有行人、有電摩托車、可能還有剛才發生追尾的事故車,這時候你就得抬頭看整個路況、回憶來時的路、判斷該往哪拐,因此你需要“全局注意力”。
不是每一秒都要動用全部腦力,而是只在關鍵節點才全力思考。
![]()
這不是簡單的性能妥協,這是在對注意力機制本質進行重新思考。AI并不需要時刻記住所有細節,只需要在關鍵決策點做全局審視。
然而當下最流行的玩法,還得是硬件與算法協同優化。
再好的算法,如果硬件跟不上,也發揮不出全部威力。英偉達在GTC 2026上發布的BlueField-4 CMX平臺就是這個方向最具代表性的產品。
這是一個專門為“百萬級token上下文”時代設計的上下文記憶存儲平臺。
傳統GPU的顯存帶寬雖然高,但容量有限。當上下文窗口擴展到幾十萬甚至上百萬token時,KV cache的大小會超過單張GPU的顯存容量。BlueField-4 CMX通過專用的內存擴展硬件,在保持高帶寬的同時大幅擴展容量。
它采用分層存儲架構,把熱數據放在GPU顯存,溫數據放在擴展內存,冷數據放在系統內存或SSD,通過智能調度實現大容量支持。
好比說GPU顯存是你的工作臺,它空間有限。
BlueField-4 CMX就相當于在這個工作臺旁邊加了個置物架,常用的工具放臺面,偶爾用的放第一層架子,不常用的放更遠的柜子。
需要時系統自動幫你把東西拿過來,你感覺不到區別,但實際上能放的東西多了幾十倍。
像亞馬遜的Trainium芯片,谷歌的TPU,現在AI芯片的開發商,都會和大模型廠商共同研發下一代芯片,其原因就在于能讓芯片專業對口,滿足模型的各項需求,進而達到更好的訓練以及推理效果。
03
記憶,AGI最后一塊拼圖
當前的AI記憶系統缺乏人類記憶的關鍵特征。
人類記憶有遺忘機制,不重要的細節會自然淡化。人類記憶有鞏固過程,重要的經歷會在睡眠中被強化。人類記憶有學習能力,相似的經驗會被歸納成模式。人類記憶有壓縮策略,我們不記得每頓飯吃了什么,但記得那次特別的生日宴會。
AI的記憶系統沒有這些玩意。
所有記憶都是“平的”,3個月前的隨口一句話和昨天的重要決定被同等對待。
沒有輕重緩急,沒有遺忘更新,沒有主動整理。
結果就是記憶越多,上下文反而越混亂。就像一個從不整理的倉庫,堆的東西越多,越難找到需要的那一件。
奧特曼在2025年的采訪中提到記憶是通往AGI很重要的一個板塊,而這個判斷也正在成為硅谷的新共識。
真正的智能不僅需要理解當下,更需要從過往經驗中學習和積累。一個每天都“失憶”的AI,無論單次對話多么聰明,也很難稱得上真正的智能。
人類之所以聰明,很大程度上歸功于記憶系統本身的運作機制。
我們能區分短期記憶和長期記憶,能根據情感強度和重要性為記憶打上不同標簽,能在需要時快速檢索相關經驗,也能主動遺忘不重要的細節。
這套復雜的記憶機制,是幾億年進化的結果。AI想要達到人類水平的智能,至少也需要類似復雜度的記憶系統。
從技術路徑來看,未來可能會出現多種方案的融合。
應用層的外掛記憶系統提供靈活性和可控性,你可以隨時查看AI記住了什么,也可以手動刪除或添加記憶。架構層的優化提供效率和性能,讓AI能夠原生處理更長的上下文,不需要復雜的外部系統。認知科學啟發的記憶機制設計則提供智能性,讓AI知道什么該記,什么該忘,什么該鞏固,什么該壓縮。
這跟我們人類大腦是一樣的。我們同時擁有海馬體、前額葉皮層、杏仁核等多個記憶相關區域,它們分工合作,共同構成了完整的記憶系統。
![]()
海馬體負責形成新記憶,前額葉皮層負責工作記憶和決策,杏仁核負責情緒記憶。未來的AI系統也可能需要多層次、多模態的記憶架構。
有些記憶需要快速訪問,就放在類似工作記憶的地方。
有些記憶需要長期保存,就存入類似長期記憶的倉庫。
有些記憶需要情感標簽,就加上重要性權重。
有些記憶需要定期鞏固,就設計主動回顧機制。這些不同類型的記憶,需要不同的存儲和檢索策略。
現在關于AI記憶的研究,還處于早期階段。大部分方案都在解決“如何記住更多”的問題,很少考慮“如何聰明地遺忘”。
但遺忘和記憶一樣重要。一個記住所有細節的系統,未必比一個知道什么該記什么該忘的系統更智能。人類大腦每天都在主動遺忘,這不是缺陷,這是優秀的物種特性。
未來的AI記憶系統,可能需要學會遺忘。不是簡單的刪除舊數據,而是智能的信息衰減和壓縮。不重要的細節逐漸模糊,但核心要點保留下來。
就像你記得童年的某個夏天很快樂,但不記得那天具體吃了什么、具體玩了哪款游戲。
這種有損壓縮,反而讓記憶更有價值。
賽博腦白金們的使命,就是在AGI到來之前,先幫AI把“記性”補上來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.