網易首頁 > 網易號 > 正文申請入駐

賽博腦白金，能治好AI的失憶癥嗎？

2026-04-15 12:19:30　來源: 字母榜

北京舉報

分享至

小時候有個魔性廣告，叫“今年過節不收禮，收禮只收腦白金”。

于是經歷過那個年代的人，通常把“補腦”和“腦白金”綁定在了一起。至于這玩意兒到底有沒有用？這我不好說。

20多年過去了，AI時代到來，我突然發現，現在的AI也開始吃“腦白金”了。

你有沒有類似的經歷。比如說跟某個AI聊到第30輪，它突然“失憶”了。你前面剛說過的需求，它轉頭就忘得一干二凈。你用Claude寫了一下午代碼，第二天重新打開，它對昨天的任務毫無印象，你問它某個代碼，它只能從頭過一遍代碼庫再回答你。

整個AI行業，苦這個系統性“老年癡呆癥”久矣。

于是，一個新興產業誕生了。從外掛層、系統層、模型層給AI喂“賽博腦白金”。

比如在GitHub上已經有5萬多顆星的Claude-Mem，還有DeepSeek DSA、阿里的Qwen3-Next這樣的底層架構優化，整個產業都在瘋狂給AI增加記憶力。

AI再聰明，記不住事兒也白搭。

那么2026年，到底都有哪些“賽博腦白金”在給AI補腦，它們各自的配方又是什么？

賽博腦白金產品圖鑒

壓縮式記憶管理是第一種思路，核心邏輯是把長篇大論變成“小作文”。

當然和咱們貼吧論壇看到的那些小作文肯定不一樣了，這種“小作文”是給大模型看的，只有上下文中的關鍵信息。

這類產品不是擴大AI的記憶容量，而是讓同樣的空間裝下更多東西。就像你整理行李箱一樣，你把衣服揉成團，你可能只塞得下幾件衣服，但你要是疊好了再放進去，就能塞很多衣服。

Claude-Mem是這個領域最火的產品。

這個項目在2025年底發布，到現在GitHub上已經有5萬多顆星了。它專門為Claude Code設計，解決的就是記憶太短的問題。

Claude-Mem的做法很巧妙，它通過5個生命周期鉤子自動捕獲你和AI的所有對話，然后用AI本身來壓縮這些信息。會話開始時加載輕量級索引，需要時再展開詳細內容，模仿人類記憶的工作方式。

這種“漸進式披露”的設計很聰明。

你不需要一次性把所有歷史對話都塞進上下文窗口，而是先看個目錄，需要哪部分再調出來。

它這個做法就像我寫文章講故事，你不能一上來就把事情都說了，你得先說個時間線，多少多少年間，然后再說那個時間段發生的事。

類似的技術還有LongLLMLingua和Acon。

LongLLMLingua通過提示詞壓縮實現高達20倍的壓縮率，特別適合那些只能通過API調用、看不到內部結構的黑盒模型。

Acon則更進一步，它在自然語言空間里做壓縮優化，在AppWorld等基準測試中把內存使用降低了26%到54%，同時基本不影響任務表現。

這些工具本質上都在做同一件事，用更少的token說更多的話。

但壓縮終究有極限，你再怎么壓縮，到最后至少得保留基本信息。

這時候就需要第二種思路，外掛式記憶系統。

如果說壓縮是“節流”，外掛記憶就是“開源”。這類系統不再試圖把所有東西塞進AI的上下文窗口，而是在模型外部建立一個獨立的記憶倉庫。

需要的時候，AI可以主動去這個倉庫里翻找相關信息。

Mem0是這個方向的代表作品。它采用動態提取、整合和檢索的架構，把對話中的關鍵信息存儲到外部數據庫。

需要時通過語義相似度檢索相關記憶。實驗數據顯示，Mem0在LOCOMO基準測試中比OpenAI的記憶系統提升了26%，同時響應時間降低91%, token使用量減少90%以上。

LOCOMO是目前較有代表性的長期對話記憶基準之一。

它包含單跳問題、時序問題、多跳問題和開放域問題四大類。單跳問題考驗AI能否記住單個事實，多跳問題則要求AI綜合多次對話中分散的信息。

Mem0在多跳問題上的F1分數達到28.64，J分數51.15，明顯超過其他方案。

這說明它不只是能記住零散的事實，還能把這些事實串聯起來。

更有意思的是MemGPT，不過它現在已經改叫Letta了。它的工作原理是把LLM視為操作系統，實現類似計算機虛擬內存的分層管理。

跟蘋果Mac用的儲存技術原理一樣，當物理內存不夠用時，系統會把暫時不用的數據挪到硬盤上，需要時再調回來。

MemGPT把這套邏輯搬到了AI記憶管理上。它通過顯式的讀寫操作讓模型自主管理內存，在工作記憶、短期記憶和長期記憶之間靈活調度。

這個設計的精妙之處在于，它不是人為規定什么該記什么該忘，而是讓AI自己決定。AI可以調用函數把當前不重要的信息寫入外部存儲，也可以在需要時把舊記憶讀回上下文窗口。

這種自主管理能力讓AI的記憶系統跟我們是一樣的。

我們也不是把所有經歷都時刻記在腦子里，而是需要時才努力回憶。

還有Zep、Second Me、Cognee等一系列產品，它們各有特色但殊途同歸，都是在模型的固定上下文窗口之外構建可擴展的外部記憶層。

第三種思路叫做軟提示編碼。

這種方法不存儲文本，而是把提示詞編碼成連續的可訓練嵌入或鍵值對。像是500xCompressor這樣的架構，能通過軟提示編碼實現了高達480倍的壓縮率。

這個技術的本質是給AI發明一套“暗號”。就像“今晚老地方”這句話一樣，這是只有你和你朋友之間才懂的梗，一個眼神、一個詞就能想到一塊去。

軟提示編碼也是這樣，用幾個特殊token就能讓模型回想起大段內容。這些特殊token在人類看來毫無意義，但對模型來說，它們是高度濃縮的信息載體。

這種方法的壓縮率遠超前兩種，但也有明顯的局限。

這些編碼后的“暗號”只對訓練過的特定模型有效，換個模型就不認識了。而且編碼過程需要額外的訓練成本，不像前兩種方法那樣即插即用。所以軟提示編碼更適合那些長期使用同一個模型、對壓縮率要求極高的場景。

這三種外掛式的解決方案各有千秋。

壓縮式記憶管理實現簡單，成本低，但壓縮率有上限。外掛式記憶系統容量幾乎無限，但需要額外的數據庫和檢索機制。軟提示編碼壓縮率最高，但靈活性最差。實際應用中，很多產品會把這幾種方法結合起來，在不同場景下選擇最合適的策略。

但這些終究是“打補丁”。它們在模型外部做文章，沒有觸及問題的根源。真正的突破，需要從模型架構本身下手。

從架構層面動刀子

前面說的那些方案，它們能緩解記憶問題，卻無法根治。因為問題的根源在Transformer架構本身是有缺陷的，注意力機制的計算復雜度是序列長度的平方。上下文窗口每擴大一倍，計算成本就翻四倍。

這不是工程優化能解決的，需要從數學原理上重新設計。

DeepSeek Sparse Attention（DSA）是這個方向的代表性突破。

DSA在2025年隨DeepSeek-V3.2-Exp一起發布，核心思想是“不是所有token都需要互相看”。傳統的全量注意力機制里，每個token都要和序列中的所有其他token計算注意力分數。

這在短序列里沒問題，但當上下文窗口擴展到幾十萬token時，計算量就變得不可接受了。

DSA采用兩階段設計：先用一個輕量級的“索引器”快速評估哪些token最相關，然后只對這些精選出來的token做完整的注意力計算。

核心注意力計算從對所有token做精算，變成只對top-k候選做精算；索引器仍要掃描候選歷史，但用更輕量的低維/低精度方式降低成本。

關鍵在于，這種稀疏化是動態的、基于內容的。不像有些方法只看固定窗口內的token或隨機采樣，DSA會根據實際內容決定哪些token重要。

說白了，就是讓AI先快速掃一遍所有內容，找出跟當前問題最相關的那些部分，然后只仔細看這些重點。就像你看書找資料一樣，你不可能逐字逐句讀，你會先翻目錄和關鍵詞，定位到相關章節再去仔細閱讀。

這讓它在大幅降低計算量的同時，幾乎不損失模型性能。在各種推理任務和智能體環境的測試中，DSA的表現和全量注意力基本持平。

另一個重要方向是混合注意力架構。

這個思路認為，不是所有層都需要昂貴的全量注意力。大部分層可以用更便宜的線性注意力或狀態空間模型，只在關鍵位置保留全量注意力。

阿里的Qwen3-Next在2025年9月發布，核心是Hybrid Attention機制。它用Gated DeltaNet加Gated Attention替代傳統全量注意力，原生支持256K上下文，理論上可擴展到100萬token。

Gated DeltaNet是一種線性注意力變體，計算復雜度從平方降到線性。但純粹的線性注意力在某些任務上表現不如全量注意力，所以Qwen3-Next采用3:1的混合比例。每3層用Gated DeltaNet，1層用Gated Attention。

這個設計很聰明。

線性注意力層負責處理大部分的上下文信息，成本低但能力稍弱。全量注意力層則在關鍵位置做精細的全局建模，成本高但效果好。兩者配合，既保證了性能，又大幅降低了計算開銷。

官方數據顯示，Qwen3-Next-80B-A3B-Base相比Qwen3-32B-Base，在超過32K上下文時有10倍推理吞吐優勢。

月之暗面的Kimi Linear，采用Kimi Delta Attention加全局MLA，也是3:1比例的混合架構。

Kimi Delta Attention本質上是對Gated DeltaNet的改進。在100萬token場景下，KV cache最多減少75%，解碼吞吐最高提升6倍。

這些混合架構的共同點是，他們都把長上下文處理從“每個token都互相看一遍”改成“多數層用更便宜的記憶狀態，少數層保留全局注意力”。

換個說法，你開車得用導航吧？

大部分時間你只需要看著前方道路和路標往前走，這是“便宜的記憶狀態”。但到了復雜路口，有行人、有電摩托車、可能還有剛才發生追尾的事故車，這時候你就得抬頭看整個路況、回憶來時的路、判斷該往哪拐，因此你需要“全局注意力”。

不是每一秒都要動用全部腦力，而是只在關鍵節點才全力思考。

這不是簡單的性能妥協，這是在對注意力機制本質進行重新思考。AI并不需要時刻記住所有細節，只需要在關鍵決策點做全局審視。

然而當下最流行的玩法，還得是硬件與算法協同優化。

再好的算法，如果硬件跟不上，也發揮不出全部威力。英偉達在GTC 2026上發布的BlueField-4 CMX平臺就是這個方向最具代表性的產品。

這是一個專門為“百萬級token上下文”時代設計的上下文記憶存儲平臺。

傳統GPU的顯存帶寬雖然高，但容量有限。當上下文窗口擴展到幾十萬甚至上百萬token時，KV cache的大小會超過單張GPU的顯存容量。BlueField-4 CMX通過專用的內存擴展硬件，在保持高帶寬的同時大幅擴展容量。

它采用分層存儲架構，把熱數據放在GPU顯存，溫數據放在擴展內存，冷數據放在系統內存或SSD，通過智能調度實現大容量支持。

好比說GPU顯存是你的工作臺，它空間有限。

BlueField-4 CMX就相當于在這個工作臺旁邊加了個置物架，常用的工具放臺面，偶爾用的放第一層架子，不常用的放更遠的柜子。

需要時系統自動幫你把東西拿過來，你感覺不到區別，但實際上能放的東西多了幾十倍。

像亞馬遜的Trainium芯片，谷歌的TPU，現在AI芯片的開發商，都會和大模型廠商共同研發下一代芯片，其原因就在于能讓芯片專業對口，滿足模型的各項需求，進而達到更好的訓練以及推理效果。

記憶，AGI最后一塊拼圖

當前的AI記憶系統缺乏人類記憶的關鍵特征。

人類記憶有遺忘機制，不重要的細節會自然淡化。人類記憶有鞏固過程，重要的經歷會在睡眠中被強化。人類記憶有學習能力，相似的經驗會被歸納成模式。人類記憶有壓縮策略，我們不記得每頓飯吃了什么，但記得那次特別的生日宴會。

AI的記憶系統沒有這些玩意。

所有記憶都是“平的”，3個月前的隨口一句話和昨天的重要決定被同等對待。

沒有輕重緩急，沒有遺忘更新，沒有主動整理。

結果就是記憶越多，上下文反而越混亂。就像一個從不整理的倉庫，堆的東西越多，越難找到需要的那一件。

奧特曼在2025年的采訪中提到記憶是通往AGI很重要的一個板塊，而這個判斷也正在成為硅谷的新共識。

真正的智能不僅需要理解當下，更需要從過往經驗中學習和積累。一個每天都“失憶”的AI，無論單次對話多么聰明，也很難稱得上真正的智能。

人類之所以聰明，很大程度上歸功于記憶系統本身的運作機制。

我們能區分短期記憶和長期記憶，能根據情感強度和重要性為記憶打上不同標簽，能在需要時快速檢索相關經驗，也能主動遺忘不重要的細節。

這套復雜的記憶機制，是幾億年進化的結果。AI想要達到人類水平的智能，至少也需要類似復雜度的記憶系統。

從技術路徑來看，未來可能會出現多種方案的融合。

應用層的外掛記憶系統提供靈活性和可控性，你可以隨時查看AI記住了什么，也可以手動刪除或添加記憶。架構層的優化提供效率和性能，讓AI能夠原生處理更長的上下文，不需要復雜的外部系統。認知科學啟發的記憶機制設計則提供智能性，讓AI知道什么該記，什么該忘，什么該鞏固，什么該壓縮。

這跟我們人類大腦是一樣的。我們同時擁有海馬體、前額葉皮層、杏仁核等多個記憶相關區域，它們分工合作，共同構成了完整的記憶系統。

海馬體負責形成新記憶，前額葉皮層負責工作記憶和決策，杏仁核負責情緒記憶。未來的AI系統也可能需要多層次、多模態的記憶架構。

有些記憶需要快速訪問，就放在類似工作記憶的地方。

有些記憶需要長期保存，就存入類似長期記憶的倉庫。

有些記憶需要情感標簽，就加上重要性權重。

有些記憶需要定期鞏固，就設計主動回顧機制。這些不同類型的記憶，需要不同的存儲和檢索策略。

現在關于AI記憶的研究，還處于早期階段。大部分方案都在解決“如何記住更多”的問題，很少考慮“如何聰明地遺忘”。

但遺忘和記憶一樣重要。一個記住所有細節的系統，未必比一個知道什么該記什么該忘的系統更智能。人類大腦每天都在主動遺忘，這不是缺陷，這是優秀的物種特性。

未來的AI記憶系統，可能需要學會遺忘。不是簡單的刪除舊數據，而是智能的信息衰減和壓縮。不重要的細節逐漸模糊，但核心要點保留下來。

就像你記得童年的某個夏天很快樂，但不記得那天具體吃了什么、具體玩了哪款游戲。

這種有損壓縮，反而讓記憶更有價值。

賽博腦白金們的使命，就是在AGI到來之前，先幫AI把“記性”補上來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

字母榜

讓未來不止于大。

2430文章數 8062關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

家居

數碼

游戲

手機 / 數碼

房產 / 家居

賽博腦白金，能治好AI的失憶癥嗎？

DeepSeek發布多模態論文又連夜刪除

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產后身材恢復超好 現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

她們看起來氣血好足，每套搭配我都想抄

告別“紙上談兵”！這個地方打破勞動教育圍墻，給孩子留下值得回憶的汗水！

靈動實用 生活藝術場

戴森“迷你酷”手持無葉風扇HushJet Mini Cool上架，799元

索尼勸你快買固態和會員!PS5容量不夠靠這個就解決

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產后身材恢復超好現身戶外直播

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市

靈動實用生活藝術場