網易首頁 > 網易號 > 正文申請入駐

MoE路由擁有「記憶」：RMS-MoE用檢索記憶協同實現更高效專家調度

2026-05-09 09:37:42　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

大模型越來越大，Mixture-of-Experts（MoE）已經成為擴展模型參數規模、降低單次計算成本的重要架構之一。但在真實的 Web-scale 系統中，MoE 路由機制仍然存在一個容易被忽視的問題：它往往是「無記憶」的。

對于搜索、問答、對話等高并發場景，大量輸入并非完全獨立，而是具有顯著的語義重復性和結構相似性。傳統 MoE 路由器每次都從當前輸入出發，重新判斷應該激活哪些專家。這意味著，即使模型此前已經在相似輸入上找到過有效的專家組合，下一次遇到類似問題時，仍然可能重新探索一遍。

這種「短視」的路由方式會帶來三個問題：一是重復計算，導致推理延遲和資源浪費；二是路由不穩定，輸入稍有擾動就可能觸發完全不同的專家集合；三是專家之間的協作關系難以沉淀，模型只是在選擇單個專家，而沒有顯式復用歷史上有效的「專家團隊」。

針對這一問題，來自馬上消費金融、南京航空航天大學、阿里巴巴等機構的研究團隊提出了RMS-MoE（Retrieval-Memory Synergy Mixture-of-Experts）。該工作將 MoE 路由從一次性的分類決策，重新定義為一個「檢索 — 記憶 — 融合」的過程：模型不再只依賴當前 router 的即時判斷，而是會從歷史記憶中檢索相似輸入曾經激活過的高效專家組合，并與當前路由結果動態融合。

論文標題：Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
會議：The ACM Web Conference 2026（WWW 2026）
作者：Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
機構：馬上消費金融、南京航空航天大學、阿里巴巴
論文鏈接：https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

MoE 路由為什么需要「記憶」？

MoE 的優勢在于稀疏激活。給定一個輸入，router 會從多個專家中選擇少數幾個參與計算，從而在保持模型容量的同時降低每次前向計算成本。

然而，當前主流 MoE 路由方式大多仍然遵循一種 stateless paradigm：每個輸入獨立處理，歷史上相似輸入的專家選擇經驗并不會被系統性利用。

這在離線 benchmark 中可能不明顯，但在真實 Web 場景中會變得非常關鍵。例如，在搜索、開放域問答、智能客服和多輪對話中，用戶請求往往存在大量語義重疊。同類問題、同類任務、同類表達會反復出現。如果系統每次都重新計算專家分配，就會造成明顯的計算冗余。更重要的是，對于語義相近的輸入，如果專家激活集合頻繁波動，模型行為也會變得不穩定。

RMS-MoE 的出發點是：既然用戶輸入具有重復性，專家協作模式也應該可以被記住和復用。與傳統 RAG 從外部知識庫檢索文本內容不同，RMS-MoE 檢索的不是知識片段，而是模型內部的專家協作模式。換句話說，它做的是一種 architectural memory：讓模型記住自己過去是如何調度專家的

RMS-MoE：

從「即時路由」到「檢索增強路由」

RMS-MoE 的整體框架由三個核心模塊構成：Co-Activation Memory（CAM）、Adaptive Fusion Module（AFM）和 Reinforcement-Guided Memory Update。CAM 用于存儲和檢索歷史上有效的專家組合；AFM 用于動態融合記憶先驗和當前 router 的實時判斷；強化反饋式更新則用任務反饋持續維護記憶質量。

從流程上看，當一個新輸入進入模型后，RMS-MoE 首先通過 Input Encoder 得到輸入表示，同時標準 router 會生成一個實時專家激活結果。與此同時，CAM 會根據當前輸入表示，從記憶庫中檢索最相似的歷史樣本，并取出這些樣本對應的專家激活模式。隨后，模型會根據檢索相似度和歷史效用信息，聚合得到一個 memory prior，也就是「歷史上相似輸入更可能適合哪些專家團隊」。最后，AFM 會學習一個動態融合權重，將 memory prior 與實時 router 輸出結合，得到最終專家激活結果。

這種設計帶來的好處是：對于熟悉、重復、語義相近的輸入，模型可以更多依賴歷史上驗證有效的專家組合；對于新穎或低相似度輸入，模型仍然可以回退到實時 router，保持靈活性。

RMS-MoE 方法框架圖

Co-Activation Memory：

記住的不是知識，而是「專家團隊」

RMS-MoE 的關鍵模塊是Co-Activation Memory。CAM 可以理解為一個動態 key-value memory。每條記憶包含兩部分：key 是輸入 embedding，value 是對應的專家激活模式以及相關元信息，例如歷史 reward、最近使用情況等。

當新輸入到來時，模型會用當前輸入 embedding 去 CAM 中檢索 top-K 個相似條目。每個條目不僅代表一個相似輸入，還攜帶了該輸入曾經激活過的專家組合。隨后，RMS-MoE 會結合相似度和歷史效用，對這些專家組合進行加權聚合，得到一個專家選擇先驗。

這里的核心思想是：專家之間的共同激活關系本身就是一種可復用的結構知識。傳統 MoE router 往往獨立評估每個專家是否應該被激活，而 RMS-MoE 更關注「哪些專家曾經一起有效工作」。這使得模型不只是選擇專家，而是在復用專家團隊的協作經驗。

Adaptive Fusion：

既相信記憶，也保留實時判斷

僅有記憶是不夠的。如果模型過度依賴歷史經驗，就可能在遇到新任務、新表達或低頻場景時產生錯誤遷移。因此，RMS-MoE 引入了Adaptive Fusion Module，用一個可學習的動態門控系數 β 來控制記憶先驗和實時路由之間的平衡。

當當前輸入與 CAM 中的歷史樣本高度相似時，β 會更大，模型更傾向于使用記憶檢索得到的專家組合；當相似度較低時，β 會降低，模型則更多依賴當前 router 的即時判斷。這使得 RMS-MoE 不會變成一個簡單的緩存系統，而是一個能夠根據輸入熟悉程度自適應決策的路由框架。

簡單來說，RMS-MoE 的路由邏輯可以概括為：熟悉的問題，優先復用歷史上表現好的專家團隊；陌生的問題，回退到當前 router，保持探索能力；模糊的問題，在記憶和實時判斷之間動態折中。

強化反饋式更新：讓記憶持續進化

為了避免 CAM 退化成靜態緩存，RMS-MoE 還設計了reinforcement-guided memory update。在訓練過程中，模型會根據任務反饋更新記憶條目的效用分數。論文中將負訓練損失作為 reward 信號，并使用指數滑動平均更新歷史 reward。

同時，CAM 還會記錄條目的新近程度，并在容量受限時基于 utility-recency score 進行淘汰。也就是說，一個專家組合如果在歷史上多次帶來較好任務表現，它就會更容易被保留和再次檢索；如果一個組合長期無效或過時，則會逐漸被削弱甚至移除。

此外，CAM 更新被設計為異步機制。模型不會在每次前向傳播中同步修改索引，而是將更新操作緩沖后批量執行。這種設計避免了檢索索引對梯度計算的干擾，也降低了在線更新帶來的系統開銷。

實驗：

在 WebQA 和 MultiWOZ 上同時提升準確率、延遲和穩定性

論文主要在 WebQA 上進行評估。WebQA 包含 120 萬個問答樣本，并具有約 30% 的查詢冗余，非常適合測試記憶增強路由在高重復 Web 場景中的效果。同時，研究團隊還在 MultiWOZ 上驗證了方法在多輪任務型對話中的泛化能力。

實驗對比了多種強 MoE 基線，包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 和 DeepSeekMoE。所有模型使用相同的 MoE 基礎架構：32 個專家，hidden dimension 為 1024，每個 token 激活 top-4 專家。RMS-MoE 額外設置 CAM 容量為 10^5，檢索 top-5 個記憶條目。實驗在 8 張 NVIDIA A100 GPU 上運行，并報告 10 次運行的均值和標準差。

在 WebQA 上，RMS-MoE 取得了最優結果。相較于 DeepSeekMoE，RMS-MoE 的 F1 提升 2.7 個點，歸一化延遲從 0.72× 降至 0.53×，約降低 26%。相較于 Switch Transformer，RMS-MoE 的端到端延遲幾乎減半。在 MultiWOZ 上，RMS-MoE 也保持了類似趨勢，實現了 2.5 個 BLEU 分數提升和 34% 的延遲降低。這說明該方法并不局限于單一問答任務，也能夠遷移到多輪對話場景。

WebQA 主實驗結果（Latency 歸一化至 Switch Transformer）

消融實驗：CAM 是性能提升的關鍵

為了分析各模塊貢獻，論文進一步進行了消融實驗。結果顯示，移除 CAM 后，模型 F1 從 82.5 降至 77.3，穩定性從 0.94 降至 0.85，性能退化最明顯。這說明歷史專家協作模式的檢索與復用是 RMS-MoE 的核心收益來源。

移除 Adaptive Fusion 后，F1 降至 78.2，說明簡單使用記憶并不足夠，模型必須根據輸入情況動態決定「相信記憶」還是「相信當前 router」。移除 reinforcement-guided update 后，F1 降至 79.8，穩定性也出現下降，說明記憶質量的持續維護同樣重要。

敏感性分析進一步表明，RMS-MoE 對關鍵超參數較為穩健。CAM 容量在 10^5 附近達到較好效果，top-K 檢索數量在 K=5 時形成較優的準確率 — 延遲平衡，而融合門控 β 最終穩定收斂到約 0.6，說明模型會在相當一部分決策中主動利用記憶先驗。

WebQA 消融實驗結果

為什么這項工作重要？

RMS-MoE 的意義不只是提出了一個新的 MoE 變體，更重要的是，它重新思考了 MoE 路由的本質。過去，MoE 路由通常被看作一個即時決策問題：給定當前 token，選擇若干專家。RMS-MoE 則把它擴展為一個具有歷史經驗的動態過程：當前輸入不僅由當前 router 決定，也可以參考過去相似輸入中已經驗證有效的專家協作模式。

這帶來了三個層面的變化。第一，路由從「無狀態」變成「有記憶」。模型能夠復用歷史上成功的專家組合，減少重復探索。第二，專家選擇從「單專家打分」走向「專家團隊復用」。RMS-MoE 顯式建模共同激活模式，讓專家協作關系成為可檢索、可強化、可淘汰的結構。第三，檢索增強不再只發生在內容層。傳統 RAG 檢索的是外部知識或文本片段，而 RMS-MoE 檢索的是模型內部架構行為。

對于 Web-scale 推理系統而言，這一點尤其關鍵。搜索、問答、對話、推薦和智能客服等場景都存在高頻、重復、相似的用戶請求。如何在保證模型效果的同時降低推理成本、提升響應穩定性，是大模型落地過程中非常現實的問題。RMS-MoE 提供了一種輕量但有效的思路：讓模型記住自己過去做過的有效計算，并在相似場景中復用這些經驗。

結語

隨著大模型規模持續擴大，MoE 已經成為提升模型容量與推理效率的重要路線。但真正高效的 MoE，不應只是「稀疏激活更多專家」，還應當能夠學習和復用專家之間的協作規律。

RMS-MoE 將檢索、記憶與專家路由結合起來，為 MoE 架構引入了一種新的 architectural memory。實驗結果表明，這種設計能夠在 Web-scale QA 和多輪對話任務中同時改善準確率、推理延遲和路由穩定性

未來，隨著大模型在搜索、對話、智能客服和復雜任務系統中的進一步部署，如何讓模型的內部計算路徑更加穩定、可復用、可解釋，將成為提升大模型系統效率的重要方向。RMS-MoE 的工作表明：大模型不僅需要記住外部知識，也需要記住自己「如何思考」和「如何調度計算資源」。

作者介紹

陶萬杰：馬上消費金融人工智能研究院算法副總監，北京郵電大學碩士，長期從事金融垂直領域大模型、智能客服、知識工程與高可信 AI 服務系統研究。當前重點關注檢索增強、混合專家模型、多智能體協同與金融場景下可控、可解釋、可規模化的大模型應用，致力于構建面向真實業務場景的高效、穩定、可信智能服務系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.