<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Agent記憶賽道大洗牌!LoCoMo-Refined重磅發(fā)布,主流記憶框架迎來核心檢驗

      0
      分享至


      京大學(xué)&上海人工智能實驗室聯(lián)合推出LoCoMo-Refined嚴(yán)苛的Agent記憶評測基準(zhǔn),主流記憶系統(tǒng)真實水平大比拼!

      01


      引言:Agent記憶系統(tǒng)高分背后,

      評測“標(biāo)尺”仍待校準(zhǔn)

      隨著 Agent 應(yīng)用持續(xù)走向復(fù)雜任務(wù),"記憶能力"正逐漸成為影響系統(tǒng)可用性與用戶體驗的關(guān)鍵基礎(chǔ)能力之一。盡管模型的長上下文窗口不斷擴(kuò)展(從 128K 擴(kuò)展到 1M、2M),但其仍無法有效解決真實長周期對話中頻發(fā)的"失憶"問題。因此,圍繞Agent的記憶框架迅速興起,成為當(dāng)前業(yè)界提升長期記憶能力的一條重要技術(shù)路徑。

      在當(dāng)下各大主流記憶評測榜單中(如 Agent Memory 領(lǐng)域的代表性基準(zhǔn) LoCoMo),主流記憶框架動輒獲得90%以上的高分。但在接入真實的業(yè)務(wù)場景時,卻發(fā)現(xiàn) Agent 依然頻頻失效:昨天說好的日程今天搞錯時間、用戶偏好被張冠李戴、甚至還會"腦補"出從未發(fā)生過的對話細(xì)節(jié)。明明在評測基準(zhǔn)里拿了高分,為什么一到真實應(yīng)用就表現(xiàn)不佳?

      南京大學(xué)強(qiáng)化學(xué)習(xí)實驗室聯(lián)合上海人工智能實驗室群體智能團(tuán)隊,在深度剖析了超長對話記憶基準(zhǔn) LoCoMo 后,找到了核心原因——現(xiàn)有的評測“標(biāo)尺”本身存在偏差,并總結(jié)出當(dāng)前記憶評測基準(zhǔn)普遍存在的兩大漏洞:

      第一,評判標(biāo)準(zhǔn)過于寬容:行業(yè)通用的 LLM 裁判(Judger)基本邏輯是"相關(guān)即正確",這種寬松的判定掩蓋了當(dāng)前記憶外掛的核心缺陷——召回冗余信息與過度生成;

      第二,考卷本身也存在錯漏:數(shù)據(jù)集中潛藏著部分邏輯顛倒、事實偏差的"臟數(shù)據(jù)",干擾了評測精度。

      如果評測“標(biāo)尺”本身不夠準(zhǔn)確,Agent 記憶系統(tǒng)的研究將在高分的假象中迷失方向,導(dǎo)致記憶系統(tǒng)的真實瓶頸被持續(xù)忽視。為此,在LoCoMo基礎(chǔ)上,聯(lián)合團(tuán)隊正式推出專為驗證真實記憶架構(gòu)而生的嚴(yán)謹(jǐn)測試基準(zhǔn) LoCoMo-Refined

      ? 新 Judger 的核心原則:包含且不矛盾,完整且不越界——對冗余生成和未驗證細(xì)節(jié)明確扣分。

      ? 數(shù)據(jù)修正方面,人工逐題核驗核心四類題目,修訂了題目模糊、主客體顛倒、時間不符等問題,最終形成高質(zhì)量新數(shù)據(jù)集。

      在 LoCoMo-Refined 的嚴(yán)苛標(biāo)準(zhǔn)下,MemPalace、EverMemOS等主流記憶框架的得分普遍下降15–22個百分點——它們此前的高分,在很大程度上是評測標(biāo)尺本身的寬松所致。

      02


      揭秘舊基準(zhǔn)得分虛高的兩大原因

      那些在真實場景中表現(xiàn)不佳的記憶系統(tǒng),究竟是如何斬獲高分的?我們深入分析了現(xiàn)有的LoCoMo評測體系,發(fā)現(xiàn)了兩個關(guān)鍵原因。

      原因一:寬松的裁判——“相關(guān)即正確”掩蓋了記憶系統(tǒng)的缺陷

      主流記憶框架在實際使用中容易產(chǎn)生冗余信息——既可能在檢索階段召回?zé)o關(guān)記憶,也可能在生成階段引入未經(jīng)驗證的細(xì)節(jié)。然而,現(xiàn)有評測體系中,通用 LLM Judger(裁判)的判定門檻較低,其核心邏輯是"相關(guān)即正確"——只要回答在語義上與標(biāo)準(zhǔn)答案相關(guān),就傾向于判定為正確,極易產(chǎn)生評判幻覺。具體表現(xiàn)為:


      ?忽視時間漂移:比如問題問“Deborah 何時去巴西”,標(biāo)準(zhǔn)答案是“2020年”。如果記憶系統(tǒng)回答“2020年8月30日”(強(qiáng)加了未經(jīng)驗證的具體日期),通用 Judger 依然會判定為正確。

      ?縱容過度生成與冗余:比如問題問“他喜歡什么類型的電影”,標(biāo)準(zhǔn)答案是“動作片和科幻片”。如果記憶系統(tǒng)召回了多余的信息,回答“動作、科幻和奇幻片”,在舊規(guī)則下,這依然是一個“滿分答案”。

      這種寬松的裁判標(biāo)準(zhǔn),實際上導(dǎo)致了嚴(yán)重的假陽性。它讓那些記憶混亂、時間線模糊、生成額外事實的結(jié)果,獲得了遠(yuǎn)超其真實能力的高分。當(dāng)評測失去了區(qū)分度,得分的參考價值也就大打折扣。

      原因二:帶瑕疵的考卷——考題和標(biāo)準(zhǔn)答案存在誤導(dǎo)

      除了評判標(biāo)準(zhǔn)的過度寬容,測試數(shù)據(jù)本身的問題同樣會干擾評測的客觀性。通過 AI 初篩結(jié)合人工核驗,在原始 LoCoMo 中精確定位了 337 道存在邏輯或事實偏差的題目。這類錯誤一旦作為“金標(biāo)準(zhǔn)”,會直接干擾對 Agent記憶系統(tǒng)的準(zhǔn)確評估。


      ?以"主客顛倒"為例:例如原數(shù)據(jù)集題目:“Nate 去 Joanna 家玩時想做什么?”但回溯長達(dá)數(shù)百輪的原始對話記錄發(fā)現(xiàn),Nate 說的實際上是:“我很高興你能再來我家玩”——訪客與主人的關(guān)系完全相反。如果記憶系統(tǒng)依據(jù)這樣的標(biāo)注進(jìn)行學(xué)習(xí)或評測,會導(dǎo)致錯誤的結(jié)果被判定為正確。

      03


      LoCoMo-Refined 怎么做?

      ——專為“記憶架構(gòu)”打造的客觀標(biāo)尺

      為了精準(zhǔn)評估 Agent 外掛記憶系統(tǒng)的真實能力,團(tuán)隊從評測標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量兩個維度進(jìn)行了系統(tǒng)性重構(gòu)。

      嚴(yán)格標(biāo)尺:精準(zhǔn)識別“幻覺”與“冗余”的新 Judger

      針對舊裁判過度寬松的問題,圍繞記憶任務(wù)的本質(zhì)要求,首先重新界定“什么才算真正答對”。與開放式生成任務(wù)不同,記憶評測關(guān)注的并不是僅僅是回答是否“看起來合理”或“主題相關(guān)”,而是系統(tǒng)能否在給定問題下準(zhǔn)確、完整、邊界清晰地回憶目標(biāo)信息?;谶@一認(rèn)識,首先給出新Judger的設(shè)計哲學(xué)——

      包含且不矛盾,完整且不越界。


      ?必要信息完整覆蓋:回答必須覆蓋標(biāo)準(zhǔn)答案的所有關(guān)鍵要素,命中一部分不算答對——從相關(guān)性匹配升級為信息完備性檢驗。

      ?冗余生成邊界控制:回答不能超出標(biāo)準(zhǔn)答案的可驗證范圍。未經(jīng)證實的補充細(xì)節(jié),即便看似合理,也應(yīng)被扣分——評測關(guān)注的是"忠實復(fù)現(xiàn)",而非"合理擴(kuò)展"。

      精修考卷:AI 與人工的協(xié)同校準(zhǔn)

      有了精確的標(biāo)尺,考卷本身的質(zhì)量同樣需要保證。團(tuán)隊引入了前沿 AI 模型作為初篩工具,對全部數(shù)據(jù)執(zhí)行了基于證據(jù)(Evidence-based)的測試檢驗。隨后,人工對初篩出的錯題及 AI 修復(fù)建議進(jìn)行了逐題復(fù)核。


      在剔除無效題型后,在剩余的 1540 道核心考題中,精修了 337 道存在邏輯或事實瑕疵的題目,數(shù)據(jù)集的純凈度得到了極大提升,最終獲得1382道精修后的題目。

      One More Thing:引入“多模態(tài)”記憶標(biāo)記

      業(yè)界往往忽略了一個歸因盲區(qū):當(dāng) Agent 面對混合了圖片的長期對話答錯時,到底是因為“文本記憶沒存好”,還是因為“沒看懂圖片”?

      為了剝離這種干擾,在 LoCoMo-Refined 中引入了多模態(tài)標(biāo)記。其中 521 道題目(占比37.70%)被清晰地打上了該標(biāo)簽,這讓開發(fā)者能夠更精細(xì)化地評估記憶框架在“純文本”與“圖文交織”場景下的能力邊界。

      04


      評測結(jié)果:

      嚴(yán)苛標(biāo)尺下的重測,主流記憶框架真實水平展現(xiàn)

      標(biāo)尺校準(zhǔn):舊版裁判模型為何不再適用?

      在測試真實記憶系統(tǒng)之前,團(tuán)隊先用對比數(shù)據(jù)驗證了舊版評測結(jié)果為何缺乏區(qū)分度。

      通過抽取的 300 條高難度樣本進(jìn)行雙盲測試。結(jié)果顯示,人類專家標(biāo)注表現(xiàn)出較強(qiáng)的一致性——達(dá)到 0.9373,其中更是有高達(dá) 92.33% 的樣本一致性超過 0.8。這表明“記憶是否準(zhǔn)確”在人類視角下有著清晰的共識。


      LLM Judger裁判評分的核心包括兩部分:大模型 + 評判規(guī)則,二者共同影響評判都準(zhǔn)確率。以人類標(biāo)注的300道題目為基礎(chǔ),對這兩個因素進(jìn)行了測評,從而衡量“評判標(biāo)尺”是否準(zhǔn)確。


      ?大模型的選擇:業(yè)界通用LoCoMo裁判采用GPT-4o mini作為后端LLM,在人工精標(biāo)測試集上只有43.67%的準(zhǔn)確率。Qwen3-14B 在相同配置下高出近 15%,因此LoCoMo-Refined 默認(rèn)采用 Qwen3-14B。

      ?評判標(biāo)準(zhǔn)的校驗:現(xiàn)有LoCoMo裁判的標(biāo)準(zhǔn)(舊評判標(biāo)準(zhǔn))較為寬松,這是造成評測標(biāo)尺不準(zhǔn)確的核心原因。團(tuán)隊對前面所提出的新評判標(biāo)準(zhǔn)進(jìn)行了測評,以 Qwen3-14B 作為后端 LLM 時,新評判標(biāo)準(zhǔn)與人類標(biāo)注的一致準(zhǔn)確率達(dá)到 86.33%,顯著優(yōu)于舊評判標(biāo)準(zhǔn)。

      ?新裁判在高共識樣本上更穩(wěn)定:結(jié)合大模型和評判標(biāo)準(zhǔn)的結(jié)構(gòu),在LoCoMo-Refined中使用Qwen3-14B + 新評判標(biāo)準(zhǔn)作為默認(rèn)裁判,即新裁判。當(dāng)人工標(biāo)注者本身更容易達(dá)成一致時,新裁判的優(yōu)勢會變得更明顯。對于一致性大于0.8 的樣本,新裁判的準(zhǔn)確率達(dá)到 89.5%;而在一致性小于 0.8 的樣本上,則下降到 47.8%。相比之下,舊裁判在這兩類樣本上的準(zhǔn)確率幾乎沒有變化,分別只有 48.4% 和 47.8%。


      重測結(jié)果:主流記憶框架回歸真實水平

      為了驗證LoCoMo-Refined基準(zhǔn)以及新裁判的有效性和區(qū)分度,團(tuán)隊針對主流記憶系統(tǒng)——如 Mem0、MemOS、EverMemOS和MemPalace進(jìn)行了測評。

      在舊裁判下,這些框架的表現(xiàn)看起來相當(dāng)不錯,但在嚴(yán)懲信息冗余和時間漂移的新裁判下,它們的得分顯著下降:


      這組對比結(jié)果也揭示了一個此前被寬松評判標(biāo)準(zhǔn)所掩蓋的事實:現(xiàn)有記憶系統(tǒng)在長對話場景中的實際表現(xiàn),與舊基準(zhǔn)所呈現(xiàn)的高分之間存在較大的差距。許多涉及時間推理、多事件區(qū)分和精確細(xì)節(jié)回憶的題目,對當(dāng)前主流框架而言仍是未解決的難題——只是在舊裁判下,這些錯誤未被有效識別。我們希望 LoCoMo-Refined 能讓這些真實的瓶頸充分暴露出來,為后續(xù)記憶架構(gòu)的改進(jìn)提供更準(zhǔn)確的方向。

      05


      開源與生態(tài):

      建立更健康的 Agent 記憶測評基礎(chǔ)設(shè)施

      LoCoMo-Refined 的目標(biāo)不是否定特定框架,而是為社區(qū)提供更客觀的驗證工具,幫助識別真實瓶頸,推動記憶架構(gòu)的針對性改進(jìn)。

      目前,LoCoMo-Refined 的完整修訂版數(shù)據(jù)集以及配套的嚴(yán)格評測腳本已經(jīng)全部開源。

      GitHub 地址:https://github.com/mem-eval-suite/LoCoMo_refined

      期待社區(qū)開發(fā)者們在 LoCoMo-Refined 基礎(chǔ)上構(gòu)建出更強(qiáng)大的 Agent 記憶系統(tǒng),共同推動相關(guān)技術(shù)的發(fā)展!


      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      螞蟻大喇叭
      2026-05-14 11:11:38
      全市場:德尚法國隊名單出爐,卡馬文加領(lǐng)銜落選陣容

      全市場:德尚法國隊名單出爐,卡馬文加領(lǐng)銜落選陣容

      懂球帝
      2026-05-15 19:24:21
      2年1620萬美金!場均10分9.6板!這就是艾頓不被人待見的原因

      2年1620萬美金!場均10分9.6板!這就是艾頓不被人待見的原因

      世界體育圈
      2026-05-15 18:54:47
      日媒調(diào)查:高市早苗內(nèi)閣支持率連續(xù)下滑 民眾不滿“只談修憲不顧經(jīng)濟(jì)和民生”

      日媒調(diào)查:高市早苗內(nèi)閣支持率連續(xù)下滑 民眾不滿“只談修憲不顧經(jīng)濟(jì)和民生”

      海外網(wǎng)
      2026-05-15 10:52:07
      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      蜉蝣說
      2026-03-17 15:58:31
      為什么超市豬肉比菜市場便宜?內(nèi)行人透露3個內(nèi)情,看完不虧

      為什么超市豬肉比菜市場便宜?內(nèi)行人透露3個內(nèi)情,看完不虧

      老特有話說
      2026-05-13 21:42:25
      中方嚴(yán)詞示警,特朗普直至離京未提臺灣?魯比奧急稱對臺政策不變

      中方嚴(yán)詞示警,特朗普直至離京未提臺灣?魯比奧急稱對臺政策不變

      筆墨V
      2026-05-15 16:11:14
      天王嫂濾鏡徹底碎!方媛?lián)寙稳碎g引眾怒,極致利己嘴臉藏不住了

      天王嫂濾鏡徹底碎!方媛?lián)寙稳碎g引眾怒,極致利己嘴臉藏不住了

      童叔不飆車
      2026-05-15 19:01:00
      三過草地的女紅軍當(dāng)農(nóng)民,朱老總怒斥當(dāng)?shù)仡I(lǐng)導(dǎo):你知道她是誰嗎?

      三過草地的女紅軍當(dāng)農(nóng)民,朱老總怒斥當(dāng)?shù)仡I(lǐng)導(dǎo):你知道她是誰嗎?

      史之銘
      2026-05-07 20:06:03
      楚阿梅尼徹底涼了!穆里尼奧欽定皇馬新核,1 億歐挖角曼城

      楚阿梅尼徹底涼了!穆里尼奧欽定皇馬新核,1 億歐挖角曼城

      奶蓋熊本熊
      2026-05-15 00:52:50
      現(xiàn)在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      現(xiàn)在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      華史談
      2026-05-15 08:49:03
      卸磨殺驢的結(jié)果!文胖:詹皇愿去別隊拿中產(chǎn),也不愿降薪3000萬

      卸磨殺驢的結(jié)果!文胖:詹皇愿去別隊拿中產(chǎn),也不愿降薪3000萬

      錢說體育
      2026-05-15 09:05:10
      醫(yī)生發(fā)現(xiàn):每天早起后先排便的人,用不了半年身體或迎來4改變

      醫(yī)生發(fā)現(xiàn):每天早起后先排便的人,用不了半年身體或迎來4改變

      路醫(yī)生健康科普
      2026-05-14 17:45:11
      股價大跌因“談價失敗”?3000億PCB龍頭回應(yīng)

      股價大跌因“談價失敗”?3000億PCB龍頭回應(yīng)

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-15 13:59:08
      特朗普稱中美關(guān)系將會更好

      特朗普稱中美關(guān)系將會更好

      中國日報網(wǎng)
      2026-05-14 20:19:47
      沒有中方官員接待?日本代表團(tuán)抵滬第三天,外交部打開天窗說亮話

      沒有中方官員接待?日本代表團(tuán)抵滬第三天,外交部打開天窗說亮話

      健身狂人
      2026-05-14 19:04:08
      吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

      吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

      黑翼天使
      2026-05-14 12:27:06
      太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

      太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

      情感大頭說說
      2026-05-15 18:54:17
      看到中國給了特朗普最高禮遇,歐盟干脆做了最壞的打算?

      看到中國給了特朗普最高禮遇,歐盟干脆做了最壞的打算?

      鳥兒太能吃
      2026-05-15 12:52:00
      比亞迪“青蛙車”爆火,我用豆包給比亞迪做了一份PPT,結(jié)果被學(xué)員吊打……

      比亞迪“青蛙車”爆火,我用豆包給比亞迪做了一份PPT,結(jié)果被學(xué)員吊打……

      秋葉PPT
      2026-05-13 08:21:01
      2026-05-15 20:04:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7278文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認(rèn)為現(xiàn)在的美國是"衰落國家" 外交部回應(yīng)

      頭條要聞

      美媒詢問是否認(rèn)為現(xiàn)在的美國是"衰落國家" 外交部回應(yīng)

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      健康
      家居
      手機(jī)
      公開課
      軍事航空

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險

      家居要聞

      110㎡淡而有致的生活表達(dá)

      手機(jī)要聞

      小米盧偉冰宣布明日直播:將爆料17 Max手機(jī)賣點

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 男女啪啦啦超猛烈动态图| 日韩国产成人无码av毛片| 最新无码视频| 男男激情做爰gay片| 伊人久久一区二区三区无码| 人妻av中文字幕无码专区 | 日韩国产色色网| av秘 无码一区二区三区| 破初无码中字免费观看| 三级网站| 国内视频偷拍久久伊人网| 亚洲国产精品羞羞| 成年片色大黄全免费网站久久 | 内射白嫩少妇超碰| 人妻少妇被猛烈进入中文字幕| 欧美精品乱码99久久蜜桃| 性AV十丰满AV十无码AV| 少妇熟女视频一区二区三区| 五级黄高潮片90分钟视频| 小12箩利洗澡无码视频网站| 精品国产一区二区三区免费| 91视频入口| 少妇精品导航| 亚洲AV无码成人精品区不卡| 中文字幕乱码亚洲无线精品一区| 青青青国产在线观看免费| 亚洲日本欧洲二区精品| 久久久无码精品亚洲日韩精东传媒| 国标熟女视频| 日韩无码第2页| 亚洲一本二区偷拍精品| 影音先锋人妻啪啪AV资源网站| 97色精品视频在线观看| 美女自卫慰黄网站| 亚洲熟妇少妇任你躁在线观看| 一级天堂| 亚洲成人综合av| 公交车上拨开少妇内裤进入| 国产精品亚洲ΑV三区| 国产拍拍拍无码视频免费| 亚洲日本欧洲二区精品|