<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊混元CL-bench續作發布,讓大模型讀懂你的日常生活

      0
      分享至



      機器之心發布

      我們對于 “個人助手” 的想象,正在變得越來越具體。

      一個真正嵌入日常生活的 AI 助手,需要能夠從每個人生活中的蛛絲馬跡里學習和理解,解決復雜生活場景中問題。

      在 AGI-Next 前沿峰會上,騰訊姚順雨舉了一個很生活化的例子:當你問 AI “今天吃什么” 時,真正限制答案質量的,可能不是模型不夠大,也不是推理不夠強,而是它不知道你今天冷不冷、想不想吃熱的、最近和朋友聊過什么、家人又有什么偏好需要納入考慮。

      因此,下一代 AI 助手真正需要的,往往不是記住更多 “知識”,而是對 “生活上下文(context)” 的理解與推理。這也正是 CL-Bench family 最新續作 CL-Bench Life 想要回答的問題。



      • 論文題目:CL-Bench Life: Can Language Models Learn from Real-Life Context?
      • 項目主頁:www.clbench.com

      下面,我們將結合混元模型團隊的最新博客《Real life is where context gets hard》,看看那些人類應對起來幾乎毫不費力的日常,對于 AI 來說為何如此棘手。

      • 博客鏈接:https://hy.tencent.com/research/100039

      在日常生活中,Context 的復雜性以另一形式展現

      The other half of context learning

      想要真正解決現實世界的問題,AI 不能僅僅依賴訓練時記住的知識,它必須從當下正在發生的事情中學習新的 context、基于它們進行推理,并記住那些真正關鍵的信息。此前,我們打造了CL-Bench來測試這種上下文學習能力。但現在回過頭看,我們給 AI 了 一個巨大的捷徑:context 已被提前整理好。



      圖:專業領域或工作場景中的 context 結構相對清晰,知識點更聚焦(左);日常生活中的 context 更凌亂,更碎片化,往往包含多個話題(右)。

      這種假設在專業的領域下相對成立,但在大家的日常生活中卻截然不同。回想一下我們每天都要面對的 context:

      ① 在一個日常閑聊和各種話題交錯展開的親友群中,理清大家本周末的時間安排、出行意愿、忌口等信息,敲定一份大家都能接受的周末旅行計劃;

      ② 從 “文件傳輸助手” 里散落的幾十條沒來得及讀的分享鏈接和隨手寫的備忘錄中,拼湊出一份完整的產品規劃;

      ③ 又或是從自己過去大半年斷斷續續的運動打卡和康復日志中,分析出某個部位總是容易受傷的真正原因。生活是混亂的、極其碎片化的,僅僅依靠時間線勉強串聯。



      圖:三個日常生活面臨的 context 例子。Case 1: AI 需要分析一段冗長、嘈雜的多人群聊,其中包含多條交錯討論線、不斷變化的計劃,以及分散在不同時段的時間沖突,來幫助組織一次讀書會;Case 2: AI 需要分析大量零散的騎行記錄、車況維修記錄、突發事件和日記,為五天騎行計劃籌備一份以安全為核心的檢查單;Case 3: AI 需要分析某個用戶數百條受傷前后的訓練記錄,判斷哪些肌群受到的影響最大并安排恢復計劃。

      我們常常低估了這對 AI 來說有多難。最初的CL-Bench測試的是模型能否掌握并用好復雜的新知識。但現實生活從來沒有發給我們一本 “說明書”。AI 不能只停留在理解干巴巴的規則上;它還必須能夠在混亂、稀碎的線索中拼湊出事情的真相,并在各種干擾下保持極高的魯棒性。



      圖:CL-bench 和 CL-bench Life 所覆蓋的兩類 context-learning。

      如果真想讓 AI 蛻變為真正的私人助手,它們就必須切實讀懂我們到底是如何生活的。為了邁出這一步,騰訊混元團隊彌補了 CL-bench 未覆蓋的場景,正式推出CL-Bench Life

      Introducing CL-bench Life

      為了精準衡量 AI 在現實生活中的 “上下文學習” 能力,騰訊混元正式推出了CL-Bench Life。這是一個完全由人工精心構建的基準,包含了 405 個真實的任務

      為了最大限度地覆蓋最常見的真實場景,研究團隊將整個測試基準劃分為三大核心類別



      圖:CL-bench Life 的 context 分類體系。

      1.溝通與社交互動(與他人交互時產生的上下文): 這一類覆蓋一對一私聊,混亂的多人群聊,活躍的社區討論等場景。要在這類任務中成功,AI 必須學會 “讀懂話外之意”。它需要理解復雜的人際關系,感知隱藏的情緒變化,推理出一個群體如何逐漸形成共識,并從日常閑聊中分析出真正有用的信息。

      2.碎片信息與修改軌跡(圍繞自身主動產生的上下文): 這一類包括零散的個人筆記、公共信息流,以及文檔反復修改留下的歷史記錄。這一類 context 的難點包括但不限于:需要模型必須從非常凌亂的日常信息碎片中重建出完整的邏輯線,或整理并推理出一個想法或者安排是如何被多次修改的。

      3.行為記錄與活動軌跡(在生活中被動產生的上下文): 這一類涵蓋游戲日志、數字足跡,以及長期個人追蹤記錄。在這一類型的 context 中,AI 往往需要從一串行為痕跡中推理出背后所隱含的原因。例如,它要求模型進行分析一長段消費流水 / 健身數據等的行為記錄,或者理解人的潛在習慣并發現長期習慣中的異常變化等。

      CL-Bench Life 還包含了5348 條完全由純人工編寫的評分標準,平均每個任務對應 13.2 個考核點。這些 rubrics 被設計得盡可能原子化,從而能夠更全面、更細粒度地評估模型的答案是否正確。



      表:CL-bench Life 的統計信息,包括 context 和任務數量、rubrics 數量、context 中多輪對話的平均輪次、每個任務的 rubrics 數量,以及 context 的 token 長度。

      What we found

      研究團隊測試了 12 個不同的語言模型(更多模型的評測結果詳見的開源榜單),初步的評測結果表明,這些模型平均只能解決 CL-bench Life 中14.5%的任務。即便是表現最好的 GPT-5.5(High)也只能解決 22.2% 的任務。這表明模型還不擅長處理高噪聲的零碎 context。



      表:前沿語言模型在 CL-bench Life 上的任務解決率。

      這一結果甚至比在 CL-bench 中的表現更低。在 CL-bench 中,同一批模型平均能夠解決 20% 以上的任務。這一差異也證實了CL-bench Life 測試的是另一維度的 context learning。CL-bench 中的 context 是來自專業領域的、往往相對更清楚,結構清晰,被有序的組織整理。此時,模型需要具備的能力是掌握新的知識例如規則或流程等,并有效使用它們。而相反的是,CL-bench Life 中的 context 是來自日常生活的,往往更混亂,無序,信息隨時間軸可能被反復修改。在 CL-bench Life 中,模型需要整理分散在 context 各處的線索,處理噪聲,并始終保持魯棒。

      這說明了,當模型面對的不再是清晰的、被相對有序整理過的 context,而是面對雜亂、碎片化、弱結構化的 context 時,context learning 會變得更加困難。這兩個場景對模型提出不同方面和程度的 context learning 要求。

      除了整體表現之外,進一步的實驗分析還揭示了一些重要發現:

      1.在 CL-bench Life 中,雖然模型完美解決任務的比例不高,但部分正確的比例要高得多。當研究團隊調整任務通過閾值時(即一個回答至少需要滿足多少比例的 rubrics 才算正確),模型的通過率會發生明顯變化。閾值越寬松,各個模型的通過率都會顯著上升。這說明模型雖然很難完整解決一個任務,但確實能夠理解其中一部分 context,并完成一部分任務。



      圖:模型在不同任務通過閾值下的表現。

      與此同時,在不同閾值下,模型之間的相對排名大體保持穩定。這意味著 CL-bench Life 既能很好地區分 “理解部分 context” 和 “完美解決任務”,也能在這種情況下支持對不同模型進行相對穩定的比較。



      表:CL-bench Life 各類別和子類別上的模型表現。

      2.不同類別的 context 對模型 context learning 能力的要求各有側重。即便 CL-bench Life 中的 context 都屬于日常生活場景,信息也都是碎片化的,但信息的類型并不一樣,也導致了對模型的能力要求有不同的側重。例如,在溝通和日常交流大類中,除了信息的碎片化外,困難也主要來自社交關系和多人互動:相關信息分散在交錯的話題、討論線也是重疊的、人物關系和對話的指代關系也更加復雜。而在碎片化信息和修訂記錄大類中,模型需要整合不連續的線索,并推理一個內容是如何隨時間變化而不斷被修改的。

      3.模型在日常生活中 context learning 能力的不足,不能簡單歸因于長文推理能力的問題。研究團隊發現,更長的輸入確實可能讓任務更難,但輸入長度本身并不能完全決定任務難度。具體來說,模型一旦開啟 reasoning 模式,context 長度和模型表現之間的關系就變得不那么相關(如下圖所示)。這說明日常生活 context learning 的主要瓶頸并不只是模型能否處理更長的輸入(即長文推理能力),還在于能否處理高噪聲輸入。

      這與 CL-bench 中的現象有所不同。在 CL-bench 中,隨著 context 變長,模型表現通常會更明顯地下滑,因為更長的輸入往往意味著模型需要吸收更多新的復雜知識。而在 CL-bench Life 中,長度只是一個較弱的預測因素。即使 context 不長,但只要它包含大量的噪聲、被反復修改,或真正的有用信息分散在的各處時,模型處理這些 context 也可能會非常困難。



      圖:在 reasoning 和 non-reasoning 下,不同 context 長度區間中的任務解決率。

      4. 為了進一步理解這些局限,研究團隊分析了模型的失敗原因。跨模型來看,最主要的錯誤類型是 context misuse:模型通常確實看到了 context,但仍然誤解或誤用了它。值得注意的是,這與 CL-bench 中的 context misuse 不完全相同。在 CL-bench 中,誤用 context 往往意味著模型錯誤地應用了 context 新定義的知識。而在 CL-bench Life 中,錯誤更多來自模型理解錯了一個日常中經常發生的 context。例如,混淆了一個隨口提到的 “他” 到底指誰;依賴已經被后續的修訂推翻了的早期信息進行推理;誤把臨時的草稿修改 / 口頭的隨意說辭當成最終決策;或者把一段個人的行為軌跡看成孤立事件,而沒有推理出一個長期的習慣。另外,相比之下,格式錯誤在 CL-bench Life 中要少得多,模型直接拒答的情況也很少。



      圖:四類錯誤在不同模型中的分布。Context misuse 是主要失敗因素,而格式錯誤和拒答相對較少。

      下面,研究團隊深入分析了模型在群聊類 context 中的常見錯誤,來進一步探索模型在日常生活場景下 context learning 失敗的原因。



      圖:溝通和日常交流類別中 群聊 context 的錯誤分析。

      在群聊和會議類 context 中,最常見的錯誤是角色混淆以及說話人歸因錯誤,例如模型不能正確記憶哪些話是誰說的以及引用了哪些話。例如,在一個由 Alice、Brenda、Clara 三人協作答復用戶食譜與園藝提問的 Slack 頻道中,Gemini 把 "創建頻道、發起規則" 的 Alice 誤認為是上級 ,把真正拍板裁決的 Clara 當作其下屬,推斷錯了這個組織里面的人際關系角色。因此之后一連串的上下級匯報關系也搞錯了。

      這說明模型理解群聊 context 的核心難點不僅在于需要時刻跟蹤事件的發生,這還需要在混亂的多人互動中持續維護用戶信息、說話人的身份,以及在實際參與者之間不斷變化的關系中保持魯棒。

      總體來看,這些進一步的實驗發現說明了CL-bench Life 并不只是 CL-bench 一個更難的版本,而是一個互補的評估基準:它評估模型是否能夠在真實生活中那些雜亂、碎片化、持續變化的 context 上進行魯棒推理。

      The end

      CL-Bench Life 揭示了一個不容忽視的結論:即使是當今最頂尖的 AI 模型,也還遠沒有真正讀懂我們的日常。 這也解釋了很多人和 AI 交流時,會覺得 AI 還是不夠機靈。即使我們把聊天記錄、零散筆記、行為記錄都交給模型,希望他能處理這些日常事務時,它有時還是 “抓不住重點”。這是因為它可能僅僅讀到了信息,卻沒有真正理解這些信息在現實生活中的含義。

      騰訊混元團隊希望CL-bench 和 CL-bench Life 能從兩個互補方向共同推動 context learning 的發展:一手掌控專業領域中聚焦、有條理的知識;一手應對真實生活中碎片、混亂的現實,最終幫助 AI 在人類的工作和日常生活中都變得更加智能、實用和可靠。

      但顯而易見的是,這條圍繞 context 發展的路并不會停在這里。讓 AI 學會處理復雜 context,是它真正走進現實世界的關鍵。CL-bench 系列工作推動 AI 更深入理解 context 是這其中非常重要的一步,而讓 AI 學會在長期使用中記憶、整理和組織 context,則是邁向真正能服務人類的個人助手的下一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一架專機抵臺,賴清德樂了,轉身卻發現:王毅當天就收到美國來電

      一架專機抵臺,賴清德樂了,轉身卻發現:王毅當天就收到美國來電

      小影的娛樂
      2026-05-01 12:23:37
      新型出軌,越來越流行了!

      新型出軌,越來越流行了!

      黯泉
      2026-04-16 21:56:14
      2026年1-2月,中國進口了全球46%的芯片,但出口了25%的芯片

      2026年1-2月,中國進口了全球46%的芯片,但出口了25%的芯片

      互聯網.亂侃秀
      2026-03-23 10:47:40
      香奈兒發布無底綁帶鞋,網友:太抽象了!

      香奈兒發布無底綁帶鞋,網友:太抽象了!

      都市快報橙柿互動
      2026-04-29 15:43:37
      44歲前TVB花旦失落金像獎不氣餒,自爆廣州祖業已被親戚分光

      44歲前TVB花旦失落金像獎不氣餒,自爆廣州祖業已被親戚分光

      TVB劇評社
      2026-05-01 21:24:01
      2026版老年2型糖尿病指南發布!6大核心要點速覽

      2026版老年2型糖尿病指南發布!6大核心要點速覽

      新浪財經
      2026-04-30 18:50:40
      萬萬沒想到!落馬張軍妻子來頭不小,同是冠軍,實力不容小覷

      萬萬沒想到!落馬張軍妻子來頭不小,同是冠軍,實力不容小覷

      人間煙火記事本
      2026-05-01 06:47:32
      特勤局局長披露記者晚宴行兇槍手被捕真相:他撞上磁力計箱子摔倒

      特勤局局長披露記者晚宴行兇槍手被捕真相:他撞上磁力計箱子摔倒

      真正能保護你的
      2026-05-01 11:38:52
      “蘇超”太卷了!歐文穿蘇州球衣打call,菲戈將空降南京,揚州呢

      “蘇超”太卷了!歐文穿蘇州球衣打call,菲戈將空降南京,揚州呢

      以茶帶書
      2026-05-01 18:11:31
      森林狼3將身價暴漲!麥丹攻守一體,香農強突破,戈貝爾統治內線

      森林狼3將身價暴漲!麥丹攻守一體,香農強突破,戈貝爾統治內線

      籃球資訊達人
      2026-05-01 12:49:43
      香奈兒發布新款涼鞋,僅包裹腳后跟,腳背部分幾乎完全裸露,王菲在1999年巡演中曾穿過類似款式高跟鞋;網友:“這和光腳的區別在哪?”

      香奈兒發布新款涼鞋,僅包裹腳后跟,腳背部分幾乎完全裸露,王菲在1999年巡演中曾穿過類似款式高跟鞋;網友:“這和光腳的區別在哪?”

      魯中晨報
      2026-04-29 21:51:12
      西安交通大學今年瘋了嗎

      西安交通大學今年瘋了嗎

      娛樂的宅急便
      2026-05-01 20:23:14
      張雪峰的峰學未來早就是個空殼,內部管理危機四伏,股份爭奪開始

      張雪峰的峰學未來早就是個空殼,內部管理危機四伏,股份爭奪開始

      魔都姐姐雜談
      2026-05-01 20:01:53
      女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

      女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

      老貓觀點
      2026-04-27 07:20:19
      內地暴走團殺到香港:是健身還是擾民?

      內地暴走團殺到香港:是健身還是擾民?

      羊城網
      2026-05-01 11:22:08
      廣東男子中風癱瘓,妻女照顧兩月不耐煩,故意外出8天將其餓死

      廣東男子中風癱瘓,妻女照顧兩月不耐煩,故意外出8天將其餓死

      小李子體育
      2026-05-01 00:01:35
      當年無人問津的6大爛片,如今都逆風翻盤成為了經典

      當年無人問津的6大爛片,如今都逆風翻盤成為了經典

      小Q侃電影
      2026-03-02 19:55:20
      太抓馬了!馬斯克OpenAI開庭,硅谷巨富互揭老底像極了村口吵架

      太抓馬了!馬斯克OpenAI開庭,硅谷巨富互揭老底像極了村口吵架

      量子位
      2026-05-01 14:21:52
      月球背面發現2200萬億噸神秘金屬,來歷成謎,絕非地球產物

      月球背面發現2200萬億噸神秘金屬,來歷成謎,絕非地球產物

      觀察宇宙
      2026-05-01 15:55:34
      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      牛牛叨史
      2025-11-05 14:11:53
      2026-05-02 03:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      DeepSeek發布多模態論文又連夜刪除

      頭條要聞

      美軍對伊朗最新打擊方案披露 包含出動地面部隊

      頭條要聞

      美軍對伊朗最新打擊方案披露 包含出動地面部隊

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      藝術
      手機
      旅游
      本地
      公開課

      藝術要聞

      畫畫的你絕不能錯過!色塊與筆觸的激情之旅!

      手機要聞

      曝iPhone18Pro相機史詩級升級,這次你期待嗎?

      旅游要聞

      一張票根全年玩轉寶山!今日起,持郵輪登船證享全城超值優惠

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟妇成人精品一区| 成人老鸭窝人人在线视频| 48久久国产精品性色aⅴ人妻| 亚洲一区二区三区小蜜桃| 奶头又大又白喷奶水av| 成人福利网站| 国产精品日韩深夜福利久久| 91热爆| 国产成人精品无码免费看| 中文乱码字幕亚洲精品| 精品中文字幕久久久久久| 久久国产avjust麻豆| 国产在线线精品宅男网址| 欧美日韩综合在线精品| 国内偷自拍对白视频| 中文字幕亚洲欧美日韩2019| 国产亚洲精品久久19p| 国产精品乱码一区| 99精品久久久久久久婷婷| 亚洲色播永久网址大全| 人妻夜夜爽天天爽三区丁香花| 99久久国产综合精品五月天| 麻豆精品一区二区综合av| 久久精品电影| 日本高清在线播放一区二区三区| 亚洲精品一区久久久久久| 日本免费一区二区三区激情视频 | 高清美女视频一区二区三区| 日韩av一区在线播放| 伊人成色综合网| 亚洲AV无码| 永久成人无码激情视频免费| 中文字幕网伦射乱中文| av在线手机播放| 久久国产精品二国产人妻| 亚洲无码?制服丝袜| 人妻有码中文字幕| 亚洲a成人电影| 成人性爱影院| 亚洲开心婷婷中文字幕| 久久熟女|