<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      QwenLong-L1.5發布:讓30B MoE模型長文本推理能力媲美GPT-5

      0
      分享至



      作為大模型從業者或研究員的你,是否也曾為一個模型的 “長文本能力” 而興奮,卻在實際應用中發現它并沒有想象中那么智能?

      你大概率也遇到過以下困境之一:

      虛假的繁榮: 模型在 “大海撈針” (Needle-in-a-Haystack) 測試中輕松取得高分,營造了一種長文本能力已經解決的 “虛假繁榮”。但一旦任務從簡單的信息定位,升級為需要串聯分散證據、整合全局信息的多跳推理 (multi-hop reasoning) 時,模型的表現便會急轉直下,難以構建起完整的邏輯鏈條,暴露出其在深度理解上的真實短板。

      訓練的噩夢: 長文本、多任務的訓練數據就像一個成分復雜的 “大雜燴”,其多源、多域的特性,讓標準的 RL 算法嚴重 “水土不服”。你精心設計的獎勵函數(Reward Function)很可能因為數據分布的劇烈變化而產生偏差,導致模型性能不升反降。最終,監控圖上那劇烈震蕩的獎勵和熵(Entropy)曲線,無情地宣告著訓練過程的 “翻車” 與崩潰。

      窗口的天花板: 即使上下文窗口被擴展到 256K,1M 甚至更長,它也終究是一個有限的 “物理內存”。然而,現實世界的知識流 —— 分析整個代碼倉庫、研讀一份完整的年度財報、或是精讀一部專業巨著 —— 其信息量輕易就能突破這個上限。這使得模型在處理這些 “超框”(Out-of-Window)任務時,不得不依賴分塊處理等妥協方案,最終導致關鍵全局信息的丟失和端到端推理能力的降級。

      如果這些場景讓你倍感熟悉,那么問題很可能不在于你不夠努力,而在于業界缺少一套完整、端到端的長文本推理后訓練 “配方”(Post-training Recipe)。

      針對這一系列挑戰,通義文檔智能團隊正式推出QwenLong-L1.5—— 一個基于 Qwen3-30B-A3B 打造的長文本推理專家。我們的核心貢獻,正是提供了這套缺失的 “配方”,它系統性地統一了:

      • 可擴展的高質量數據合成管線
      • 為長文本定制的強化學習方法
      • 突破物理窗口的智能體架構

      這套組合拳,旨在一次性解決從 “學不好” 到 “用不了” 的全鏈路難題。



      • 技術報告: https://huggingface.co/papers/2512.12967
      • GitHub 倉庫: https://github.com/Tongyi-Zhiwen/Qwen-Doc

      深入拆解:我們的三大「法寶」

      要讓模型真正掌握長文本推理,零敲碎打的優化是遠遠不夠的。我們提出了一套系統性的 “組合拳”,包含三大核心法寶,從根本上重塑模型的學習與思考方式。

      法寶一:高質量 “精神食糧” —— 多跳推理數據合成流水線

      模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡單的 “大海撈針” 式任務,就如同只讓學生做單選題,卻期望他能寫出長篇論述文。

      為了教會模型真正的 “思考”,我們打造了一條新穎的數據合成流水線。其核心思想是 “先拆解,后組合”,專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂高積木拼城堡:我們先把一本巨著拆解成一個個知識 “積木”(原子事實),再根據復雜的 “圖紙”(如知識圖譜、多文檔表格),把這些分布在不同章節的積木拼成一個宏偉的 “城堡”(復雜問題)。



      這條流水線由三大 “出題引擎” 驅動,能程序化地生成無窮無盡的高質量挑戰:

      • 知識圖譜引導 (KG-Guided): 自動挖掘文檔間的深層邏輯鏈,生成環環相扣的多跳推理題,強制模型進行跨段落、跨文檔的關聯思考。
      • 跨文檔表格引擎 (Cross-document Table Engine): 從多個非結構化文檔中自動抽取出數據,整合成統一的結構化表格,據此生成需要聚合、統計與復雜計算的數值推理題。
      • 多智能體自我進化 (MASE): 設計一個由 “出題者”、“解題者”、“檢驗者” 組成的多智能體框架,基于無標簽文檔自動合成通用長文本任務,通過 “出題 - 解題 - 檢驗” 的循環,結合歷史合成任務提升任務難度和廣度。

      法寶二:穩定高效的 RL 優化策略

      強化學習(RL)是提升模型推理能力的關鍵,但在長文本、多任務場景下,標準的 RL 方法會面臨兩大嚴峻挑戰,極易導致訓練崩潰。

      第一個挑戰源于數據分布的異構性。我們的長文本訓練數據來自代碼、學術文獻、財報等多個領域,任務類型也涵蓋了問答、計算、分析等。這種復雜性導致在訓練的每個批次(mini-batch)內,數據分布都會發生劇烈偏移(distributional drift)。



      這種偏移會嚴重干擾獎勵信號(reward)的穩定性,并對優勢函數(advantage function)的估計引入巨大噪聲,使得梯度更新方向變得極不可靠。為解決此問題,我們采取了雙重策略:

      任務均衡采樣(Task-balanced Sampling): 在構建每個訓練批次時,強制從不同的任務類型(如多跳推理、數值計算、對話記憶等)中均勻抽取樣本,從源頭上保證了批次內數據分布的相對均衡。

      任務專屬優勢估計(Task-specific Advantage Estimation): 在計算優勢函數時,我們不再對整個批次的獎勵進行標準化,而是在每個任務類型內部獨立進行。這能有效隔離不同任務間迥異的獎勵分布(如 0/1 的稀疏獎勵與 0-1 的密集獎勵),從而為每個任務提供更準確、更穩定的優勢信號。

      第二個挑戰是長文本推理中的信用分配難題(Credit Assignment Problem)。在生成式任務中,一個最終錯誤的答案(negative response)往往包含了大量完全正確的中間推理步驟。傳統的 RL 算法通過一個單一的負向獎勵來懲罰整個序列,這種 “一刀切” 的做法會錯誤地懲罰那些正確的、具有探索價值的步驟,不僅壓制了模型的探索能力,甚至可能導致 “熵坍塌”(entropy collapse)和訓練早停。



      為此,我們提出了自適應熵控制策略優化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一種基于模型自身不確定性(以策略熵衡量)的動態梯度屏蔽機制:

      當模型在高不確定性(高熵)狀態下生成了錯誤答案時,AEPO 會主動屏蔽(mask)其負向梯度。這保護了模型的探索性行為,避免因懲罰不成熟的嘗試而喪失學習潛力。

      反之,當模型在高置信度(低熵)狀態下依然犯錯時,負向梯度會被正常施加,以堅決糾正這些高置信度的錯誤。

      通過這種動態的、智能的梯度控制,AEPO 將模型策略的熵穩定在一個健康的區間,完美平衡了探索與利用,從根本上解決了長文本 RL 中的不穩定性問題。

      法寶三:突破極限的 “外置大腦”—— 記憶管理框架

      256K 的上下文窗口,本質上是一種有限的 “短期記憶”。當面對浩如煙海的真實世界知識流時,我們需要的不是一個更大的窗口,而是一個全新的工作模式。

      為此,我們為模型設計了一套記憶管理框架 (Memory Management Framework),這相當于給了它一個可無限擴展的 “智能筆記本”。在閱讀超長文檔時,模型不再試圖將所有內容硬塞進 “短期記憶”,而是學會了邊讀邊記要點(迭代式記憶更新),形成結構化的記憶,并在需要時高效檢索和利用這些 “筆記”。

      但這并非一個孤立的工具。通過巧妙的多階段融合 RL 訓練 (multi-stage fusion RL training),我們將這種 “筆記能力” 與模型與生俱來的 “過目不忘”(窗口內推理)能力無縫地融合在了一起。最終得到的,是一個統一的模型 —— 一個既能 “深思” 又能 “博覽” 的全能選手,真正突破了物理窗口的束縛。

      效果展示

      性能全面飛躍,30B moe 模型實現媲美頂級旗艦的效果!



      QwenLong-L1.5 在多個權威長文本推理基準上取得了令人矚目的成績,其表現可以總結為:

      • 整體性能飛躍: 相比基線模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴漲 9.9 分!這證明了我們全套后訓練 “配方” 的巨大成功。
      • 比肩頂級旗艦: 在多個權威長文本榜單上,我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業界頂級閉源模型相媲美的性能,展現了極強的競爭力。
      • 精準的能力躍升: 更值得注意的是,我們的性能提升精準地體現在了最能考驗深度推理能力的復雜任務上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準上,我們分別取得了+31.72、+9.69 和 +6.16 的性能增長!

      這并非巧合,而是精準地驗證了我們 “高質量精神食糧”(可編程數據合成)的有效性 —— 我們專門為模型打造了什么樣的難題,它就在解決這些難題上獲得了最強的能力!

      意外之喜:通用能力不降反升!

      訓練 “專才” 是否會犧牲 “通才” 能力?這是大模型微調中常見的 “蹺蹺板” 難題。

      我們的答案是:不僅不會,反而會相互促進!



      實驗結果顯示,經過長文本強化訓練后,QwenLong-L1.5 不僅沒有出現 “偏科” 或 “遺忘”,反而在一系列通用能力上也獲得了顯著提升:

      • 在數學推理 (AIME25) 任務上表現更優;
      • 在智能體記憶 (BFCL) 任務中展現出更強的狀態追蹤能力;
      • 在長對話 (LongMemEval) 場景下,記憶和理解能力大幅增強。

      這有力地證明了,提升長程信息整合能力,是一種基礎性的 “認知升級”,其收益會輻射到模型的各項核心能力之中。

      挑戰極限:征服 1M~4M Token 超長文本!

      當任務長度遠超物理上下文窗口時,模型真正的擴展能力才得以體現。

      借助我們的 “外置大腦”(記憶管理框架),QwenLong-L1.5 在處理百萬、甚至四百萬級別的超長任務時,展現出了卓越的性能。



      結果顯示,QwenLong-L1.5 在這些極限挑戰中,性能遠超同類智能體方法,充分驗證了我們框架強大的可擴展性。這表明,我們不僅提升了模型在窗口內的能力,更賦予了它突破物理窗口限制、處理無限信息流的巨大潛力。

      總結


      總結:我們提出的 QwenLong-L1.5 及其背后的 “數據合成 + RL 優化 + 記憶管理” 三位一體的后訓練框架,為解決大模型長文本推理難題提供了一條經過驗證的、可復現的路徑。

      開源呼吁:我們相信開放與共享的力量。相關技術細節已在論文中公布,代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開源。歡迎大家下載使用、交流探討,共同推動長文本技術的發展!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      混沌錄
      2026-05-05 13:50:21
      北京房山炸場!宣武醫院新院區(國家醫學中心)開工,2029 年投用

      北京房山炸場!宣武醫院新院區(國家醫學中心)開工,2029 年投用

      王二哥老搞笑
      2026-05-07 19:53:14
      三大組織圍堵美國,催特朗普給錢!中方表態:美國退場,中國補位

      三大組織圍堵美國,催特朗普給錢!中方表態:美國退場,中國補位

      近史談
      2026-05-07 20:47:06
      畫了5萬張手稿,只為了中國首部宣紙手繪動畫長片

      畫了5萬張手稿,只為了中國首部宣紙手繪動畫長片

      新民周刊
      2026-05-06 19:26:51
      母親改嫁到外地15年,沒給過我一分錢,我28歲結婚買房時,銀行卻說:你母親十多年來一直在給你悄悄打款

      母親改嫁到外地15年,沒給過我一分錢,我28歲結婚買房時,銀行卻說:你母親十多年來一直在給你悄悄打款

      LULU生活家
      2026-05-07 15:16:29
      國際乒聯親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

      國際乒聯親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

      以茶帶書
      2026-05-05 17:10:10
      深度長文:國米三中衛15年血淚史,從加公0分到齊沃第21冠

      深度長文:國米三中衛15年血淚史,從加公0分到齊沃第21冠

      狗哥是一名內拉
      2026-05-07 15:27:57
      “巨嬰”孫楊,迎來了最嚴厲的“母親”伊能靜,張豆豆你學著點!

      “巨嬰”孫楊,迎來了最嚴厲的“母親”伊能靜,張豆豆你學著點!

      五四觀娛
      2026-05-07 15:59:13
      用臉擋出對手絕殺球,顏駿凌:能幫球隊拿1分,被球悶也值得

      用臉擋出對手絕殺球,顏駿凌:能幫球隊拿1分,被球悶也值得

      懂球帝
      2026-05-07 14:05:00
      邊緣4人若離隊,火箭隊能省1200萬!難避奢侈稅,可簽控衛+射手?

      邊緣4人若離隊,火箭隊能省1200萬!難避奢侈稅,可簽控衛+射手?

      熊哥愛籃球
      2026-05-07 21:37:08
      惹眾怒!梁靖崑再爆冷輸羅馬尼亞小將,滿屏質疑王皓:為啥不換人

      惹眾怒!梁靖崑再爆冷輸羅馬尼亞小將,滿屏質疑王皓:為啥不換人

      八斗小先生
      2026-05-07 11:05:31
      馬筱梅帶娃打扮精致,大S當初卻素面朝天,當媽后全身心照顧孩子

      馬筱梅帶娃打扮精致,大S當初卻素面朝天,當媽后全身心照顧孩子

      甜檸檬吖
      2026-05-07 12:05:42
      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

      詭譎怪談
      2025-04-01 17:37:59
      等不到了!!東契奇自爆復出時間....

      等不到了!!東契奇自爆復出時間....

      柚子說球
      2026-05-07 18:06:04
      成龍蚌埠翻車!多處問題爆發,就唱2首歌,徐懷鈺跑路、現場簡陋

      成龍蚌埠翻車!多處問題爆發,就唱2首歌,徐懷鈺跑路、現場簡陋

      嫹筆牂牂
      2026-05-06 07:40:18
      丁俊暉沒想到,曾經連學費都付不起的吳宜澤,如今已站在世界之巔

      丁俊暉沒想到,曾經連學費都付不起的吳宜澤,如今已站在世界之巔

      云舟史策
      2026-05-05 19:55:15
      中國女排定妝照公布!3人號碼變更,李盈瑩缺席活動,新陪練曝光

      中國女排定妝照公布!3人號碼變更,李盈瑩缺席活動,新陪練曝光

      跑者排球視角
      2026-05-07 19:30:22
      全國累計器官捐獻志愿登記者超736萬人

      全國累計器官捐獻志愿登記者超736萬人

      人民資訊
      2026-05-07 18:27:03
      疼了?中國的反制,掐住了日本的脈門,日自民黨高層突訪,無人見

      疼了?中國的反制,掐住了日本的脈門,日自民黨高層突訪,無人見

      小馬姨
      2026-05-06 18:29:45
      斯諾克最新世界排名:吳宜澤創新高,32強中國占10席,常冰玉第48

      斯諾克最新世界排名:吳宜澤創新高,32強中國占10席,常冰玉第48

      球場沒跑道
      2026-05-07 11:43:43
      2026-05-07 21:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142644關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      "4只皮皮蝦1035元"店家否認宰客:拿貨價就700多元1斤

      頭條要聞

      "4只皮皮蝦1035元"店家否認宰客:拿貨價就700多元1斤

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      金融“風暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      時尚
      藝術
      旅游
      公開課
      軍事航空

      假期5天賺1萬,全靠嘴甜

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      旅游要聞

      游客曝陜西一景區活雛雞被悶塑料袋,景區回應:系臨時攤販所為,已叫停

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产无遮挡免费视频免费| 国产精品福利视频一区| 乱伦HD| 久久超乳爆乳中文字幕| 免费人成激情视频在线观看| 精品久久久久久无码人妻| 高清不卡一区二区三区| 日韩a在线观看| 久久香蕉欧美精品| 国产成人亚洲综合网站小说| 国产男女猛烈无遮挡免费网站 | 久久亚洲女同第一区综合| 国产成人精品二三区波多野| 自拍 另类 综合 欧美小说| 野狼av午夜福利在线| 九九热久久免费视频| 亚洲精品6久久久久中文字幕| 国产成人精品免高潮在线观看| 婷婷综合视频| 丁香婷婷色综合激情五月| 亚洲乱码中字幕综合| 亚洲一区精品自拍视频| 国产国产乱老熟女视频网站97| 人妻少妇偷人无码视频| 免费92淫黄看电影| 国产人妻黑人一区二区三区| 欧美喷潮最猛视频| 日韩中文字幕免费在线观看| 国产999精品久久久久久| 国产在线拍偷自揄观看视频网站| 国产乱码精品一区二区三区四川人| 丝袜无码| 欧美日韩中文国产一区发布| 日韩一区电影| 一边摸一边叫床一边爽视频| 人妻少妇久久精品电影| 亚洲 成人 无码 在线观看| 亚洲国产高清在线一区二区三区| 日本99视频| 露脸叫床粗话东北少妇| 日本成人|