<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂

      0
      分享至

      1月16日,美團LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,
      LongCat-Flash-Thinking-2601現已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

      值得一提的是,該模型在工具調用的泛化能力上優勢尤其明顯,在依賴工具調用的隨機復雜任務中,性能表現超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執行任務,確保思考周全、決策可靠。

      目前,該功能可在 https://longcat.ai網站免費體驗。

      “重思考”功能全新上線 智能體工具調用能力登頂開源 SOTA

      據介紹,全新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。

      具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結歸納”兩步進行:

      并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優解;總結歸納階段,則會對多條路徑進行梳理、優化與合成,并將優化結果重新輸入,形成閉環迭代推理,推動思考持續深化。

      除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓
      LongCat-Flash-Thinking-2601實現了“想清楚再行動”的結果。

      經過全面嚴謹的評估,
      LongCat-Flash-Thinking-2601模型在編程、數學推理、智能體工具調用、智能體搜索等維度表現優異:



      LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

      · 編程能力:
      LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊,代碼基礎能力扎實。

      · 數學推理能力:在開啟“重思考”模式后表現突出,
      LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達到當前SOTA。

      · 智能體工具調用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領域工具調用場景下表現優異,適配實際應用需求。

      · 智能體搜索能力:在BrowseComp任務中取得73.1分(全模型最優),RW Search 評測獲79.5分,
      LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力,達到開源領先水平。

      為了更好測試智能體模型的泛化能力,團隊還提出了一種全新的評測方法——通過構建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執行環境。由于這類環境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環境中的性能表現,衡量其泛化能力。

      實驗結果表明,
      LongCat-Flash-Thinking-2601在絕大多數任務中保持領先性能,印證了其在智能體場景下優秀的泛化能力。

      技術解密:從“靶場”到“實戰”的訓練哲學

      對于新模型的技術思路,LongCat團隊解釋稱,傳統智能體往往僅在數個簡單模擬環境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰場”可能會掉鏈子。而基于“環境擴展+多環境強化學習”核心技術,團隊為模型打造了多樣化的“高強度練兵場”,構建了多套高質量訓練環境,并在每套環境中集成60余種工具形成密集依賴關系圖譜與復雜聯動,支撐起高度復雜的任務場景。實驗也證明,訓練環境越豐富,模型在未知場景中的泛化能力越強。

      得益于這套方案,
      LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調用等核心基準測試中穩居前列。尤其在復雜隨機的分布外任務中,性能優于 Claude-Opus-4.5-Thinking。

      此外,LongCat團隊針對性擴展自研強化學習基礎設施,在保留原有高效異步訓練特性的基礎上,實現大規模多環境智能體的穩定并行訓練,通過均衡搭配多環境任務、按難度與訓練進度智能分配算力,最大化提升訓練效率與資源利用率;該團隊還從復雜度、多樣性雙維度嚴控訓練任務,配套專屬數據庫及優化方案,杜絕模型“偏科”與訓練漏洞,讓這套全流程方案持續賦能模型,使其穩居智能體能力第一梯隊。

      該團隊還表示,現實世界的智能體環境充滿不確定性,API調用失敗、返回異常信息、觀測數據不完整等“噪聲”問題,極易導致模型決策失誤。為此,團隊在訓練數據的過程中主動注入多類噪聲,模擬API的調用失敗、返回錯誤信息、數據缺失等場景,并用課程學習的方式循序漸進地進行模型訓練,在訓練過程中逐步增加噪聲的類型與強度——類比教新手騎車,首先會讓其在平坦路面做練習,等技能成熟后再逐步增加路面的復雜度。



      帶噪聲/無噪聲評測集下的模型表現對比(資料圖)

      經過系統化的抗干擾訓練,
      LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強的環境適應能力,在復雜場景中,也能穩定發揮、高效完成任務。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      喪葬畸形攀比!有網友哭訴邵陽老人過世6天花一百來萬,引發共鳴

      喪葬畸形攀比!有網友哭訴邵陽老人過世6天花一百來萬,引發共鳴

      火山詩話
      2026-05-07 08:54:39
      《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

      《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

      汪巗的創業之路
      2026-05-06 12:26:17
      搞不明白,這么漂亮的女神,為何卻一直單身。

      搞不明白,這么漂亮的女神,為何卻一直單身。

      喜歡歷史的阿繁
      2026-05-07 11:04:03
      曝國際足聯要價不是20億而是40億!央視最多只給5.5億 差距懸殊

      曝國際足聯要價不是20億而是40億!央視最多只給5.5億 差距懸殊

      念洲
      2026-05-06 23:06:44
      鄭智違規違紀,被處罰

      鄭智違規違紀,被處罰

      第一財經資訊
      2026-05-07 13:25:33
      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      項鵬飛
      2026-05-05 19:02:50
      16歲游客玩瀑布秋千墜亡后續:家屬已和解,知情人曝景區賠償金額

      16歲游客玩瀑布秋千墜亡后續:家屬已和解,知情人曝景區賠償金額

      娛樂圈圈圓
      2026-05-06 17:33:41
      48小時連收兩大利好,日本舉國狂歡,中國聯合國當眾炸鍋

      48小時連收兩大利好,日本舉國狂歡,中國聯合國當眾炸鍋

      近史博覽
      2026-05-06 14:42:13
      《中餐廳》黃曉明翻車!戴假頭套,熱天穿毛衣,10年也炒不出一個菜

      《中餐廳》黃曉明翻車!戴假頭套,熱天穿毛衣,10年也炒不出一個菜

      八卦王者
      2026-05-07 11:26:04
      高市草苗,跪了!

      高市草苗,跪了!

      燕梳樓頻道
      2026-05-07 13:06:24
      湖人G2傷情報告出爐,東契奇把話挑明,老詹迎來神級里程碑

      湖人G2傷情報告出爐,東契奇把話挑明,老詹迎來神級里程碑

      世界體育圈
      2026-05-07 08:52:37
      新車剛出廠就已老化,汽車用鋼陷入低價低質內卷!

      新車剛出廠就已老化,汽車用鋼陷入低價低質內卷!

      金投網
      2026-05-06 17:02:47
      臺官員曝賴清德成功返臺內幕,大陸出手阻止未果,背后有難言之隱

      臺官員曝賴清德成功返臺內幕,大陸出手阻止未果,背后有難言之隱

      共工之錨
      2026-05-07 00:04:56
      新華時評|安全紅線不容僥幸逾越

      新華時評|安全紅線不容僥幸逾越

      新華社
      2026-05-06 22:45:05
      電視劇《主角》定檔,由張藝謀監制,張嘉益、劉浩存、秦海璐等主演;王菲獻唱同名主題曲,“大秀”秦腔

      電視劇《主角》定檔,由張藝謀監制,張嘉益、劉浩存、秦海璐等主演;王菲獻唱同名主題曲,“大秀”秦腔

      極目新聞
      2026-05-07 11:58:54
      男團八強出爐:國乒VS韓國!中國香港止步,雨果2勝率隊過關

      男團八強出爐:國乒VS韓國!中國香港止步,雨果2勝率隊過關

      燒體壇
      2026-05-07 05:55:14
      有沒有哪個國家從低生育率回升到更替水平?

      有沒有哪個國家從低生育率回升到更替水平?

      何亞福
      2026-05-06 11:58:20
      出乎外界意料!除中國外,還有多國退出世界杯買單,國際足聯急了

      出乎外界意料!除中國外,還有多國退出世界杯買單,國際足聯急了

      丁丁鯉史紀
      2026-05-06 16:13:35
      別輕視小人物:20個歷史血淚教訓,強者多亡于螻蟻

      別輕視小人物:20個歷史血淚教訓,強者多亡于螻蟻

      小莜讀史
      2026-05-06 20:15:38
      2026-05-07 14:44:49
      讀懂數字財經
      讀懂數字財經
      用數據,說點財經人話
      1902文章數 3571關注度
      往期回顧 全部

      科技要聞

      凌晨突發!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      美國博主自發抵制:不想收錢抹黑中國

      頭條要聞

      美國博主自發抵制:不想收錢抹黑中國

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      房產
      旅游
      教育
      藝術
      軍事航空

      房產要聞

      五一海南樓市,太淡了!

      旅游要聞

      “五一”接待游客252.37萬人次,酉陽文旅市場人氣口碑雙豐收

      教育要聞

      新傳考研名詞解釋:社會抗爭行為

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人爱av在线播放| 免费国产在线精品三区| 无码国产69精品久久久久网站| 国产免费无码一区二区| 两个人的免费视频| 成人AV网站亚洲| 国产精品真实对白精彩久久| 免费又黄又爽又猛的毛片| 亚洲人成网站在线观看播放不卡| 欧美囗交xx×bbb视频| 精品无码一区二区三区小说| 亚洲产在线精品亚洲第一站一| 午夜伦伦电影理论片| 久久综合狠狠综合狠狠| 印度女人狂野牲交| 国产精品综合一区二区三区| 国产欧美另类久久精品蜜芽 | 欧美成人午夜精品久久久| ThePorn人妻白浆| 亚洲va在线va天堂va四虎| 亚洲欧美日韩国产国产a| 国产熟睡乱子伦午夜视频| 国产精品久久久久久影视| 国产成人精品日本亚洲语音1 | 成人午夜福利一区二区| 亚洲小说图区综合在线| 性啪啪chinese东北女人| 午夜伦伦电影理论片| 天天爽夜夜爽天天做夜夜做| 嫩模av一区二区三区| 国产乱沈阳女人高潮乱叫老| 夜夜揉揉日日人人| 三级国产在线观看| 日韩黄色AV| 色情午夜 码一区二区网址| 国产三级网址| 国产成人精选视频在线观看不卡| 国产av永久无码天堂影院| 狠狠干狠狠干狠狠干| 中国无码人妻丰满熟妇啪啪软件| 欧美a级在线现免费观看|