IT之家5月20日消息,阿里千問大模型今日正式發布 Qwen3.7-Max —— 面向智能體時代的新一代旗艦模型,即將通過API提供服務。Qwen3.7-Max 是阿里千問迄今最全面、最強大的智能體模型。
千問大模型官方介紹稱,Qwen3.7-Max 致力于成為全能的智能體基座 —— 無論是編寫和調試代碼、自動化辦公流程,還是在跨越數百乃至數千步的長周期任務中持續自主執行,都能勝任。
![]()
阿里千問最強智能體模型Qwen3.7-Max發布
Qwen3.7-Max 的核心優勢在于智能體能力的廣度與深度:
- 編程方面,從前端原型開發到復雜的多文件工程均能駕馭;
- 辦公與生產力方面,通過 MCP 集成和多智能體協作實現工作流自動化;
- 長周期自主執行方面,在一項長達35小時、超過1000次工具調用的全自主內核優化實驗中保持了連貫推理,驗證了其持久穩定的執行能力;
- 此外,無論部署在 Claude Code、OpenClaw、Qwen Code 還是其他框架下,都能穩定發揮出色的跨框架泛化能力。
Qwen3.7-Max 即將通過阿里云百煉提供服務,用戶可以通過阿里云百煉 API 調用(即將上線)。
IT之家附 Qwen3.7-Max 模型測試表現如下:
![]()
Qwen3.7-Max 測試數據
在編程智能體方面,Qwen3.7-Max 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和 QwenSVG(1608)上均取得領先表現。在 Terminal Bench 2.0-Terminus(69.7)上超越 DS-V4-Pro Max(67.9)。在 SWE-Verified(80.4)上與 Opus-4.6 Max(80.8)和 DS-V4-Pro Max(80.6)表現相當。
在通用智能體方面,提升更為顯著。Qwen3.7-Max 在 MCP-Mark(60.8 vs. GLM-5.1的57.5)、MCP-Atlas(76.4 vs. Opus-4.6的75.8)和 Skillbench(59.2 vs. K2.6的56.2)上表現突出,并在 Kernel Bench L3(1.98倍中位數加速,96% 加速率)上展示了 GPU 內核優化能力。在 BFCL-V4(75.0)、Qwenclaw(64.3)和 ClawEval(65.2)上同樣表現出色,緊追 Opus-4.6 Max。在辦公自動化基準 SpreadSheetBench-v1上得分87.0,處于頂尖水平。
在推理方面,Qwen3.7-Max 在 GPQA Diamond(92.4 vs. Opus-4.6的91.3)、HLE(41.4 vs. Opus-4.6的40.0)、HMMT 2026 Feb(97.1 vs. Opus-4.6的96.2)、IMOAnswerBench(90.0 vs. DS-V4-Pro 的89.8)和 Apex(44.5 vs. DS-V4-Pro 的38.3)上均取得領先成績。
在通用能力與多語言方面,Qwen3.7-Max 在 IFBench(79.1 vs. DS-V4-Pro 的77.0)上表現突出,展示了指令遵循能力。在 WMT24++(85.8)和 MAXIFE(89.2)上同樣領先,表明其多語言理解和翻譯質量處于一流水平。在 SuperGPQA(73.6)和 QwenWorldBench(57.3)上表現出色。
![]()
數據對比
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.