網易首頁 > 網易號 > 正文申請入駐

1/10成本、Opus 4.7級表現，Cursor甩出了性價比之王Composer 2.5

2026-05-19 09:07:49　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

「以 1/10 的成本，性能幾乎追平 Claude Opus 4.7 這個級別的模型。」

它就是 Cursor 今天凌晨亮出的迄今為止最強大的模型 ——Composer 2.5

官方表示，Composer 2.5更加智能，更擅長處理耗時較長的持續任務，并且在遵循復雜指令方面也更為可靠

未來一周內，Cursor 將會把該模型原本附贈 / 包含的使用額度翻倍。

相比 Composer 2，Composer 2.5 在智能水平和行為表現上都有顯著提升。

通過擴大訓練規模、構建更復雜的強化學習環境，并引入新的學習方法，Cursor 全面改進了 Composer。

除了在更困難的任務上訓練 Composer 2.5 外，Cursor 還優化了模型的溝通風格、努力程度校準等行為層面的表現。這些維度現有基準測試無法很好地衡量，但它們對實際使用體驗至關重要。

可以看到，Composer 2.5 在同等能力的模型中，它的成本效率最高可高出 10 倍

值得關注的是，Composer 2.5 基于與 Composer 2 相同的開源檢查點構建，即月之暗面的 Kimi K2.5

Cursor 還宣布了與 SpaceXAI 的合作：雙方將從零開始訓練一個規模大得多的模型，總算力投入是此前的 10 倍。借助 Colossus 2 的百萬塊 H100 等效算力，以及雙方積累的數據和訓練技術，預計這將是模型能力的一次重大飛躍。

馬斯克發推呼吁大家伙使用 Composer 2.5，并表示該模型的訓練有一部分是在 Colossus 2 上進行的。

Cursor 創始人稱，「我們在強化學習方面已經做得極其出色了。Composer 2.5 完成了越級挑戰，其表現遠遠超出了它這個參數規模應有的水平。對于下一個版本，我們無比興奮。我們將與 SpaceXAI 一起，大幅擴展模型規模和算力投入。」

Composer 2.5 訓練體系

Composer 2.5 的訓練體系引入了多項新改進，這些改進同時針對模型智能和可用性。

一是，基于文本反饋的精準強化學習

隨著單次推理過程可能長達數十萬 token，強化學習中的功勞分配正成為一個日益嚴峻的挑戰。當獎勵是基于整個推理過程計算時，模型很難分辨到底是哪一個具體決策幫助或損害了最終結果。當我們想要抑制某個局部行為，比如一次錯誤的工具調用、一處令人困惑的解釋，或是一種風格違規，這種局限性尤其明顯。最終獎勵能告訴我們出了某種問題，但對于問題出在哪里，它只是一個充滿噪聲的信號。

為解決這一問題，Cursor 用精準文本反饋來訓練 Composer 2.5。思路是：在模型推理軌跡中本可以表現更好的那個具體節點，直接給出反饋。針對目標模型消息，Cursor 構造一個簡短的提示，描述期望的改進方向，將其插入局部上下文，并將得到的模型概率分布作為「教師」。同時，以原始上下文中的策略作為「學生」，加入一個同策略蒸餾 KL 損失，將學生的 token 概率向教師的概率拉近。這樣一來，既能獲得對目標行為的局部化訓練信號，又保留了基于完整軌跡的整體強化學習目標。

以文本反饋過程為例：設想一個漫長的推理過程，其中包含一次工具調用錯誤：模型試圖調用一個并不存在的工具。過程中，模型會收到「未找到工具」的錯誤提示，并繼續做出其他有效的工具調用。在數百次工具調用中出現一次錯誤，對其最終獎勵的影響微乎其微。

借助文本反饋，可以精準定位這一具體錯誤：在出錯的那一輪上下文中插入一條提示，如「提醒：可用工具有……」并附上可用工具列表。這條提示改變了教師模型的概率分布，降低了錯誤工具的調用概率，提高了有效替代方案的概率。然后，僅針對那一輪，將學生權重向新的概率分布更新。

在 Composer 2.5 的訓練過程中，Cursor 將這一方法應用于多種模型行為，從代碼風格到模型溝通方式。

二是，合成數據

在強化學習訓練期間，Composer 的編程能力會顯著提升，直到能正確完成大部分訓練任務。為了持續提升智能水平，Cursor 在整個訓練過程中動態篩選并創建更困難的任務。Composer 2.5 使用的合成任務數量是 Composer 2 的 25 倍

Cursor 采用了多種方法來創建基于真實代碼庫的合成任務。例如，其中一種方法是「功能刪除」：給智能體一個包含大量測試用例的代碼庫，要求它以某種方式刪除代碼和文件，使得代碼庫在移除某些可測試功能后仍能保持運行。合成任務就是重新實現被刪除的功能，而測試用例則用作可驗證的獎勵。

大規模創建合成任務帶來的一個附帶后果是，它可能引發意想不到的獎勵破解行為。

隨著模型能力越來越強，Composer 2.5 找到越來越精巧的變通方法來完成任務。有一個例子是，模型找到了一個遺留的 Python 類型檢查緩存，并逆向工程其格式，從而找到了一個被刪除的函數簽名。另一個例子中，它找到并反編譯了 Java 字節碼，重建了一個第三方 API。Cursor 通過智能體監控工具發現并診斷了這些問題，但它們也說明，大規模強化學習需要越來越謹慎。

三是，分片 Muon 與雙網格 HSDP

在持續預訓練中，Cursor 采用分布式正交化的 Muon 優化器。生成動量更新后，以模型的自然粒度運行 Newton-Schulz 迭代：對注意力投影按每個注意力頭處理，對堆疊的 MoE 權重按每個專家處理。

主要開銷來自專家權重的正交化。對于分片參數，將同形狀的張量分批處理，通過全量交換（all-to-all）將分片匯聚為完整矩陣，運行 Newton-Schulz，再通過全量交換將結果傳回原始分片布局。這些傳輸是異步的：當一個任務在等待通信時，優化器運行時會推進其他 Muon 任務，使網絡傳輸與計算重疊。這等效于全矩陣 Muon，但能保持分片組持續忙碌；在 1T 參數模型上，優化器單步耗時僅 0.2 秒。

這與 Cursor 為 MoE 模型使用 HSDP 的方式密切相關。HSDP 構成多個 FSDP 副本，并在對應的分片之間進行梯度的全歸約操作。Cursor 對非專家權重和專家權重使用各自獨立的 HSDP 布局：非專家權重相對較小，其 FSDP 組可以保持較窄的范圍，通常在一個節點或機架內；而專家權重承載了絕大部分參數和大部分 Muon 計算量，因此使用更寬的專家分片網格。

保持這些布局獨立還能讓獨立的并行維度得以重疊：例如 CP=2 和 EP=8 可以在 8 塊 GPU 上運行，而不需要在單一共享網格中占用 16 塊。這樣既避免了小型非專家狀態的大范圍通信，又將專家優化器的計算工作分攤到更多 GPU 上。

Composer 2.5 定價

Composer 2.5 定價為每百萬輸入 token 0.50 美元每百萬輸出 token 2.50 美元

另有一個速度更快、智能水平相同的變體，定價為每百萬輸入 token 3.00 美元，每百萬輸出 token 15.00 美元，比其他前沿模型的快速版更便宜。

博客地址：https://cursor.com/blog/composer-2-5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.