品玩4月30日訊,據科創板日報報道,智譜今天凌晨發布技術博客,首次系統披露GLM-5系列模型在超大規模Coding Agent調用場景下的底層推理技術突破。
包括系統吞吐最高提升132%,相同硬件條件下服務能力的顯著擴容。KV cache 修復方案(改進了模型在長對話中的記憶緩存機制,從而提升推理效率)獲SGLang開源社區采納。
此外,公司推理優化還在進一步加速,大幅提升單位算力token吞吐效率,降低推理成本。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.