<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      lmdeploy v0.12.2 發布!全面支持 GLM5、Qwen3.5,性能與兼容性雙升級,大模型部署再提速

      0
      分享至




      一、版本總覽:2026開年關鍵迭代,大模型部署生態再進化

      2026年3月18日,InternLM團隊正式發布lmdeploy v0.12.2版本,作為開年以來的重要迭代,該版本聚焦模型支持廣度、推理性能、量化能力、硬件兼容性、穩定性五大核心維度,完成34次提交、277個文件修改,由16位貢獻者協同打磨,實現了對GLM5、Qwen3.5等主流大模型的全面適配,同時在TurboMind引擎優化、量化技術升級、Bug修復等方面實現突破性進展,為大模型高效、穩定、低成本部署提供了更強大的技術支撐。

      lmdeploy作為覆蓋大模型壓縮、推理、服務的一體化部署工具包,憑借TurboMind高性能推理引擎、靈活的量化方案、多模型兼容能力,已成為大模型落地的核心基礎設施。v0.12.2版本延續了工具的核心優勢,進一步拓寬模型適配邊界,強化性能與穩定性,無論是個人開發者的本地部署,還是企業級的大規模服務化,都能提供更優的解決方案。

      二、核心新特性:模型支持全面擴容,推理能力再突破 (一)主流大模型全面適配,覆蓋國產與開源生態

      1. 1.支持GLM5模型
        作為本次版本的核心亮點之一,lmdeploy v0.12.2正式新增對GLM5模型的支持,補齊了對智譜AI主流大模型的部署能力。GLM5作為智譜AI推出的新一代大模型,在通用理解、邏輯推理、多輪對話等方面具備顯著優勢,此次適配讓開發者可通過lmdeploy快速實現GLM5模型的本地推理與服務化部署,無需復雜的二次開發,即可將GLM5的能力集成到各類應用中。

      2. 2.新增Qwen3.5模型支持
        緊跟通義千問模型迭代節奏,v0.12.2版本全面支持Qwen3.5系列模型,包括密集型(Dense)與混合專家型(MoE)架構。Qwen3.5作為阿里云推出的高性能大模型,在長文本處理、多模態交互、實時推理等場景表現突出,此次適配不僅實現基礎推理支持,更通過TurboMind引擎深度優化,保障Qwen3.5模型在部署后的推理效率與穩定性。

      3. 3.GLM-4.7-Flash Turbomind專項支持
        針對GLM-4.7-Flash模型,版本新增專屬的TurboMind支持能力。GLM-4.7-Flash主打低延遲、高吞吐推理,適配實時對話、智能客服等對響應速度要求嚴苛的場景,lmdeploy通過定制化的TurboMind引擎適配,充分釋放該模型的性能潛力,實現推理延遲與吞吐量的雙重優化。

      4. 4.Qwen/Internlm/Llama系列模型FP8量化在線支持
        為解決大模型部署中的顯存占用與推理速度矛盾,v0.12.2版本實現對Qwen、Internlm、Llama三大主流模型系列(含Dense與MoE架構)的FP8量化在線支持。FP8量化作為兼顧精度與效率的量化方案,可在幾乎不損失模型推理精度的前提下,將顯存占用降低約50%,同時提升推理速度,大幅降低大模型部署的硬件門檻,讓中低端GPU也能流暢運行百億參數級大模型。

      (二)推理與生成能力升級,提升生成質量與靈活性
      1. 1.新增TurboMind對Qwen3.5全架構支持
        除基礎適配外,版本通過專項開發,實現TurboMind引擎對Qwen3.5 Dense與MoE架構的完整支持。TurboMind作為lmdeploy的核心推理引擎,基于C++/CUDA實現,具備連續批處理、分塊KV緩存、高性能算子等優勢,此次針對Qwen3.5的深度優化,可讓該模型在lmdeploy部署后,吞吐量較原生推理提升數倍,同時降低推理延遲。

      2. 2.支持Router Replay與量化層忽略(Qwen3.5專屬)
        針對Qwen3.5模型的MoE架構特性,版本新增Router Replay(路由重放)與忽略量化層功能。Router Replay可優化MoE模型中專家路由的推理效率,減少重復計算;忽略量化層則允許開發者針對模型特定層跳過量化,平衡推理精度與速度,滿足不同場景的部署需求,進一步提升Qwen3.5模型部署的靈活性。

      3. 3.新增Repetition Ngram Logits Processor
        為解決大模型生成過程中的重復文本問題,v0.12.2版本新增Repetition Ngram Logits Processor(重復N元語法邏輯處理器)。該功能通過對生成文本的N元語法進行檢測與懲罰,有效抑制重復片段的生成,提升生成文本的連貫性、多樣性與質量,尤其適用于長文本生成、內容創作、對話交互等場景。

      三、性能與兼容性優化:引擎升級,適配更廣泛硬件與框架 (一)TurboMind引擎深度優化,適配最新技術棧
      1. 1.兼容Transformers 5.0框架
        隨著Hugging Face Transformers框架迭代至5.0版本,lmdeploy v0.12.2同步完成TurboMind引擎的兼容性升級,確保基于最新Transformers框架訓練或導出的模型,可無縫通過lmdeploy部署。此次兼容覆蓋模型加載、權重解析、推理流程等全鏈路,避免因框架版本不匹配導致的部署失敗,保障開發者使用最新模型與工具鏈的順暢性。

      2. 2.支持Qwen與Internlm模型FP32 Head
        針對Qwen與Internlm系列模型,版本新增FP32精度的輸出頭(Head)支持。在部分對推理精度要求極高的場景(如金融分析、醫療診斷、科學計算),FP32精度可避免量化帶來的精度損失,保障輸出結果的準確性;同時,該功能可與模型其他部分的量化方案靈活搭配,實現精度與效率的動態平衡。

      3. 3.MLA KV緩存內存占用優化
        通過核心算法優化,版本實現MLA(Multi-Head Latent Attention)結構的KV緩存內存占用大幅降低。KV緩存作為大模型推理中顯存占用的核心部分,其優化直接影響模型可部署的上下文長度與并發數,此次優化可在相同硬件條件下,支持更長的上下文窗口或更多的并發請求,顯著提升長文本、多輪對話場景的部署能力。

      4. 4.新增Recurrent Gated Delta Rule內核
        引入全新的Recurrent Gated Delta Rule(循環門控增量規則)計算內核,針對循環神經網絡相關結構的推理進行專項加速。該內核通過優化門控機制與增量計算邏輯,減少冗余計算步驟,提升循環結構的推理速度,適配具備循環特性的大模型架構,進一步拓寬lmdeploy的模型適配范圍與性能邊界。

      5. 5.MLA內核性能再提升
        在原有MLA內核優化基礎上,版本推出更快的MLA計算內核,通過算子融合、內存訪問優化、并行計算調度等手段,進一步提升MLA結構的推理效率。對于廣泛采用MLA結構的現代大模型,該優化可直接降低推理延遲、提升吞吐量,讓模型在高并發場景下更流暢運行。

      6. 6.注意力內核自注冊與解耦調度
        重構注意力內核的注冊與調度機制,實現注意力內核的自注冊解耦調度。自注冊機制簡化了新內核的集成流程,降低開發者擴展內核的門檻;解耦調度則讓注意力計算與其他推理步驟分離,提升計算調度的靈活性與效率,同時為后續多硬件、多架構的注意力內核適配奠定基礎。

      (二)硬件兼容性拓展,覆蓋國產與主流算力平臺
      1. 1.昇騰(Ascend)S1-Pro適配優化
        針對國產昇騰S1-Pro芯片,版本完成深度適配,支持數據并行+張量并行+專家并行(dp*tp+ep)混合并行策略。昇騰芯片作為國產算力的核心代表,此次適配讓lmdeploy可在昇騰硬件上實現大模型的高效分布式部署,充分發揮國產芯片的算力優勢,滿足國產化替代場景的大模型部署需求。

      2. 2.GLM4.7模型MTP支持
        新增對GLM4.7模型的MTP(Multi-Token Prediction,多令牌預測)支持。MTP技術可讓模型單次推理生成多個令牌,大幅提升生成速度,尤其適用于長文本生成、批量內容處理等場景,結合lmdeploy的推理優化,GLM4.7模型部署后可實現更高的生成效率。

      四、Bug修復:全鏈路問題解決,提升部署穩定性 (一)日志與內核問題修復
      1. 1. 修復RepetitionPenaltyKernel中日志級別錯誤問題,將調試日志從ERROR級別調整為DEBUG級別,避免非錯誤日志干擾系統運行,同時保留調試信息的可追溯性。

      2. 2. 修復InternVL AWQ模型的量化配置解析錯誤,解決AWQ量化模型加載時的配置解析異常,保障量化模型的正常部署與推理。

      (二)生成與配置問題修復
      1. 1. 修復XGrammar位掩碼初始化錯誤,同時在生成方法中新增對生成配置(gen_config)的空值檢查,避免因配置異常導致的推理崩潰,提升生成流程的穩定性。

      2. 2. 修復會話關閉邏輯錯誤,優化會話資源釋放流程,避免會話關閉時的資源泄漏與異常,保障多會話場景下的系統穩定性。

      (三)授權與推理流程修復
      1. 1. 修復授權機制異常,解決模型部署與推理過程中的授權驗證問題,保障合規使用模型的同時,避免授權錯誤導致的服務中斷。

      2. 2. 修復Pipeline模塊的多個 minor 問題,并補充完善測試用例,提升Pipeline離線推理與批量處理的穩定性,覆蓋更多邊緣場景。

      3. 3. 修復dllm mask在set_step操作中的邏輯錯誤,解決掩碼設置異常導致的推理結果偏差,保障生成文本的正確性。

      (四)框架兼容與硬件適配修復
      1. 1. 修復與Transformers 5.0及以上版本的模型兼容問題,解決因框架接口變更導致的模型加載失敗,確保新舊版本模型均可正常部署。

      2. 2. 修復請求中止時的異常拋出問題,優化請求中斷處理邏輯,避免中止請求引發的系統崩潰,提升服務的健壯性。

      3. 3. 修復V100顯卡運行Qwen3.5-0.8B模型時的推理崩潰問題,解決特定硬件與模型組合的兼容性異常,保障主流顯卡的部署可用性。

      五、其他優化:工程化與生態完善,提升開發與部署體驗 (一)CI與開發流程優化
      1. 1. 優化CI lint流程,跳過Python維基頁面中不穩定的死鏈接測試,避免因外部鏈接異常導致的CI構建失敗,提升持續集成的穩定性與效率。

      2. 2. 集成clang-format代碼格式化工具到pre-commit鉤子,強制統一代碼風格,減少團隊開發中的代碼格式沖突,提升代碼質量與可維護性。

      3. 3. 修復FA3安裝問題,解決FA3庫安裝過程中的依賴與編譯異常,保障依賴庫的正常安裝與使用。

      4. 4. 修復代碼 lint 錯誤,清理代碼中的語法、格式與潛在邏輯問題,提升代碼的健壯性。

      (二)依賴與環境升級
      1. 1. 升級Triton與PyTorch依賴版本,適配最新的算子優化與硬件支持,借助新版本的性能特性,進一步提升推理引擎的效率。

      2. 2. 新增 speculative decoding(推測解碼)測試用例,完善測試覆蓋范圍,保障推測解碼功能的穩定性與正確性,為后續該功能的正式上線奠定基礎。

      (三)Docker鏡像與構建優化
      1. 1. 更新Dockerfile,移除CUDA 11相關支持,將CUDA 12.4升級為CUDA 12.6,適配最新的NVIDIA顯卡驅動與CUDA生態,提升Docker部署的兼容性與性能。

      2. 2. 調整開發鏡像構建策略,改為手動構建開發鏡像,而非每個版本自動發布,減少不必要的鏡像構建與存儲開銷,優化CI/CD流程。

      (四)版本收尾工作

      完成版本號從v0.12.1升級至v0.12.2的收尾工作,同步更新相關配置文件與文檔,確保版本標識的一致性,方便開發者識別與使用。

      六、版本價值與應用場景總結 (一)核心價值提煉

      1. 1.模型支持更全面:覆蓋GLM5、Qwen3.5、GLM-4.7等最新主流大模型,同時兼容Qwen、Internlm、Llama等經典模型,滿足不同開發者的模型選型需求。

      2. 2.推理性能更強勁:TurboMind引擎深度優化、MLA內核升級、FP8量化在線支持,大幅提升推理速度、降低顯存占用,讓大模型部署更高效、低成本。

      3. 3.兼容性更廣泛:適配Transformers 5.0、昇騰S1-Pro芯片、V100等主流硬件與框架,打通國產化與通用化部署路徑。

      4. 4.穩定性更可靠:全鏈路Bug修復,覆蓋日志、配置、推理、授權等多個環節,解決部署與運行中的各類異常,保障服務穩定運行。

      5. 5.開發體驗更友好:CI流程優化、依賴升級、Docker鏡像調整,降低開發與部署門檻,提升團隊協作效率。

      (二)核心應用場景
      1. 1.企業級大模型服務部署:支持多模型、高并發、長文本場景,適配智能客服、內容生成、數據分析等企業應用,保障服務的穩定性與效率。

      2. 2.國產化算力部署:昇騰芯片深度適配,滿足金融、政務等領域的國產化替代需求,實現安全、自主的大模型落地。

      3. 3.個人開發者本地部署:FP8量化降低硬件門檻,中低端GPU即可運行大模型,方便個人開發者快速驗證模型效果、開發原型應用。

      4. 4.前沿模型快速適配:對GLM5、Qwen3.5等最新模型的即時支持,讓開發者可第一時間體驗并部署前沿大模型能力。

      七、總結與展望

      代碼地址:github.com/InternLM/lmdeploy

      lmdeploy v0.12.2版本作為2026年的關鍵迭代,以模型適配、性能優化、兼容性拓展、穩定性提升為核心,完成了一次全面且深入的升級,進一步鞏固了其在大模型部署領域的領先地位。無論是模型支持的廣度,還是推理性能的深度,亦或是工程化的完善度,都實現了質的飛躍,為大模型的規模化落地提供了更強大的工具支撐。

      我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蘋果官宣降價:iPhone 17 Pro系列全線下調1000元

      蘋果官宣降價:iPhone 17 Pro系列全線下調1000元

      CNMO科技
      2026-05-15 07:28:30
      太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養31歲“小鮮肉”

      太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養31歲“小鮮肉”

      未曾青梅
      2026-05-11 22:14:44
      我國取得重大找礦突破!

      我國取得重大找礦突破!

      證券時報
      2026-05-15 21:07:11
      特朗普精力充沛,養生秘訣是吃大量阿司匹林,日常三餐吃麥當勞

      特朗普精力充沛,養生秘訣是吃大量阿司匹林,日常三餐吃麥當勞

      南權先生
      2026-04-04 05:05:03
      父親一句氣話逼走17歲兒子,8天后救援隊找到人,已無生命體征

      父親一句氣話逼走17歲兒子,8天后救援隊找到人,已無生命體征

      林大師熱點
      2026-05-14 23:20:11
      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      拒絕被挑撥站隊!12歲小玥兒戳破與馬筱梅真實交情,成年人別加戲

      橙星文娛
      2026-05-15 13:59:15
      西安市人大常委會辦公廳原一級巡視員賀簡政接受審查調查

      西安市人大常委會辦公廳原一級巡視員賀簡政接受審查調查

      界面新聞
      2026-05-15 19:24:15
      千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

      千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

      情感大頭說說
      2026-04-24 12:46:24
      第二個李湘?董璇帶9歲小酒窩見楊麗萍惹爭議,網友:討厭此人!

      第二個李湘?董璇帶9歲小酒窩見楊麗萍惹爭議,網友:討厭此人!

      夢想的旅途照進現實
      2026-05-13 15:51:50
      玲瓏輪胎:塞爾維亞工廠目前成本偏高,主要受產能未達滿產,固定成本分攤壓力較大等多方面影響

      玲瓏輪胎:塞爾維亞工廠目前成本偏高,主要受產能未達滿產,固定成本分攤壓力較大等多方面影響

      每日經濟新聞
      2026-05-15 15:52:07
      張天愛太豐滿了!穿掛脖裙都兜不住好身材,性感又撩人!

      張天愛太豐滿了!穿掛脖裙都兜不住好身材,性感又撩人!

      小椰的奶奶
      2026-04-23 18:12:08
      M5 MacBook Pro跌破1500美元,iPhone 16e降至449美元

      M5 MacBook Pro跌破1500美元,iPhone 16e降至449美元

      薛定諤的BUG
      2026-05-16 00:36:24
      不是羅德里!老佛爺要強挖曼城王牌,皇馬要組史詩級三叉戟?

      不是羅德里!老佛爺要強挖曼城王牌,皇馬要組史詩級三叉戟?

      瀾歸序
      2026-05-15 02:21:44
      肯塔基后衛奧維在NBA選秀聯合試訓展現得分能力

      肯塔基后衛奧維在NBA選秀聯合試訓展現得分能力

      熱血體育社
      2026-05-16 00:44:02
      浙江一男子裝修時發現住了十年的房子還有一層,層高不低,有窗戶、有燈,甚至還有窗簾;網友:為時不晚

      浙江一男子裝修時發現住了十年的房子還有一層,層高不低,有窗戶、有燈,甚至還有窗簾;網友:為時不晚

      臺州交通廣播
      2026-05-15 23:44:44
      好清醒,結賬覺得貴就應該大大方方的拒絕!網友:早就不在乎面子了

      好清醒,結賬覺得貴就應該大大方方的拒絕!網友:早就不在乎面子了

      另子維愛讀史
      2026-05-15 07:20:09
      【舊事】鄧麗君真正死因:控制不了自己,到時候就會“欲罷不能”

      【舊事】鄧麗君真正死因:控制不了自己,到時候就會“欲罷不能”

      年之父
      2026-05-09 04:05:03
      奇瑞董事長尹同躍:已為智界投入200多億專項資金,智界V9累計小訂突破4萬輛

      奇瑞董事長尹同躍:已為智界投入200多億專項資金,智界V9累計小訂突破4萬輛

      新浪財經
      2026-05-15 15:21:10
      Git和GitHub到底啥區別?看完這篇終于懂了

      Git和GitHub到底啥區別?看完這篇終于懂了

      像素與芯片
      2026-05-14 12:54:33
      傅藝偉曬與母親合照!她已走出喪子悲痛,余生要托起母親晚年

      傅藝偉曬與母親合照!她已走出喪子悲痛,余生要托起母親晚年

      手工制作阿殲
      2026-05-15 01:52:54
      2026-05-16 01:12:49
      moonfdd incentive-icons
      moonfdd
      福大大架構師每日一題
      1229文章數 68關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      本地
      游戲
      藝術
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      《街霸6》春麗新品來了!招牌肉腿完美還原

      藝術要聞

      法國女神蘇菲·瑪索,性感魅力無人能敵!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美国产日韩在线观看| 风骚少妇久久精品在线观看| 狠狠干性视频| 亚洲欧洲自拍自拍A| 2021国产三级精品三级专区| 亚洲成av人片高潮喷水| 亚洲国产一区二区三区亚瑟| 人禽伦免费交视频播放| 亚洲成人天堂网| 麻豆人妻| 色综亚洲国产VV在线观看| 国产高清不卡一区二区| 亚洲国产欧美在线人成最新| 超碰10000| 日韩人妻无码专区| 日日噜噜爽爽狠狠视频| 国产成人精品午夜2022| 中文无码日韩欧免费视频| 亚洲精品成人片在线观看精品字幕| 最新免费av网站| 成人3D动漫一区二区三区| 精品系列无码一区二区三区| 亚洲精品久久久久avwww潮水| 亚洲高清WWW色好看美女| 无码夫の前で人妻を犯す中字幕| 婷婷丁香社区| 国产a自拍| 精品久久久久久中文字幕202o| 成人无码专区免费播放三区| 日本高清在线观看WWW色| 日韩老无码| 色一情一乱一伦一区二区三区| 亚洲日本欧洲二区精品| 成人三级电影网站| 色欲久久九色一区二区三区| 福利视频不卡| 久久久精品久久日韩一区综合| 亚洲日本乱码一区两区在线观看| 大伊香蕉精品二区视频在线| 男人的天堂在线视频| 爱性久久久久久久久|