<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ollama v0.23.1 發(fā)布:原生支持 Gemma4 MTP 多令牌解碼,Mac 端編碼推理速度直接翻倍

      0
      分享至




      前言

      2026年5月6日,ollama正式推送v0.23.1最新穩(wěn)定版本,作為小版本迭代更新,本次版本看似版本號(hào)跨度不大,實(shí)則帶來(lái)了Mac平臺(tái)MLX運(yùn)行器核心能力升級(jí)、Gemma4 MTP多令牌推測(cè)解碼正式適配、底層依賴版本升級(jí)、CI編譯流程修復(fù)、命令行功能增強(qiáng)、模型創(chuàng)建規(guī)則重構(gòu)等一系列重量級(jí)變更。

      本次更新累計(jì)包含7次代碼提交、61個(gè)文件發(fā)生變更、實(shí)現(xiàn)5047行代碼新增與488行代碼刪除,由4名代碼貢獻(xiàn)者共同完成迭代。更新覆蓋MLX與MLX-C底層庫(kù)線程問(wèn)題修復(fù)、Go語(yǔ)言版本升級(jí)至1.26、Gemma4 MTP推測(cè)解碼功能新增、Windows文件路徑適配、CI編譯配置修復(fù)、Docker鏡像構(gòu)建優(yōu)化、CUDA編譯參數(shù)調(diào)整、Modelfile創(chuàng)建命令規(guī)則重構(gòu)、單元測(cè)試用例新增、日志錯(cuò)誤匹配規(guī)則擴(kuò)充、Gemma4模型推理權(quán)重加載與KV緩存邏輯重構(gòu)等全方位內(nèi)容,本文將完整復(fù)刻官方更新日志與代碼差異全部?jī)?nèi)容,無(wú)刪減、無(wú)新增、無(wú)遺漏,全方位拆解ollama v0.23.1所有變更細(xì)節(jié)與技術(shù)價(jià)值。

      一、版本基礎(chǔ)信息與核心亮點(diǎn)概述

      ollama v0.23.1為當(dāng)前最新發(fā)布版本,正式發(fā)布時(shí)間為2026年5月6日,核心主打功能為MLX運(yùn)行器適配Gemma 4 MTP多令牌處理機(jī)制

      Gemma 4 MTP多令牌推測(cè)解碼現(xiàn)已正式在Mac設(shè)備上提供支持,針對(duì)Gemma 4 31B編碼專用模型,在代碼編寫、程序開發(fā)類推理任務(wù)場(chǎng)景下,能夠?qū)崿F(xiàn)超過(guò)2倍的推理速度提升,大幅降低Mac本地部署大模型進(jìn)行編碼開發(fā)、代碼補(bǔ)全、程序調(diào)試的等待耗時(shí),徹底優(yōu)化Apple芯片設(shè)備運(yùn)行超大參數(shù)量編碼模型的體驗(yàn)。

      用戶可通過(guò)官方原生命令直接拉起適配MTP加速的Gemma4 31B模型,執(zhí)行命令如下:
      ollama run gemma4:31b-coding-mtp-bf16

      除核心的MTP推理加速功能外,本次版本三大核心代碼變更要點(diǎn)清晰明確,分別為:
      第一,更新MLX和MLX-C依賴庫(kù),完成底層線程相關(guān)問(wèn)題修復(fù),解決舊版本中MLX引擎并發(fā)運(yùn)行、多線程調(diào)度存在的隱性bug,提升Mac平臺(tái)模型運(yùn)行穩(wěn)定性;
      第二,將項(xiàng)目Go語(yǔ)言基礎(chǔ)版本升級(jí)至1.26,跟進(jìn)Go官方新版本特性,同時(shí)兼容新版語(yǔ)法、標(biāo)準(zhǔn)庫(kù)能力與編譯優(yōu)化特性;
      第三,新增Gemma 4 MTP推測(cè)解碼完整邏輯,從模型注冊(cè)、推理調(diào)度、Draft草稿模型配置、令牌策略設(shè)定多維度完成全鏈路適配。

      二、版本提交記錄與迭代時(shí)間線明細(xì)

      本次ollama v0.23.1從代碼提交到正式發(fā)布,迭代周期集中在2026年5月4日至5月5日,全部提交記錄與變更內(nèi)容完整如下:

      1. 1. 2026年5月4日:完成MLX和MLX-C庫(kù)更新,同步修復(fù)底層線程相關(guān)缺陷,對(duì)應(yīng)合并請(qǐng)求編號(hào)15845;

      2. 2. 2026年5月4日:完成項(xiàng)目Go語(yǔ)言版本升級(jí)至1.26,對(duì)應(yīng)合并請(qǐng)求編號(hào)15904;

      3. 3. 2026年5月5日:新增MLX引擎對(duì)Gemma4 MTP功能的底層支持,搭建核心推理框架;

      4. 4. 2026年5月5日:執(zhí)行g(shù)ofumpt代碼格式化與靜態(tài)語(yǔ)法檢測(cè)工具適配,統(tǒng)一項(xiàng)目代碼規(guī)范;

      5. 5. 2026年5月5日:針對(duì)Windows系統(tǒng)文件路徑解析邏輯進(jìn)行適配修復(fù),解決跨平臺(tái)路徑識(shí)別異常問(wèn)題;

      6. 6. 2026年5月5日:將Draft草稿令牌策略設(shè)置為常量固定配置,統(tǒng)一MTP解碼全局規(guī)則;

      7. 7. 2026年5月5日:修復(fù)MLX引擎對(duì)應(yīng)的CI持續(xù)集成編譯配置,解決自動(dòng)化構(gòu)建流程報(bào)錯(cuò)問(wèn)題。

      整體迭代過(guò)程緊湊高效,從底層依賴修復(fù)、語(yǔ)言版本升級(jí),到核心功能開發(fā)、代碼規(guī)范格式化、跨平臺(tái)適配、編譯流程修復(fù)全覆蓋,同時(shí)整體代碼變更規(guī)模為5047行新增代碼、488行代碼刪除,61個(gè)業(yè)務(wù)與配置文件參與修改,整體變更范圍覆蓋編譯配置、容器鏡像、命令行邏輯、模型推理、單元測(cè)試、開發(fā)文檔、底層引擎等全模塊。

      三、各文件代碼變更細(xì)節(jié)完整解析 3.1 工作流配置文件.github/workflows/release.yaml變更

      本次發(fā)布流水線配置存在7處代碼變更,5行新增、2行刪除,核心調(diào)整ollama各架構(gòu)組件打包歸檔規(guī)則:
      原有配置中將lib/ollama/mlx*目錄文件統(tǒng)一歸入通用歸檔包,新版本進(jìn)行規(guī)則拆分,將mlx相關(guān)組件單獨(dú)拆分歸檔至ollama- {{ matrix.arch }}-mlx.tar.in,其余include類目錄保持原有歸檔規(guī)則不變。

      同時(shí)在Linux amd64架構(gòu)、ROCm硬件適配場(chǎng)景下,補(bǔ)充編譯構(gòu)建參數(shù)配置,完善多平臺(tái)多硬件架構(gòu)下的發(fā)布打包邏輯,區(qū)分通用版本、MLX專屬版本、Jetpack5/Jetpack6版本、ROCm版本歸檔隔離,避免不同加速引擎文件混雜打包,提升版本分發(fā)與安裝部署的規(guī)范性。

      3.2 編譯配置文件CMakeLists.txt變更

      CMakeLists.txt存在8處代碼變更,8行新增無(wú)刪除,主要針對(duì)MLX引擎編譯安裝規(guī)則進(jìn)行補(bǔ)充:
      在啟用MLX引擎的編譯條件下,新增jaccl目標(biāo)庫(kù)的安裝配置,分別指定運(yùn)行時(shí)文件、庫(kù)文件、框架文件的安裝目錄,并歸屬至MLX組件分類下。

      同時(shí)保留原有macOS arm64架構(gòu)下Metal運(yùn)行庫(kù)的專屬安裝注釋與邏輯,明確Metal后端僅為Apple Silicon arm64架構(gòu)編譯適配,不支持x86_64架構(gòu)設(shè)備,完善跨架構(gòu)編譯依賴庫(kù)的安裝管理,保證MLX引擎依賴組件完整部署。

      3.3 編譯預(yù)設(shè)配置CMakePresets.json變更

      該文件僅2處變更,1行新增1行刪除,調(diào)整CUDA編譯核心參數(shù):
      將CMAKE_CUDA_FLAGS編譯參數(shù)從-t 4修改為-t 2,同時(shí)固定CUDA架構(gòu)適配列表,涵蓋從75-virtual到121-virtual全系列架構(gòu),保持cuda_v13運(yùn)行器目錄配置不變,平衡CUDA編譯線程數(shù)與硬件兼容性,避免高線程編譯導(dǎo)致的資源占用過(guò)高、編譯失敗問(wèn)題。

      3.4 容器構(gòu)建Dockerfile變更

      Dockerfile存在5處代碼變更,4行新增1行刪除,優(yōu)化Ubuntu 24.04基礎(chǔ)鏡像構(gòu)建流程:
      新增APT_MIRROR鏡像源參數(shù)變量,默認(rèn)使用官方ubuntu歸檔源,通過(guò)sed命令動(dòng)態(tài)替換系統(tǒng)軟件源配置,執(zhí)行軟件包更新、證書依賴、Vulkan運(yùn)行庫(kù)、OpenBLAS數(shù)學(xué)庫(kù)安裝,安裝完成后還原默認(rèn)軟件源配置,最后清理apt緩存與無(wú)用目錄,精簡(jiǎn)鏡像體積。

      該優(yōu)化解決了國(guó)內(nèi)及不同網(wǎng)絡(luò)環(huán)境下Docker構(gòu)建拉取軟件包超時(shí)、失敗的問(wèn)題,同時(shí)保留多階段構(gòu)建邏輯,從編譯鏡像、運(yùn)行鏡像分層拷貝二進(jìn)制文件與依賴庫(kù),保證ollama容器鏡像輕量化與完整性。

      3.5 底層依賴版本標(biāo)識(shí)文件MLX_C_VERSION、MLX_VERSION

      兩個(gè)版本標(biāo)識(shí)文件各2處變更,均為1行哈希值替換無(wú)刪除:
      分別更新MLX-C與MLX核心庫(kù)的提交哈希標(biāo)識(shí),切換至修復(fù)線程問(wèn)題后的最新版本,讓項(xiàng)目編譯時(shí)自動(dòng)拉取修復(fù)后的依賴源碼,無(wú)縫接入底層線程bug修復(fù)能力,無(wú)需手動(dòng)修改依賴引入邏輯。

      3.6 命令行核心邏輯cmd/cmd.go變更

      cmd/cmd.go共計(jì)61處變更,54行新增7行刪除,是本次版本命令行功能升級(jí)的核心文件:

      1. 1. 新增多包依賴導(dǎo)入,補(bǔ)充xcreate、xcreateclient相關(guān)模塊引用,支撐實(shí)驗(yàn)性模型創(chuàng)建能力;

      2. 2. 新增isLocalhost本地地址判斷函數(shù),用于校驗(yàn)遠(yuǎn)程與本地模型創(chuàng)建場(chǎng)景區(qū)分;

      3. 3. 新增resolveExperimentalLocalModelDir實(shí)驗(yàn)性本地模型目錄解析函數(shù),支持基于Modelfile文件路徑解析相對(duì)模型目錄,識(shí)別safetensors與tensor格式模型目錄合法性;

      4. 4. 新增resolveExperimentalDraftDir草稿模型目錄解析函數(shù),校驗(yàn)Draft草稿模型路徑是否為合法safetensors目錄,同時(shí)限制非絕對(duì)路徑下僅支持本地相對(duì)目錄引用,暫不支持遠(yuǎn)程模型引用;

      5. 5. 重構(gòu)CreateHandler模型創(chuàng)建核心處理函數(shù),增加--draft-quantize參數(shù)校驗(yàn)邏輯,強(qiáng)制要求draft-quantize量化參數(shù)必須搭配--experimental實(shí)驗(yàn)性參數(shù)使用,否則直接返回錯(cuò)誤提示;

      6. 6. 重構(gòu)實(shí)驗(yàn)性模式下本地模型目錄、Draft草稿模型目錄的路徑解析邏輯,替換原有簡(jiǎn)單路徑拼接為專用解析函數(shù),提升路徑兼容性與合法性校驗(yàn)?zāi)芰Γ?/p>

      7. 7. 擴(kuò)展CreateModel入?yún)⑴渲媒Y(jié)構(gòu)體,新增DraftQuantize草稿模型量化參數(shù)傳遞,適配MTP模式下草稿模型單獨(dú)量化需求;

      8. 8. 重構(gòu)CLI命令初始化的參數(shù)校驗(yàn)邏輯,在非實(shí)驗(yàn)?zāi)J较陆筪raft-quantize參數(shù)傳入,強(qiáng)化參數(shù)約束規(guī)則;

      9. 9. 為create命令新增--draft-quantize命令行參數(shù),用于指定Draft草稿模型量化等級(jí),與--experimental參數(shù)強(qiáng)綁定。

      整體重構(gòu)了ollama create命令的實(shí)驗(yàn)性模式、草稿模型引用、模型路徑解析、量化參數(shù)管控全流程規(guī)則,讓Modelfile中DRAFT關(guān)鍵字、草稿模型量化功能具備規(guī)范的使用約束與路徑解析能力。

      3.7 命令行單元測(cè)試cmd/cmd_test.go變更

      該文件存在82處變更,82行新增無(wú)刪除,批量新增完整單元測(cè)試用例,覆蓋本次命令行所有新增邏輯:

      1. 1. 新增TestCreateHandlerDraftQuantizeRequiresExperimental測(cè)試用例,校驗(yàn)draft-quantize參數(shù)不攜帶experimental參數(shù)時(shí)是否正常拋出錯(cuò)誤;

      2. 2. 新增TestCreateHandlerDraftRequiresExperimental測(cè)試用例,校驗(yàn)Modelfile中配置DRAFT關(guān)鍵字但未開啟實(shí)驗(yàn)?zāi)J綍r(shí)的錯(cuò)誤攔截邏輯;

      3. 3. 新增TestResolveExperimentalLocalModelDir測(cè)試用例,覆蓋模型名稱引用、本地相對(duì)目錄引用兩種場(chǎng)景,驗(yàn)證目錄解析函數(shù)準(zhǔn)確性;

      4. 4. 新增TestResolveExperimentalDraftDir測(cè)試用例,校驗(yàn)合法本地草稿目錄解析、非法遠(yuǎn)程模型引用報(bào)錯(cuò)兩種場(chǎng)景,匹配官方約束規(guī)則。

      所有測(cè)試用例均基于臨時(shí)目錄生成Modelfile與模型目錄,模擬真實(shí)使用場(chǎng)景,保證命令行新增邏輯的穩(wěn)定性與兼容性,避免后續(xù)迭代引入功能回歸問(wèn)題。

      3.8 開發(fā)文檔docs/development.md變更

      開發(fā)文檔存在29處變更,無(wú)新增內(nèi)容、刪除29行原有注釋說(shuō)明:
      完整移除原有關(guān)于go1.24版本synctest實(shí)驗(yàn)包的說(shuō)明文檔,包括synctest包啟用背景、CI編譯失敗排查方式、臨時(shí)啟用命令、全局環(huán)境變量配置方法、生產(chǎn)構(gòu)建無(wú)需依賴synctest包等全部備注內(nèi)容。

      刪除原因在于項(xiàng)目已升級(jí)至Go1.26版本,synctest相關(guān)兼容問(wèn)題已在新版本中徹底解決,無(wú)需再保留舊版本適配說(shuō)明,精簡(jiǎn)開發(fā)文檔冗余內(nèi)容。

      3.9 項(xiàng)目依賴配置go.mod變更

      go.mod文件僅2處變更,1行新增1行刪除,將Go語(yǔ)言版本聲明從go 1.24.1升級(jí)為go 1.26.0,同步匹配項(xiàng)目底層版本升級(jí),規(guī)范模塊依賴編譯的Go版本約束,確保編譯環(huán)境與項(xiàng)目語(yǔ)法特性匹配。

      3.10 推理狀態(tài)日志llm/status.go變更

      該文件存在23處變更,17行新增6行刪除,擴(kuò)充模型運(yùn)行錯(cuò)誤日志匹配規(guī)則:
      在errorPrefixes錯(cuò)誤前綴數(shù)組中新增mlx:、MLX:兩類匹配標(biāo)識(shí),讓狀態(tài)日志捕獲機(jī)制可以精準(zhǔn)識(shí)別MLX引擎運(yùn)行過(guò)程中拋出的錯(cuò)誤信息,統(tǒng)一CUDA、ROCm、MLX、程序panic、致命錯(cuò)誤、常規(guī)運(yùn)行錯(cuò)誤的日志捕獲規(guī)則,便于用戶與開發(fā)人員排查Mac端MLX模型運(yùn)行異常問(wèn)題。

      3.11 Gemma4模型底層推理邏輯llm目錄相關(guān)代碼變更

      本次版本大規(guī)模重構(gòu)Gemma4 Assistant輔助模型、MTP推測(cè)解碼、KV緩存、注意力機(jī)制、權(quán)重加載核心邏輯,包含大量結(jié)構(gòu)體方法與推理流程重構(gòu):

      1. 1. 新增AssistantModel輔助模型結(jié)構(gòu)體完整權(quán)重加載邏輯,適配safetensors格式權(quán)重解析,分模塊加載嵌入層、投影層、歸一化層、注意力層、MLP層權(quán)重,校驗(yàn)各層權(quán)重完整性,缺失關(guān)鍵權(quán)重直接拋出明確異常信息;

      2. 2. 新增precomputeScaledWeights預(yù)計(jì)算縮放權(quán)重方法,統(tǒng)一各層歸一化權(quán)重、注意力Q歸一化權(quán)重的縮放緩存,減少推理過(guò)程重復(fù)計(jì)算,提升運(yùn)行效率;

      3. 3. 重構(gòu)Draft推理核心方法,實(shí)現(xiàn)輸入嵌入、位置編碼、多層網(wǎng)絡(luò)前向傳播、KV歷史緩存關(guān)聯(lián)、隱藏層歸一化與解嵌入全流程調(diào)度;

      4. 4. 新增sharedHistories共享KV歷史緩存方法,區(qū)分滑動(dòng)注意力與全量注意力緩存視圖,適配Gemma4模型分層KV緩存共享機(jī)制;

      5. 5. 完善unembed解嵌入與applyCentroidMasking質(zhì)心掩碼邏輯,支持有序嵌入模式下的詞匯映射與候選日志計(jì)算;

      6. 6. 重構(gòu)AssistantLayer層前向傳播方法,集成RMS歸一化、注意力計(jì)算、MLP前向傳播、層縮放系數(shù)相乘邏輯,兼容滑動(dòng)窗口注意力與全局注意力兩種模式;

      7. 7. 重構(gòu)AssistantAttention注意力前向傳播邏輯,根據(jù)是否為滑動(dòng)窗口動(dòng)態(tài)切換頭維度、縮放系數(shù)、RoPE參數(shù)、KV歷史緩存,集成RoPE位置編碼、因果掩碼、滑動(dòng)窗口掩碼、縮放點(diǎn)積注意力計(jì)算,同時(shí)適配Metal環(huán)境下張量連續(xù)化處理規(guī)則。

      3.12 Gemma4模型注冊(cè)與配置x/models/gemma4/gemma4.go變更

      該文件存在30處變更,29行新增1行刪除,完成Gemma4 MTP能力注冊(cè)與默認(rèn)參數(shù)配置:

      1. 1. 在init初始化函數(shù)中新增Gemma4AssistantForCausalLM、gemma4_assistant兩類Draft模型注冊(cè),將輔助模型納入框架管理體系;

      2. 2. 實(shí)現(xiàn)MTPDefaultsProvider接口,新增MTPDraftDefaults方法,針對(duì)不同規(guī)格Gemma4模型配置專屬M(fèi)TP默認(rèn)參數(shù):通用模型初始草稿令牌4個(gè)、最大草稿令牌16個(gè);Gemma4 31B非MoE模型初始草稿令牌固定14個(gè);26B MoE模型初始草稿令牌固定8個(gè);

      3. 3. 新增TokenEmbeddings令牌嵌入方法,為MTP多令牌解碼提供縮放后的令牌嵌入張量;

      4. 4. 完善NewCaches緩存創(chuàng)建邏輯,適配不同層數(shù)、不同架構(gòu)Gemma4模型的KV緩存分層創(chuàng)建規(guī)則,區(qū)分共享緩存與獨(dú)立緩存層級(jí)。

      3.13 Gemma4模型單元測(cè)試x/models/gemma4/gemma4_test.go變更

      該文件存在97處變更,97行新增無(wú)刪除,新增大批量Gemma4 MTP與緩存邏輯測(cè)試用例:

      1. 1. 新增TestMTPDraftDefaults測(cè)試用例,覆蓋空配置、31B bf16、31B量化版、26B MoE、通用模型五種場(chǎng)景,校驗(yàn)MTP初始草稿令牌、最大令牌、功能啟用狀態(tài)的默認(rèn)配置準(zhǔn)確性;

      2. 2. 新增TestNewCachesAssistantSharedHistoryOrdering測(cè)試用例,針對(duì)31B、26B-A4B、E4B、E2B不同規(guī)格模型,校驗(yàn)KV緩存層數(shù)、滑動(dòng)注意力與全量注意力緩存順序的正確性;

      3. 3. 保留原有權(quán)重前綴解析、層類型檢測(cè)測(cè)試用例,與新增用例共同保障Gemma4 MTP功能、緩存機(jī)制、默認(rèn)參數(shù)配置的可靠性。

      四、核心功能Gemma4 MTP技術(shù)價(jià)值詳解

      本次v0.23.1最核心的升級(jí)即為Mac MLX運(yùn)行器適配Gemma4 MTP多令牌推測(cè)解碼,該技術(shù)的落地對(duì)本地大模型部署有著極高實(shí)用價(jià)值。

      MTP多令牌處理與推測(cè)解碼的核心原理是通過(guò)Draft輔助模型提前一次性預(yù)測(cè)后續(xù)多個(gè)令牌,再由主模型進(jìn)行校驗(yàn)篩選,無(wú)需逐令牌串行生成,在代碼編寫、接口開發(fā)、腳本調(diào)試這類長(zhǎng)上下文、多連續(xù)輸出的編碼場(chǎng)景下,能夠大幅減少推理迭代次數(shù)。

      針對(duì)Gemma4 31B編碼專用模型,在Mac Apple芯片設(shè)備上借助MLX硬件加速+MTP推測(cè)解碼雙重優(yōu)化,直接實(shí)現(xiàn)2倍以上推理速度提升,且新版本針對(duì)不同參數(shù)量、是否啟用MoE混合專家架構(gòu)的Gemma4模型,做了精細(xì)化的MTP草稿令牌默認(rèn)參數(shù)適配,無(wú)需用戶手動(dòng)調(diào)參,開箱即用。

      同時(shí)底層完成MLX與MLX-C線程問(wèn)題修復(fù),解決舊版本多令牌并發(fā)生成時(shí)的線程死鎖、調(diào)度卡頓、內(nèi)存泄漏等隱性問(wèn)題,在提速的同時(shí)保障運(yùn)行穩(wěn)定性;Go語(yǔ)言升級(jí)至1.26則帶來(lái)編譯優(yōu)化、標(biāo)準(zhǔn)庫(kù)性能提升、語(yǔ)法兼容性增強(qiáng)等底層紅利,為后續(xù)更多新功能迭代打下基礎(chǔ)。

      五、命令行使用規(guī)則變更說(shuō)明

      隨著本次--experimental、--draft-quantize、Modelfile DRAFT關(guān)鍵字能力升級(jí),ollama v0.23.1新增明確的使用約束規(guī)則,所有規(guī)則均已固化到代碼邏輯與單元測(cè)試中:

      1. 1. --draft-quantize草稿模型量化參數(shù)必須搭配--experimental參數(shù)使用,單獨(dú)使用直接報(bào)錯(cuò);

      2. 2. Modelfile中配置DRAFT關(guān)鍵字引用草稿模型目錄時(shí),必須開啟--experimental實(shí)驗(yàn)?zāi)J?/strong>,否則攔截創(chuàng)建請(qǐng)求;

      3. 3. 實(shí)驗(yàn)?zāi)J较翫RAFT僅支持本地絕對(duì)路徑、相對(duì)Modelfile的本地目錄路徑,暫不支持遠(yuǎn)程模型名稱引用

      4. 4. 實(shí)驗(yàn)性safetensors模型創(chuàng)建僅支持本地localhost服務(wù),不支持遠(yuǎn)程服務(wù)節(jié)點(diǎn)操作;

      5. 5. MTP解碼的Draft令牌策略已設(shè)置為全局常量,無(wú)需用戶自定義,框架按模型規(guī)格自動(dòng)適配初始與最大草稿令牌數(shù)量。

      用戶在使用自定義Modelfile搭建Gemma4 MTP模型、手動(dòng)量化草稿模型時(shí),必須遵循以上約束規(guī)則,避免參數(shù)搭配錯(cuò)誤、路徑引用異常導(dǎo)致創(chuàng)建失敗。

      六、跨平臺(tái)與編譯適配優(yōu)化總結(jié)

      本次v0.23.1在跨平臺(tái)適配、編譯構(gòu)建、容器部署三大維度做了大量精細(xì)化優(yōu)化:

      1. 1. Windows平臺(tái):修復(fù)文件路徑解析邏輯,兼容Windows特殊路徑分隔符與目錄引用規(guī)則;

      2. 2. Mac平臺(tái):MLX底層線程修復(fù)、MTP完整適配、Metal架構(gòu)專屬編譯安裝規(guī)則、錯(cuò)誤日志精準(zhǔn)捕獲;

      3. 3. Linux平臺(tái):CUDA編譯線程參數(shù)調(diào)優(yōu)、ROCm硬件打包規(guī)則完善、APT鏡像源動(dòng)態(tài)適配解決構(gòu)建超時(shí);

      4. 4. 容器Docker:優(yōu)化Ubuntu基礎(chǔ)鏡像構(gòu)建流程,動(dòng)態(tài)切換軟件源、精簡(jiǎn)鏡像冗余依賴、分層構(gòu)建輕量化鏡像;

      5. 5. CI編譯:修復(fù)MLX引擎自動(dòng)化構(gòu)建配置,適配多架構(gòu)、多硬件加速引擎的流水線打包發(fā)布。

      七、版本升級(jí)建議與適用場(chǎng)景
      1. 1. 本地Mac部署Gemma4 31B編碼模型、追求代碼推理速度提升的開發(fā)者,建議立即升級(jí),直接享受MTP兩倍提速紅利;

      2. 2. 使用Modelfile自定義構(gòu)建模型、需要搭配Draft草稿模型做推測(cè)解碼、模型量化的用戶,升級(jí)后可使用全新的實(shí)驗(yàn)性模式與draft-quantize參數(shù),規(guī)范化模型構(gòu)建流程;

      3. 3. 基于ollama二次開發(fā)、依賴MLX引擎、Go底層框架的開發(fā)者,升級(jí)至v0.23.1可獲取線程bug修復(fù)、Go1.26新特性、完善的單元測(cè)試與日志捕獲能力;

      4. 4. 容器化部署、多架構(gòu)服務(wù)器集群部署場(chǎng)景,升級(jí)后擁有更完善的打包規(guī)則、鏡像構(gòu)建優(yōu)化、跨硬件適配能力,降低運(yùn)維部署成本。

      結(jié)語(yǔ)

      代碼地址:github.com/ollama/ollama

      ollama v0.23.1雖然定位為小版本迭代,但是內(nèi)部改動(dòng)深度與功能價(jià)值遠(yuǎn)超常規(guī)補(bǔ)丁版本,核心落地Gemma4 MTP多令牌推測(cè)解碼能力,補(bǔ)齊Mac MLX運(yùn)行器推理加速短板,實(shí)現(xiàn)編碼任務(wù)速度翻倍;同時(shí)完成Go1.26版本升級(jí)、MLX底層線程修復(fù)、命令行規(guī)則重構(gòu)、跨平臺(tái)編譯適配、單元測(cè)試全覆蓋、開發(fā)文檔精簡(jiǎn)等一系列底層與生態(tài)優(yōu)化。

      本次更新61個(gè)文件變更、7次代碼提交、5047行代碼新增,從用戶可用的頂層命令、模型運(yùn)行加速,到底層依賴、編譯配置、跨平臺(tái)適配、代碼規(guī)范、測(cè)試用例全覆蓋,無(wú)多余新增功能,全部基于原有架構(gòu)做能力增強(qiáng)與bug修復(fù),是注重穩(wěn)定性、性能提升、規(guī)范使用流程的必升級(jí)版本。

      我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來(lái)發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

      三農(nóng)老歷
      2026-04-13 17:10:06
      藿香正氣水才是祛濕能手,牢記這 3 個(gè)黃金搭配,清遍全身濕氣

      藿香正氣水才是祛濕能手,牢記這 3 個(gè)黃金搭配,清遍全身濕氣

      健康之光
      2026-05-13 18:50:09
      夫妻本是同林鳥!但抱歉,這一次郭富城也救不了“作妖”的方媛

      夫妻本是同林鳥!但抱歉,這一次郭富城也救不了“作妖”的方媛

      攬星河的筆記
      2026-05-15 20:11:07
      上海87-82戰(zhàn)勝北京!賽后數(shù)據(jù)一清二楚,不是王哲林 最大功臣是他

      上海87-82戰(zhàn)勝北京!賽后數(shù)據(jù)一清二楚,不是王哲林 最大功臣是他

      小火箭愛(ài)體育
      2026-05-15 21:32:09
      不相為謀!楊元慶出席國(guó)宴,全場(chǎng)都沒(méi)有找到與馬斯克的合影

      不相為謀!楊元慶出席國(guó)宴,全場(chǎng)都沒(méi)有找到與馬斯克的合影

      阿龍聊軍事
      2026-05-15 11:16:03
      國(guó)宴太講究了,細(xì)節(jié)拉滿,餐具中西式都有,走的是西餐分餐路線

      國(guó)宴太講究了,細(xì)節(jié)拉滿,餐具中西式都有,走的是西餐分餐路線

      魔都姐姐雜談
      2026-05-15 13:14:45
      一瓶水?dāng)[在國(guó)宴桌上,瓶子很樸素,但人家真去了人民大會(huì)堂

      一瓶水?dāng)[在國(guó)宴桌上,瓶子很樸素,但人家真去了人民大會(huì)堂

      娛樂(lè)圈見解說(shuō)
      2026-05-15 18:16:41
      買下之后迅速賣出!33歲老射手無(wú)人信任,雙逆足難題仍存在

      買下之后迅速賣出!33歲老射手無(wú)人信任,雙逆足難題仍存在

      里芃芃體育
      2026-05-16 00:15:06
      盤點(diǎn)十大元帥的子女,最有出息的是誰(shuí)?這位老帥的子女很突出

      盤點(diǎn)十大元帥的子女,最有出息的是誰(shuí)?這位老帥的子女很突出

      霹靂炮
      2026-05-15 13:54:39
      日均出口暴跌至56萬(wàn)桶!伊朗啟動(dòng)3萬(wàn)口廢棄井,儲(chǔ)油超500億桶!

      日均出口暴跌至56萬(wàn)桶!伊朗啟動(dòng)3萬(wàn)口廢棄井,儲(chǔ)油超500億桶!

      林子說(shuō)事
      2026-05-16 00:10:00
      國(guó)宴的頂級(jí)國(guó)風(fēng),盡顯東方之美!卻被外國(guó)元首的兒媳旗袍裝驚艷

      國(guó)宴的頂級(jí)國(guó)風(fēng),盡顯東方之美!卻被外國(guó)元首的兒媳旗袍裝驚艷

      白宸侃片
      2026-05-16 01:34:42
      長(zhǎng)續(xù)航版Model Y價(jià)格將上調(diào)1.8萬(wàn)元!特斯拉中國(guó)回應(yīng)

      長(zhǎng)續(xù)航版Model Y價(jià)格將上調(diào)1.8萬(wàn)元!特斯拉中國(guó)回應(yīng)

      快科技
      2026-05-15 16:15:49
      再見湖人!再見東契奇!詹姆斯新合同曝光,網(wǎng)友:白菜價(jià)

      再見湖人!再見東契奇!詹姆斯新合同曝光,網(wǎng)友:白菜價(jià)

      野渡舟山人
      2026-05-15 18:19:22
      盧秀燕急了,鄭麗文未赴美,2028選舉已徹底失敗

      盧秀燕急了,鄭麗文未赴美,2028選舉已徹底失敗

      遍體鱗傷為我證明
      2026-05-15 20:39:55
      58歲江珊差點(diǎn)認(rèn)不出,膀大腰圓,身材壯碩,滿頭白發(fā)太真實(shí)

      58歲江珊差點(diǎn)認(rèn)不出,膀大腰圓,身材壯碩,滿頭白發(fā)太真實(shí)

      林輕吟
      2026-04-25 07:44:35
      四季憑什么被懂王選中?

      四季憑什么被懂王選中?

      Hotelers酒店圈兒
      2026-05-14 16:45:45
      斯基拉:內(nèi)馬爾已成功獲得意大利國(guó)籍,正式成為意大利公民

      斯基拉:內(nèi)馬爾已成功獲得意大利國(guó)籍,正式成為意大利公民

      懂球帝
      2026-05-15 17:39:48
      王皓奪冠回京就提新車,妻子穿平底鞋比他還高

      王皓奪冠回京就提新車,妻子穿平底鞋比他還高

      軍武英雄
      2026-05-15 18:38:29
      12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

      12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

      泠泠說(shuō)史
      2026-05-14 21:50:29
      馬克龍沒(méi)想到,特朗普訪華剛落地,鞏俐就在法國(guó)引起了“中國(guó)潮”

      馬克龍沒(méi)想到,特朗普訪華剛落地,鞏俐就在法國(guó)引起了“中國(guó)潮”

      阿傖說(shuō)事
      2026-05-15 19:47:18
      2026-05-16 05:03:00
      moonfdd incentive-icons
      moonfdd
      福大大架構(gòu)師每日一題
      1229文章數(shù) 68關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問(wèn)“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問(wèn)“這是什么東西”

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂(lè)要聞

      方媛為何要來(lái)《桃花塢6》沒(méi)苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      本地
      教育
      游戲
      手機(jī)
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      兒子不讓用水刷鞋,無(wú)知家長(zhǎng)被嘲:非要孩子考不上大學(xué),你才高興

      《街霸6》春麗新品來(lái)了!招牌肉腿完美還原

      手機(jī)要聞

      iPhone 17系列全系跳水,最高立減2500!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 熟妇人妻系列aⅴ无码专区友真希| 超碰人人超| 大地资源免费视频观看| 建德市| 国产婷婷色综合av蜜臀av| 欧美人成在线播放网站免费| 亚洲欧美在线观看影院| 污视频在线观看网站| 亚洲aⅴ无码成人网站国产app| 久久国产自偷自偷免费一区| 女18一成人免费A级毛片| 亚洲日产韩国一二三四区| 亚洲色吧Av| 国产精品青草视频免费播放| 久久国产国内精品对话对白| 国产一区二区三区av在线无码观看 | 平乐县| 亚洲日本精品国产第一区| 久久国模| 欧美性爱熟女| 永平县| 亚洲av美女在线播放啊| 亚洲欧美自拍偷一区二区| 久久精品人妻无码一区二区三区| 国产精品久久久久一区二区三区| 久久久中日ab精品综合| 黄色小网站在线观看| 国产精品久久亚洲不卡| 国产精品放荡videos麻豆街| 精品久久久无码中文字幕一丶| 国产国拍亚洲精品永久69| 国产网友愉拍精品视频手机 | 欧美做爰性生交视频| 自拍偷拍第一区二区三区| 91一区二区| 最近2019中文字幕在线| 色综合久久天天综合| 久久精品无码免费不卡| 91资源在线观看| 久久99精品久久久久久婷婷2021| 国产小屁孩cao大人|