網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ollama v0.21.1發(fā)布：Kimi CLI原生集成、MLX推理性能飛躍、多模態(tài)長(zhǎng)程任務(wù)能力全面進(jìn)化

2026-04-24 00:10:45　來源: moonfdd

北京舉報(bào)

分享至

近日，Ollama 正式發(fā)布 v0.21.1 版本，這是一次聚焦功能拓展與性能優(yōu)化的重要更新。本次更新核心圍繞兩大方向展開：一是新增 Kimi Code CLI 集成，打通 Moonshot coding agent 與 Ollama 的聯(lián)動(dòng)，讓終端與 IDE 中的代碼開發(fā)體驗(yàn)更流暢；二是對(duì) MLX Runner 進(jìn)行全方位重構(gòu)與優(yōu)化，涵蓋采樣器、張量管理、推理管道等核心模塊，大幅提升本地模型運(yùn)行的穩(wěn)定性、效率與數(shù)值正確性。此外，版本還包含模型推薦列表更新、Hermes Agent 文檔優(yōu)化、API 接口修復(fù)等多項(xiàng)細(xì)節(jié)改進(jìn)，全方位提升用戶使用體驗(yàn)。本文將詳細(xì)拆解本次更新的全部?jī)?nèi)容，結(jié)合代碼變更細(xì)節(jié)，幫助開發(fā)者快速掌握新版本的核心特性與使用方法。

一、版本核心更新概覽

Ollama v0.21.1 版本的更新覆蓋范圍廣泛，涉及命令行工具、模型管理、推理引擎、API 接口、文檔等多個(gè)模塊，具體可分為以下幾大板塊：

? 新增 Kimi Code CLI 集成，支持自動(dòng)安裝、配置與運(yùn)行，實(shí)現(xiàn) Moonshot coding agent 與 Ollama 模型的無縫聯(lián)動(dòng)；
? MLX Runner 全面優(yōu)化，包括采樣器重構(gòu)、張量管理線程安全優(yōu)化、推理管道優(yōu)化、logprobs 支持完善等；
? 模型推薦與管理優(yōu)化，更新推薦模型列表，調(diào)整模型排序規(guī)則，完善云模型上下文長(zhǎng)度限制；
? Hermes Agent 文檔重構(gòu)，優(yōu)化快速啟動(dòng)流程，調(diào)整推薦模型說明，簡(jiǎn)化配置步驟；
? API 接口修復(fù)，解決 gemma4 模型在禁用 thinking 時(shí)格式約束失效的問題，完善 logprobs 相關(guān)接口；
? 模型相關(guān)優(yōu)化，包括 gemma4、glm4_moe_lite 等模型的細(xì)節(jié)修復(fù)與功能完善。

本次更新不涉及新增功能模塊，全部圍繞現(xiàn)有功能的優(yōu)化與完善展開，重點(diǎn)解決了此前版本中存在的性能瓶頸、功能缺陷與體驗(yàn)痛點(diǎn)，尤其針對(duì) MLX 推理引擎的優(yōu)化，讓搭載 Apple Silicon 芯片的設(shè)備運(yùn)行本地模型時(shí)獲得更出色的性能表現(xiàn)。

二、新增 Kimi Code CLI 集成：打通 Moonshot coding agent 與 Ollama

本次更新最引人注目的功能，便是新增了 Kimi Code CLI 的集成支持。Kimi Code CLI 是 Moonshot 推出的一款終端與 IDE 專用 coding agent，具備強(qiáng)大的代碼生成、調(diào)試、優(yōu)化能力，而 Ollama v0.21.1 則實(shí)現(xiàn)了與該工具的深度聯(lián)動(dòng)，讓用戶可以直接通過 Ollama 命令啟動(dòng) Kimi Code CLI，并自動(dòng)配置 Ollama 模型作為其推理后端。

2.1 核心集成特性

本次集成并非簡(jiǎn)單的命令調(diào)用，而是實(shí)現(xiàn)了從安裝、配置到運(yùn)行的全流程自動(dòng)化，核心特性包括：

? 自動(dòng)檢測(cè) Kimi Code CLI 安裝狀態(tài)，若未安裝則提示用戶進(jìn)行安裝，并自動(dòng)執(zhí)行安裝腳本；
? 自動(dòng)構(gòu)建 Kimi 配置文件，將 Ollama 作為推理后端，默認(rèn)使用 Ollama 模型作為 Kimi 的默認(rèn)模型；
? 支持通過 Ollama 命令直接傳遞參數(shù)給 Kimi Code CLI，同時(shí)避免參數(shù)沖突；
? 跨平臺(tái)支持，涵蓋 Windows、macOS（darwin）、Linux 三大系統(tǒng)，包括 WSL 環(huán)境的適配；
? 自動(dòng)解析 Ollama 模型的上下文長(zhǎng)度，為 Kimi Code CLI 配置最優(yōu)的最大上下文尺寸。

2.2 相關(guān)代碼變更詳解

為實(shí)現(xiàn) Kimi Code CLI 集成，本次更新新增了 3 個(gè)核心文件，并修改了多個(gè)現(xiàn)有文件，具體如下：

2.2.1 新增 cmd/launch/kimi.go：Kimi 集成核心邏輯

該文件實(shí)現(xiàn)了 Kimi 集成的核心邏輯，包括 Kimi 二進(jìn)制文件的查找、安裝、配置構(gòu)建、命令執(zhí)行等功能，核心代碼模塊解析如下：

? Kimi 結(jié)構(gòu)體：實(shí)現(xiàn) Runner 接口，用于定義 Kimi Code CLI 的運(yùn)行邏輯，String 方法返回集成名稱“Kimi Code CLI”。
? args 方法：構(gòu)建 Kimi Code CLI 的運(yùn)行參數(shù)，將 Ollama 生成的配置文件作為參數(shù)傳遞，并拼接用戶傳入的額外參數(shù)。
? Run 方法：核心運(yùn)行邏輯，先驗(yàn)證參數(shù)是否存在沖突（如禁止用戶傳遞 --config、--model 等 Ollama 已管理的參數(shù)），再構(gòu)建 Kimi 配置文件，檢測(cè)并安裝 Kimi 二進(jìn)制文件，最后執(zhí)行 Kimi 命令并掛載標(biāo)準(zhǔn)輸入輸出。
? findKimiBinary 方法：跨平臺(tái)查找 Kimi 二進(jìn)制文件，支持多種安裝路徑，包括用戶主目錄下的 .local/bin、bin 目錄，以及 uv 工具安裝路徑，同時(shí)適配 WSL 環(huán)境下的 Windows 路徑轉(zhuǎn)換。
? buildKimiInlineConfig 方法：生成 Kimi 的 inline 配置文件，將 Ollama 的 API 地址（http://127\.0\.0\.1:11434/v1）作為 Kimi 的推理后端，API Key 設(shè)為“ollama”，并配置默認(rèn)模型別名與上下文長(zhǎng)度。
? resolveKimiMaxContextSize 方法：解析 Ollama 模型的上下文長(zhǎng)度，優(yōu)先使用云模型的預(yù)設(shè)限制，若為本地模型則通過 Ollama API 獲取模型信息中的上下文長(zhǎng)度，默認(rèn)值為 32768。
? ensureKimiInstalled 方法：檢測(cè) Kimi 是否安裝，若未安裝則檢查安裝依賴（如 Windows 需 PowerShell，Linux/macOS 需 curl 和 bash），提示用戶確認(rèn)后執(zhí)行對(duì)應(yīng)系統(tǒng)的安裝腳本，安裝完成后再次查找二進(jìn)制文件并返回路徑。

2.2.2 新增 cmd/launch/kimi_test.go：Kimi 集成測(cè)試用例

該文件為 Kimi 集成提供了完整的測(cè)試用例，涵蓋二進(jìn)制文件查找、配置構(gòu)建、參數(shù)驗(yàn)證、安裝流程等場(chǎng)景，確保集成功能的穩(wěn)定性與正確性。由于測(cè)試用例代碼量較大，此處重點(diǎn)說明測(cè)試覆蓋范圍：

? 驗(yàn)證 Kimi 二進(jìn)制文件的跨平臺(tái)查找邏輯，包括不同安裝路徑、WSL 環(huán)境下的路徑轉(zhuǎn)換；
? 驗(yàn)證參數(shù)沖突檢測(cè)邏輯，確保用戶無法傳遞 Ollama 已管理的參數(shù)（如 --config、--model）；
? 驗(yàn)證 Kimi 配置文件的構(gòu)建邏輯，確保上下文長(zhǎng)度、后端地址等配置正確；
? 驗(yàn)證安裝流程的正確性，包括依賴檢測(cè)、安裝腳本執(zhí)行、安裝后二進(jìn)制文件查找。

2.2.3 新增 cmd/launch/registry.go 中的 Kimi 集成配置

在集成注冊(cè)表中新增 Kimi 集成的配置信息，包括集成名稱“kimi”、Runner 實(shí)例、描述信息、安裝檢查邏輯等，確保 Ollama 能夠識(shí)別并管理 Kimi 集成。核心配置如下：

? Name: &;kimi&;，作為集成的唯一標(biāo)識(shí)，用戶可通過“ollama launch kimi”命令啟動(dòng) Kimi Code CLI；
? Runner: &Kimi{}，指定 Kimi 集成的運(yùn)行邏輯；
? Description: &;Moonshot&;s coding agent for terminal and IDEs&;，描述集成的功能；
? Hidden: true，默認(rèn)隱藏該集成（需通過命令主動(dòng)啟動(dòng)）；
? Install 配置：定義安裝檢查邏輯（通過查找 kimi 二進(jìn)制文件）、安裝確保邏輯（調(diào)用 ensureKimiInstalled 方法），以及官方安裝文檔地址。

2.2.4 其他相關(guān)文件修改

除新增文件外，本次更新還修改了多個(gè)現(xiàn)有文件，以支持 Kimi 集成：

? cmd/launch/launch.go：在支持的集成列表中添加“kimi”，并更新幫助信息，讓用戶了解該集成的存在；
? cmd/launch/models.go：更新推薦模型列表，將原有的“kimi-k2.5:cloud”替換為“kimi-k2.6:cloud”，并更新其描述為“State-of-the-art coding, long-horizon execution, and multimodal agent swarm capability”，同時(shí)在云模型限制列表中新增“kimi-k2.6”的上下文長(zhǎng)度限制（262144）；
? cmd/launch/runner_exec_only_test.go：新增 Kimi 集成的測(cè)試用例，驗(yàn)證運(yùn)行 Kimi 時(shí)不會(huì)重寫配置文件。

2.3 Kimi 集成使用方法

通過 Ollama v0.21.1 啟動(dòng) Kimi Code CLI 非常簡(jiǎn)單，只需執(zhí)行以下命令：

ollama launch kimi

執(zhí)行該命令后，Ollama 會(huì)自動(dòng)完成以下操作：

1. 檢測(cè)系統(tǒng)中是否已安裝 Kimi Code CLI，若未安裝則提示用戶確認(rèn)安裝；
2. 安裝完成后，自動(dòng)構(gòu)建 Kimi 配置文件，將 Ollama 作為推理后端；
3. 提示用戶選擇 Ollama 模型（支持本地模型與云模型，如 kimi-k2.6:cloud）；
4. 啟動(dòng) Kimi Code CLI，用戶可直接在終端中使用 Kimi 的 coding 功能，推理請(qǐng)求將通過 Ollama 模型處理。

若用戶需要傳遞額外參數(shù)給 Kimi Code CLI，可在命令后直接添加，例如：

ollama launch kimi --verbose

注意：禁止傳遞 --config、--model、-m 等參數(shù)，這些參數(shù)由 Ollama 統(tǒng)一管理，避免沖突。

三、MLX Runner 全方位優(yōu)化：性能與穩(wěn)定性雙提升

MLX Runner 是 Ollama 針對(duì) Apple Silicon 芯片優(yōu)化的推理引擎，本次 v0.21.1 版本對(duì)其進(jìn)行了全方位的重構(gòu)與優(yōu)化，涉及采樣器、張量管理、推理管道、logprobs 支持等多個(gè)核心模塊，解決了此前版本中存在的線程安全問題、數(shù)值不穩(wěn)定性、性能瓶頸等問題，大幅提升了本地模型的運(yùn)行體驗(yàn)。

3.1 采樣器（sample）模塊重構(gòu)與優(yōu)化

采樣器是推理引擎的核心組件，負(fù)責(zé)根據(jù)模型輸出的 logits 采樣得到下一個(gè)token，本次更新對(duì)采樣器進(jìn)行了全面重構(gòu)，優(yōu)化了采樣邏輯、新增 logprobs 支持、完善 penalty 機(jī)制，具體變更如下：

3.1.1 采樣器結(jié)構(gòu)體與接口優(yōu)化

原采樣器的結(jié)構(gòu)體設(shè)計(jì)較為簡(jiǎn)單，僅支持基礎(chǔ)的采樣功能，本次更新重構(gòu)了采樣器的結(jié)構(gòu)體與接口，使其更具擴(kuò)展性與可讀性：

? 新增 Options 結(jié)構(gòu)體：整合采樣相關(guān)的所有參數(shù)，包括 Temperature、TopP、MinP、TopK、RepeatLastN、RepeatPenalty、PresencePenalty、FrequencyPenalty、Logprobs、TopLogprobs 等，替代了原有的參數(shù)列表傳遞方式，使代碼更簡(jiǎn)潔。
? 新增 Result 結(jié)構(gòu)體：用于封裝采樣結(jié)果，包括采樣得到的 token、該 token 的 logprob、top-K token 列表及其 logprob，解決了此前采樣結(jié)果分散、難以管理的問題。
? 新增 Arrays 方法：用于返回 Result 中的所有張量，方便調(diào)用者統(tǒng)一管理張量的生命周期（如 Pin、Unpin、Eval 等操作）。
? 重構(gòu) New 方法：接受 Options 結(jié)構(gòu)體作為參數(shù)，根據(jù)配置自動(dòng)構(gòu)建采樣器的變換鏈（transforms），替代了原有的多參數(shù)傳遞方式，提升了代碼的可維護(hù)性。

3.1.2 采樣邏輯優(yōu)化

本次更新優(yōu)化了采樣邏輯，重點(diǎn)解決了 top-P 與 top-K 聯(lián)合使用時(shí)的性能問題，以及數(shù)值穩(wěn)定性問題：

? 新增 topKTopP 變換：當(dāng)同時(shí)啟用 top-P 和 top-K 時(shí)，通過一次排序操作同時(shí)實(shí)現(xiàn) top-P 的累積概率過濾和 top-K 的位置過濾，避免了多次排序帶來的性能損耗，提升了采樣效率。
? 優(yōu)化 top-K 變換：使用 Argpartition（部分排序）替代 Argsort（全排序），在僅需保留 top-K token 的場(chǎng)景下，大幅減少排序操作的計(jì)算量，提升性能。
? 優(yōu)化數(shù)值穩(wěn)定性：在計(jì)算 logprobs 時(shí)，先減去 logits 的最大值再進(jìn)行 logsumexp 操作，避免了大數(shù)值相減導(dǎo)致的精度丟失，確保 logprobs 計(jì)算的正確性。

3.1.3 penalty 機(jī)制完善

penalty 機(jī)制用于減少重復(fù) token 的生成，本次更新完善了 penalty 機(jī)制，新增了 RepeatPenalty 和 FrequencyPenalty 支持，使 penalty 控制更精細(xì)：

? PresencePenalty：對(duì)已出現(xiàn)過的 token 進(jìn)行懲罰，降低其被采樣的概率，避免重復(fù)生成；
? RepeatPenalty：根據(jù) token 的出現(xiàn)次數(shù)調(diào)整懲罰力度，對(duì)于重復(fù)出現(xiàn)的 token，若其 logits 為正則除以懲罰系數(shù)，若為負(fù)則乘以懲罰系數(shù)，進(jìn)一步減少重復(fù)；
? FrequencyPenalty：根據(jù) token 的出現(xiàn)頻率進(jìn)行懲罰，出現(xiàn)次數(shù)越多，懲罰力度越大，適用于需要避免高頻重復(fù) token 的場(chǎng)景。

同時(shí)，優(yōu)化了 penalty 變換的邏輯，確保 penalty 僅在有歷史 token 時(shí)生效，避免了無歷史數(shù)據(jù)時(shí)的無效計(jì)算。

3.1.4 logprobs 支持完善

logprobs 用于返回采樣 token 的概率信息，是很多應(yīng)用場(chǎng)景（如模型評(píng)估、不確定性分析）的重要需求，本次更新完善了 logprobs 的支持，具體包括：

? 新增 Logprobs 和 TopLogprobs 配置：用戶可通過配置啟用 logprobs 功能，并指定 top-K logprobs 的數(shù)量；
? 正確計(jì)算 logprobs：通過 log_softmax 計(jì)算每個(gè) token 的 logprob，確保數(shù)值正確性；
? 返回 top-K logprobs：當(dāng)啟用 TopLogprobs 時(shí)，返回采樣 token 之外的 top-K 個(gè) token 及其 logprob，并按 logprob 降序排序；
? 確保 logprobs 與 content 對(duì)齊：通過 decoder 結(jié)構(gòu)體緩存未完成的 UTF-8 字節(jié)，確保 logprobs 與返回的 content 一一對(duì)應(yīng)，避免錯(cuò)位。

3.1.5 新增 logprob_test.go 測(cè)試用例

為確保 logprobs 功能的正確性，本次更新新增了 sample/logprob_test.go 文件，包含了全面的測(cè)試用例，覆蓋以下場(chǎng)景：

? 基礎(chǔ)功能測(cè)試：驗(yàn)證 logprobs 的計(jì)算是否正確，top-K logprobs 的排序是否正確；
? 數(shù)值穩(wěn)定性測(cè)試：驗(yàn)證在 logits 數(shù)值較大或較小時(shí)，logprobs 的計(jì)算是否仍保持穩(wěn)定，無無窮大或NaN值；
? 概率正確性測(cè)試：驗(yàn)證所有 token 的 logprob 對(duì)應(yīng)的概率之和是否為 1，符合概率分布要求；
? 選中 token 正確性測(cè)試：驗(yàn)證選中 token 的 logprob 是否與 top-K logprobs 中的對(duì)應(yīng)值一致，且選中 token 為 logits 最大的 token（貪心采樣場(chǎng)景）。

3.2 張量（mlx/array.go）管理優(yōu)化

張量管理是 MLX Runner 性能與穩(wěn)定性的關(guān)鍵，本次更新對(duì)張量管理模塊進(jìn)行了重點(diǎn)優(yōu)化，解決了線程安全問題，完善了張量操作接口：

3.2.1 線程安全優(yōu)化

原張量管理模塊存在線程安全隱患，多個(gè) goroutine 同時(shí)操作 tensors 切片時(shí)可能導(dǎo)致數(shù)據(jù)競(jìng)爭(zhēng)，本次更新通過以下方式解決：

? 新增 arraysMu 互斥鎖：對(duì) tensors 切片的讀寫操作進(jìn)行加鎖，確保多個(gè) goroutine 同時(shí)操作時(shí)的線程安全；
? 使用 atomic 包：將 pinned 字段從 int 改為 atomic.Int32，確保對(duì) pinned 計(jì)數(shù)器的原子操作，避免數(shù)據(jù)競(jìng)爭(zhēng)。

3.2.2 張量操作接口完善

完善了張量的操作接口，新增了多個(gè)實(shí)用方法，同時(shí)優(yōu)化了現(xiàn)有方法的參數(shù)與返回值，提升了接口的易用性：

? 新增 MaxAxis 方法：用于計(jì)算指定軸上的最大值，支持是否保留維度；
? 新增 ScatterAddAxis 方法：用于在指定軸上根據(jù)索引進(jìn)行散射加法操作；
? 優(yōu)化 Dims、Dim、DType 等方法：將方法接收者從值類型改為指針類型，避免值拷貝帶來的性能損耗；
? 完善 LogArrays 方法：在打印張量信息時(shí)，使用 atomic.Load 讀取 pinned 計(jì)數(shù)器的值，確保線程安全。

3.2.3 張量生命周期管理優(yōu)化

優(yōu)化了張量的生命周期管理，確保張量能夠及時(shí)釋放，減少內(nèi)存占用：

? 完善 Pin/Unpin 方法：使用 atomic 計(jì)數(shù)器管理張量的引用計(jì)數(shù)，避免出現(xiàn)負(fù)引用計(jì)數(shù)的情況；
? 優(yōu)化 Sweep 方法：在清理未被 pinned 的張量時(shí)，先加鎖再操作 tensors 切片，確保線程安全，同時(shí)避免誤刪被 pinned 的張量；
? 完善 LogArrays 方法：在打印張量信息時(shí)，正確顯示每個(gè)張量的 pinned 計(jì)數(shù)，方便開發(fā)者調(diào)試內(nèi)存泄漏問題。

3.3 推理管道（pipeline.go）優(yōu)化

推理管道是 MLX Runner 處理推理請(qǐng)求的核心流程，本次更新對(duì)推理管道進(jìn)行了全面優(yōu)化，提升了推理效率與穩(wěn)定性，同時(shí)完善了請(qǐng)求處理邏輯：

3.3.1 新增 Prepare 方法

新增 Prepare 方法，用于對(duì)推理請(qǐng)求進(jìn)行預(yù)處理，包括 token 編碼、上下文長(zhǎng)度驗(yàn)證、生成 token 數(shù)量限制等，將預(yù)處理邏輯與推理邏輯分離，提升了代碼的可維護(hù)性：

? token 編碼：使用 tokenizer 對(duì)輸入 prompt 進(jìn)行編碼，添加 BOS token；
? 上下文長(zhǎng)度驗(yàn)證：檢查編碼后的 token 長(zhǎng)度是否超過模型的最大上下文長(zhǎng)度，若超過則返回錯(cuò)誤；
? 生成 token 數(shù)量限制：根據(jù)模型的最大上下文長(zhǎng)度，計(jì)算最大可生成的 token 數(shù)量，確保推理過程不會(huì)超出上下文限制。

3.3.2 推理流程優(yōu)化

優(yōu)化了推理流程的邏輯，減少了不必要的計(jì)算與內(nèi)存占用，提升了推理效率：

? 預(yù)填充優(yōu)化：將預(yù)填充的 chunk 大小設(shè)置為 2048（2<<10），優(yōu)化預(yù)填充過程的內(nèi)存使用；
? 張量生命周期管理：在推理過程中，及時(shí)對(duì)不需要的張量進(jìn)行 Unpin 操作，釋放內(nèi)存；
? 異步評(píng)估優(yōu)化：使用 AsyncEval 方法異步評(píng)估張量，提升推理效率；
? 緩存清理：每生成 256 個(gè) token 清理一次緩存，減少內(nèi)存占用，避免內(nèi)存泄漏。

3.3.3 解碼器（decoder）優(yōu)化

新增 decoder 結(jié)構(gòu)體，用于將采樣得到的 token 解碼為字符串，并確保 logprobs 與 content 對(duì)齊，解決了此前解碼過程中可能出現(xiàn)的 UTF-8 字節(jié)不完整、logprobs 錯(cuò)位等問題：

? 緩存未完成的 UTF-8 字節(jié)：當(dāng)解碼得到的字符串包含不完整的 UTF-8 字節(jié)時(shí)，將其緩存，待下一個(gè) token 解碼后拼接，確保解碼結(jié)果的正確性；
? logprobs 與 content 對(duì)齊：將每個(gè) token 的 logprob 與對(duì)應(yīng)的解碼字符串關(guān)聯(lián)，確保返回的 logprobs 與 content 一一對(duì)應(yīng)，避免錯(cuò)位。

3.3.4 錯(cuò)誤處理優(yōu)化

完善了推理過程中的錯(cuò)誤處理，確保在出現(xiàn)上下文取消、模型未加載等錯(cuò)誤時(shí)，能夠及時(shí)返回錯(cuò)誤信息，避免程序崩潰：

? 上下文取消處理：在推理過程中定期檢查上下文是否被取消，若取消則立即返回錯(cuò)誤；
? 模型加載檢查：在推理開始前檢查模型是否已加載，若未加載則返回錯(cuò)誤；
? 輸出 token 檢查：檢查采樣得到的 token 是否為 EOS token，若為 EOS token 則終止推理，返回結(jié)果。

3.4 其他 MLX 相關(guān)優(yōu)化

除上述核心模塊外，本次更新還對(duì) MLX 相關(guān)的其他模塊進(jìn)行了優(yōu)化，包括 mlx/act.go、mlx/compile.go、mlx/fast.go、mlx/nn.go、mlx/ops.go 等：

3.4.1 mlx/act.go 新增 SigmoidRouter 方法

新增 sigmoidRouterFused 融合內(nèi)核和 SigmoidRouter 方法，實(shí)現(xiàn)了 DeepSeek-V2 / GLM-MoE 無輔助損失的路由器頭，返回 sigmoid(gates) 和 -(sigmoid(gates)+bias) 兩個(gè)輸出，減少了內(nèi)核調(diào)用次數(shù)，提升了 MoE 模型的推理效率。

3.4.2 mlx/compile.go 優(yōu)化

優(yōu)化了編譯過程中的張量檢查邏輯，使用 atomic.Load 讀取 pinned 計(jì)數(shù)器的值，確保線程安全，避免在編譯過程中出現(xiàn)張量被誤刪的情況。

3.4.3 mlx/fast.go 優(yōu)化

將 LayerNorm 和 RMSNorm 結(jié)構(gòu)體中的 Weight 和 Bias 字段從值類型改為指針類型，避免值拷貝帶來的性能損耗，同時(shí)優(yōu)化了 Forward 方法的邏輯，提升了歸一化操作的效率。

3.4.4 mlx/nn.go 優(yōu)化

將 Linear 和 Embedding 結(jié)構(gòu)體中的 Weight 和 Bias 字段從值類型改為指針類型，優(yōu)化了 Forward 方法的邏輯，提升了線性變換和嵌入操作的效率，同時(shí)完善了 Gather 方法的實(shí)現(xiàn)，支持更靈活的索引操作。

3.4.5 mlx/ops.go 新增方法

新增 MaxAxis 和 ScatterAddAxis 方法，完善了張量的操作接口，為后續(xù)的模型優(yōu)化提供了更多支持。

3.5 服務(wù)器（server.go）與運(yùn)行器（runner.go）優(yōu)化

對(duì) MLX Runner 的服務(wù)器和運(yùn)行器進(jìn)行了優(yōu)化，完善了請(qǐng)求處理邏輯，提升了接口的兼容性與穩(wěn)定性：

3.5.1 server.go 優(yōu)化

? 完善請(qǐng)求解碼邏輯：將請(qǐng)求解碼從 TextCompletionsRequest 改為 CompletionRequest，支持更多的請(qǐng)求參數(shù)，包括 Logprobs、TopLogprobs 等；
? 優(yōu)化采樣器初始化：根據(jù)請(qǐng)求參數(shù)初始化采樣器，支持 RepeatPenalty、FrequencyPenalty 等新增參數(shù)；
? 新增請(qǐng)求預(yù)處理：在處理推理請(qǐng)求前，調(diào)用 Prepare 方法對(duì)請(qǐng)求進(jìn)行預(yù)處理，確保請(qǐng)求參數(shù)的正確性。

3.5.2 runner.go 優(yōu)化

? 重構(gòu) Request 結(jié)構(gòu)體：將 TextCompletionsRequest 替換為 CompletionRequest，新增 Tokens 字段用于存儲(chǔ)編碼后的 token，提升了請(qǐng)求處理的效率；
? 優(yōu)化 Pipeline 方法：將 Pipeline 方法的參數(shù)改為 context.Context 和 Request，確保上下文取消能夠正確傳遞；
? 完善 Sampler 管理：在請(qǐng)求處理完成后，及時(shí)釋放 Sampler 資源，減少內(nèi)存占用。

四、模型推薦與管理優(yōu)化

本次更新對(duì) Ollama 的模型推薦與管理功能進(jìn)行了優(yōu)化，調(diào)整了推薦模型列表，完善了模型排序規(guī)則和云模型限制，提升了用戶的模型選擇體驗(yàn)。

4.1 推薦模型列表更新

在 cmd/launch/models.go 文件中，對(duì)推薦模型列表進(jìn)行了更新：

? 將原有的“kimi-k2.5:cloud”模型替換為“kimi-k2.6:cloud”，并更新其描述為“State-of-the-art coding, long-horizon execution, and multimodal agent swarm capability”，突出其在編碼、長(zhǎng)序列執(zhí)行和多模態(tài)智能體集群方面的優(yōu)勢(shì)；
? 在云模型限制列表（cloudModelLimits）中新增“kimi-k2.6”的上下文長(zhǎng)度限制，設(shè)置為 262144，與 kimi-k2.5 保持一致，確保模型運(yùn)行時(shí)的上下文管理正確。

4.2 模型排序規(guī)則優(yōu)化

在 cmd/launch/models_test.go 文件中，優(yōu)化了模型列表的排序規(guī)則，確保推薦模型（尤其是云模型）優(yōu)先顯示，具體調(diào)整如下：

? 將測(cè)試用例中的“kimi-k2.5:cloud”替換為“kimi-k2.6:cloud”，確保測(cè)試用例與推薦模型列表一致；
? 完善模型排序邏輯，確保已安裝的模型和云模型優(yōu)先顯示，推薦模型排在非推薦模型之前，云模型在混合場(chǎng)景下優(yōu)先排序。

4.3 模型相關(guān)測(cè)試用例更新

更新了多個(gè)模型相關(guān)的測(cè)試用例，確保模型推薦、排序、限制等功能的正確性：

? models_test.go：更新測(cè)試用例中的模型名稱，將“kimi-k2.5:cloud”替換為“kimi-k2.6:cloud”，確保測(cè)試用例與實(shí)際推薦模型一致；
? registry.go：完善 Kimi 集成的模型推薦邏輯，確保“kimi-k2.6:cloud”被正確識(shí)別為推薦模型；
? gemma4_moe_test.go：新增模型類型轉(zhuǎn)換邏輯，將推理結(jié)果的張量類型轉(zhuǎn)換為 int32，確保測(cè)試用例的正確性。

五、Hermes Agent 文檔優(yōu)化

本次更新對(duì) Hermes Agent 的文檔（docs/integrations/hermes.mdx）進(jìn)行了全面重構(gòu)，優(yōu)化了文檔結(jié)構(gòu)，簡(jiǎn)化了使用流程，調(diào)整了推薦模型說明，提升了文檔的可讀性與實(shí)用性。

5.1 文檔結(jié)構(gòu)優(yōu)化

重構(gòu)了文檔的結(jié)構(gòu)，將原有的“Quick start”“Install”“Set up”“Recommended models”等章節(jié)重新組織，使流程更清晰，重點(diǎn)更突出：

? Quick start：簡(jiǎn)化快速啟動(dòng)流程，明確“ollama launch hermes”命令的功能，說明 Ollama 會(huì)自動(dòng)完成安裝、模型選擇、配置等操作；
? Recommended models：調(diào)整推薦模型列表，將原有的“kimi-k2.5:cloud”替換為“kimi-k2.6:cloud”，同時(shí)更新本地模型推薦，新增“qwen3.6”模型，說明其內(nèi)存需求；
? Connect messaging apps：簡(jiǎn)化消息應(yīng)用連接流程，明確需要先準(zhǔn)備模型，再運(yùn)行“hermes gateway setup”命令；
? Reconfigure：簡(jiǎn)化重新配置流程，提供“hermes setup”命令用于重新運(yùn)行設(shè)置向?qū)В?/p>
? Manual setup：簡(jiǎn)化手動(dòng)安裝流程，明確安裝命令和后續(xù)的設(shè)置步驟。

5.2 內(nèi)容細(xì)節(jié)調(diào)整

對(duì)文檔的內(nèi)容細(xì)節(jié)進(jìn)行了調(diào)整，修正了部分錯(cuò)誤，補(bǔ)充了關(guān)鍵信息：

? 補(bǔ)充 Hermes Agent 的核心特性：新增“70+ skills that it ships with by default”，說明其默認(rèn)包含的技能數(shù)量；
? 修正 Windows 環(huán)境說明：明確 Hermes Agent 在 Windows 上需要 WSL2，并提供安裝命令“wsl --install”；
? 調(diào)整推薦模型描述：更新各模型的描述，突出其核心優(yōu)勢(shì)，如“kimi-k2.6:cloud”的編碼和多模態(tài)能力；
? 簡(jiǎn)化配置步驟：刪除原有的“Configure later”章節(jié)，將相關(guān)內(nèi)容整合到“Reconfigure”章節(jié)，使文檔更簡(jiǎn)潔；
? 補(bǔ)充模型鏈接：提供“ollama.com/search”鏈接，方便用戶查找更多模型。

六、API 接口修復(fù)與優(yōu)化

本次更新對(duì) Ollama 的 API 接口進(jìn)行了修復(fù)與優(yōu)化，重點(diǎn)解決了 gemma4 模型在禁用 thinking 時(shí)格式約束失效的問題，完善了 logprobs 相關(guān)接口，提升了 API 的穩(wěn)定性與兼容性。

6.1 修復(fù) gemma4 模型格式約束失效問題

在 server/routes.go 文件中，修復(fù)了 gemma4 模型在禁用 thinking（think=false）時(shí)，格式約束（format）失效的問題。該問題的原因是，此前的邏輯會(huì)對(duì)所有支持 thinking 的模型延遲應(yīng)用格式約束，而當(dāng) thinking 被禁用時(shí)，不會(huì)觸發(fā)格式約束的重新應(yīng)用，導(dǎo)致格式約束失效。

修復(fù)方案：新增 forceImmediate 變量，當(dāng)模型為 gemma4、請(qǐng)求明確禁用 thinking 且設(shè)置了格式約束時(shí)，強(qiáng)制立即應(yīng)用格式約束，不進(jìn)行延遲處理。核心代碼變更如下：

forceImmediate := m.Config.Parser == "gemma4" && req.Think != nil && !req.Think.Bool()
if req.Format != nil && structuredOutputsState == structuredOutputsState_None && !forceImmediate && ((builtinParser != nil || thinkingState != nil) && slices.Contains(m.Capabilities(), model.CapabilityThinking)) {
    currentFormat = nil
}

同時(shí)，在 server/routes_generate_test.go 文件中，新增了 TestChatFormatWithThinkFalse 測(cè)試用例，驗(yàn)證該修復(fù)的正確性，確保 gemma4 模型在禁用 thinking 時(shí)，格式約束能夠正確應(yīng)用。

6.2 完善 logprobs 相關(guān) API 支持

隨著 MLX Runner 中 logprobs 功能的完善，本次更新也對(duì) API 接口進(jìn)行了相應(yīng)調(diào)整，確保 logprobs 能夠正確返回：

? 在 x/mlxrunner/client.go 中，重構(gòu)了 CompletionRequest 和 CompletionResponse 結(jié)構(gòu)體，新增 Logprobs 字段，支持返回 logprobs 信息；
? 優(yōu)化了 API 響應(yīng)的序列化邏輯，確保 logprobs 能夠正確序列化為 JSON 格式，返回給調(diào)用者；
? 修復(fù)了 API 錯(cuò)誤返回邏輯，將錯(cuò)誤信息封裝為 api.StatusError，確保錯(cuò)誤響應(yīng)的格式統(tǒng)一。

6.3 其他 API 相關(guān)優(yōu)化

在 integration/api_test.go 文件中，刪除了 TestAPIGenerateLogprobs 和 TestAPIChatLogprobs 測(cè)試用例中的跳過邏輯，確保 logprobs 相關(guān) API 的測(cè)試能夠正常執(zhí)行，驗(yàn)證 API 接口的正確性。

七、模型相關(guān)優(yōu)化

本次更新對(duì)部分模型的實(shí)現(xiàn)進(jìn)行了優(yōu)化，包括 gemma4、glm4_moe_lite 等，提升了模型的推理效率與正確性。

7.1 gemma4 模型優(yōu)化

在 x/models/gemma4/gemma4_moe_test.go 文件中，新增了模型類型轉(zhuǎn)換邏輯，將推理結(jié)果的張量類型轉(zhuǎn)換為 int32，確保測(cè)試用例的正確性，避免因類型不匹配導(dǎo)致的測(cè)試失敗。核心代碼變更如下：

gotInds = gotInds.AsType(mlx.DTypeInt32)
wantInds = wantInds.AsType(mlx.DTypeInt32)

7.2 glm4_moe_lite 模型優(yōu)化

在 x/models/glm4_moe_lite/glm4_moe_lite.go 文件中，優(yōu)化了 MoEGate 的 Forward 方法，使用新增的 mlx.SigmoidRouter 方法替代原有的 sigmoid 和加法操作，提升了 MoE 路由器的運(yùn)行效率。核心代碼變更如下：

? 當(dāng)存在 EScoreCorrectionBias 時(shí)，調(diào)用 mlx.SigmoidRouter 方法獲取 origScores 和 negScores，替代原有的 sigmoid 和加法操作；
? 優(yōu)化了 scores 的計(jì)算邏輯，確保路由器的輸出正確。

7.3 其他模型測(cè)試優(yōu)化

在 x/models/nn/nn_test.go 文件中，優(yōu)化了量化線性層的測(cè)試用例，將推理結(jié)果的張量類型轉(zhuǎn)換為 float32，確保測(cè)試用例的數(shù)值對(duì)比正確，避免因類型不匹配導(dǎo)致的測(cè)試失敗。核心代碼變更如下：

qOut := ql.Forward(input).AsType(mlx.DTypeFloat32)
dOut := NewLinear(dequantizedWeight, nil).Forward(input).AsType(mlx.DTypeFloat32)

八、版本更新總結(jié)與使用建議 8.1 版本更新總結(jié)

Ollama v0.21.1 版本是一次聚焦優(yōu)化與完善的重要更新，核心亮點(diǎn)包括：

? 新增 Kimi Code CLI 集成，實(shí)現(xiàn) Moonshot coding agent 與 Ollama 的無縫聯(lián)動(dòng)，提升終端與 IDE 中的代碼開發(fā)體驗(yàn)；
? MLX Runner 全方位優(yōu)化，解決了線程安全、數(shù)值穩(wěn)定性、性能瓶頸等問題，完善了 logprobs 支持，提升了本地模型的運(yùn)行效率與穩(wěn)定性；
? 模型推薦與管理優(yōu)化，更新推薦模型列表，調(diào)整排序規(guī)則，完善云模型限制，提升用戶模型選擇體驗(yàn)；
? Hermes Agent 文檔重構(gòu)，簡(jiǎn)化使用流程，補(bǔ)充關(guān)鍵信息，提升文檔可讀性與實(shí)用性；
? API 接口修復(fù)與優(yōu)化，解決 gemma4 模型格式約束失效問題，完善 logprobs 支持，提升 API 穩(wěn)定性與兼容性；
? 模型相關(guān)優(yōu)化，提升部分模型的推理效率與測(cè)試正確性。

本次更新未新增突破性功能，但通過對(duì)現(xiàn)有功能的優(yōu)化與完善，有效解決了此前版本中存在的痛點(diǎn)問題，尤其是 MLX Runner 的優(yōu)化，讓搭載 Apple Silicon 芯片的設(shè)備能夠獲得更出色的本地模型運(yùn)行體驗(yàn)，Kimi Code CLI 的集成則進(jìn)一步拓展了 Ollama 的應(yīng)用場(chǎng)景，為開發(fā)者提供了更便捷的 coding 工具。

8.2 使用建議

針對(duì)本次版本更新，給出以下使用建議：

? 建議所有用戶升級(jí)到 v0.21.1 版本，尤其是使用 Apple Silicon 芯片設(shè)備的用戶，可顯著提升本地模型的運(yùn)行效率與穩(wěn)定性；
? 需要使用 Kimi Code CLI 的開發(fā)者，可通過“ollama launch kimi”命令快速啟動(dòng)，無需手動(dòng)安裝與配置，體驗(yàn)更便捷；
? 使用 gemma4 模型且需要格式約束的用戶，需確保設(shè)置 think=false 時(shí)，格式約束能夠正確應(yīng)用，可通過 API 測(cè)試驗(yàn)證；
? 使用 Hermes Agent 的用戶，可參考更新后的文檔，簡(jiǎn)化配置流程，選擇推薦的模型（如 kimi-k2.6:cloud）獲得更好的體驗(yàn)；
? 開發(fā)者在使用 logprobs 功能時(shí)，可通過配置 Logprobs 和 TopLogprobs 參數(shù)，獲取更詳細(xì)的概率信息，用于模型評(píng)估與不確定性分析。

8.3 后續(xù)展望

代碼地址：github.com/ollama/ollama

從本次更新可以看出，Ollama 團(tuán)隊(duì)正聚焦于現(xiàn)有功能的優(yōu)化與完善，提升用戶體驗(yàn)與性能穩(wěn)定性。后續(xù)，預(yù)計(jì) Ollama 將繼續(xù)推進(jìn)以下方向的發(fā)展：

? 進(jìn)一步優(yōu)化 MLX Runner 的性能，支持更多模型類型，提升推理效率；
? 拓展更多第三方工具集成，豐富 Ollama 的應(yīng)用場(chǎng)景；
? 完善模型管理功能，支持更靈活的模型配置與調(diào)度；
? 提升 API 接口的兼容性與擴(kuò)展性，支持更多應(yīng)用場(chǎng)景的集成。

總體而言，Ollama v0.21.1 版本是一次非常實(shí)用的更新，雖然沒有新增突破性功能，但通過對(duì)現(xiàn)有功能的精細(xì)化優(yōu)化，有效提升了產(chǎn)品的穩(wěn)定性與用戶體驗(yàn)，值得所有用戶升級(jí)使用。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識(shí)。在這里，您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.