網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus蒸餾Qwen3.6-27B，GGUF來(lái)了，消費(fèi)級(jí)顯卡輕松本地部署！

2026-04-26 20:52:53　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

Jackrong 是老熟人了：

，Jackrong 拿出了Qwopus3.6-27B-v1-preview

Qwen +Opus，意思是拿 Claude Opus 的蒸餾數(shù)據(jù)，去調(diào)教 Qwen3.6-27B

訓(xùn)練方式：SFT，用的是 Unsloth 訓(xùn)練棧
數(shù)據(jù)配方：以Kassadin88/Claude-Distillation-Dataset為主，混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理數(shù)據(jù)
數(shù)據(jù)規(guī)模：清洗后約12K條高質(zhì)量推理樣本
許可證：Apache-2.0，商用友好

作者說(shuō)得很坦誠(chéng)：這是一個(gè)preview 預(yù)覽版，不是最終形態(tài)，更大規(guī)模的訓(xùn)練還在路上

它的定位是一次方法論驗(yàn)證：在 Qwen3.6-27B 上做一次克制的、干凈的 Claude 風(fēng)格 SFT，看看能不能把回答風(fēng)格調(diào)得更穩(wěn)

作者自己給出的目標(biāo)很明確：

更結(jié)構(gòu)化的推理過程
回答風(fēng)格更一致，不在長(zhǎng)文里"漂移"
多來(lái)源蒸餾數(shù)據(jù)之間的風(fēng)格對(duì)齊
? 為后續(xù)更大規(guī)模版本打底子

關(guān)于"數(shù)據(jù)怎么清洗"，其實(shí)是這個(gè)項(xiàng)目最值得琢磨的地方

Claude、GLM-5.1、Kimi-K2.5、Qwen3.5 四家模型吐出來(lái)的 CoT，風(fēng)格差異巨大——有的啰嗦、有的跳步、有的愛用 Markdown 大綱、有的喜歡自言自語(yǔ)

作者用一個(gè) 8B 指令模型當(dāng)過濾器，把風(fēng)格跑偏的樣本剔掉，最后只留下 12K 條"調(diào)性統(tǒng)一"的數(shù)據(jù)

這個(gè)思路其實(shí)很反直覺，很多人做蒸餾數(shù)據(jù)集是越多越好，他反而在做減法

訓(xùn)練這事，你吃什么就長(zhǎng)什么樣，數(shù)據(jù)干凈比數(shù)據(jù)多重要得多

早期評(píng)測(cè)

合作者 Kyle Hessling 用 16 條 prompt 做了一輪小規(guī)模評(píng)測(cè)，場(chǎng)景覆蓋三類：

Agentic 推理任務(wù)
生產(chǎn)級(jí)前端設(shè)計(jì)（這一項(xiàng)是 Qwen3.6 的強(qiáng)項(xiàng)領(lǐng)域）
創(chuàng)意 Canvas / WebGL任務(wù)

硬件是單卡RTX 5090（32GB），推理用llama.cpp跑 GGUF 量化版本，對(duì)比的基線是Qwen3.6-27B原版

下面這幾張是評(píng)測(cè)結(jié)果截圖：

完整評(píng)測(cè)報(bào)告在這里：

huggingface.co/spaces/Jackrong/qwopus36-eval

安裝與使用

這次發(fā)布的是 GGUF 倉(cāng)庫(kù)，直接用llama.cpp或者任何兼容 GGUF 的推理框架（Ollama、LM Studio、KoboldCpp 等）就能跑

倉(cāng)庫(kù)里目前提供的量化檔位：

量化類型

文件大小

適用場(chǎng)景

Q2_K

10.7 GB

極限省顯存，可能有明顯損失

Q3_K_L

24G 顯卡友好

IQ4_XS

15.2 GB

質(zhì)量/體積比不錯(cuò)的選擇

更高檔位

倉(cāng)庫(kù)總大小 162GB，還有 Q4/Q5/Q6/Q8 等

按顯存選

llama.cpp 拉起來(lái)的基礎(chǔ)命令：

# 先把模型文件下到本地（以 IQ4_XS 為例）
huggingface-cli download Jackrong/Qwopus3.6-27B-v1-preview-GGUF \
  Qwopus3.6-27B-v1-preview-IQ4_XS.gguf --local-dir ./qwopus


 # 然后用 llama-server 起服務(wù)
./llama-server \
  -m ./qwopus/Qwopus3.6-27B-v1-preview-IQ4_XS.gguf \
  -c 32768 \
  --host 0.0.0.0 --port 8080

顯存參考（基于 27B 稠密模型的經(jīng)驗(yàn)值）：

IQ4_XS：?jiǎn)螐?24G 顯卡（4090/5090/3090）可以跑，上下文別開太滿
Q2_K：16G 也能塞進(jìn)去，但 27B 做到 Q2 損失不小
想跑 Q6/Q8 高質(zhì)量檔位：建議 40G+ 或雙卡

Ollama 用戶如果想直接用，可以用ollama create基于 GGUF 文件做個(gè)本地 Modelfile

??一個(gè)提醒：Qwen3.6-27B 是帶視覺編碼器的多模態(tài)模型（Causal LM + Vision Encoder），但這次 GGUF 倉(cāng)庫(kù)目前我只看到純語(yǔ)言權(quán)重，視覺部分在 llama.cpp 上的支持情況需要自己驗(yàn)證一下，別想當(dāng)然

制作不易，如果這篇文章覺得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.