Jackrong 是老熟人了:
,Jackrong 拿出了Qwopus3.6-27B-v1-preview
Qwen +Opus,意思是拿 Claude Opus 的蒸餾數(shù)據(jù),去調(diào)教 Qwen3.6-27B
訓(xùn)練方式:SFT,用的是 Unsloth 訓(xùn)練棧
數(shù)據(jù)配方:以
Kassadin88/Claude-Distillation-Dataset為主,混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理數(shù)據(jù)數(shù)據(jù)規(guī)模:清洗后約12K條高質(zhì)量推理樣本
許可證:Apache-2.0,商用友好
作者說(shuō)得很坦誠(chéng):這是一個(gè)preview 預(yù)覽版,不是最終形態(tài),更大規(guī)模的訓(xùn)練還在路上
它的定位是一次方法論驗(yàn)證:在 Qwen3.6-27B 上做一次克制的、干凈的 Claude 風(fēng)格 SFT,看看能不能把回答風(fēng)格調(diào)得更穩(wěn)
作者自己給出的目標(biāo)很明確:
更結(jié)構(gòu)化的推理過程
回答風(fēng)格更一致,不在長(zhǎng)文里"漂移"
多來(lái)源蒸餾數(shù)據(jù)之間的風(fēng)格對(duì)齊
? 為后續(xù)更大規(guī)模版本打底子
關(guān)于"數(shù)據(jù)怎么清洗",其實(shí)是這個(gè)項(xiàng)目最值得琢磨的地方
Claude、GLM-5.1、Kimi-K2.5、Qwen3.5 四家模型吐出來(lái)的 CoT,風(fēng)格差異巨大——有的啰嗦、有的跳步、有的愛用 Markdown 大綱、有的喜歡自言自語(yǔ)
作者用一個(gè) 8B 指令模型當(dāng)過濾器,把風(fēng)格跑偏的樣本剔掉,最后只留下 12K 條"調(diào)性統(tǒng)一"的數(shù)據(jù)
這個(gè)思路其實(shí)很反直覺,很多人做蒸餾數(shù)據(jù)集是越多越好,他反而在做減法
訓(xùn)練這事,你吃什么就長(zhǎng)什么樣,數(shù)據(jù)干凈比數(shù)據(jù)多重要得多
早期評(píng)測(cè)
合作者 Kyle Hessling 用 16 條 prompt 做了一輪小規(guī)模評(píng)測(cè),場(chǎng)景覆蓋三類:
Agentic 推理任務(wù)
生產(chǎn)級(jí)前端設(shè)計(jì)(這一項(xiàng)是 Qwen3.6 的強(qiáng)項(xiàng)領(lǐng)域)
創(chuàng)意 Canvas / WebGL任務(wù)
硬件是單卡RTX 5090(32GB),推理用llama.cpp跑 GGUF 量化版本,對(duì)比的基線是Qwen3.6-27B原版
![]()
下面這幾張是評(píng)測(cè)結(jié)果截圖:
![]()
![]()
完整評(píng)測(cè)報(bào)告在這里:
huggingface.co/spaces/Jackrong/qwopus36-eval
安裝與使用
這次發(fā)布的是 GGUF 倉(cāng)庫(kù),直接用llama.cpp或者任何兼容 GGUF 的推理框架(Ollama、LM Studio、KoboldCpp 等)就能跑
倉(cāng)庫(kù)里目前提供的量化檔位:
量化類型
文件大小
適用場(chǎng)景
Q2_K
10.7 GB
極限省顯存,可能有明顯損失
Q3_K_L
24G 顯卡友好
IQ4_XS
15.2 GB
質(zhì)量/體積比不錯(cuò)的選擇
更高檔位
倉(cāng)庫(kù)總大小 162GB,還有 Q4/Q5/Q6/Q8 等
按顯存選
llama.cpp 拉起來(lái)的基礎(chǔ)命令:
# 先把模型文件下到本地(以 IQ4_XS 為例)
huggingface-cli download Jackrong/Qwopus3.6-27B-v1-preview-GGUF \
Qwopus3.6-27B-v1-preview-IQ4_XS.gguf --local-dir ./qwopus# 然后用 llama-server 起服務(wù)
./llama-server \
-m ./qwopus/Qwopus3.6-27B-v1-preview-IQ4_XS.gguf \
-c 32768 \
--host 0.0.0.0 --port 8080
顯存參考(基于 27B 稠密模型的經(jīng)驗(yàn)值):
IQ4_XS:?jiǎn)螐?24G 顯卡(4090/5090/3090)可以跑,上下文別開太滿
Q2_K:16G 也能塞進(jìn)去,但 27B 做到 Q2 損失不小
想跑 Q6/Q8 高質(zhì)量檔位:建議 40G+ 或雙卡
Ollama 用戶如果想直接用,可以用ollama create基于 GGUF 文件做個(gè)本地 Modelfile
??一個(gè)提醒:Qwen3.6-27B 是帶視覺編碼器的多模態(tài)模型(Causal LM + Vision Encoder),但這次 GGUF 倉(cāng)庫(kù)目前我只看到純語(yǔ)言權(quán)重,視覺部分在 llama.cpp 上的支持情況需要自己驗(yàn)證一下,別想當(dāng)然
.6
制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.