網易首頁 > 網易號 > 正文申請入駐

橫評DeepSeek、Claude、GPT、Kimi，結果大跌眼鏡…

2026-04-27 20:00:20　來源: 沃垠AI

四川舉報

分享至

大家好，我是冷逸。

最近，模型圈又卷起來了，A廠、O廠和鯨魚都陸續發布了新模型。特別是DeepSeek V4，一發布就沖上了各種熱搜。

好多人都在問DeepSeek V4到底在開源模型中是什么地位，又和閉源模型差多少呢？

于是，我花了400元，實測對比了幾款熱門大模型，分別是：公認的頂級閉源模型 Claude Opus 4.6、GPT-5.4和頂級開源模型Kimi K2.6、DeepSeek V4 Pro。

下面，我們基于實測結果，全面評估一下Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.6以及GPT-5.4，看看如今的AI頂流之戰，誰才是真正的版本答案。

一手實測

1）前端：信息圖

先測一個我們最常用到的信息圖，主要看模型的信息提煉能力、視覺排版能力和內容完整度。

提示詞：提煉下面文字內容的核心關鍵點，創建一個HTML網頁。
文字內容：
{
這里是一段文字內容
}
網頁的設計要求如下：
1.視覺設計：采用{Magazine Layout}風格布局，{深色}主題色，營造現代高端氛圍。
2.字體與排版：
·使用超大字體或數字突出核心要點，中文采用大號粗體，強調視覺沖擊力。
·英文使用小號字體作為點綴，與中文形成比例反差，提升設計層次感。
3視覺元素：
·融入超大視覺元素（如標題、背景圖或裝飾）以突出重點，與小型元素形成強烈對比。
·使用簡潔的勾線風格圖形作為數據可視化或配圖元素，保持現代感和清晰度。
4.色彩與效果：運用高亮色（單色透明度漸變）營造科技感，每種高亮色獨立使用，避免不同高亮色之間的漸變混雜。
5.技術要求：引入專業圖標庫（如Font Awesome或Material Icons，通過CDN加載），避免使用emoji作為主要圖標。
6.內容要求：提煉內容關鍵要點，不忽略重要細節。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

整體來看，Kimi K2.6和DeepSeek-V4-Pro在這個case中表現最好，內容提煉得到位，視覺效果也更具沖擊力，布局、配色和字體搭配有層次感。

Claude Opus 4.6內容總結得不錯，關鍵信息都沒有遺漏，但是視覺效果一般。GPT-5.4 也是同樣的問題。

2）前端：旅游網站

接下來，我們試試讓大模型看圖做設計，測測模型的圖片理解和審美遷移能力。

提示詞：你是一個有頂級審美的網頁設計專家，請根據"xxxx.jpg"這張圖的元素和風格，設計一個旅游網站。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

這個項目完成最好的是Claude Opus 4.6和Kimi K2.6，對于我給出的圖片風格都有自己的理解，并且按照這個理解來設計視覺效果。

而DeepSeek-V4-Pro和GPT-5.4做的網頁，圖片都沒加載出來，前者是因為不支持多模態，但是后者應該不至于。

3）3D任務

3D任務主要看模型的前端能力，考驗模型對三維空間理解、Three.js組織能力和生成結果的穩定性。

提示詞：制作一個3D的雪山場景html，雪山中間有一個中式的寺廟，整體風格參考塞爾達曠野之息。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

在這個任務中，GPT-5.4的表現不及格，一直卡在雪山頁面根本動不了；DeepSeek-V4-Pro倒是完成了任務，但是建模肉眼可見的粗糙。

Claude Opus 4.6和Kimi K2.6的建模就很不錯，3D場景創建的挺好，旋轉、縮放展示也都非常流暢，做到了提示詞要求的“雪山+日式寺廟+塞爾達風格”。

特別是Kimi K2.6，雪山、建筑、雪花粒子這些細節上的表現，真的太強了。

4）網站開發

需求是，讓模型基于我給到的模特照片，做一個攝影師作品集網站。

提示詞：我是拍模特廣告的攝影師，我的工作室叫「小逸攝影」，文件夾 xxx 放了一些模特圖片，給我生成一個高級審美、大師級別水準的攝影師作品集網站，用文件夾里的圖配上精美的講解。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

Kimi K2.6生成的網頁實在是太棒了，在logo、文字配色、交互動畫這些UI細節上的表現非常強，說明是真的讀懂了圖像，完全是基于圖片內容和風格來生成的。

Claude Opus 4.6生成的頁面風格也非常有特點，但圖片的展示比較簡單。

至于DeepSeek-V4-Pro和GPT-5.4我只想說，為啥別人都有圖，你倆卻加載不出來。很明顯是遇到bug了，需要人工來修。

5）Skills任務

前兩天，我用跑了一個PPT，效果非常滿意。這次也讓所有模型都來對比一下。

提示詞：根據"xxxx.txt"的內容，用guizang-ppt-skill做一份10頁的PPT。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

這個調用skill的任務，四個模型都調用成功了。做出來的效果也大差不差，沒啥大的區別，可能skill已經把路徑限制的很死，沒留太多模型自我發揮的余地。

6）Agent長程任務

任務，還是我們的老case，讓Claude Code做一個聯網搜索+word生成+skill調用+網站開發的復雜長程任務。

提示詞：聯網搜索、調研張雪機車的發展軌跡，盡量從權威信源獲取信息。首先，給我創建一份5000字的word調研報告。然后，調用qiaomu-knowledge-site-creator skill給這份報告創建一個知識學習網頁，頁面高級審美。

Claude Opus 4.6：

GPT-5.4：

DeepSeek-V4-Pro：

Kimi K2.6：

因為是長程任務，需要模型先后調用WebSearch、python生成word、skills和網站開發等工具能力，還包括網站上線前測試的chrome-devtools-mcp，所以這個長程任務，大家都消耗了很長的時間。

所幸結果，大家都完成了。

從生成的調研報告來看，Kimi K2.6是最好的（他們家的WebSearch能力一直就很強），其次是Claude Opus 4.6和DeepSeek-V4-Pro，最差的是 GPT-5.4，你好歹給我排版一下啊。

從生成的網站來看，GPT-5.4嘴上說調用skill成功，但是最后生成的東西完全跟 skill不符，其他三個都生成的中規中矩，Kimi K2.6在頁面美化上稍強一點。

7）費用情況

最后，我們來算一下Coding成本。

本期測評花費如下：

Claude Opus 4.6，16.4美刀；
GPT-5.4，22.8美刀；
Kimi K2.6，我用的是Coding Plan套餐，大概消耗里月額度的1/10，換算下來是4塊錢；
DeepSeek-V4-Pro，接的昨天降價后的API，約2.4元。

第三方平臺對Claude和GPT的費用統計

說實話，對于這個成本來說，Claude和GPT是非常不劃算的，Claude生成的效果與Kimi差不多，但價格竟然差了近30倍！GPT更是效果也不好，但卻是花得最多的，十分不推薦。

降價后的DeepSeek，算是物美價廉。

綜合測評下來，如果要論成本，API降價后的DeepSeek V4無疑是最劃算的。但是它沒有多模態，很多coding場景受限。

如果要論性價比，Kimi K2.6則是最合適的，能力比肩甚至超越全球頂尖模型，而成本卻不到他們的幾十分之一。

另外，kimi也有多模態，Agent能力在線，綜合能力確實不錯。

而Claude和GPT，至少在本次任務測試中并未表現出有代差的能力，大家旗鼓相當。甚至部分場景，GPT還比較拉胯。

我是冷逸，你們的AI測評手替。如果你有想測的場景，歡迎在評論區甩出來，咱們互相抄作業。

如果覺得本期內容有用的話，歡迎點贊+在看+轉發，讓更多人看見，感恩。

咱們下期見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.