大家好,我是冷逸。
最近,模型圈又卷起來了,A廠、O廠和鯨魚都陸續發布了新模型。特別是DeepSeek V4,一發布就沖上了各種熱搜。
好多人都在問DeepSeek V4到底在開源模型中是什么地位,又和閉源模型差多少呢?
于是,我花了400元,實測對比了幾款熱門大模型,分別是:公認的頂級閉源模型 Claude Opus 4.6、GPT-5.4和頂級開源模型Kimi K2.6、DeepSeek V4 Pro。
![]()
下面,我們基于實測結果,全面評估一下Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.6以及GPT-5.4,看看如今的AI頂流之戰,誰才是真正的版本答案。
![]()
一手實測
1)前端:信息圖
先測一個我們最常用到的信息圖,主要看模型的信息提煉能力、視覺排版能力和內容完整度。
提示詞:提煉下面文字內容的核心關鍵點,創建一個HTML網頁。
文字內容:
{
這里是一段文字內容
}
網頁的設計要求如下:
1.視覺設計:采用{Magazine Layout}風格布局,{深色}主題色,營造現代高端氛圍。
2.字體與排版:
·使用超大字體或數字突出核心要點,中文采用大號粗體,強調視覺沖擊力。
·英文使用小號字體作為點綴,與中文形成比例反差,提升設計層次感。
3視覺元素:
·融入超大視覺元素(如標題、背景圖或裝飾)以突出重點,與小型元素形成強烈對比。
·使用簡潔的勾線風格圖形作為數據可視化或配圖元素,保持現代感和清晰度。
4.色彩與效果:運用高亮色(單色透明度漸變)營造科技感,每種高亮色獨立使用,避免不同高亮色之間的漸變混雜。
5.技術要求:引入專業圖標庫(如Font Awesome或Material Icons,通過CDN加載),避免使用emoji作為主要圖標。
6.內容要求:提煉內容關鍵要點,不忽略重要細節。Claude Opus 4.6:
![]()
GPT-5.4:
![]()
DeepSeek-V4-Pro:
![]()
Kimi K2.6:
![]()
整體來看,Kimi K2.6和DeepSeek-V4-Pro在這個case中表現最好,內容提煉得到位,視覺效果也更具沖擊力,布局、配色和字體搭配有層次感。
Claude Opus 4.6內容總結得不錯,關鍵信息都沒有遺漏,但是視覺效果一般。GPT-5.4 也是同樣的問題。
2)前端:旅游網站
接下來,我們試試讓大模型看圖做設計,測測模型的圖片理解和審美遷移能力。
提示詞:你是一個有頂級審美的網頁設計專家,請根據"xxxx.jpg"這張圖的元素和風格,設計一個旅游網站。
Claude Opus 4.6:
![]()
GPT-5.4:
![]()
DeepSeek-V4-Pro:
![]()
Kimi K2.6:
![]()
這個項目完成最好的是Claude Opus 4.6和Kimi K2.6,對于我給出的圖片風格都有自己的理解,并且按照這個理解來設計視覺效果。
而DeepSeek-V4-Pro和GPT-5.4做的網頁,圖片都沒加載出來,前者是因為不支持多模態,但是后者應該不至于。
3)3D任務
3D任務主要看模型的前端能力,考驗模型對三維空間理解、Three.js組織能力和生成結果的穩定性。
提示詞:制作一個3D的雪山場景html,雪山中間有一個中式的寺廟,整體風格參考塞爾達曠野之息。
Claude Opus 4.6:
![]()
GPT-5.4:
![]()
DeepSeek-V4-Pro:
![]()
Kimi K2.6:
在這個任務中,GPT-5.4的表現不及格,一直卡在雪山頁面根本動不了;DeepSeek-V4-Pro倒是完成了任務,但是建模肉眼可見的粗糙。
Claude Opus 4.6和Kimi K2.6的建模就很不錯,3D場景創建的挺好,旋轉、縮放展示也都非常流暢,做到了提示詞要求的“雪山+日式寺廟+塞爾達風格”。
特別是Kimi K2.6,雪山、建筑、雪花粒子這些細節上的表現,真的太強了。
4)網站開發
需求是,讓模型基于我給到的模特照片,做一個攝影師作品集網站。
提示詞:我是拍模特廣告的攝影師,我的工作室叫「小逸攝影」,文件夾 xxx 放了一些模特圖片,給我生成一個高級審美、大師級別水準的攝影師作品集網站,用文件夾里的圖配上精美的講解。
Claude Opus 4.6:
GPT-5.4:
![]()
DeepSeek-V4-Pro:
![]()
Kimi K2.6:
Kimi K2.6生成的網頁實在是太棒了,在logo、文字配色、交互動畫這些UI細節上的表現非常強,說明是真的讀懂了圖像,完全是基于圖片內容和風格來生成的。
Claude Opus 4.6生成的頁面風格也非常有特點,但圖片的展示比較簡單。
至于DeepSeek-V4-Pro和GPT-5.4我只想說,為啥別人都有圖,你倆卻加載不出來。很明顯是遇到bug了,需要人工來修。
5)Skills任務
前兩天,我用跑了一個PPT,效果非常滿意。這次也讓所有模型都來對比一下。
提示詞:根據"xxxx.txt"的內容,用guizang-ppt-skill做一份10頁的PPT。
Claude Opus 4.6:
![]()
GPT-5.4:
![]()
DeepSeek-V4-Pro:
![]()
Kimi K2.6:
![]()
這個調用skill的任務,四個模型都調用成功了。做出來的效果也大差不差,沒啥大的區別,可能skill已經把路徑限制的很死,沒留太多模型自我發揮的余地。
6)Agent長程任務
任務,還是我們的老case,讓Claude Code做一個聯網搜索+word生成+skill調用+網站開發的復雜長程任務。
提示詞:聯網搜索、調研張雪機車的發展軌跡,盡量從權威信源獲取信息。首先,給我創建一份5000字的word調研報告。然后,調用qiaomu-knowledge-site-creator skill給這份報告創建一個知識學習網頁,頁面高級審美。
Claude Opus 4.6:
![]()
![]()
GPT-5.4:
![]()
![]()
DeepSeek-V4-Pro:
![]()
![]()
Kimi K2.6:
![]()
![]()
因為是長程任務,需要模型先后調用WebSearch、python生成word、skills和網站開發等工具能力,還包括網站上線前測試的chrome-devtools-mcp,所以這個長程任務,大家都消耗了很長的時間。
所幸結果,大家都完成了。
從生成的調研報告來看,Kimi K2.6是最好的(他們家的WebSearch能力一直就很強),其次是Claude Opus 4.6和DeepSeek-V4-Pro,最差的是 GPT-5.4,你好歹給我排版一下啊。
從生成的網站來看,GPT-5.4嘴上說調用skill成功,但是最后生成的東西完全跟 skill不符,其他三個都生成的中規中矩,Kimi K2.6在頁面美化上稍強一點。
7)費用情況
最后,我們來算一下Coding成本。
本期測評花費如下:
Claude Opus 4.6,16.4美刀;
GPT-5.4,22.8美刀;
Kimi K2.6,我用的是Coding Plan套餐,大概消耗里月額度的1/10,換算下來是4塊錢;
DeepSeek-V4-Pro,接的昨天降價后的API,約2.4元。
![]()
第三方平臺對Claude和GPT的費用統計
說實話,對于這個成本來說,Claude和GPT是非常不劃算的,Claude生成的效果與Kimi差不多,但價格竟然差了近30倍!GPT更是效果也不好,但卻是花得最多的,十分不推薦。
降價后的DeepSeek,算是物美價廉。
![]()
綜合測評下來,如果要論成本,API降價后的DeepSeek V4無疑是最劃算的。但是它沒有多模態,很多coding場景受限。
如果要論性價比,Kimi K2.6則是最合適的,能力比肩甚至超越全球頂尖模型,而成本卻不到他們的幾十分之一。
另外,kimi也有多模態,Agent能力在線,綜合能力確實不錯。
而Claude和GPT,至少在本次任務測試中并未表現出有代差的能力,大家旗鼓相當。甚至部分場景,GPT還比較拉胯。
我是冷逸,你們的AI測評手替。如果你有想測的場景,歡迎在評論區甩出來,咱們互相抄作業。
如果覺得本期內容有用的話,歡迎點贊+在看+轉發,讓更多人看見,感恩。
咱們下期見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.