<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      實(shí)測(cè)在DeepSeek-V4上燒1000萬(wàn)token,我發(fā)現(xiàn)了3個(gè)驚喜和1個(gè)意外

      0
      分享至


      智東西
      作者 陳駿達(dá)
      編輯 心緣

      智東西4月24日?qǐng)?bào)道,今天,DeepSeek-V4開源并火速?zèng)_上Hugging Face模型榜首,號(hào)稱推理和智能體編程性能沖到開源模型第一、比肩先進(jìn)閉源模型。為了驗(yàn)證兩款模型的真實(shí)效果,我們進(jìn)行了多維度的深度體驗(yàn)。


      ▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一(圖源:Hugging Face)

      我們的這次實(shí)測(cè)累計(jì)消耗超過(guò)1000萬(wàn)token。總體來(lái)看,DeepSeek-V4系列,尤其是Pro版本,展現(xiàn)出強(qiáng)大的自主規(guī)劃與執(zhí)行能力;但在部分極限任務(wù)和輕量級(jí)場(chǎng)景中,也存在一些有趣的短板。以下是我們提煉出的核心體驗(yàn)要點(diǎn):

      (1)智能體編程提升明顯,長(zhǎng)程任務(wù)能力驚艷:DeepSeek-V4-Pro能夠連續(xù)自主編程60分鐘以上,無(wú)需人工干預(yù),完成復(fù)雜的數(shù)據(jù)庫(kù)設(shè)計(jì)和安卓模擬器開發(fā)等工程任務(wù),展現(xiàn)出強(qiáng)大的長(zhǎng)程規(guī)劃、自我糾錯(cuò)和工具調(diào)用能力。

      (2)復(fù)雜推理有亮點(diǎn)也有短板:模型在海龜湯等邏輯題上表現(xiàn)出色,但在IMO數(shù)學(xué)難題和部分輕量級(jí)測(cè)試中陷入死循環(huán)或給出錯(cuò)誤答案,推理穩(wěn)定性還有提升空間。

      (3)輕量級(jí)任務(wù)表現(xiàn)意外翻車:簡(jiǎn)單問(wèn)題(如洗車店問(wèn)題)上,Pro版有時(shí)反而因?yàn)椤斑^(guò)度思考”無(wú)法給出正確答案,而Flash版更為直接高效。

      (4)價(jià)格有所上漲,但緩存機(jī)制降低部分成本:相比DeepSeek-V3.2,V4系列API價(jià)格上調(diào),但在長(zhǎng)任務(wù)中借助緩存,總賬單的增長(zhǎng)沒有API漲幅那么明顯。

      以下是我們的完整實(shí)測(cè):

      一、智能體編程能力明顯提升,實(shí)測(cè)連續(xù)干活60分鐘無(wú)需干預(yù)

      DeepSeek-V4的官方博客,尤其強(qiáng)調(diào)模型的Agentic Coding能力。這次實(shí)測(cè)中,我們讓DeepSeek-V4-Pro與Claude Code打配合,執(zhí)行了兩個(gè)較為復(fù)雜的工程任務(wù)。

      任務(wù)1:連續(xù)編程60分鐘,打造完整記賬系統(tǒng)

      在數(shù)據(jù)庫(kù)設(shè)計(jì)任務(wù)中,我們的提示詞并未給模型提供過(guò)多的約束,這考察了其自主規(guī)劃任務(wù)的能力

      拿到任務(wù)后,DeepSeek-V4-Pro先是思考了一會(huì)兒,然后輸出了一個(gè)完整的數(shù)據(jù)庫(kù)設(shè)計(jì)方案,包含8個(gè)核心功能模塊和6張數(shù)據(jù)表,目標(biāo)是實(shí)現(xiàn)記賬、流水統(tǒng)計(jì)等功能。


      此外,它還規(guī)劃了開發(fā)流程,除了打造每個(gè)具體組件之外,DeepSeek-V4-Pro也計(jì)劃在開發(fā)結(jié)束后自主進(jìn)行驗(yàn)證,并列出10項(xiàng)驗(yàn)證的清單,考慮得較為周到。

      之后,我們就完全放手讓DeepSeek-V4-Pro自主執(zhí)行任務(wù),它連續(xù)編程了接近60分鐘,期間沒有出現(xiàn)中斷或者死循環(huán),也沒有遺漏關(guān)鍵步驟,完全按照此前的規(guī)劃執(zhí)行。

      DeepSeek-V4-Pro的開發(fā)結(jié)果如下,從前端的角度來(lái)看,這一數(shù)據(jù)庫(kù)在美感層面稍有欠缺,但所有核心功能都運(yùn)轉(zhuǎn)正常。我們?cè)囍砑恿艘粭l數(shù)據(jù),沒有出現(xiàn)報(bào)錯(cuò)信息。

      在前端中,用戶可以直接完成各種自定義操作,比如新增分類,刪改數(shù)據(jù)等等。而此前我們體驗(yàn)的部分模型在這種任務(wù)上可能會(huì)把所有設(shè)置都寫死,這影響了后續(xù)的可擴(kuò)展性。


      查看后端數(shù)據(jù)庫(kù)也可以發(fā)現(xiàn),我們?cè)谇岸溯斎氲男聰?shù)據(jù)可以正常同步到數(shù)據(jù)庫(kù)后臺(tái),下圖最后兩行數(shù)據(jù),就是手動(dòng)添加的。這證明前后端之間的數(shù)據(jù)交互接口與數(shù)據(jù)傳輸鏈路均處于正常、可用的狀態(tài)。


      總體來(lái)看,在復(fù)雜數(shù)據(jù)庫(kù)開發(fā)這種綜合考察模型長(zhǎng)程規(guī)劃能力、自我糾錯(cuò)能力、長(zhǎng)上下文能力和推理能力的任務(wù)上,DeepSeek-V4-Pro的表現(xiàn)可以說(shuō)遠(yuǎn)遠(yuǎn)超過(guò)了DeepSeek-V3.2。

      不過(guò),需要注意的是,與此前DeepSeek的旗艦級(jí)模型相比,DeepSeek-V4-Pro的價(jià)格有一定幅度的上漲,跑完上述這一任務(wù)的token消耗量大概在20萬(wàn)個(gè)左右(大部分為輸入token),換算為API賬單大概是5塊錢,由于緩存機(jī)制的介入,價(jià)格還算可以接受。

      任務(wù)2:從零開始打造安卓模擬器,代碼、環(huán)境全程包辦

      我們的下一個(gè)任務(wù)挑戰(zhàn)更大:讓DeepSeek-V4-Pro從零開始打造一個(gè)安卓模擬器。

      這一任務(wù)的復(fù)雜程度似乎已經(jīng)超出DeepSeek-V4-Pro的知識(shí)范圍了,于是它決定開啟聯(lián)網(wǎng)搜索,查詢配套工具、參考架構(gòu)等等,進(jìn)行了18次工具調(diào)用。


      在足足思考了11分鐘之后,DeepSeek-V4-Pro才開始動(dòng)筆寫開發(fā)計(jì)劃,它還自我評(píng)價(jià)道:“很好,Plan Agent輸出了很全面的架構(gòu),我現(xiàn)在開始寫完整架構(gòu)。”此時(shí),已經(jīng)燒了8000多個(gè)token。


      不過(guò)這種token消耗并非浪費(fèi),通過(guò)更為全面的規(guī)劃,DeepSeek-V4-Pro讓我們?cè)緲O為簡(jiǎn)單的提示詞變得更加體系化,有助于后續(xù)的開發(fā)。


      最終,DeepSeek-V4-Pro的計(jì)劃是七步走完成開發(fā),包含框架搭建、圖像管理模塊設(shè)計(jì)、VNC顯示插件、完整GUI開發(fā)、APK安裝功能、打包和debug。


      這一項(xiàng)目的規(guī)模確實(shí)有點(diǎn)大,DeepSeek-V4-Pro連續(xù)跑了50多分鐘才完成。


      我把后續(xù)的調(diào)試和環(huán)境依賴安裝工作也交給了DeepSeek-V4-Pro。執(zhí)行過(guò)程中,DeepSeek-V4-Pro缺了什么資源就會(huì)調(diào)動(dòng)搜索工具,直接搜索到對(duì)應(yīng)鏈接進(jìn)行下載,也能通過(guò)命令行幫我解壓、安裝相關(guān)環(huán)境,徹底解放雙手。


      DeepSeek-V4-Pro又工作了20多分鐘,把活全部都干完了。不過(guò),最后這一模擬器未能成功運(yùn)行,截至發(fā)稿,DeepSeek還在幫我debug。


      二、實(shí)測(cè)復(fù)雜推理,被IMO難題打入死循環(huán)

      除了智能體、編程能力之外,DeepSeek-V4在推理方面的提升也值得關(guān)注。

      DeepSeek官方稱,DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個(gè)模型的推理能力接近。在下方這幾道邏輯和推理題目中,我們便同時(shí)測(cè)試了兩個(gè)模型。

      任務(wù)1:解答海龜湯,Pro反而比Flash要快?

      我們向DeepSeek發(fā)送的題目如下。這種題目的考察難點(diǎn)主要不在“謎面有多復(fù)雜”,而在于模型如何突破常見的思維慣性。


      先來(lái)看看DeepSeek-V4-Pro的解題過(guò)程。DeepSeek-V4-Pro用時(shí)33秒就便推理出正確答案,思考過(guò)程簡(jiǎn)潔清晰。


      DeepSeek-V4-Flash的推理速度反而更慢,耗時(shí)61秒,輸出的結(jié)果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過(guò)程有些冗余,多了不少反復(fù)的確認(rèn)與自我質(zhì)疑。


      任務(wù)2:實(shí)測(cè)IMO難題,F(xiàn)lash答錯(cuò)、Pro死循環(huán)了

      解答數(shù)學(xué)題也是DeepSeek的老傳統(tǒng)之一了。此次,DeepSeek稱V4-Pro的數(shù)學(xué)能力在測(cè)評(píng)中超過(guò)了所有已公開測(cè)評(píng)的開源模型,比肩世界頂級(jí)閉源模型。

      我們拿去年IMO的題目考了考DeepSeek,關(guān)閉聯(lián)網(wǎng)開啟推理,讓模型完全靠自己解決問(wèn)題。這張高糊的題目也考察了DeepSeek網(wǎng)頁(yè)服務(wù)中OCR的能力,我們檢查了下,識(shí)別結(jié)果都是正確的。


      這道題目讓兩個(gè)模型都思考了很久很久,似乎陷入了無(wú)盡的循環(huán)。DeepSeek-V4-Flash最后給出答案,但是是錯(cuò)誤的。DeepSeek-V4-Pro跑了10多分鐘,沒有明顯進(jìn)展,最后我們手動(dòng)中斷了思考。


      三、輕量級(jí)測(cè)試題集錦:洗車店問(wèn)題竟意外難倒V4-Pro

      上述案例都比較硬核,接下來(lái)我們看幾個(gè)輕松點(diǎn)的案例。

      首先是大家喜聞樂(lè)見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關(guān)閉聯(lián)網(wǎng)和思考的模式下解答。

      DeepSeek-V4-Flash給出了正確答案,它覺得這個(gè)問(wèn)題太簡(jiǎn)單了,語(yǔ)氣中滿是嘲諷。


      DeepSeek-V4-Pro的思路則有些清奇,它建議我們把車推過(guò)去,認(rèn)為“這種方案對(duì)車最好,省去冷啟動(dòng)磨損”,還補(bǔ)充道“推過(guò)去是愛車的極致表現(xiàn),直接開過(guò)去是最不劃算的方式。”

      后來(lái)我們又給了DeepSeek-V4-Pro幾次機(jī)會(huì),它給出正確答案的概率還是高一些,但偶爾還是會(huì)因?yàn)檫^(guò)度思考而把自己繞進(jìn)陷阱。


      鵜鶘騎自行車的SVG,DeepSeek-V4-Flash就可以輕松拿下,結(jié)果基本完美:


      像是網(wǎng)頁(yè)小游戲這樣的題目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現(xiàn)其實(shí)都不太好,F(xiàn)lash打造的結(jié)果根本無(wú)法渲染,Pro打造的雖然渲染成功,但基本不可玩。


      在這些“Toy Case”上,DeepSeek似乎沒有花太多精力進(jìn)行針對(duì)性的優(yōu)化。

      結(jié)語(yǔ):DeepSeek-V4,又一次定義開源模型的上限

      DeepSeek-V4系列模型確實(shí)帶來(lái)了驚喜,尤其是在智能體編程方面,其長(zhǎng)程規(guī)劃與執(zhí)行能力令人印象深刻。其基準(zhǔn)測(cè)試也基本回應(yīng)了AI圈對(duì)DeepSeek的期待,拿下了多項(xiàng)開源SOTA。

      DeepSeek的開源不只是把模型權(quán)重開放出來(lái),在某種意義上,也是將訓(xùn)練1.6T超大規(guī)模模型所需的算力、資金乃至工程經(jīng)驗(yàn)一并“開源”給了整個(gè)社區(qū)。這一選擇值得敬意。

      可以預(yù)見,隨著后續(xù)迭代優(yōu)化,DeepSeek-V4有望持續(xù)進(jìn)化,成為開源AI生態(tài)中一個(gè)兼具性能與活力的基座模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      爺爺過(guò)世請(qǐng)假奔喪被公司開除,法院判了

      爺爺過(guò)世請(qǐng)假奔喪被公司開除,法院判了

      極目新聞
      2026-05-01 17:05:11
      微軟官方定調(diào):32GB內(nèi)存才是Win11無(wú)憂標(biāo)配 16GB僅算底線

      微軟官方定調(diào):32GB內(nèi)存才是Win11無(wú)憂標(biāo)配 16GB僅算底線

      快科技
      2026-05-01 14:15:05
      阿司匹林和他汀,什么時(shí)間吃最合適?早知道,早受益!

      阿司匹林和他汀,什么時(shí)間吃最合適?早知道,早受益!

      健康之光
      2026-04-08 17:32:59
      當(dāng)年為什么查辦褚時(shí)健?

      當(dāng)年為什么查辦褚時(shí)健?

      百曉生談歷史
      2025-08-20 21:55:53
      一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

      一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

      川渝視覺
      2026-04-25 20:19:24
      實(shí)力說(shuō)話!澤連斯基態(tài)度突變非常強(qiáng)勢(shì)

      實(shí)力說(shuō)話!澤連斯基態(tài)度突變非常強(qiáng)勢(shì)

      名人茍或
      2026-04-30 22:35:43
      掘金最該送走他!1.2億場(chǎng)均8+3,約基奇體系的產(chǎn)物,都不如肯納德

      掘金最該送走他!1.2億場(chǎng)均8+3,約基奇體系的產(chǎn)物,都不如肯納德

      你的籃球頻道
      2026-05-01 14:36:23
      員工離職后遵守競(jìng)業(yè)協(xié)議兩年未工作,公司不支付補(bǔ)償被判賠

      員工離職后遵守競(jìng)業(yè)協(xié)議兩年未工作,公司不支付補(bǔ)償被判賠

      新京報(bào)
      2026-04-30 22:00:23
      五一檔電影:10間敢死隊(duì)全差評(píng),寒戰(zhàn)1994拉胯,沒想到這部爆冷

      五一檔電影:10間敢死隊(duì)全差評(píng),寒戰(zhàn)1994拉胯,沒想到這部爆冷

      往史過(guò)眼云煙
      2026-05-01 19:28:30
      300663,立案!影響6萬(wàn)股民

      300663,立案!影響6萬(wàn)股民

      中國(guó)基金報(bào)
      2026-05-01 19:55:51
      1978年起陳云地位迅速上升,跨越多級(jí)“臺(tái)階”,背后原因何在

      1978年起陳云地位迅速上升,跨越多級(jí)“臺(tái)階”,背后原因何在

      鶴羽說(shuō)個(gè)事
      2026-04-30 22:47:23
      網(wǎng)友妹子因?yàn)榧依锏呢埨鲜瞧茐亩嗳鉀Q定棄養(yǎng)了,網(wǎng)友剛想開罵,看完送養(yǎng)信息后直接笑出了聲哈哈哈!

      網(wǎng)友妹子因?yàn)榧依锏呢埨鲜瞧茐亩嗳鉀Q定棄養(yǎng)了,網(wǎng)友剛想開罵,看完送養(yǎng)信息后直接笑出了聲哈哈哈!

      拜見喵主子
      2026-05-01 19:39:30
      爛泥扶不上墻!曝王思聰除了閃閃還有一私生子,人在英國(guó)已十幾歲

      爛泥扶不上墻!曝王思聰除了閃閃還有一私生子,人在英國(guó)已十幾歲

      小娛樂(lè)悠悠
      2026-04-30 09:14:30
      血本無(wú)歸!14年伙伴怒揭真相:許家印不瞎搞,本可全身而退

      血本無(wú)歸!14年伙伴怒揭真相:許家印不瞎搞,本可全身而退

      石辰搞笑日常
      2026-04-30 15:03:38
      女朋友很性感身材很棒是啥體驗(yàn)?網(wǎng)友:確實(shí),一個(gè)月就差不多膩了

      女朋友很性感身材很棒是啥體驗(yàn)?網(wǎng)友:確實(shí),一個(gè)月就差不多膩了

      帶你感受人間冷暖
      2026-03-13 00:13:17
      2006年,北京挖出龍袍干尸,留明朝發(fā)髻卻穿大清龍袍,他是誰(shuí)?

      2006年,北京挖出龍袍干尸,留明朝發(fā)髻卻穿大清龍袍,他是誰(shuí)?

      墨策史
      2026-04-29 11:56:13
      車載馬桶,屎無(wú)前例的創(chuàng)新

      車載馬桶,屎無(wú)前例的創(chuàng)新

      難得君
      2026-05-01 18:05:01
      直降1400元!iPhone 17 Pro Max 降價(jià),上市以來(lái)新低

      直降1400元!iPhone 17 Pro Max 降價(jià),上市以來(lái)新低

      科技堡壘
      2026-04-30 09:34:03
      江蘇正式進(jìn)入汛期!5月2日雨水登場(chǎng),局部中到大雨

      江蘇正式進(jìn)入汛期!5月2日雨水登場(chǎng),局部中到大雨

      揚(yáng)子晚報(bào)
      2026-05-01 20:56:12
      殺瘋了!2026款豐田凱美瑞,從17萬(wàn)多降到11萬(wàn)多,還要啥大眾速騰?

      殺瘋了!2026款豐田凱美瑞,從17萬(wàn)多降到11萬(wàn)多,還要啥大眾速騰?

      隔壁說(shuō)車?yán)贤?/span>
      2026-05-01 06:29:12
      2026-05-02 00:52:49
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)變革。
      11742文章數(shù) 117060關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek發(fā)布多模態(tài)論文又連夜刪除

      頭條要聞

      美國(guó)也搞起"人肉代購(gòu)" "去墨西哥買中國(guó)車"教程瘋傳

      頭條要聞

      美國(guó)也搞起"人肉代購(gòu)" "去墨西哥買中國(guó)車"教程瘋傳

      體育要聞

      無(wú)奈!約基奇:這要在塞爾維亞 全隊(duì)早被炒了

      娛樂(lè)要聞

      馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

      財(cái)經(jīng)要聞

      GPU神話松動(dòng),AI真正的戰(zhàn)場(chǎng)變了

      汽車要聞

      限時(shí)9.67萬(wàn)起 吉利星越L/星瑞i-HEV智擎混動(dòng)上市

      態(tài)度原創(chuàng)

      親子
      數(shù)碼
      藝術(shù)
      公開課
      軍事航空

      親子要聞

      教孩子預(yù)防侵犯,分辨危險(xiǎn)身體觸碰并且拒絕!

      數(shù)碼要聞

      原相光學(xué)鼠標(biāo)傳感器新品PAW3955將至,VGN、阿斯盾官宣采用

      藝術(shù)要聞

      畫畫的你絕不能錯(cuò)過(guò)!色塊與筆觸的激情之旅!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:持續(xù)推進(jìn)海上封鎖的行為不可容忍

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色噜噜狠狠色综合日日| 日本乱码在线| 免费看成人欧美片爱潮app| 中文字幕亚洲情99在线| 精品少妇人妻av无码久久| 日韩不卡一区二区在线观看| 91在线精品视频| 欧美激情一区二区久久久| 玖玖资源 av在线 亚洲| 国产成人精选视频在线观看| 国产国产+人+综| 呼图壁县| 操国产美女| 特级做a爰片毛片免费看| 亚洲怡春院| 99r精品| 亚洲夫妻性生活视频网站| 久久精品人人做人人综合| 国产成人精品视频不卡| 亚洲最大成人综合网| 性做久久久久久| 久久综合成人精品亚洲另类欧美| 敦化市| 午夜dj免费视频观看社区| 日韩在线第三页| 国产无遮挡猛进猛出免费| 五月天网址| 狠狠五月天中文字幕| 国产目拍亚洲精品区一区| 久久国产精品久久w女人spa| 亚洲欧洲中文日韩乱码av| 弥勒县| 狼友av永久网站免费观看 | 女人与公拘交的视频手机版| 欧美人与动牲交欧美精品| 色老头在线一区二区三区| 国产成人亚洲日韩欧美婷婷亚片| 无遮挡边吃摸边吃奶边做| 国产精品成人av片免费看| 国产亚欧女人天堂AV在线| 亚洲美女又黄又爽在线观看|