![]()
4月24日,深度求索公司正式上線并開(kāi)源DeepSeek-V4預(yù)覽版。該模型具備百萬(wàn)字超長(zhǎng)上下文能力,在智能體、世界知識(shí)和推理性能上實(shí)現(xiàn)國(guó)內(nèi)與開(kāi)源領(lǐng)域領(lǐng)先,標(biāo)志大模型長(zhǎng)文本處理進(jìn)入新紀(jì)元。
DeepSeek-V4系列包含兩個(gè)版本:參數(shù)1.6萬(wàn)億的DeepSeek-V4-Pro和參數(shù)2840億的DeepSeek-V4-Flash。兩者均基于超大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),并將百萬(wàn)上下文作為標(biāo)準(zhǔn)配置。
性能方面,DeepSeek-V4-Pro展現(xiàn)出世界頂級(jí)水平。官方評(píng)測(cè)顯示,其在Agentic Coding評(píng)測(cè)中達(dá)開(kāi)源模型最佳水平,使用體驗(yàn)優(yōu)于Claude 3.5 Sonnet,交付質(zhì)量接近GPT-4o Opus非思考模式。在知識(shí)推理、數(shù)學(xué)、STEM和競(jìng)賽型代碼測(cè)評(píng)中,V4-Pro超越所有已公開(kāi)評(píng)測(cè)的開(kāi)源模型,成績(jī)比肩頂級(jí)閉源模型。
技術(shù)突破在于全新注意力機(jī)制,通過(guò)token維度壓縮結(jié)合DSA稀疏注意力,實(shí)現(xiàn)全球領(lǐng)先的長(zhǎng)上下文處理能力,同時(shí)大幅降低計(jì)算資源和顯存需求。
模型針對(duì)Agent能力專(zhuān)項(xiàng)優(yōu)化,深度適配Claude Code、OpenClaw等主流產(chǎn)品,在代碼任務(wù)、文檔生成方面表現(xiàn)顯著提升。官方示例顯示,V4-Pro能生成包含復(fù)雜數(shù)據(jù)表格、營(yíng)銷(xiāo)策略和排期規(guī)劃的完整PPT方案。
DeepSeek API已同步支持V4-Pro與V4-Flash,兼容OpenAI ChatCompletions和Anthropic接口。定價(jià)為:V4-Pro輸入每百萬(wàn)token 12元,輸出24元;V4-Flash輸入每百萬(wàn)token 1元,輸出2元。受限于高端算力,Pro版本服務(wù)吞吐量有限,預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后價(jià)格將大幅下調(diào)。
深度求索已在Hugging Face和ModelScope平臺(tái)開(kāi)源DeepSeek-V4模型權(quán)重并發(fā)布技術(shù)報(bào)告。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.