這一周讓我真正不安的,不是哪個 Benchmark 又被刷新了,這榜單每天都在刷新,已經麻了。
讓我不安的是,我發現自己打開朋友圈看到一張截圖,第一反應不再是「這事兒真的假的」,而是「這圖保真嗎」。
![]()
圖源:小紅書@ZOTAS
連懷疑的對象都變了。以前我們懷疑信息,現在我們懷疑載體本身,懷疑一切。
與此同時,這周Anthropic 和 OpenAI 的纏斗進入白熱化,國產模型一天發一個,你甚至來不及搞清楚上一個模型叫什么名字,下一個就已經上線了。仿佛所有事在同時加速,而你站在原地,腳底下的地板在動。
我不知道該怎么定義這種感覺。說焦慮太輕了,說恐懼又太重了。大概就是一種持續的、低烈度的失重。你知道世界沒塌,但你也發現,你腳下踩的那些東西,正在一個一個變得不可靠。
我們正在以一種我們尚未完全準備好的速度,告別我們以為是常識的東西。
DeepSeek 發布 V4 的推文最后引了一句荀子:不誘于譽,不恐于誹,率道而行,端然正己。
在每周都在改變規則、刷新認知的世界里,這種不慌不忙,甚至主動慢下來的淡定,實在是太令人羨慕了。
一周時間,足夠讓一張截圖變得十分可疑
GPT Image 2 在 4 月 21 日上線那天,我把幾張圖發給朋友,讓他挑一張真的。他認真看了幾分鐘,挑了一張,結果挑錯了。
那一刻有點尷尬,也有點可怕。
![]()
這是 OpenAI 第一次把推理能力裝進圖像模型。Arena 文生圖榜單上,它拿了 1512 分,比第二名 Nano Banana 2 高出整整 242 分,是這個榜單歷史上最大的差距。Arena 創始人 @ml_angelopoulos 看完后說了一句 literally broke the chart。
![]()
過去 AI 生圖最難拿下文字渲染,這次直接做到了 99% 的準確率。中日韓文字、UI 截圖、餐廳菜單、考試卷、聊天記錄、醫院叫號屏,所有這些過去能讓 AI 一秒露餡的東西,現在一句 prompt 直出,肉眼幾乎無法分辨。
與此同時,社交平臺上開始流傳一張 AI 生成的、庫克即將出任小米汽車 CEO 的官宣圖,小米集團董事長特別助理、戰略市場部副總經理徐潔云回應表示:亂 P 圖不可取,可不興這么亂開玩笑。
![]()
辨別一張圖是不是 AI 生成的成本,第一次系統性地高于這張圖本身能帶來的價值。絕大多數人會從理性上放棄辨別。2023 年就有人預言過,那時大家還嗤之以鼻,覺得 AI 生成的東西一眼假,怎么可能看不出來。三年時間,這個臨界點就真的到了。
OpenAI 的應對方案是 C2PA 元數據水印加上溯源分類器。產品負責人 Adele Li 在發布會上承認,元數據 is not a silver bullet。截圖、裁剪、平臺壓縮,任何一步都可能讓水印失效。Google 的 SynthID 雖然把水印嵌到像素層面,更難去除,但只有 Google 自己玩,跨平臺不兼容。
坦率講,目前沒有任何一種技術手段能可靠檢測一張圖是不是 AI 生成的。
以前我們打開手機,看到一張截圖、一張照片、一份紅頭文件,默認它是真的,懷疑它需要理由;現在我們默認它是假的,相信它需要理由。
![]()
AI「御三家」,一邊大戰,一邊沉默
Image 2 當然是 OpenAI 這周最響的一炮。但要理解它為什么發得這么急,或許得回頭看一條這周較冷一點的新聞:Anthropic 在私募二級市場的隱含估值,越過了一萬億美元。
三個月前,Anthropic 的 G 輪估值是 3800 億美元。Forge Global 現在的報價穩定在 1 萬億美元左右,OpenAI 在同平臺是 8800 億。有股東掛牌的對應估值是 1.15 萬億,有大型成長基金以 1.05 萬億美元的估值發起收購意向。
OpenHome 的創始人 Jesse Leimgruber 在 X 上看完說「這簡直太瘋狂了」。Rainmaker Securities 的 CEO Glen Anderson 收到一份 9600 億美元估值的報價,他說,幾周前根本沒人會設想這個價格。
![]()
企業支出管理平臺 Ramp 的數據顯示,2026 年 3 月,企業首次購買 AI 服務的新增資金里,73% 流向了 Anthropic,OpenAI 的份額降到 27%。僅僅 10 周前,這個比例還是 50:50。
![]()
Anthropic 的核心武器是 Claude Code,年化收入超過 25 億美元,自 2026 年初以來翻了一番還多,企業訂閱用戶數量增長了四倍。
OpenAI 沒有沉默。這周,奧特曼連續發了兩記反擊拳。
先是 Image 2 在周二把整個 Image Arena 橫掃第一,把谷歌死守了大半年的 Nano Banana Pro 榜一帶走。緊接著周三晚上,GPT-5.5 上線,代號 Spud,距離 GPT-5.4 不到兩個月。在 Artificial Analysis 的 Coding Index 上,5.5 以前沿編程模型一半的成本拿下了 SOTA,token 效率顯著高過 5.4。
![]()
OpenAI co-founder Greg Brockman 在媒體電話會上把它定義為「邁向更具 agentic 性、更直覺化計算的一大步」。Bloomberg 稱 OpenAI 正在追趕 Anthropic 的企業市場。
但二級市場的報價并沒有立刻回頭。
一個原因是 OpenAI 已經被市場討論得太充分,ChatGPT 的用戶規模、多模態布局、企業產品線,所有牌均已攤在桌上,認知紅利被消化得差不多。
另一個原因是:投資人的判斷標準是「誰能進入高頻、高付費、可驗證的工作流」。Claude Code 是這一切的最佳樣本,而 ChatGPT 還在向上疊各種花哨的多模態。Image 2 當然驚艷,問題是它能不能像 Claude Code 那樣把每一個企業用戶每月的幾百美元訂閱費穩穩地收上來。
更隱秘的輸家其實是 Gemini。Image 2 之前,Nano Banana Pro 在生圖榜單領跑了大半年,Coding Index 里 Gemini 3.1 Pro 也是頭部位置。
這周一戰之后,Gemini 在兩條它原本最有把握的賽道上同時被壓住:圖像被 Image 2 大幅度甩開,編程被 Claude Opus 4.6/4.7 反復壓制。
AI「御三家」里,Gemini 是這周最沉默的一家。
?♂? 與此同時,國產模型一字排開
外部巨頭打成這樣,國內廠商也沒在睡覺。整個 4 月下旬這一周,中國大模型基本是一天一發。
Qwen 3.6 Max-Preview,阿里把旗艦塞進了預覽版
4 月 20 日下午,阿里發布了 Qwen 3.6 Max-Preview。它是千問系列下一代旗艦模型的早期版本,對應的是月初已經登頂國產編程榜的 Qwen 3.6-Plus 之后的進一步抬升。
![]()
SkillsBench 上比 Plus 高 9.9 分,SciCode 高 10.8 分,NL2Repo 高 5 分,Terminal-Bench 2.0 高 3.8 分,世界知識 SuperGPQA 高 2.3 分,QwenChineseBench 高 5.3 分。
![]()
在第三方基準測試平臺 Artificial Analysis 的追蹤里,這一版的綜合性能是國產模型第一。
值得留意的細節是,這次預覽版的核心是「智能體編程」(Agentic Programming)。阿里把編程能力當成最重要的旗艦指標,背后的邏輯和 Anthropic 是一樣的:編程是 AI 應用里商業化路徑最清晰、付費意愿最強的領域,在這條賽道領先,就能在企業市場里收到真金白銀。
Qwen 3.6 Plus 4 月初發布當天,OpenRouter 日榜單日 Token 消耗就破了 1.4 萬億,平臺歷史紀錄。
Kimi K2.6,月之暗面把蜂群規模做到了 300
4 月 20 日晚上,月之暗面把 Kimi K2.6 正式開源上線。它仍然是萬億參數 MoE。
![]()
Agent Swarm 的規模從上一代的 100 拉到了 300。一次復雜任務里,K2.6 可以瞬間動態創建并指揮 300 個子智能體并行工作,單次最多支持 1500 次工具調用。
月之暗面自己的 RL 基礎設施團隊拿 K2.6 跑了一個連續 5 天自主運行的 Agent,負責系統監控、故障響應和系統運維全流程,期間沒有人工干預。
K2.6 的實測案例里,模型在 Mac 上下載并部署了 Qwen 3.5-0.8B,用小眾的 Zig 語言重寫推理引擎,連續工作 12 小時,4000 多次工具調用,迭代 14 輪,把吞吐量從 15 tokens/s 推到 193 tokens/s,比 LM Studio 快 20%。
![]()
一個 AI 說了什么,另一個 AI 直接讀到。
![]()
API 價格也漲了。輸入價格從 K2.5 的 0.6 美元/百萬 token 漲到 0.95,幅度 58%。輸出價格從 3 美元漲到 4,幅度 33%。
小米 MiMo V2.5,第一家手機廠商登頂全球開源榜
4 月 23 日凌晨,小米把 MiMo V2.5 系列開啟公測,包含基座 V2.5、旗艦 V2.5-Pro、TTS 系列和 ASR。
![]()
同一天,權威榜單 Artificial Analysis 的最新結果顯示,MiMo V2.5-Pro 的綜合智能指數位列全球開源大模型并列第一,躋身全球大模型總榜前五。Agent 專項指數開源第一。
![]()
這是小米自研大模型第一次拿到全球開源第一,也是第一家做到這件事的手機廠商。
研發負責人是前 DeepSeek 核心成員羅福莉,從 12 月開源 MiMo V2-Flash,3 月發布 V2 系列,到 4 月 V2.5-Pro 登頂,節奏比小米手機的發布節奏還快。模型走的是 MoE,總參數 309B,激活只有 15B,單 token 推理成本是國際閉源旗艦的 2.5%。
在 OpenRouter 周榜上,MiMo V2-Pro 單周調用量 4.82 萬億 token,30% 市占率第一。中國模型總調用量已經連續五周超過美國,占比 61%。
小米給出的極端跑分案例是:僅憑幾句簡單指令構建一個視頻編輯器 Web 應用,V2.5-Pro 在 11.5 小時的自主工作里,1868 次工具調用,最終交付 8192 行代碼,多軌道時間線、片段裁剪、交叉淡化、音頻混合、導出流程一應俱全。
北大《編譯原理》課程項目,Rust 從零實現完整 SysY 編譯器,本科生通常需要數周,V2.5-Pro 用了 4.3 小時、672 次工具調用,隱藏測試集 233 分滿分。
Hy3 Preview,姚順雨在騰訊的首秀
4 月 23 日下午,騰訊混元的 Hy3 Preview 正式亮相。這是首席 AI 科學家姚順雨主導的第一個模型,從他去年年底加入騰訊到 1 月底啟動訓練,再到這周上線,正好三個月。
![]()
模型本身是一個快慢思考融合的 MoE,總參數 295B,激活 21B,最大支持 256K 上下文。
姚順雨在騰訊內部會上的判斷是:模型過度追逐榜單成績,把打榜語料放進訓練集,數據被污染了。模型很會答題,到了真實場景卻不穩定。榜單衡量的是能力上限,用戶感知的是能力下限。MMLU 上領先兩個百分點,用戶在實際使用中幾乎感知不到;反過來,指令遵循稍差、格式不穩定、幻覺率偏高,用戶體驗會斷崖式下降。
所以 Hy3 的目標是騰訊自己的場景。
Hy3 Preview 已經在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔首發,微信公眾號、和平精英、騰訊新聞等更多主線產品在陸續接入。
我們讓 Hy3 Preview 寫一個舊金山金門大橋的交互式 3D 體驗,整體流暢度過得去,視覺細節差點意思但不影響導航。讓它寫一個等距視角的主題公園經營游戲,UI 還是免不了「漸變紫」的套路,但游戲能玩。
在 WorkBuddy 這種本地 Agent 產品里,讓它讀取本地文件夾生成 Wiki、把 PDF 轉 HTML、做聯合國人口數據可視化,給出的結果都接近能直接拿來用的水準。
DeepSeek V4,盼了三個月,終于來了
DeepSeek V4 預覽版正式上線,并同步開源。
![]()
1.6 萬億參數。這是目前國產開源模型最大的參數規模,把 Kimi 上周的 1 萬億壓了下去。
但 DeepSeek 在技術報告里把 V4 定義為一次基礎設施級別的發布,核心目標是把長上下文的成本結構打散重建。1M 上下文從這一刻起是 DeepSeek 所有官方服務的標配,不再是高級功能。
關鍵的技術變化在注意力機制。V4 把 Compressed Sparse Attention 和 Heavily Compressed Attention 結合起來。在 1M token 上下文場景下,V4-Pro 相比 V3.2 只需要 27% 的單 token 推理 FLOPs 和 10% 的 KV cache。同樣的顯卡和顯存,可以處理多得多的請求。
V4-Pro 在數學、STEM 和競賽級代碼評測上超越所有公開開源模型,世界知識評測大幅領先開源模型,僅稍遜于 Google Gemini。
Agent 評測上,四款對比模型在 SWE Verified 上打成平手 80.6%,DeepSeek 在 Terminal Bench 2.0(67.9%)和 Toolathlon(51.8%)兩項工具調用與復雜指令執行測試中突出。
官方對 V4-Pro 的 Agent 能力定位是:使用體驗優于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,仍與 Opus 4.6 思考模式有一定差距。技術文檔里 DeepSeek 表示,內部已經在實際編碼工作中用 V4 替換了 Claude。
V4-Flash 輸入緩存命中 0.2 元、未命中 1 元、輸出 2 元每百萬 token;V4-Pro 是 1 元、12 元、24 元。Flash 這個價格直接把百萬上下文模型的門檻拉到了地板價。
![]()
官方還特別提到,V4-Pro 服務吞吐目前有限,等下半年華為昇騰 950 超節點批量上市后,Pro 價格會大幅下跌——是的,V4 這次跑在華為昇騰上。
也就是說, DeepSeek 沒有給英偉達或 AMD 提前優化適配的機會,而是把早期訪問權限獨家開放給了國產芯片廠商。這意味著,國產模型在「去英偉達化」邁出了重要的一步。
發布推文的最后寫道:「不誘于譽,不恐于誹,率道而行,端然正己」,出自《荀子·非十二子》。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.