網易首頁 > 網易號 > 正文申請入駐

AI 最卷的一周，常識正在崩塌｜Hunt Good 周報

2026-04-26 09:47:36　來源: AppSo

廣東舉報

分享至

這一周讓我真正不安的，不是哪個 Benchmark 又被刷新了，這榜單每天都在刷新，已經麻了。

讓我不安的是，我發現自己打開朋友圈看到一張截圖，第一反應不再是「這事兒真的假的」，而是「這圖保真嗎」。

圖源：小紅書@ZOTAS

連懷疑的對象都變了。以前我們懷疑信息，現在我們懷疑載體本身，懷疑一切。

與此同時，這周Anthropic 和 OpenAI 的纏斗進入白熱化，國產模型一天發一個，你甚至來不及搞清楚上一個模型叫什么名字，下一個就已經上線了。仿佛所有事在同時加速，而你站在原地，腳底下的地板在動。

我不知道該怎么定義這種感覺。說焦慮太輕了，說恐懼又太重了。大概就是一種持續的、低烈度的失重。你知道世界沒塌，但你也發現，你腳下踩的那些東西，正在一個一個變得不可靠。

我們正在以一種我們尚未完全準備好的速度，告別我們以為是常識的東西。

DeepSeek 發布 V4 的推文最后引了一句荀子：不誘于譽，不恐于誹，率道而行，端然正己。

在每周都在改變規則、刷新認知的世界里，這種不慌不忙，甚至主動慢下來的淡定，實在是太令人羨慕了。

一周時間，足夠讓一張截圖變得十分可疑

GPT Image 2 在 4 月 21 日上線那天，我把幾張圖發給朋友，讓他挑一張真的。他認真看了幾分鐘，挑了一張，結果挑錯了。

那一刻有點尷尬，也有點可怕。

這是 OpenAI 第一次把推理能力裝進圖像模型。Arena 文生圖榜單上，它拿了 1512 分，比第二名 Nano Banana 2 高出整整 242 分，是這個榜單歷史上最大的差距。Arena 創始人 @ml_angelopoulos 看完后說了一句 literally broke the chart。

過去 AI 生圖最難拿下文字渲染，這次直接做到了 99% 的準確率。中日韓文字、UI 截圖、餐廳菜單、考試卷、聊天記錄、醫院叫號屏，所有這些過去能讓 AI 一秒露餡的東西，現在一句 prompt 直出，肉眼幾乎無法分辨。

與此同時，社交平臺上開始流傳一張 AI 生成的、庫克即將出任小米汽車 CEO 的官宣圖，小米集團董事長特別助理、戰略市場部副總經理徐潔云回應表示：亂 P 圖不可取，可不興這么亂開玩笑。

辨別一張圖是不是 AI 生成的成本，第一次系統性地高于這張圖本身能帶來的價值。絕大多數人會從理性上放棄辨別。2023 年就有人預言過，那時大家還嗤之以鼻，覺得 AI 生成的東西一眼假，怎么可能看不出來。三年時間，這個臨界點就真的到了。

OpenAI 的應對方案是 C2PA 元數據水印加上溯源分類器。產品負責人 Adele Li 在發布會上承認，元數據 is not a silver bullet。截圖、裁剪、平臺壓縮，任何一步都可能讓水印失效。Google 的 SynthID 雖然把水印嵌到像素層面，更難去除，但只有 Google 自己玩，跨平臺不兼容。

坦率講，目前沒有任何一種技術手段能可靠檢測一張圖是不是 AI 生成的。

以前我們打開手機，看到一張截圖、一張照片、一份紅頭文件，默認它是真的，懷疑它需要理由；現在我們默認它是假的，相信它需要理由。

AI「御三家」，一邊大戰，一邊沉默

Image 2 當然是 OpenAI 這周最響的一炮。但要理解它為什么發得這么急，或許得回頭看一條這周較冷一點的新聞：Anthropic 在私募二級市場的隱含估值，越過了一萬億美元。

三個月前，Anthropic 的 G 輪估值是 3800 億美元。Forge Global 現在的報價穩定在 1 萬億美元左右，OpenAI 在同平臺是 8800 億。有股東掛牌的對應估值是 1.15 萬億，有大型成長基金以 1.05 萬億美元的估值發起收購意向。

OpenHome 的創始人 Jesse Leimgruber 在 X 上看完說「這簡直太瘋狂了」。Rainmaker Securities 的 CEO Glen Anderson 收到一份 9600 億美元估值的報價，他說，幾周前根本沒人會設想這個價格。

企業支出管理平臺 Ramp 的數據顯示，2026 年 3 月，企業首次購買 AI 服務的新增資金里，73% 流向了 Anthropic，OpenAI 的份額降到 27%。僅僅 10 周前，這個比例還是 50:50。

Anthropic 的核心武器是 Claude Code，年化收入超過 25 億美元，自 2026 年初以來翻了一番還多，企業訂閱用戶數量增長了四倍。

OpenAI 沒有沉默。這周，奧特曼連續發了兩記反擊拳。

先是 Image 2 在周二把整個 Image Arena 橫掃第一，把谷歌死守了大半年的 Nano Banana Pro 榜一帶走。緊接著周三晚上，GPT-5.5 上線，代號 Spud，距離 GPT-5.4 不到兩個月。在 Artificial Analysis 的 Coding Index 上，5.5 以前沿編程模型一半的成本拿下了 SOTA，token 效率顯著高過 5.4。

OpenAI co-founder Greg Brockman 在媒體電話會上把它定義為「邁向更具 agentic 性、更直覺化計算的一大步」。Bloomberg 稱 OpenAI 正在追趕 Anthropic 的企業市場。

但二級市場的報價并沒有立刻回頭。

一個原因是 OpenAI 已經被市場討論得太充分，ChatGPT 的用戶規模、多模態布局、企業產品線，所有牌均已攤在桌上，認知紅利被消化得差不多。

另一個原因是：投資人的判斷標準是「誰能進入高頻、高付費、可驗證的工作流」。Claude Code 是這一切的最佳樣本，而 ChatGPT 還在向上疊各種花哨的多模態。Image 2 當然驚艷，問題是它能不能像 Claude Code 那樣把每一個企業用戶每月的幾百美元訂閱費穩穩地收上來。

更隱秘的輸家其實是 Gemini。Image 2 之前，Nano Banana Pro 在生圖榜單領跑了大半年，Coding Index 里 Gemini 3.1 Pro 也是頭部位置。

這周一戰之后，Gemini 在兩條它原本最有把握的賽道上同時被壓住：圖像被 Image 2 大幅度甩開，編程被 Claude Opus 4.6/4.7 反復壓制。

AI「御三家」里，Gemini 是這周最沉默的一家。

?♂? 與此同時，國產模型一字排開

外部巨頭打成這樣，國內廠商也沒在睡覺。整個 4 月下旬這一周，中國大模型基本是一天一發。

Qwen 3.6 Max-Preview，阿里把旗艦塞進了預覽版

4 月 20 日下午，阿里發布了 Qwen 3.6 Max-Preview。它是千問系列下一代旗艦模型的早期版本，對應的是月初已經登頂國產編程榜的 Qwen 3.6-Plus 之后的進一步抬升。

SkillsBench 上比 Plus 高 9.9 分，SciCode 高 10.8 分，NL2Repo 高 5 分，Terminal-Bench 2.0 高 3.8 分，世界知識 SuperGPQA 高 2.3 分，QwenChineseBench 高 5.3 分。

在第三方基準測試平臺 Artificial Analysis 的追蹤里，這一版的綜合性能是國產模型第一。

值得留意的細節是，這次預覽版的核心是「智能體編程」（Agentic Programming）。阿里把編程能力當成最重要的旗艦指標，背后的邏輯和 Anthropic 是一樣的：編程是 AI 應用里商業化路徑最清晰、付費意愿最強的領域，在這條賽道領先，就能在企業市場里收到真金白銀。

Qwen 3.6 Plus 4 月初發布當天，OpenRouter 日榜單日 Token 消耗就破了 1.4 萬億，平臺歷史紀錄。

Kimi K2.6，月之暗面把蜂群規模做到了 300

4 月 20 日晚上，月之暗面把 Kimi K2.6 正式開源上線。它仍然是萬億參數 MoE。

Agent Swarm 的規模從上一代的 100 拉到了 300。一次復雜任務里，K2.6 可以瞬間動態創建并指揮 300 個子智能體并行工作，單次最多支持 1500 次工具調用。

月之暗面自己的 RL 基礎設施團隊拿 K2.6 跑了一個連續 5 天自主運行的 Agent，負責系統監控、故障響應和系統運維全流程，期間沒有人工干預。

K2.6 的實測案例里，模型在 Mac 上下載并部署了 Qwen 3.5-0.8B，用小眾的 Zig 語言重寫推理引擎，連續工作 12 小時，4000 多次工具調用，迭代 14 輪，把吞吐量從 15 tokens/s 推到 193 tokens/s，比 LM Studio 快 20%。

一個 AI 說了什么，另一個 AI 直接讀到。

API 價格也漲了。輸入價格從 K2.5 的 0.6 美元/百萬 token 漲到 0.95，幅度 58%。輸出價格從 3 美元漲到 4，幅度 33%。

小米 MiMo V2.5，第一家手機廠商登頂全球開源榜

4 月 23 日凌晨，小米把 MiMo V2.5 系列開啟公測，包含基座 V2.5、旗艦 V2.5-Pro、TTS 系列和 ASR。

同一天，權威榜單 Artificial Analysis 的最新結果顯示，MiMo V2.5-Pro 的綜合智能指數位列全球開源大模型并列第一，躋身全球大模型總榜前五。Agent 專項指數開源第一。

這是小米自研大模型第一次拿到全球開源第一，也是第一家做到這件事的手機廠商。

研發負責人是前 DeepSeek 核心成員羅福莉，從 12 月開源 MiMo V2-Flash，3 月發布 V2 系列，到 4 月 V2.5-Pro 登頂，節奏比小米手機的發布節奏還快。模型走的是 MoE，總參數 309B，激活只有 15B，單 token 推理成本是國際閉源旗艦的 2.5%。

在 OpenRouter 周榜上，MiMo V2-Pro 單周調用量 4.82 萬億 token，30% 市占率第一。中國模型總調用量已經連續五周超過美國，占比 61%。

小米給出的極端跑分案例是：僅憑幾句簡單指令構建一個視頻編輯器 Web 應用，V2.5-Pro 在 11.5 小時的自主工作里，1868 次工具調用，最終交付 8192 行代碼，多軌道時間線、片段裁剪、交叉淡化、音頻混合、導出流程一應俱全。

北大《編譯原理》課程項目，Rust 從零實現完整 SysY 編譯器，本科生通常需要數周，V2.5-Pro 用了 4.3 小時、672 次工具調用，隱藏測試集 233 分滿分。

Hy3 Preview，姚順雨在騰訊的首秀

4 月 23 日下午，騰訊混元的 Hy3 Preview 正式亮相。這是首席 AI 科學家姚順雨主導的第一個模型，從他去年年底加入騰訊到 1 月底啟動訓練，再到這周上線，正好三個月。

模型本身是一個快慢思考融合的 MoE，總參數 295B，激活 21B，最大支持 256K 上下文。

姚順雨在騰訊內部會上的判斷是：模型過度追逐榜單成績，把打榜語料放進訓練集，數據被污染了。模型很會答題，到了真實場景卻不穩定。榜單衡量的是能力上限，用戶感知的是能力下限。MMLU 上領先兩個百分點，用戶在實際使用中幾乎感知不到；反過來，指令遵循稍差、格式不穩定、幻覺率偏高，用戶體驗會斷崖式下降。

所以 Hy3 的目標是騰訊自己的場景。

Hy3 Preview 已經在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔首發，微信公眾號、和平精英、騰訊新聞等更多主線產品在陸續接入。

我們讓 Hy3 Preview 寫一個舊金山金門大橋的交互式 3D 體驗，整體流暢度過得去，視覺細節差點意思但不影響導航。讓它寫一個等距視角的主題公園經營游戲，UI 還是免不了「漸變紫」的套路，但游戲能玩。

在 WorkBuddy 這種本地 Agent 產品里，讓它讀取本地文件夾生成 Wiki、把 PDF 轉 HTML、做聯合國人口數據可視化，給出的結果都接近能直接拿來用的水準。

DeepSeek V4，盼了三個月，終于來了

DeepSeek V4 預覽版正式上線，并同步開源。

1.6 萬億參數。這是目前國產開源模型最大的參數規模，把 Kimi 上周的 1 萬億壓了下去。

但 DeepSeek 在技術報告里把 V4 定義為一次基礎設施級別的發布，核心目標是把長上下文的成本結構打散重建。1M 上下文從這一刻起是 DeepSeek 所有官方服務的標配，不再是高級功能。

關鍵的技術變化在注意力機制。V4 把 Compressed Sparse Attention 和 Heavily Compressed Attention 結合起來。在 1M token 上下文場景下，V4-Pro 相比 V3.2 只需要 27% 的單 token 推理 FLOPs 和 10% 的 KV cache。同樣的顯卡和顯存，可以處理多得多的請求。

V4-Pro 在數學、STEM 和競賽級代碼評測上超越所有公開開源模型，世界知識評測大幅領先開源模型，僅稍遜于 Google Gemini。

Agent 評測上，四款對比模型在 SWE Verified 上打成平手 80.6%，DeepSeek 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）兩項工具調用與復雜指令執行測試中突出。

官方對 V4-Pro 的 Agent 能力定位是：使用體驗優于 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，仍與 Opus 4.6 思考模式有一定差距。技術文檔里 DeepSeek 表示，內部已經在實際編碼工作中用 V4 替換了 Claude。

V4-Flash 輸入緩存命中 0.2 元、未命中 1 元、輸出 2 元每百萬 token；V4-Pro 是 1 元、12 元、24 元。Flash 這個價格直接把百萬上下文模型的門檻拉到了地板價。

官方還特別提到，V4-Pro 服務吞吐目前有限，等下半年華為昇騰 950 超節點批量上市后，Pro 價格會大幅下跌——是的，V4 這次跑在華為昇騰上。

也就是說， DeepSeek 沒有給英偉達或 AMD 提前優化適配的機會，而是把早期訪問權限獨家開放給了國產芯片廠商。這意味著，國產模型在「去英偉達化」邁出了重要的一步。

發布推文的最后寫道：「不誘于譽，不恐于誹，率道而行，端然正己」，出自《荀子·非十二子》。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.