網易首頁 > 網易號 > 正文申請入駐

被市場低估的，不止Google ？

2026-05-19 18:56:28　來源: 陸玖商業評論

北京舉報

分享至

Google I/O 大會的熱度今年明顯更勝以往，或許不只是因為Gemini Omni的亮相，更是業界希望Gemini需要從模型能力轉化為搜索、廣告、購物和云業務的收入增長。

在Google I/O大會之前，Google甩出了一個新鮮熱乎的大招：Gemini Omni。

具體來說，Omni這次帶來了兩個“王炸”。

第一個王炸：一句話生成一段完整的教學視頻，如果你把Omni當成 Veo 系列的簡單延續，那就錯了。

Google展示了一個例子——用戶只輸入了一條指令：

“一位教授在傳統黑板上寫出三角恒等式的數學證明，同時用語言解釋他當前正在推導的步驟。”

沒有多輪對話，不用分步驟指揮，一次性搞定了三件事：

空間關系：手該怎么拿粉筆、寫在哪里；

文字內容：公式寫對了沒有；

推理邏輯：推導到了哪一步、該說什么話。

它不只是“畫”一個人，而是真正“理解”了這個人正在做什么。

Gemini Omni搞懂了物理世界的關系

第二個王炸：一個對話框，搞定所有事。

寫文章、生成圖片、剪輯視頻、記住上下文、執行復雜任務……以前你要換來換去打開四五個不同的工具，現在全部在同一個對話框里就能完成。Omni把Google之前分散的能力，如文本、圖像、視頻、音頻統統收攏到一個系統里，變成一個“什么都能做的生產力入口”。

背后是一個很清晰的判斷：未來的AI Agent要完成真實世界里的任務，就必須能看、能聽、能說、能畫、能剪。只會寫字、寫代碼、分析數據的Agent，注定是殘缺的。

01 Coding不是增長的全部

說到AI Agent的鋪開，一位國內頭部大廠的部門技術負責人，向陸玖商業評論反映了一個新苦惱。

推行AI Coding后，一位頭部大廠技術負責人發現：交付快了，需求卻更隨意了，大量模糊、試錯性質的需求涌入系統。

Uber也有類似的情況：2026年全年的AI工具預算，前四個月就耗盡，Uber的CFO對此也很苦惱。

并非AI Coding本身不好，而是AI的價值早已溢出“寫代碼”，滲透到需求分析、測試、運維、預算管理等全流程。正因如此，原本為編碼準備的預算，才會被迅速消耗。

如果只盯著編碼環節的降本增效，忽略需求質量前置和預算治理，就會陷入“快得停不下來”的窘境。所以Anthropic的AI Coding敘事雖火，但To E（企業內部生產力）的天花板已經顯現，市場也已price in。

我們需要重新審視：AI的故事遠不止coding。

還有OpenAI，它最近的重心則是著急上市，把三大產品線徹底打碎重組，內部的大動蕩，讓OpenAI無法在短期內將“全模態實時交互”與“慢思考思維鏈”融合到一個統一架構中，兩條路線最終只能各自為戰、分道揚鑣。

于是我們不得不問一個更根本的問題：我們當下討論的AI Agent，到底缺什么？缺的是一個能同時處理“看、聽、說、寫、畫”的統一系統。

例如，你現在想做一個帶字幕和背景音樂的短視頻，可能得先用文本模型寫腳本，切到圖像模型生成封面，再打開視頻工具剪輯，最后找個音樂模型配BGM。四五個工具來回倒騰，中間但凡有一個環節不對，就得從頭改。

所以，不管是ToB（面向企業）、ToC（面向消費者）、ToG（面向政府），還是ToE（面向企業內部員工），大家底層需要都是一套理解與生成文本、圖像、視頻、音頻、音樂的模型系統。因為真實物理世界從來不和你分模態，一個任務往往天然地混合了多種信息形態，只有全模態的Agent，才能真正跨越場景、適配角色、解決問題。

谷歌此前的架構是分開的：Veo做視頻，Gemini做文本，Imagen做圖片，各管一攤。Omni的發布標志著它正式轉向統一多模態架構，在一個系統里完成所有生成和理解。這個轉向本身，就是對“全模態到底重不重要”這個問題最直接的回答。

而在國內獨立AI公司里，同時具備文本和多模態能力，且在各個模態都能做到領先的pure-play公司，也有一家：Minimax。

02 Pure Play 模型公司的魅力在哪里？

當然，全模態和技術路線說得再熱鬧，終究是紙上談兵，最后繞不開一個問題：不賺錢的AI，都是“耍流氓”。

市場一直在等一個信號：到底什么時候能看到真金白銀？

陸玖商業評論注意到，阿里財報里的一個數字很有價值：它的MaaS業務ARR已經超過80億元人民幣，預計6月到100億，2026年底到300億，半年間漲了3.75倍。

AI的回報時間真的到了，不是“快要到了”。

但這里藏著一個反差。阿里能做到這個增速，靠的是它現成的家底：銷售網絡、客戶關系、云基礎設施。而AI原生公司（pure-play）沒有這些存量優勢，每一塊錢收入都得靠模型本身的吸引力硬生生贏過來。

反過來想，如果阿里靠存量客戶升級都能做到半年3.75倍增長，那一個純粹靠模型差異化獲客的公司，在同樣的市場環境下，增速彈性會有多大？

要回答這個問題，得先回到需求本身，Token消費在實打實地增加。以Minimax為例，旗下M2系列的Token用量，2026年2月比2025年12月增長了6倍，而且每分鐘Token處理量（TPM）保持著每周10%到20%的環比增速。

摩根士丹利的研報顯示，Minimax的ARR在2026年2月已經超過1.5億美元，2026年底有望達到10億美元，與國際競爭對手處在同一量級。

再看具體的經濟賬。摩根士丹利在研報里點明了一個關鍵差異：Minimax在單臺8xH800推理服務器上，可實現每分鐘約1美元營收，而相對應只有不到0.3美元的運行成本，營收規模是行業平均水平的2倍，單位經濟效益大幅領先行業。

這種“做得更便宜，反而賺得更健康”的商業模式，反過來也呼應了一個更本質的邏輯，不是燒錢做增長，而是靠效率贏市場。

當前，Minimax的毛利率已經從2024年的12.2%提升到2025年的25.4%，而營銷費用同比下降了40.3%。這意味著用戶和收入的增長，不再依賴廣告投放驅動，而是工具使用帶來的真實價值在自發性地裂變。

陸玖商業評論發現，就在昨天，被稱為“龍蝦之父”的Peter Steinberger，曬出了自己一個月的API Token賬單：高達130萬美元。30天總Token消耗量6030億，請求量760萬。有人直言：“蝦爹一個月燒130萬美元太貴了，一般人和機構哪燒得起？”

不少人覺得“蝦爹”成本太貴

所以，摩根士丹利還提到，它們對Minimax的ARR和毛利率（GPM）比同類上市公司更樂觀，理由很簡單：它在基礎設施上的優勢，最終會轉化為更領先的用戶體驗，以及超出預期的Token消費。

摩根大通也提到，Minimax在ToB和ToC兩大市場“雙管齊下”，再加上它從創立初期就布局的全球化策略，為公司帶來了同行里難得見到的經濟靈活性。因為大多數AI創業公司要么只做C端應用（用戶量漲得快但付費意愿低），要么只做B端API（收入穩定但獲客慢）。Minimax同時跑通了兩條路，意味著它的增長天花板比同行高出一大截。

講完基本面，最后看催化劑。谷歌Omni的發布，讓“全模態”這個方向被市場重新定價，而Minimax是國內最直接的映射公司。另外，Minimax自己馬上要發的M3系列，預計會大幅提升多模態理解能力；H3也有望和Seedance一起，進入國產模型的第一梯隊。

當一個市場從“誰有大流量”變成“誰有更好的模型”時，Pure Play的彈性才剛剛開始釋放。這種“行業β催化 + 公司α催化”一起出現的窗口，其實不常見。

03 為什么市場要給“全模態”重新定價？

過去一年，谷歌母公司Alphabet的股價大幅飆升了140%。Plexo Capital創始管理合伙人Lo Toney曾分析，“谷歌可能是目前最具備AI大規模商業變現潛力的公司，因為它幾乎扼守了技術棧的每一個核心生態位。”

Omni的發布，會讓“全模態”這件事再次重新定價。

而如果投資者想找到下一個谷歌，同樣押注全模態、同樣做統一架構、但沒有龐大云業務和廣告大盤來分攤成本的pure-play公司，環顧全球，可能也只有Minimax了。

很多人不知道，Minimax從一開始做的就是文本與多模態并行發展，而不是先做文本模型，再在外面“拼接”其他模態。這個思路，和谷歌Omni如出一轍。

這意味著，它的LLM預訓練、視覺模型、視頻生成等環節，大部分底層能力是共用的。一份研發投入砸下去，文本能力和多模態能力一起漲。這種效率優勢，在每一代模型迭代中只會越拉越大，這也是為什么很多人對即將發布的下一代視頻模型抱有期待，它可能開啟國內原生多模態的新空間。

瑞銀還認為，市場可能忽視了一個關鍵點：Minimax不只是模型強，“工程層（harness）”的能力才是它真正的護城河。模型是引擎，工程層是方向盤和剎車，光有引擎跑不快，還要有人會開車。

瑞銀指出，Minimax正在用“模型+工程層”兩條腿走路，同時推動兩個方向：創意場景（比如做視頻、畫畫）和辦公場景（比如寫文檔、處理任務）。

視頻這邊，瑞銀預計Hailuo 3會在視頻理解能力上甩開同行，同時通過更聰明的工程層設計，把使用門檻降下來，不只專業人士能用，普通小白也能輕松上手。文本這邊，下一代M3模型會重點提升AI Agent自己規劃、執行多步驟任務的能力，再配合工程層創新（如之前推出的MaxHermes），把AI的應用范圍從寫代碼擴展到自動處理文檔、安排日程、跨工具協作等辦公場景。

中信建投在這個觀點上加了一層buff：多模態訓練產生的視覺理解能力，可以反哺文本模型，提升模型智能上限。

當然，這些都還只是過程。真正的機會在于：全模態會一步步走進日常生活場景，變成隨時可以調用的基礎智能資源。

想象一下，未來的AI Agent可以同時看懂你的設計草圖、聽懂語音指令、生成帶字幕的演示視頻、再配上背景音樂，全部在一個系統里完成，不用切換四五個工具。這個爆發量級，和現在單純比代碼生成能力、機器人聊天能力等，完全不是一個維度。

04 寫在最后

如果說ChatGPT的出現是語言智能的啟蒙時刻，Sora的出現是視覺智能的覺醒時刻，那么Gemini Omni指向的，則是全模態智能的寒武紀大爆發時刻——各種能力不再各自為戰，而是交織、融合、涌現，真正開始逼近真實世界的復雜度。

Google I/O 大會的熱度今年明顯更勝以往，或許不只是因為Gemini Omni的亮相，更是業界希望Gemini需要從模型能力轉化為搜索、廣告、購物和云業務的收入增長。這或許預示著，全模態的增長故事，已經走到了兌現的前夜？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.