Google I/O 大會的熱度今年明顯更勝以往,或許不只是因為Gemini Omni的亮相,更是業界希望Gemini需要從模型能力轉化為搜索、廣告、購物和云業務的收入增長。
![]()
在Google I/O大會之前,Google甩出了一個新鮮熱乎的大招:Gemini Omni。
具體來說,Omni這次帶來了兩個“王炸”。
第一個王炸:一句話生成一段完整的教學視頻,如果你把Omni當成 Veo 系列的簡單延續,那就錯了。
Google展示了一個例子——用戶只輸入了一條指令:
“一位教授在傳統黑板上寫出三角恒等式的數學證明,同時用語言解釋他當前正在推導的步驟。”
沒有多輪對話,不用分步驟指揮,一次性搞定了三件事:
空間關系:手該怎么拿粉筆、寫在哪里;
文字內容:公式寫對了沒有;
推理邏輯:推導到了哪一步、該說什么話。
它不只是“畫”一個人,而是真正“理解”了這個人正在做什么。
![]()
Gemini Omni搞懂了物理世界的關系
第二個王炸:一個對話框,搞定所有事。
寫文章、生成圖片、剪輯視頻、記住上下文、執行復雜任務……以前你要換來換去打開四五個不同的工具,現在全部在同一個對話框里就能完成。Omni把Google之前分散的能力,如文本、圖像、視頻、音頻統統收攏到一個系統里,變成一個“什么都能做的生產力入口”。
背后是一個很清晰的判斷:未來的AI Agent要完成真實世界里的任務,就必須能看、能聽、能說、能畫、能剪。只會寫字、寫代碼、分析數據的Agent,注定是殘缺的。
01 Coding不是增長的全部
說到AI Agent的鋪開,一位國內頭部大廠的部門技術負責人,向陸玖商業評論反映了一個新苦惱。
推行AI Coding后,一位頭部大廠技術負責人發現:交付快了,需求卻更隨意了,大量模糊、試錯性質的需求涌入系統。
Uber也有類似的情況:2026年全年的AI工具預算,前四個月就耗盡,Uber的CFO對此也很苦惱。
并非AI Coding本身不好,而是AI的價值早已溢出“寫代碼”,滲透到需求分析、測試、運維、預算管理等全流程。正因如此,原本為編碼準備的預算,才會被迅速消耗。
如果只盯著編碼環節的降本增效,忽略需求質量前置和預算治理,就會陷入“快得停不下來”的窘境。所以Anthropic的AI Coding敘事雖火,但To E(企業內部生產力)的天花板已經顯現,市場也已price in。
我們需要重新審視:AI的故事遠不止coding。
還有OpenAI,它最近的重心則是著急上市,把三大產品線徹底打碎重組,內部的大動蕩,讓OpenAI無法在短期內將“全模態實時交互”與“慢思考思維鏈”融合到一個統一架構中,兩條路線最終只能各自為戰、分道揚鑣。
于是我們不得不問一個更根本的問題:我們當下討論的AI Agent,到底缺什么?缺的是一個能同時處理“看、聽、說、寫、畫”的統一系統。
例如,你現在想做一個帶字幕和背景音樂的短視頻,可能得先用文本模型寫腳本,切到圖像模型生成封面,再打開視頻工具剪輯,最后找個音樂模型配BGM。四五個工具來回倒騰,中間但凡有一個環節不對,就得從頭改。
所以,不管是ToB(面向企業)、ToC(面向消費者)、ToG(面向政府),還是ToE(面向企業內部員工),大家底層需要都是一套理解與生成文本、圖像、視頻、音頻、音樂的模型系統。因為真實物理世界從來不和你分模態,一個任務往往天然地混合了多種信息形態,只有全模態的Agent,才能真正跨越場景、適配角色、解決問題。
谷歌此前的架構是分開的:Veo做視頻,Gemini做文本,Imagen做圖片,各管一攤。Omni的發布標志著它正式轉向統一多模態架構,在一個系統里完成所有生成和理解。這個轉向本身,就是對“全模態到底重不重要”這個問題最直接的回答。
而在國內獨立AI公司里,同時具備文本和多模態能力,且在各個模態都能做到領先的pure-play公司,也有一家:Minimax。
02 Pure Play 模型公司的魅力在哪里?
當然,全模態和技術路線說得再熱鬧,終究是紙上談兵,最后繞不開一個問題:不賺錢的AI,都是“耍流氓”。
市場一直在等一個信號:到底什么時候能看到真金白銀?
陸玖商業評論注意到,阿里財報里的一個數字很有價值:它的MaaS業務ARR已經超過80億元人民幣,預計6月到100億,2026年底到300億,半年間漲了3.75倍。
AI的回報時間真的到了,不是“快要到了”。
但這里藏著一個反差。阿里能做到這個增速,靠的是它現成的家底:銷售網絡、客戶關系、云基礎設施。而AI原生公司(pure-play)沒有這些存量優勢,每一塊錢收入都得靠模型本身的吸引力硬生生贏過來。
反過來想,如果阿里靠存量客戶升級都能做到半年3.75倍增長,那一個純粹靠模型差異化獲客的公司,在同樣的市場環境下,增速彈性會有多大?
要回答這個問題,得先回到需求本身,Token消費在實打實地增加。以Minimax為例,旗下M2系列的Token用量,2026年2月比2025年12月增長了6倍,而且每分鐘Token處理量(TPM)保持著每周10%到20%的環比增速。
摩根士丹利的研報顯示,Minimax的ARR在2026年2月已經超過1.5億美元,2026年底有望達到10億美元,與國際競爭對手處在同一量級。
再看具體的經濟賬。摩根士丹利在研報里點明了一個關鍵差異:Minimax在單臺8xH800推理服務器上,可實現每分鐘約1美元營收,而相對應只有不到0.3美元的運行成本,營收規模是行業平均水平的2倍,單位經濟效益大幅領先行業。
這種“做得更便宜,反而賺得更健康”的商業模式,反過來也呼應了一個更本質的邏輯,不是燒錢做增長,而是靠效率贏市場。
當前,Minimax的毛利率已經從2024年的12.2%提升到2025年的25.4%,而營銷費用同比下降了40.3%。這意味著用戶和收入的增長,不再依賴廣告投放驅動,而是工具使用帶來的真實價值在自發性地裂變。
陸玖商業評論發現,就在昨天,被稱為“龍蝦之父”的Peter Steinberger,曬出了自己一個月的API Token賬單:高達130萬美元。30天總Token消耗量6030億,請求量760萬。有人直言:“蝦爹一個月燒130萬美元太貴了,一般人和機構哪燒得起?”
![]()
不少人覺得“蝦爹”成本太貴
所以,摩根士丹利還提到,它們對Minimax的ARR和毛利率(GPM)比同類上市公司更樂觀,理由很簡單:它在基礎設施上的優勢,最終會轉化為更領先的用戶體驗,以及超出預期的Token消費。
摩根大通也提到,Minimax在ToB和ToC兩大市場“雙管齊下”,再加上它從創立初期就布局的全球化策略,為公司帶來了同行里難得見到的經濟靈活性。因為大多數AI創業公司要么只做C端應用(用戶量漲得快但付費意愿低),要么只做B端API(收入穩定但獲客慢)。Minimax同時跑通了兩條路,意味著它的增長天花板比同行高出一大截。
講完基本面,最后看催化劑。谷歌Omni的發布,讓“全模態”這個方向被市場重新定價,而Minimax是國內最直接的映射公司。另外,Minimax自己馬上要發的M3系列,預計會大幅提升多模態理解能力;H3也有望和Seedance一起,進入國產模型的第一梯隊。
當一個市場從“誰有大流量”變成“誰有更好的模型”時,Pure Play的彈性才剛剛開始釋放。這種“行業β催化 + 公司α催化”一起出現的窗口,其實不常見。
03 為什么市場要給“全模態”重新定價?
過去一年,谷歌母公司Alphabet的股價大幅飆升了140%。Plexo Capital創始管理合伙人Lo Toney曾分析,“谷歌可能是目前最具備AI大規模商業變現潛力的公司,因為它幾乎扼守了技術棧的每一個核心生態位。”
Omni的發布,會讓“全模態”這件事再次重新定價。
而如果投資者想找到下一個谷歌,同樣押注全模態、同樣做統一架構、但沒有龐大云業務和廣告大盤來分攤成本的pure-play公司,環顧全球,可能也只有Minimax了。
很多人不知道,Minimax從一開始做的就是文本與多模態并行發展,而不是先做文本模型,再在外面“拼接”其他模態。這個思路,和谷歌Omni如出一轍。
這意味著,它的LLM預訓練、視覺模型、視頻生成等環節,大部分底層能力是共用的。一份研發投入砸下去,文本能力和多模態能力一起漲。這種效率優勢,在每一代模型迭代中只會越拉越大,這也是為什么很多人對即將發布的下一代視頻模型抱有期待,它可能開啟國內原生多模態的新空間。
瑞銀還認為,市場可能忽視了一個關鍵點:Minimax不只是模型強,“工程層(harness)”的能力才是它真正的護城河。模型是引擎,工程層是方向盤和剎車,光有引擎跑不快,還要有人會開車。
瑞銀指出,Minimax正在用“模型+工程層”兩條腿走路,同時推動兩個方向:創意場景(比如做視頻、畫畫)和辦公場景(比如寫文檔、處理任務)。
![]()
視頻這邊,瑞銀預計Hailuo 3會在視頻理解能力上甩開同行,同時通過更聰明的工程層設計,把使用門檻降下來,不只專業人士能用,普通小白也能輕松上手。文本這邊,下一代M3模型會重點提升AI Agent自己規劃、執行多步驟任務的能力,再配合工程層創新(如之前推出的MaxHermes),把AI的應用范圍從寫代碼擴展到自動處理文檔、安排日程、跨工具協作等辦公場景。
中信建投在這個觀點上加了一層buff:多模態訓練產生的視覺理解能力,可以反哺文本模型,提升模型智能上限。
當然,這些都還只是過程。真正的機會在于:全模態會一步步走進日常生活場景,變成隨時可以調用的基礎智能資源。
想象一下,未來的AI Agent可以同時看懂你的設計草圖、聽懂語音指令、生成帶字幕的演示視頻、再配上背景音樂,全部在一個系統里完成,不用切換四五個工具。這個爆發量級,和現在單純比代碼生成能力、機器人聊天能力等,完全不是一個維度。
04 寫在最后
如果說ChatGPT的出現是語言智能的啟蒙時刻,Sora的出現是視覺智能的覺醒時刻,那么Gemini Omni指向的,則是全模態智能的寒武紀大爆發時刻——各種能力不再各自為戰,而是交織、融合、涌現,真正開始逼近真實世界的復雜度。
Google I/O 大會的熱度今年明顯更勝以往,或許不只是因為Gemini Omni的亮相,更是業界希望Gemini需要從模型能力轉化為搜索、廣告、購物和云業務的收入增長。這或許預示著,全模態的增長故事,已經走到了兌現的前夜?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.