網易首頁 > 網易號 > 正文申請入駐

一個新視頻模型背后，藏著蔡浩宇給游戲行業造的「新引擎」

2026-04-23 13:29:23　來源: 極客公園

北京舉報

分享至

LPM 1.0 只是冰山一角，蔡浩宇真正在造的，是下一個時代的游戲引擎。

作者｜樺林舞王

編輯｜靖宇

4 月 9 日，一篇來自 Anuttacon 團隊的論文悄悄出現在 arXiv 上。論文展示了一個叫 LPM 1.0 的視頻模型——全稱 Large Performance Model，注意，是 Performance（表演），不是 Language（語言）。

這個 170 億參數的擴散 Transformer 模型，能讓一個 AI 角色在視頻里說話、傾聽、做出微表情，保持身份一致地「演」下去，理論上可以無限時長。說白了，它是一個專門讓虛擬角色「活起來」的視覺引擎。

大多數人的第一反應，是把它和 Seedance、Sora 這些視頻生成模型做對比。但如果只看到一個視頻模型，就看窄了。

而如果稍微對 Anuttacon 團隊有些了解的人會知道，這并不是一個純素人團隊，這個團隊的領軍者，其實是米哈游的創始人蔡浩宇。

而 LPM 1.0 這個模型真正值得關注的，不是它本身做了什么，而是它暴露了蔡浩宇，正在搭建的那個更大的技術棧——一個可能替代傳統游戲引擎的全新架構。

但在聊那個更大的東西之前，有必要先理解一下：為什么這個模型叫「表演模型」，而不是「視頻模型」？這個命名本身，就藏著一個關鍵的技術判斷。

為什么叫「表演」，不叫「生成」

現有的視頻生成模型，本質上是一個「給定輸入，輸出完整視頻」的過程。你給它一段文字描述，它生成一段 5 秒或 10 秒的視頻。這個過程更像拍電影——先有完整的劇本，再一次性渲染出畫面。

但 LPM 1.0 做的事情不一樣。它的核心場景是對話——一個角色坐在你對面，你說一句話，它在你說話的過程中就開始有反應了。不是等你說完，不是等系統處理完語義再輸出一段動畫，而是在你的 input 還在進行的時候，角色就已經在傾聽、點頭、皺眉、微笑。

這就是「表演」這個詞的真正含義。表演的本質是反應，而反應的核心是實時性。

Anuttacon 首頁展示的 lpm1.0 模型產出的場景｜圖片來源：Anuttacon

一個好演員在對手戲里，不會等對方把整段臺詞念完再開始「演」。他在聽的過程中，眼神、呼吸、嘴角的細微變化就已經在傳遞信息了。LPM 1.0 要做的正是這件事——它不是一個「看完劇本再演」的系統，而是一個「在對話中即時反應」的系統。

論文里把這個能力叫做「full-duplex conversation」，全雙工對話。模型同時支持「說」和「聽」兩種模式——當角色在說話的時候，會根據合成語音生成口型、表情和動作；當角色在聽的時候，會根據用戶的語音實時生成傾聽反應，包括點頭、眨眼、表情變化。兩種模式可以自然地來回切換，就像真人對話一樣。

這個選擇背后代表的技術思路和通用視頻生成模型完全不同。Sora、Seedance 這些模型追求的是畫面質量和多樣性——能生成多逼真的畫面、多豐富的場景。而 LPM 追求的是交互中的真實感——角色在持續的信息流中，能否給出即時的、連貫的、符合當下情境的反應。

說白了，前者是在做「電影」，后者是在做「活人」。

這也解釋了為什么 LPM 1.0 要把實時推理能力看得那么重。論文里的「表演三難困境」之所以把實時性放在和表現力同等重要的位置，正是因為哪怕表情再精致，如果延遲了兩秒才做出反應，那種「活著」的感覺就瞬間崩塌了。

被忽略的新信號

外界對 LPM 1.0 的討論，基本集中在視頻生成的技術細節上。但從公開信息推導，會發現一個被大多數人忽略的事實：蔡浩宇在 Anuttacon 主抓的核心方向，其實是大語言模型，而不是視頻生成。

線索并不少。Anuttacon 的招聘頁面長期掛著預訓練、后訓練、Agent 等 LLM 相關崗位。團隊核心成員吳簫劍曾參與 Meta 的 Llama 3.1 研究，在 Anuttacon 擔任大模型研究團隊負責人。今年 4 月，蔡浩宇還和劉偉、羅宇皓一起向上海交大捐贈，設立了一個名叫「AI 未來基石」的基金。

更直接的信號來自劉偉。

他在上海交大的一次公開活動中，罕見地解釋了蔡浩宇創立 Anuttacon 的邏輯——米哈游作為六七千人的大公司存在組織惰性，不利于從零開始做 AI 創新，所以幾年前決定讓蔡浩宇親自下場，以小團隊形態推進 AI 研發。劉偉還透露了一個關鍵信息：他們的目標是從基礎預訓練開始，開發一種「有情感的大語言模型」，不僅具備智能水平，還能理解人類的情感訴求。

Anuttacon 首頁展示的 lpm1.0 模型產出的場景｜圖片來源：Anuttacon

把這個信息和 LPM 1.0 放在一起看，邏輯就清晰了。

LPM 1.0 論文里寫得很明確：這個視頻模型可以和 ChatGPT、豆包等音頻對話模型即插即用地組合使用，它自己不做決策，只負責視覺呈現。

換句話說，LPM 是一個「表演層」，但它需要一個「大腦」來告訴角色該說什么、該怎么反應。這個大腦，就是大語言模型。

沒有強大的基座語言模型，LPM 就是一個精致的空殼。

「語言模型 + 表演模型」= 下一代游戲引擎？

理解了這個架構，就能看到蔡浩宇真正在做的事情。

傳統游戲引擎 Unity 和 Unreal 解決的核心問題是：如何高效地渲染 3D 世界、管理物理系統、處理玩家輸入。游戲角色的行為完全由開發者預設——對話是寫好的分支樹，動作是做好的動畫片段，表情是綁定的骨骼權重。

蔡浩宇想做的，是用 AI 替換掉這整套流程。

在他構想的架構里，語言模型負責角色的「思考」——理解玩家說了什么、決定如何回應、維持人格一致性；表演模型負責角色的「表達」——把語言模型的決策轉化為可見的視頻畫面，包括口型、表情、肢體動作和情緒變化。

這不是在現有引擎上加一個 AI 插件，而是用 AI，從底層重建角色的整個生成鏈路。

LPM 1.0 的論文里有一個概念叫「表演三難困境」（Performance Trilemma）——高表現力、實時推理和長時身份穩定，三者很難兼顧。

團隊的解法是先訓練一個 17B 參數的 Base LPM 把表演空間學深，再蒸餾成低延遲的 Online LPM 用于實時交互。在推理階段，還設計了 Generator + Refiner 的雙層渲染管線，第一層快速輸出輪廓，第二層精修細節，兩層交替流水線式工作。

這些技術細節很重要，但更重要的是它們指向的方向：讓一個 AI 角色能像真人一樣，在任意長的時間里持續、穩定、有表現力地「活著」。

《星之低語》游戲畫面｜圖片來源：Anuttacon

Anuttacon 去年發布的 AI 游戲《星之低語》，已經是這個思路的早期驗證——玩家通過語音和文字與 AI 角色 Stella 實時對話，沒有預設的分支選項，角色的反應完全由 AI 生成。

而 LPM 1.0 要解決的，是讓這種交互不僅僅停留在文字和語音層面，而是讓玩家真正「看到」一個在對面和你說話、傾聽、做出反應的角色。

論文的未來規劃同樣意味深長。

作者提出了三個演進方向：

時間維度上，做更長對話的記憶和人格持續性；

社會維度上，處理多人互動和輪流發言；

物理維度上，把角色行為錨定到場景和物體上。

論文最后還有一句很有野心的表述：未來這種分階段的流水線，可能會走向統一的actor model——一個統一決定角色怎么說、怎么演、怎么持續存在的系統。

這不就是一個跨世代「引擎」該做的事嗎？

蔡浩宇在為什么樣的世界造引擎？

把時間線拉長來看，蔡浩宇的路徑其實一直很清晰。

2021 年，米哈游投資腦機接口公司，與瑞金醫院共建腦病實驗室。同一年，米哈游投資了 MiniMax——如今的大模型六小龍之一。2023 年，蔡浩宇卸任米哈游董事長，奔赴海外。2024 年創立 Anuttacon，團隊至今不到 40 人，但匯聚了前微軟亞研院首席研究員童欣、參與過 Llama 3 研究的吳簫劍、前 B 站副總裁王宇陽、來自小鵬智算中心的基礎設施負責人 Erik Li。

蔡浩宇大學專業就是人工智能方向。某種意義上，他繞了一大圈——從 AI 到二次元游戲，再從游戲回到 AI——最終走回了自己的起點。只不過這一次，他要用 AI 去重新定義那個讓他成名的行業。

劉偉在今年的公開活動中說得很坦誠，蔡浩宇創辦 Anuttacon 并非「分家」，而是米哈游面對組織惰性做出的主動選擇。劉偉留守管理六七千人的米哈游本體，蔡浩宇帶著小團隊去做最前沿的技術攻堅。

米哈游等于拆出一個 founder，專門面向新世界造引擎。

這件事當然只是個開始。

LPM 1.0 目前還只是一篇論文，團隊明確表示不會開源模型權重，也不提供 API 和在線 demo。從研究到產品還有很長的路。語言模型那邊，Anuttacon 的基座模型也沒有任何公開的 benchmark 可供參考。

但方向已經相當明確了。蔡浩宇賭的是：未來的游戲角色不再是開發者用腳本和動畫預設出來的提線木偶，而是由語言模型驅動思考、由表演模型實時渲染的「數字生命」。而支撐這一切運轉的底層系統，就是他要造的那個「新引擎」。

2010 年，還在上海交大讀研的蔡浩宇和劉偉、羅宇皓一起，用 Adobe Flash 開發了一個 2.5D 游戲引擎叫 Misato。16 年后，蔡浩宇又在造引擎了。

只不過這次的引擎，跑的不是像素和多邊形，而是語言、表演和情感——未來 AI 形象最需要的底層基礎。

*頭圖來源：Anuttacon

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你覺得未來的游戲引擎是怎樣的？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.