![]()
LPM 1.0 只是冰山一角,蔡浩宇真正在造的,是下一個時代的游戲引擎。
作者|樺林舞王
編輯|靖宇
4 月 9 日,一篇來自 Anuttacon 團隊的論文悄悄出現在 arXiv 上。論文展示了一個叫 LPM 1.0 的視頻模型——全稱 Large Performance Model,注意,是 Performance(表演),不是 Language(語言)。
這個 170 億參數的擴散 Transformer 模型,能讓一個 AI 角色在視頻里說話、傾聽、做出微表情,保持身份一致地「演」下去,理論上可以無限時長。說白了,它是一個專門讓虛擬角色「活起來」的視覺引擎。
大多數人的第一反應,是把它和 Seedance、Sora 這些視頻生成模型做對比。但如果只看到一個視頻模型,就看窄了。
而如果稍微對 Anuttacon 團隊有些了解的人會知道,這并不是一個純素人團隊,這個團隊的領軍者,其實是米哈游的創始人蔡浩宇。
而 LPM 1.0 這個模型真正值得關注的,不是它本身做了什么,而是它暴露了蔡浩宇,正在搭建的那個更大的技術棧——一個可能替代傳統游戲引擎的全新架構。
但在聊那個更大的東西之前,有必要先理解一下:為什么這個模型叫「表演模型」,而不是「視頻模型」?這個命名本身,就藏著一個關鍵的技術判斷。
01
為什么叫「表演」,不叫「生成」
現有的視頻生成模型,本質上是一個「給定輸入,輸出完整視頻」的過程。你給它一段文字描述,它生成一段 5 秒或 10 秒的視頻。這個過程更像拍電影——先有完整的劇本,再一次性渲染出畫面。
但 LPM 1.0 做的事情不一樣。它的核心場景是對話——一個角色坐在你對面,你說一句話,它在你說話的過程中就開始有反應了。不是等你說完,不是等系統處理完語義再輸出一段動畫,而是在你的 input 還在進行的時候,角色就已經在傾聽、點頭、皺眉、微笑。
這就是「表演」這個詞的真正含義。表演的本質是反應,而反應的核心是實時性。
Anuttacon 首頁展示的 lpm1.0 模型產出的場景|圖片來源:Anuttacon
一個好演員在對手戲里,不會等對方把整段臺詞念完再開始「演」。他在聽的過程中,眼神、呼吸、嘴角的細微變化就已經在傳遞信息了。LPM 1.0 要做的正是這件事——它不是一個「看完劇本再演」的系統,而是一個「在對話中即時反應」的系統。
論文里把這個能力叫做「full-duplex conversation」,全雙工對話。模型同時支持「說」和「聽」兩種模式——當角色在說話的時候,會根據合成語音生成口型、表情和動作;當角色在聽的時候,會根據用戶的語音實時生成傾聽反應,包括點頭、眨眼、表情變化。兩種模式可以自然地來回切換,就像真人對話一樣。
這個選擇背后代表的技術思路和通用視頻生成模型完全不同。Sora、Seedance 這些模型追求的是畫面質量和多樣性——能生成多逼真的畫面、多豐富的場景。而 LPM 追求的是交互中的真實感——角色在持續的信息流中,能否給出即時的、連貫的、符合當下情境的反應。
說白了,前者是在做「電影」,后者是在做「活人」。
這也解釋了為什么 LPM 1.0 要把實時推理能力看得那么重。論文里的「表演三難困境」之所以把實時性放在和表現力同等重要的位置,正是因為哪怕表情再精致,如果延遲了兩秒才做出反應,那種「活著」的感覺就瞬間崩塌了。
02
被忽略的新信號
外界對 LPM 1.0 的討論,基本集中在視頻生成的技術細節上。但從公開信息推導,會發現一個被大多數人忽略的事實:蔡浩宇在 Anuttacon 主抓的核心方向,其實是大語言模型,而不是視頻生成。
線索并不少。Anuttacon 的招聘頁面長期掛著預訓練、后訓練、Agent 等 LLM 相關崗位。團隊核心成員吳簫劍曾參與 Meta 的 Llama 3.1 研究,在 Anuttacon 擔任大模型研究團隊負責人。今年 4 月,蔡浩宇還和劉偉、羅宇皓一起向上海交大捐贈,設立了一個名叫「AI 未來基石」的基金。
更直接的信號來自劉偉。
他在上海交大的一次公開活動中,罕見地解釋了蔡浩宇創立 Anuttacon 的邏輯——米哈游作為六七千人的大公司存在組織惰性,不利于從零開始做 AI 創新,所以幾年前決定讓蔡浩宇親自下場,以小團隊形態推進 AI 研發。劉偉還透露了一個關鍵信息:他們的目標是從基礎預訓練開始,開發一種「有情感的大語言模型」,不僅具備智能水平,還能理解人類的情感訴求。
Anuttacon 首頁展示的 lpm1.0 模型產出的場景|圖片來源:Anuttacon
把這個信息和 LPM 1.0 放在一起看,邏輯就清晰了。
LPM 1.0 論文里寫得很明確:這個視頻模型可以和 ChatGPT、豆包等音頻對話模型即插即用地組合使用,它自己不做決策,只負責視覺呈現。
換句話說,LPM 是一個「表演層」,但它需要一個「大腦」來告訴角色該說什么、該怎么反應。這個大腦,就是大語言模型。
沒有強大的基座語言模型,LPM 就是一個精致的空殼。
03
「語言模型 + 表演模型」= 下一代游戲引擎?
理解了這個架構,就能看到蔡浩宇真正在做的事情。
傳統游戲引擎 Unity 和 Unreal 解決的核心問題是:如何高效地渲染 3D 世界、管理物理系統、處理玩家輸入。游戲角色的行為完全由開發者預設——對話是寫好的分支樹,動作是做好的動畫片段,表情是綁定的骨骼權重。
蔡浩宇想做的,是用 AI 替換掉這整套流程。
在他構想的架構里,語言模型負責角色的「思考」——理解玩家說了什么、決定如何回應、維持人格一致性;表演模型負責角色的「表達」——把語言模型的決策轉化為可見的視頻畫面,包括口型、表情、肢體動作和情緒變化。
這不是在現有引擎上加一個 AI 插件,而是用 AI,從底層重建角色的整個生成鏈路。
LPM 1.0 的論文里有一個概念叫「表演三難困境」(Performance Trilemma)——高表現力、實時推理和長時身份穩定,三者很難兼顧。
團隊的解法是先訓練一個 17B 參數的 Base LPM 把表演空間學深,再蒸餾成低延遲的 Online LPM 用于實時交互。在推理階段,還設計了 Generator + Refiner 的雙層渲染管線,第一層快速輸出輪廓,第二層精修細節,兩層交替流水線式工作。
這些技術細節很重要,但更重要的是它們指向的方向:讓一個 AI 角色能像真人一樣,在任意長的時間里持續、穩定、有表現力地「活著」。
![]()
《星之低語》游戲畫面|圖片來源:Anuttacon
Anuttacon 去年發布的 AI 游戲《星之低語》,已經是這個思路的早期驗證——玩家通過語音和文字與 AI 角色 Stella 實時對話,沒有預設的分支選項,角色的反應完全由 AI 生成。
而 LPM 1.0 要解決的,是讓這種交互不僅僅停留在文字和語音層面,而是讓玩家真正「看到」一個在對面和你說話、傾聽、做出反應的角色。
論文的未來規劃同樣意味深長。
作者提出了三個演進方向:
時間維度上,做更長對話的記憶和人格持續性;
社會維度上,處理多人互動和輪流發言;
物理維度上,把角色行為錨定到場景和物體上。
論文最后還有一句很有野心的表述:未來這種分階段的流水線,可能會走向統一的actor model——一個統一決定角色怎么說、怎么演、怎么持續存在的系統。
這不就是一個跨世代「引擎」該做的事嗎?
04
蔡浩宇在為什么樣的世界造引擎?
把時間線拉長來看,蔡浩宇的路徑其實一直很清晰。
2021 年,米哈游投資腦機接口公司,與瑞金醫院共建腦病實驗室。同一年,米哈游投資了 MiniMax——如今的大模型六小龍之一。2023 年,蔡浩宇卸任米哈游董事長,奔赴海外。2024 年創立 Anuttacon,團隊至今不到 40 人,但匯聚了前微軟亞研院首席研究員童欣、參與過 Llama 3 研究的吳簫劍、前 B 站副總裁王宇陽、來自小鵬智算中心的基礎設施負責人 Erik Li。
蔡浩宇大學專業就是人工智能方向。某種意義上,他繞了一大圈——從 AI 到二次元游戲,再從游戲回到 AI——最終走回了自己的起點。只不過這一次,他要用 AI 去重新定義那個讓他成名的行業。
劉偉在今年的公開活動中說得很坦誠,蔡浩宇創辦 Anuttacon 并非「分家」,而是米哈游面對組織惰性做出的主動選擇。劉偉留守管理六七千人的米哈游本體,蔡浩宇帶著小團隊去做最前沿的技術攻堅。
米哈游等于拆出一個 founder,專門面向新世界造引擎。
這件事當然只是個開始。
LPM 1.0 目前還只是一篇論文,團隊明確表示不會開源模型權重,也不提供 API 和在線 demo。從研究到產品還有很長的路。語言模型那邊,Anuttacon 的基座模型也沒有任何公開的 benchmark 可供參考。
但方向已經相當明確了。蔡浩宇賭的是:未來的游戲角色不再是開發者用腳本和動畫預設出來的提線木偶,而是由語言模型驅動思考、由表演模型實時渲染的「數字生命」。而支撐這一切運轉的底層系統,就是他要造的那個「新引擎」。
2010 年,還在上海交大讀研的蔡浩宇和劉偉、羅宇皓一起,用 Adobe Flash 開發了一個 2.5D 游戲引擎叫 Misato。16 年后,蔡浩宇又在造引擎了。
只不過這次的引擎,跑的不是像素和多邊形,而是語言、表演和情感——未來 AI 形象最需要的底層基礎。
*頭圖來源:Anuttacon
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你覺得未來的游戲引擎是怎樣的?
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.