網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

蔡浩宇的AI公司悄悄發(fā)布了首個(gè)視頻大模型

2026-04-11 11:43:03　來源: 游戲葡萄_

北京舉報(bào)

分享至

終于開始了。

文/修理

昨日，AilingZeng在X上公布了LPM 1.0，一個(gè)基于視頻的角色表演模型，能夠?qū)崟r(shí)說話、唱歌、傾聽、反應(yīng)和做表情。

根據(jù)信息顯示，LPM 1.0是面向單人全雙工音視頻對(duì)話的角色表演大模型，針對(duì)現(xiàn)有視頻生成模型難以兼顧高表現(xiàn)力、實(shí)時(shí)推理、長(zhǎng)時(shí)身份穩(wěn)定性等挑戰(zhàn)研發(fā)。

團(tuán)隊(duì)構(gòu)建了以人為中心多模態(tài)數(shù)據(jù)集，訓(xùn)練17B參數(shù)的Base LPM并將其蒸餾為低延遲流式的Online LPM，實(shí)現(xiàn)實(shí)時(shí)視頻生成、無限時(shí)長(zhǎng)身份一致生成與細(xì)膩擬人化表演。

同時(shí)打造出首個(gè)交互角色表演基準(zhǔn)LPM-Bench，在各項(xiàng)評(píng)估中取得SOTA結(jié)果，可作為對(duì)話代理、直播角色、游戲NPC的通用視覺引擎。

根據(jù)其個(gè)人主頁信息，AilingZeng隸屬于Anuttacon技術(shù)團(tuán)隊(duì)——就是蔡浩宇創(chuàng)辦的那個(gè)AI公司。她此前曾在騰訊混元團(tuán)隊(duì)與AI Lab實(shí)驗(yàn)室從事模型相關(guān)研究工作。

該模型的技術(shù)論文一共由24位研究人員參與，內(nèi)容很多，有興趣的朋友可以自行搜索查看。葡萄君也不懂技術(shù)，這里就簡(jiǎn)單展示一下，這個(gè)模型可以具體做什么事情吧。

首先，LPM 1.0為多模態(tài)輸入，你可通過1張圖片+參考圖片（可選）+ 說話/聽/靜音音頻+文本的方式，來生成一段角色表演。這個(gè)表演視頻可用于角色對(duì)話、角色直播和游戲NPC的視覺呈現(xiàn)。

通過下段視頻你可以看到，該模型在角色的言語、節(jié)奏、目光，以及猶豫、思考等微表情方面上，有著相當(dāng)多的真實(shí)細(xì)節(jié)。

LPM 1.0采用了多維度的角色身份穩(wěn)定要素：全局外觀參考、多視角身體圖像與面部表情參考素材。以此來規(guī)避模型對(duì)牙齒、表情紋路、側(cè)臉輪廓、未顯露的身體形態(tài)等未知細(xì)節(jié)進(jìn)行錯(cuò)誤生成的問題，以實(shí)現(xiàn)角色身份的精準(zhǔn)保持。

同時(shí)該模型也支持不同角色風(fēng)格作為輸入：寫實(shí)、2D動(dòng)漫、3D游戲和非類人生物等等，無需任何微調(diào)或領(lǐng)域特定訓(xùn)練。

并且LPM 1.0是支持實(shí)時(shí)互動(dòng)的。根據(jù)官網(wǎng)的說法，該模型能在無限的交互時(shí)長(zhǎng)下保持穩(wěn)定、身份一致的生成，并會(huì)有回應(yīng)前的停頓、身體節(jié)奏、目光轉(zhuǎn)移等細(xì)節(jié)。

這種對(duì)話支持全雙工（Full-duplex）：就像真實(shí)的打電話或面對(duì)面聊天。雙方可以同時(shí)說話、傾聽，互相隨時(shí)打斷，直接反饋。

該GIF取自一段45分鐘的演示對(duì)話，基于Online LPM 480P型號(hào)生成

另外，在非對(duì)話場(chǎng)景中，角色獨(dú)處于某個(gè)環(huán)境時(shí)，也會(huì)有著真實(shí)的呼吸節(jié)奏、自然的表演與準(zhǔn)確的情感表達(dá)。

在Anuttacon團(tuán)隊(duì)看來，LPM 1.0主要優(yōu)勢(shì)在于：視覺忠實(shí)度、精準(zhǔn)口型、身份保護(hù)以及自然感，包括支持任意長(zhǎng)度的內(nèi)容生成。（Kling-Avatar 2.0和OmniHuman 1.5最多限制為30秒）

所以LPM 1.0可能適用于以下情形：AI對(duì)話、游戲NPC互動(dòng)、虛擬直播、教育輔導(dǎo)、游戲伴侶等等。長(zhǎng)直播視頻生成。

不過值得注意的是，Anuttacon團(tuán)隊(duì)現(xiàn)在沒有計(jì)劃向公眾發(fā)布模型權(quán)重、源代碼、在線演示、API、產(chǎn)品或任何相關(guān)產(chǎn)品。

本次公開僅用于展示LPM 1.0當(dāng)前的研究進(jìn)展，供學(xué)術(shù)交流使用。該模型不會(huì)開源或?qū)ν忾_放。

所以葡萄君認(rèn)為，本次LPM 1.0對(duì)外披露的核心目的仍是招聘。之前不少相關(guān)人士都曾表示，蔡浩宇正在全力押注AI領(lǐng)域，且相關(guān)團(tuán)隊(duì)仍存在大量AI人才招聘缺口。而LPM大概率也不是Anuttacon唯一的技術(shù)探索方向，可以推測(cè)，他們未來很有可能還會(huì)推出更多的大模型。

看到這里，你大概就會(huì)發(fā)現(xiàn)，在一眾游戲創(chuàng)始人中，蔡浩宇對(duì)AI的重視程度可能是最明顯的，會(huì)親自下場(chǎng)，在一線All in。

而不管是米哈游還是Anuttacon、Hoyoverse，他們近年來在AI領(lǐng)域的種種布局，其實(shí)已經(jīng)開始形成一條有跡可循的技術(shù)探索路線。

比如說Anuttacon成立之初就表示要打造一款A(yù)I原生的游戲引擎級(jí)平臺(tái)，開發(fā)者僅需輸入前提條件，即可一鍵生成可自由交互的智能NPC，并以此快速搭建完整游戲世界。

而從最開始試驗(yàn)性質(zhì)的AI游戲《Whispers from the Star》，再到后來的AI聊天產(chǎn)品AnuNeko，再到如今的LPM 1.0，這個(gè)技術(shù)的進(jìn)化進(jìn)度肉眼可見。

AnuNeko

包括米哈游或者Anuttacon近年來在各個(gè)AI領(lǐng)域的動(dòng)作，看似分散，但現(xiàn)在也逐漸能串聯(lián)起來了：

《崩壞：星穹鐵道》團(tuán)隊(duì)早在2023年就已開始嘗試將AI工具應(yīng)用到角色行為管理、3D建模調(diào)優(yōu)、NPC臺(tái)詞等多個(gè)方面，并希望未來打造“對(duì)話永不重復(fù)的智能NPC”。

米哈游還在2025年發(fā)布了崩壞IP項(xiàng)目組AI專項(xiàng)招募計(jì)劃。該計(jì)劃面向AI人才，核心目的包括“AI驅(qū)動(dòng)提效”（將AI應(yīng)用到游戲開發(fā)全流程）和“AI驅(qū)動(dòng)創(chuàng)新”（通過AI帶來新的游戲體驗(yàn)）。項(xiàng)目組已搭建AI Agent平臺(tái)Echo和多個(gè)游戲開發(fā)管線應(yīng)用。

前陣子，米哈游三位創(chuàng)始人蔡浩宇、劉偉、羅宇皓還通過劉偉代表，向上海交通大學(xué)捐款助力“AI未來基石基金”。不難猜想，這也是為后續(xù)的AI人才輸送鋪路。

而虛擬角色鹿鳴，米哈游與Hoyoverse聯(lián)合開發(fā)的《雨之城》（Varsapura），則都有可能作為AI技術(shù)的探索載體。

事實(shí)上，在米哈游生活模擬新作《星布谷地》的首次測(cè)試?yán)铮呀?jīng)推出了可支持玩家自由文字對(duì)話的AI NPC。

正如游戲葡萄此前的，每當(dāng)談及終極愿景時(shí)，蔡浩宇始終堅(jiān)定會(huì)地認(rèn)為，未來生成式的語言模型能跟游戲結(jié)合，做出非常酷的產(chǎn)品。

于他而言，虛擬世界是貫穿始終的燈塔。童年時(shí)對(duì)“被窩里的小電視”的幻想，因智能手機(jī)成為現(xiàn)實(shí)；而如今看不清終點(diǎn)的虛擬世界賽道，所有的AI技術(shù)布局、產(chǎn)品試驗(yàn)與底層探索，都是他一步步靠近這個(gè)終極目標(biāo)的必經(jīng)之路。

游戲葡萄招聘商務(wù)經(jīng)理，

| |

游戲行業(yè)書籍推薦：葡萄書房

（星標(biāo)可第一時(shí)間收到推送和完整封面）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.