終于開始了。
文/修理
昨日,AilingZeng在X上公布了LPM 1.0,一個(gè)基于視頻的角色表演模型,能夠?qū)崟r(shí)說話、唱歌、傾聽、反應(yīng)和做表情。
根據(jù)信息顯示,LPM 1.0是面向單人全雙工音視頻對(duì)話的角色表演大模型,針對(duì)現(xiàn)有視頻生成模型難以兼顧高表現(xiàn)力、實(shí)時(shí)推理、長(zhǎng)時(shí)身份穩(wěn)定性等挑戰(zhàn)研發(fā)。
團(tuán)隊(duì)構(gòu)建了以人為中心多模態(tài)數(shù)據(jù)集,訓(xùn)練17B參數(shù)的Base LPM并將其蒸餾為低延遲流式的Online LPM,實(shí)現(xiàn)實(shí)時(shí)視頻生成、無限時(shí)長(zhǎng)身份一致生成與細(xì)膩擬人化表演。
同時(shí)打造出首個(gè)交互角色表演基準(zhǔn)LPM-Bench,在各項(xiàng)評(píng)估中取得SOTA結(jié)果,可作為對(duì)話代理、直播角色、游戲NPC的通用視覺引擎。
![]()
根據(jù)其個(gè)人主頁信息,AilingZeng隸屬于Anuttacon技術(shù)團(tuán)隊(duì)——就是蔡浩宇創(chuàng)辦的那個(gè)AI公司。她此前曾在騰訊混元團(tuán)隊(duì)與AI Lab實(shí)驗(yàn)室從事模型相關(guān)研究工作。
![]()
該模型的技術(shù)論文一共由24位研究人員參與,內(nèi)容很多,有興趣的朋友可以自行搜索查看。葡萄君也不懂技術(shù),這里就簡(jiǎn)單展示一下,這個(gè)模型可以具體做什么事情吧。
首先,LPM 1.0為多模態(tài)輸入,你可通過1張圖片+參考圖片(可選)+ 說話/聽/靜音音頻+文本的方式,來生成一段角色表演。這個(gè)表演視頻可用于角色對(duì)話、角色直播和游戲NPC的視覺呈現(xiàn)。
通過下段視頻你可以看到,該模型在角色的言語、節(jié)奏、目光,以及猶豫、思考等微表情方面上,有著相當(dāng)多的真實(shí)細(xì)節(jié)。
![]()
LPM 1.0采用了多維度的角色身份穩(wěn)定要素:全局外觀參考、多視角身體圖像與面部表情參考素材。以此來規(guī)避模型對(duì)牙齒、表情紋路、側(cè)臉輪廓、未顯露的身體形態(tài)等未知細(xì)節(jié)進(jìn)行錯(cuò)誤生成的問題,以實(shí)現(xiàn)角色身份的精準(zhǔn)保持。
![]()
![]()
同時(shí)該模型也支持不同角色風(fēng)格作為輸入:寫實(shí)、2D動(dòng)漫、3D游戲和非類人生物等等,無需任何微調(diào)或領(lǐng)域特定訓(xùn)練。
![]()
![]()
并且LPM 1.0是支持實(shí)時(shí)互動(dòng)的。根據(jù)官網(wǎng)的說法,該模型能在無限的交互時(shí)長(zhǎng)下保持穩(wěn)定、身份一致的生成,并會(huì)有回應(yīng)前的停頓、身體節(jié)奏、目光轉(zhuǎn)移等細(xì)節(jié)。
這種對(duì)話支持全雙工(Full-duplex):就像真實(shí)的打電話或面對(duì)面聊天。雙方可以同時(shí)說話、傾聽,互相隨時(shí)打斷,直接反饋。
![]()
該GIF取自一段45分鐘的演示對(duì)話,基于Online LPM 480P型號(hào)生成
另外,在非對(duì)話場(chǎng)景中,角色獨(dú)處于某個(gè)環(huán)境時(shí),也會(huì)有著真實(shí)的呼吸節(jié)奏、自然的表演與準(zhǔn)確的情感表達(dá)。
![]()
在Anuttacon團(tuán)隊(duì)看來,LPM 1.0主要優(yōu)勢(shì)在于:視覺忠實(shí)度、精準(zhǔn)口型、身份保護(hù)以及自然感,包括支持任意長(zhǎng)度的內(nèi)容生成。(Kling-Avatar 2.0和OmniHuman 1.5最多限制為30秒)
![]()
所以LPM 1.0可能適用于以下情形:AI對(duì)話、游戲NPC互動(dòng)、虛擬直播、教育輔導(dǎo)、游戲伴侶等等。長(zhǎng)直播視頻生成。
![]()
不過值得注意的是,Anuttacon團(tuán)隊(duì)現(xiàn)在沒有計(jì)劃向公眾發(fā)布模型權(quán)重、源代碼、在線演示、API、產(chǎn)品或任何相關(guān)產(chǎn)品。
本次公開僅用于展示LPM 1.0當(dāng)前的研究進(jìn)展,供學(xué)術(shù)交流使用。該模型不會(huì)開源或?qū)ν忾_放。
![]()
所以葡萄君認(rèn)為,本次LPM 1.0對(duì)外披露的核心目的仍是招聘。之前不少相關(guān)人士都曾表示,蔡浩宇正在全力押注AI領(lǐng)域,且相關(guān)團(tuán)隊(duì)仍存在大量AI人才招聘缺口。而LPM大概率也不是Anuttacon唯一的技術(shù)探索方向,可以推測(cè),他們未來很有可能還會(huì)推出更多的大模型。
看到這里,你大概就會(huì)發(fā)現(xiàn),在一眾游戲創(chuàng)始人中,蔡浩宇對(duì)AI的重視程度可能是最明顯的,會(huì)親自下場(chǎng),在一線All in。
而不管是米哈游還是Anuttacon、Hoyoverse,他們近年來在AI領(lǐng)域的種種布局,其實(shí)已經(jīng)開始形成一條有跡可循的技術(shù)探索路線。
比如說Anuttacon成立之初就表示要打造一款A(yù)I原生的游戲引擎級(jí)平臺(tái),開發(fā)者僅需輸入前提條件,即可一鍵生成可自由交互的智能NPC,并以此快速搭建完整游戲世界。
而從最開始試驗(yàn)性質(zhì)的AI游戲《Whispers from the Star》,再到后來的AI聊天產(chǎn)品AnuNeko,再到如今的LPM 1.0,這個(gè)技術(shù)的進(jìn)化進(jìn)度肉眼可見。
![]()
![]()
AnuNeko
包括米哈游或者Anuttacon近年來在各個(gè)AI領(lǐng)域的動(dòng)作,看似分散,但現(xiàn)在也逐漸能串聯(lián)起來了:
《崩壞:星穹鐵道》團(tuán)隊(duì)早在2023年就已開始嘗試將AI工具應(yīng)用到角色行為管理、3D建模調(diào)優(yōu)、NPC臺(tái)詞等多個(gè)方面,并希望未來打造“對(duì)話永不重復(fù)的智能NPC”。
米哈游還在2025年發(fā)布了崩壞IP項(xiàng)目組AI專項(xiàng)招募計(jì)劃。該計(jì)劃面向AI人才,核心目的包括“AI驅(qū)動(dòng)提效”(將AI應(yīng)用到游戲開發(fā)全流程)和“AI驅(qū)動(dòng)創(chuàng)新”(通過AI帶來新的游戲體驗(yàn))。項(xiàng)目組已搭建AI Agent平臺(tái)Echo和多個(gè)游戲開發(fā)管線應(yīng)用。
前陣子,米哈游三位創(chuàng)始人蔡浩宇、劉偉、羅宇皓還通過劉偉代表,向上海交通大學(xué)捐款助力“AI未來基石基金”。不難猜想,這也是為后續(xù)的AI人才輸送鋪路。
而虛擬角色鹿鳴,米哈游與Hoyoverse聯(lián)合開發(fā)的《雨之城》(Varsapura),則都有可能作為AI技術(shù)的探索載體。
事實(shí)上,在米哈游生活模擬新作《星布谷地》的首次測(cè)試?yán)铮呀?jīng)推出了可支持玩家自由文字對(duì)話的AI NPC。
![]()
正如游戲葡萄此前的,每當(dāng)談及終極愿景時(shí),蔡浩宇始終堅(jiān)定會(huì)地認(rèn)為,未來生成式的語言模型能跟游戲結(jié)合,做出非常酷的產(chǎn)品。
于他而言,虛擬世界是貫穿始終的燈塔。童年時(shí)對(duì)“被窩里的小電視”的幻想,因智能手機(jī)成為現(xiàn)實(shí);而如今看不清終點(diǎn)的虛擬世界賽道,所有的AI技術(shù)布局、產(chǎn)品試驗(yàn)與底層探索,都是他一步步靠近這個(gè)終極目標(biāo)的必經(jīng)之路。
游戲葡萄招聘商務(wù)經(jīng)理,
| |
| |
游戲行業(yè)書籍推薦: 葡萄書房
(星標(biāo)可第一時(shí)間收到推送和完整封面)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.