![]()
這兩天,世界模型這個(gè)概念非常火爆。
騰訊、阿里相繼入局之后,現(xiàn)在好了,字節(jié)也算是“半入局”了。
字節(jié)正式發(fā)布了Seed3D 2.0,這是3D生成模型,你給它文字、圖片、多視角圖,甚至視頻,它幫你生成3D模型。
![]()
Seed3D 2.0的第一個(gè)優(yōu)勢(shì),是它把幾何精度往生產(chǎn)級(jí)推了一步。
過(guò)去的3D生成,最大問(wèn)題不是不夠驚艷,是不夠可靠。邊緣發(fā)軟、薄壁結(jié)構(gòu)斷裂、材質(zhì)只在單一光照下好看,放進(jìn)游戲引擎、仿真系統(tǒng)或機(jī)器人訓(xùn)練環(huán)境里,很快露餡。
Seed3D 2.0用兩階段DiT先搭整體結(jié)構(gòu),再補(bǔ)高精度細(xì)節(jié),讓銳邊、曲面、復(fù)雜拓?fù)浜捅〗Y(jié)構(gòu)更穩(wěn)定。
第二個(gè)優(yōu)勢(shì)在材質(zhì)。
別的模型追求的是RGB貼圖,以達(dá)到視覺(jué)效果相似。但Seed3D 2.0追求的是統(tǒng)一生成PBR材質(zhì),讓金屬、粗糙度、反光邊界在不同光照下保持物理一致。
這意味著生成結(jié)果不只是截圖好看,而是更接近可進(jìn)入真實(shí)渲染管線(xiàn)的資產(chǎn)。
更關(guān)鍵的是,Seed3D 2.0它現(xiàn)在不光是能生成3D物體,它還在生成的同時(shí)考慮這樣一個(gè)問(wèn)題“我生成的物體能不能放進(jìn)接下來(lái)的場(chǎng)景,比如游戲建模、訓(xùn)練機(jī)器人這些”。
所以它支持部件級(jí)拆分、關(guān)節(jié)建模、URDF 輸出,也能做場(chǎng)景組合和空間布局推理。
一個(gè)椅子不只是一個(gè)整體模型,而可以被拆成座面、靠背和底座。一個(gè)物體不只是擺在那里,而可以進(jìn)入仿真、交互和運(yùn)動(dòng)系統(tǒng)。
所以它的真正優(yōu)點(diǎn),其實(shí)是把3D生成從內(nèi)容生產(chǎn)工具,往具身智能、工業(yè)仿真和游戲資產(chǎn)基礎(chǔ)設(shè)施推進(jìn)了一步。
因此,雖然字節(jié)并沒(méi)有大大方方承認(rèn)Seed3D 2.0是世界模型,但從某種意義上來(lái)說(shuō),它算是半個(gè)世界模型。
關(guān)鍵點(diǎn)在于,Seed3D 2.0能理解物體的空間結(jié)構(gòu)、部件關(guān)系和可操作性,這就是世界模型的特點(diǎn)。
不過(guò)Seed3D 2.0不能持續(xù)預(yù)測(cè)世界演化,也不理解力、碰撞、摩擦、破壞、流體等物理過(guò)程,這就是為啥它只算是半個(gè)。
01
世界模型大戰(zhàn)
關(guān)于世界模型這件事,得先從李飛飛開(kāi)始講起。
4月14日,李飛飛的世界模型公司W(wǎng)orld Labs發(fā)布了Spark 2.0,它是一個(gè)Web端的3D高斯濺射渲染引擎。
這個(gè)東西的作用是什么?就是讓你即使是用手機(jī)的瀏覽器,也能流暢地打開(kāi)那些包含上億個(gè)粒子的3D世界。
過(guò)去做3D場(chǎng)景,要么用傳統(tǒng)的三角網(wǎng)格,文件巨大、加載慢;要么就是視頻,看完就沒(méi)了。
3D高斯濺射是個(gè)新路子,用數(shù)百萬(wàn)個(gè)半透明的橢球體來(lái)表示場(chǎng)景,渲染效果接近照片級(jí),但問(wèn)題是數(shù)據(jù)量太大。一個(gè)稍微復(fù)雜點(diǎn)的場(chǎng)景就能有幾千萬(wàn)個(gè)splats,普通設(shè)備根本跑不動(dòng)。
Spark 2.0的核心突破在三個(gè)地方。
第一是LoD系統(tǒng),也就是細(xì)節(jié)層次技術(shù)。它會(huì)預(yù)先生成不同分辨率的數(shù)據(jù),你離得近就顯示高精度,離得遠(yuǎn)就自動(dòng)降低細(xì)節(jié)。
第二是漸進(jìn)式流式傳輸,場(chǎng)景不是一次性加載,而是邊走邊下載,就像看流媒體視頻一樣。
第三是虛擬內(nèi)存管理,在GPU里劃出一塊固定的內(nèi)存池,最多容納1600萬(wàn)個(gè)splats,然后不斷地把需要的數(shù)據(jù)塊換進(jìn)換出。
這套技術(shù)最早是World Labs為自己的產(chǎn)品Marble開(kāi)發(fā)的。
Marble是個(gè)AI生成3D世界的工具,能根據(jù)文字或圖片生成可以進(jìn)入的3D場(chǎng)景。Spark 2.0解決的就是“最后一公里”的問(wèn)題,它讓生成的世界可以被分享、被嵌入網(wǎng)頁(yè)、被任何人在任何設(shè)備上訪(fǎng)問(wèn)。
幾乎在同一時(shí)間,英偉達(dá)發(fā)布了Lyra 2.0。
Lyra 2.0和李飛飛的World Labs雖說(shuō)都是世界模型,不過(guò)前者想要解決的是長(zhǎng)距離、大范圍3D世界生成的一致性問(wèn)題。
現(xiàn)有的視頻生成模型有兩個(gè)致命缺陷。
第一個(gè)叫“空間遺忘”,就是鏡頭走遠(yuǎn)了再回來(lái),模型已經(jīng)忘記之前那個(gè)地方長(zhǎng)什么樣,只能重新編一個(gè),結(jié)果前后對(duì)不上。
第二個(gè)叫“時(shí)間漂移”,自回歸生成的過(guò)程中,微小的誤差會(huì)不斷累積,生成幾百幀之后,顏色、結(jié)構(gòu)都開(kāi)始變形。
Lyra 2.0的解決方案是維護(hù)一個(gè)空間記憶系統(tǒng)。
每生成一幀,就把它的3D幾何信息存下來(lái)。下次要生成新視角時(shí),先從記憶里檢索出相關(guān)的歷史幀,建立3D對(duì)應(yīng)關(guān)系,然后再讓生成模型補(bǔ)充細(xì)節(jié)。這樣既保證了空間一致性,又能利用生成模型的想象力。
更關(guān)鍵的是,Lyra 2.0還用了一個(gè)叫“自增強(qiáng)歷史訓(xùn)練”的技巧。
傳統(tǒng)訓(xùn)練用的都是干凈的真實(shí)數(shù)據(jù),但實(shí)際使用時(shí),模型看到的是自己之前生成的、可能有瑕疵的畫(huà)面。Lyra 2.0在訓(xùn)練時(shí)故意喂給模型一些帶有退化的歷史幀,教它學(xué)會(huì)糾正漂移,而不是放大錯(cuò)誤。
不過(guò),英偉達(dá)做這個(gè)不是為了讓你生成視頻,Lyra 2.0的使用場(chǎng)景是機(jī)器人和自動(dòng)駕駛。
真實(shí)世界的訓(xùn)練數(shù)據(jù)太貴、太危險(xiǎn),很多極端場(chǎng)景根本采集不到。如果能用AI生成足夠真實(shí)、足夠一致的虛擬環(huán)境,就可以在里面反復(fù)訓(xùn)練、測(cè)試,然后再部署到現(xiàn)實(shí)中。Lyra 2.0生成的世界可以直接導(dǎo)出為3DGS或mesh,接入Isaac Sim這樣的仿真平臺(tái)。
就在李飛飛發(fā)布Spark 2.0的第二天,騰訊正式發(fā)布并開(kāi)源了HY-World 2.0。
騰訊的路線(xiàn)和前兩家都不一樣,它要做的是真正的3D資產(chǎn)生成。
什么叫3D資產(chǎn)?就是那些可以導(dǎo)入Blender、Unity、Unreal Engine的mesh文件和3DGS文件,可以被編輯、被復(fù)用、被二次開(kāi)發(fā)的東西。
HY-World 2.0的工作流程分四步。
第一步是全景圖生成,用HY-Pano 2.0模型把文字或單張圖片擴(kuò)展成360度全景。第二步是軌跡規(guī)劃,用WorldNav算法分析全景圖的幾何和語(yǔ)義信息,自動(dòng)規(guī)劃出合理的相機(jī)運(yùn)動(dòng)路徑。第三步是世界擴(kuò)展,沿著規(guī)劃好的軌跡,用WorldStereo 2.0模型生成多個(gè)關(guān)鍵幀視角,這些視角之間要保持空間一致性。第四步是世界組合,用WorldMirror 2.0把所有關(guān)鍵幀整合成統(tǒng)一的3DGS場(chǎng)景,再優(yōu)化轉(zhuǎn)換成高質(zhì)量mesh。
這套流程里最難的是WorldStereo 2.0。
它要做的是新視角生成,也就是給定一個(gè)起始視角和相機(jī)運(yùn)動(dòng)參數(shù),生成目標(biāo)視角的畫(huà)面。難點(diǎn)在于既要精確跟隨相機(jī)控制,又要保持視覺(jué)細(xì)節(jié),還要和之前生成的區(qū)域在幾何上完美銜接。
騰訊的解決方案是引入記憶機(jī)制,讓模型記住已經(jīng)生成的區(qū)域的幾何和外觀(guān)特征,生成新區(qū)域時(shí)參考這些記憶,避免出現(xiàn)“穿幫”。
騰訊做這個(gè)的目的很明確,就是服務(wù)游戲和虛擬內(nèi)容產(chǎn)業(yè)。傳統(tǒng)的游戲場(chǎng)景制作需要美術(shù)、建模、貼圖、燈光多個(gè)環(huán)節(jié),一個(gè)高質(zhì)量場(chǎng)景可能要幾個(gè)人做幾周。如果能用AI直接生成可編輯的3D資產(chǎn),整個(gè)生產(chǎn)流程就被重構(gòu)了。而且騰訊強(qiáng)調(diào)的是“可編輯”,生成出來(lái)的不是一段視頻,而是可以在引擎里繼續(xù)調(diào)整、繼續(xù)開(kāi)發(fā)的真實(shí)資產(chǎn)。
就在騰訊發(fā)布的幾個(gè)小時(shí)后,阿里也扔出了自己的世界模型產(chǎn)品Happy Oyster。
現(xiàn)在好了,4家完全都是不同的,阿里想做的是實(shí)時(shí)交互的世界生成。
Happy Oyster有兩個(gè)核心模式。第一個(gè)叫Wandering,漫游模式。你給它一句話(huà)或一張圖,它就生成一個(gè)具備物理一致性的完整空間,然后你可以用第一人稱(chēng)視角在里面自由移動(dòng),用WASD鍵控制方向,用鼠標(biāo)控制鏡頭。場(chǎng)景會(huì)隨著你的移動(dòng)不斷延展,物體位置穩(wěn)定,光照跟隨視角變化。目前支持最長(zhǎng)1分鐘的連續(xù)實(shí)時(shí)控制。
第二個(gè)模式叫Directing,導(dǎo)演模式。這個(gè)更有意思,它不是生成完就結(jié)束,而是讓你在生成過(guò)程中持續(xù)介入。視頻播放到任意時(shí)刻,你都可以用文字、語(yǔ)音或圖像指令來(lái)改變劇情、切換鏡頭、指揮角色。系統(tǒng)會(huì)實(shí)時(shí)響應(yīng),場(chǎng)景隨之變化,然后繼續(xù)往下演化。
阿里把Happy Oyster定位為“世界模擬器”。
傳統(tǒng)的文生視頻是輸入prompt、等待渲染、得到成片,這是被動(dòng)的。世界模擬器是主動(dòng)的,它在持續(xù)地模擬世界的演化,用戶(hù)可以隨時(shí)介入、隨時(shí)改變。這種交互方式更接近游戲,而不是看電影。
不過(guò)Happy Oyster的輸出是音視頻流,不是3D資產(chǎn)。它的優(yōu)勢(shì)在于互動(dòng)體驗(yàn)和生成速度,而不是可以導(dǎo)出到游戲引擎。這也反映了阿里的產(chǎn)品思路,它瞄準(zhǔn)的是內(nèi)容創(chuàng)作、互動(dòng)娛樂(lè)、虛擬直播這些場(chǎng)景,而不是游戲開(kāi)發(fā)的底層工具鏈。
這個(gè)時(shí)間窗口里,國(guó)內(nèi)還有兩家公司值得一提。
群核科技在2025年發(fā)布了空間生成模型SpatialGen和Aholo空間智能開(kāi)放平臺(tái),瞄準(zhǔn)的是室內(nèi)設(shè)計(jì)和具身智能場(chǎng)景。極佳視界的GigaWorld-1在3月底的WorldArena評(píng)測(cè)中拿下全球第一,這是一個(gè)專(zhuān)門(mén)面向機(jī)器人訓(xùn)練的具身世界模型。
02
為什么都在這個(gè)時(shí)間點(diǎn)發(fā)
這不是簡(jiǎn)單的撞車(chē)。這幾家公司,無(wú)論是產(chǎn)品成熟度、技術(shù)路線(xiàn)、目標(biāo)場(chǎng)景,那真是能都不一樣的地方全都不一樣,所以不可能碰巧在同一時(shí)間準(zhǔn)備好。
更合理的解釋是,大家都在等一個(gè)信號(hào),而李飛飛的Spark 2.0就是那個(gè)發(fā)令槍。
過(guò)去兩年,AI圈的主旋律是大語(yǔ)言模型。
從GPT-4到Claude,從Gemini到DeepSeek,模型越來(lái)越大,上下文越來(lái)越長(zhǎng),推理能力越來(lái)越強(qiáng)。
但到了2026年初,這條路開(kāi)始有點(diǎn)難走了。各家的差距在快速縮小。繼續(xù)講“我的模型比你強(qiáng)5%”已經(jīng)很難激起市場(chǎng)興趣。
agent是去年的熱點(diǎn),但現(xiàn)在也進(jìn)入了擁擠區(qū)。各家都在做能調(diào)用工具、能執(zhí)行任務(wù)的AI助手,技術(shù)框架大同小異,真正的差異化越來(lái)越難。
市場(chǎng)需要一個(gè)新故事,一個(gè)足夠大、足夠性感、能夠承載下一輪想象空間的新敘事。
世界模型就是這個(gè)新故事,聽(tīng)起來(lái)比視頻生成更接近AGI。
更重要的是,世界模型是個(gè)足夠?qū)挿旱母拍睿梢园褍?nèi)容創(chuàng)作、游戲開(kāi)發(fā)、機(jī)器人訓(xùn)練、自動(dòng)駕駛、工業(yè)仿真、數(shù)字孿生這些完全不同的場(chǎng)景都裝進(jìn)去。
從技術(shù)層面看,世界模型的時(shí)機(jī)也確實(shí)到了。
過(guò)去兩年,幾條關(guān)鍵技術(shù)線(xiàn)開(kāi)始匯合。
視頻擴(kuò)散模型提供了生成高質(zhì)量動(dòng)態(tài)畫(huà)面的能力,3D高斯濺射提供了高效的3D表示方法,NeRF和三維重建技術(shù)提供了從2D到3D的轉(zhuǎn)換路徑,實(shí)時(shí)渲染技術(shù)提供了在消費(fèi)級(jí)設(shè)備上打開(kāi)大規(guī)模場(chǎng)景的可能,多模態(tài)理解讓AI能夠同時(shí)處理文字、圖像、視頻輸入,物理仿真平臺(tái)提供了訓(xùn)練和驗(yàn)證的環(huán)境。
這些技術(shù)單獨(dú)看都不是新東西,但它們現(xiàn)在“熟了”。
視頻模型的質(zhì)量已經(jīng)足夠好,3DGS的渲染速度已經(jīng)足夠快,多模態(tài)模型的理解能力已經(jīng)足夠強(qiáng)。
當(dāng)這些技術(shù)組合在一起,世界模型從概念變成了可以落地的產(chǎn)品。
事實(shí)上,李飛飛早在2025年6月16日舊金山的YC AI Startup School爐邊談話(huà)里,就已經(jīng)把這條技術(shù)線(xiàn)索講得很清楚。
她回顧了自己從ImageNet一路走來(lái)的歷程,說(shuō)最早推動(dòng)數(shù)據(jù)驅(qū)動(dòng)視覺(jué)方法時(shí),很多人還不相信大規(guī)模數(shù)據(jù)會(huì)改變AI;2012年卷積神經(jīng)網(wǎng)絡(luò)的爆發(fā)讓她第一次強(qiáng)烈意識(shí)到,視覺(jué)模型不會(huì)停留在分類(lèi)和識(shí)別,而是會(huì)繼續(xù)走向圖像描述、視覺(jué)敘事,最后一路走到生成模型。
按這個(gè)脈絡(luò)看,今天的世界模型不是突然冒出來(lái)的新概念,而是計(jì)算機(jī)視覺(jué)沿著“理解世界”這條主線(xiàn)自然演化到更高維度的結(jié)果。
更關(guān)鍵的是,她當(dāng)時(shí)強(qiáng)調(diào)的核心詞不是視頻生成,也不是3D內(nèi)容生產(chǎn),而是空間智能。
她的判斷很直接,如果AI想真正接近AGI,就不能只在語(yǔ)言里做概率預(yù)測(cè),也不能只對(duì)二維像素做模式匹配,它必須理解三維空間、幾何結(jié)構(gòu)、物體關(guān)系和物理規(guī)律,知道世界是怎么被組織起來(lái)、又會(huì)如何隨著時(shí)間變化。
這也是為什么空間智能看起來(lái)像下一個(gè)前沿,或者我換一種方式來(lái)表達(dá):世界模型就是整個(gè)行業(yè)長(zhǎng)期低估、一直沒(méi)真正啃下來(lái)的硬骨頭。
從這個(gè)角度再看最近這一波世界模型熱潮,很多事情就更容易理解了。
大家爭(zhēng)的表面上是渲染、生成、交互和資產(chǎn)化,底層爭(zhēng)的其實(shí)都是誰(shuí)更接近“讓機(jī)器理解真實(shí)世界”這件事
。語(yǔ)言當(dāng)然重要,但語(yǔ)言本質(zhì)上是人類(lèi)壓縮過(guò)的符號(hào)系統(tǒng)。
三維世界卻是連續(xù)的、動(dòng)態(tài)的,充滿(mǎn)遮擋、視角變化和物理約束。建模語(yǔ)言已經(jīng)很難,建模空間往往更難。所以李飛飛當(dāng)時(shí)那句話(huà)的分量很重,空間智能不是一個(gè)新標(biāo)簽,它是AI真正走向現(xiàn)實(shí)的物理世界之前必須補(bǔ)上的一課。
但光有技術(shù)還不夠,還需要有人來(lái)定義標(biāo)準(zhǔn)。
誰(shuí)先發(fā)布,誰(shuí)就有機(jī)會(huì)影響行業(yè)對(duì)“世界模型”這個(gè)詞的理解。李飛飛的World Labs在學(xué)術(shù)界和產(chǎn)業(yè)界都有巨大影響力,她發(fā)布Spark 2.0,等于是給世界模型這個(gè)賽道敲響了開(kāi)場(chǎng)鑼。其他公司如果不跟進(jìn),就會(huì)在這個(gè)新敘事里失去話(huà)語(yǔ)權(quán)。
所以騰訊、阿里、英偉達(dá)、字節(jié)都在最近發(fā)產(chǎn)品。不是因?yàn)楫a(chǎn)品剛好做完,而是因?yàn)檫@個(gè)時(shí)間窗口太關(guān)鍵了。
晚一周發(fā)布,市場(chǎng)的注意力可能就被其他熱點(diǎn)帶走了;早一周發(fā)布,又沒(méi)有李飛飛這個(gè)“發(fā)令槍”來(lái)引爆話(huà)題。
同時(shí),大廠(chǎng)們也都在搶奪定義權(quán)。世界模型現(xiàn)在還是個(gè)模糊的概念,到底什么算世界模型、世界模型應(yīng)該輸出什么格式、應(yīng)該用什么方式交互、應(yīng)該接入什么樣的工具鏈,這些都還沒(méi)有定論。
誰(shuí)先占據(jù)某個(gè)關(guān)鍵位置,誰(shuí)就有機(jī)會(huì)把自己的標(biāo)準(zhǔn)變成行業(yè)標(biāo)準(zhǔn)。
World Labs搶的是Web分發(fā)入口。如果未來(lái)所有的3D世界都通過(guò)Spark這樣的渲染器在瀏覽器里打開(kāi),那World Labs就掌握了分發(fā)渠道。
騰訊搶的是3D資產(chǎn)生產(chǎn)入口,如果游戲公司都用HY-World 2.0來(lái)生成場(chǎng)景原型,那騰訊就掌握了內(nèi)容生產(chǎn)工具。
阿里搶的是實(shí)時(shí)交互入口,如果互動(dòng)內(nèi)容都用Happy Oyster這樣的世界模擬器來(lái)制作,那阿里就掌握了新的內(nèi)容形態(tài)。
字節(jié)搶的是3D造物入口,如果未來(lái)游戲、機(jī)器人、工業(yè)仿真里的物體模型,都通過(guò)Seed3D 2.0從文字、圖片或視頻直接生成,并且自帶幾何、PBR 材質(zhì)、部件拆分和關(guān)節(jié)結(jié)構(gòu),那字節(jié)就掌握了現(xiàn)實(shí)物體進(jìn)入數(shù)字世界的第一道入口。
英偉達(dá)搶的是仿真訓(xùn)練入口,如果機(jī)器人公司都用Lyra 2.0生成的環(huán)境來(lái)訓(xùn)練模型,那英偉達(dá)就掌握了物理AI的基礎(chǔ)設(shè)施。
![]()
所以本質(zhì)上,是大家在通過(guò)不同的產(chǎn)品,搶占世界模型生態(tài)里的不同層級(jí)。
誰(shuí)定義了世界的生成格式,誰(shuí)定義了世界的渲染方式,誰(shuí)定義了世界的交互范式,誰(shuí)定義了世界進(jìn)入仿真的路徑,誰(shuí)就可能成為下一代空間AI平臺(tái)。
03
世界模型對(duì)企業(yè)的意義
還有一點(diǎn),那就是世界模型不是一個(gè)孤立的技術(shù),要把它放在企業(yè)實(shí)際的生產(chǎn)上,才能看清楚這個(gè)技術(shù)到底是用來(lái)干嘛的。
對(duì)World Labs來(lái)說(shuō),世界模型是一個(gè)完整的產(chǎn)品閉環(huán)。Marble負(fù)責(zé)生成3D世界,Spark負(fù)責(zé)渲染和分發(fā)。李飛飛的野心不是做一個(gè)工具,而是做一個(gè)平臺(tái)。
未來(lái)如果有人想分享一個(gè)3D場(chǎng)景,不是發(fā)一個(gè)幾個(gè)GB的文件讓你下載,而是發(fā)一個(gè)鏈接,你在手機(jī)瀏覽器里點(diǎn)開(kāi)就能進(jìn)入。這個(gè)體驗(yàn)類(lèi)似于你現(xiàn)在分享抖音視頻,你并不是真的把視頻下載下來(lái),你只需要把那個(gè)二維碼發(fā)給你的小伙伴,他就能掃碼直達(dá)視頻原始網(wǎng)頁(yè)。
這個(gè)商業(yè)模式的關(guān)鍵在于降低門(mén)檻。
傳統(tǒng)的3D內(nèi)容創(chuàng)作需要專(zhuān)業(yè)軟件、高性能硬件、復(fù)雜的技術(shù)知識(shí)。
Marble把創(chuàng)作門(mén)檻降到了“輸入一句話(huà)”,Spark又把觀(guān)看門(mén)檻降到了“點(diǎn)開(kāi)一個(gè)鏈接”。當(dāng)創(chuàng)作和消費(fèi)的門(mén)檻都足夠低,3D內(nèi)容才可能像圖片和視頻一樣成為互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施。
對(duì)騰訊來(lái)說(shuō),世界模型是游戲和虛擬內(nèi)容產(chǎn)業(yè)的生產(chǎn)力工具。騰訊是全球最大的游戲公司,它的核心資產(chǎn)是游戲IP和內(nèi)容生產(chǎn)能力。HY-World 2.0瞄準(zhǔn)的就是內(nèi)容生產(chǎn)環(huán)節(jié)。
傳統(tǒng)游戲開(kāi)發(fā),一個(gè)高質(zhì)量的3A游戲場(chǎng)景動(dòng)輒就需要幾十個(gè)美術(shù)人員做幾個(gè)月。
即使是那種小規(guī)模的獨(dú)立游戲,場(chǎng)景制作也是最耗時(shí)的環(huán)節(jié)之一。如果AI能生成可編輯的3D資產(chǎn),美術(shù)團(tuán)隊(duì)就可以從重復(fù)性的建模工作中解放出來(lái),把精力放在創(chuàng)意設(shè)計(jì)和細(xì)節(jié)打磨上。
更重要的是,HY-World 2.0生成的是真正的3D資產(chǎn),不是視頻。視頻只能看,資產(chǎn)可以用。你可以在Unity里調(diào)整光照,可以在Blender里修改模型,可以在Unreal里添加物理效果。
這種可編輯性是騰訊強(qiáng)調(diào)的核心價(jià)值,因?yàn)橛螒蜷_(kāi)發(fā)需要的不是成品,而是可以繼續(xù)加工的半成品。
對(duì)阿里來(lái)說(shuō),世界模型是內(nèi)容形態(tài)的創(chuàng)新。阿里這幾年在內(nèi)容領(lǐng)域投入很大,從優(yōu)酷到大麥,從直播到短視頻,一直在尋找新的內(nèi)容載體。Happy Oyster代表的是一種新的內(nèi)容形態(tài),介于視頻和游戲之間。
傳統(tǒng)視頻是線(xiàn)性的,你只能從頭看到尾。游戲是開(kāi)放的,但制作成本高、門(mén)檻高。Happy Oyster想做的是“可交互的視頻”或者“低門(mén)檻的游戲”。用戶(hù)不需要學(xué)習(xí)復(fù)雜的操作,只需要用自然語(yǔ)言說(shuō)出自己的想法,場(chǎng)景就會(huì)響應(yīng)。這種體驗(yàn)可能適合互動(dòng)劇、品牌營(yíng)銷(xiāo)、虛擬陪伴、教育培訓(xùn)這些場(chǎng)景。
阿里的商業(yè)邏輯是流量和變現(xiàn)。如果Happy Oyster能夠創(chuàng)造出一種新的內(nèi)容消費(fèi)方式,就可能帶來(lái)新的流量入口和變現(xiàn)模式。比如虛擬直播間,主播可以實(shí)時(shí)改變場(chǎng)景、召喚道具、創(chuàng)造劇情,觀(guān)眾的參與感會(huì)比傳統(tǒng)直播強(qiáng)得多。再比如品牌營(yíng)銷(xiāo),用戶(hù)可以在虛擬世界里探索產(chǎn)品、體驗(yàn)場(chǎng)景,這種沉浸式的互動(dòng)比傳統(tǒng)廣告更有吸引力。
開(kāi)頭我就提到了,Seed3D 2.0生成的是帶幾何結(jié)構(gòu)、PBR 材質(zhì)、部件拆分、關(guān)節(jié)關(guān)系的3D資產(chǎn)。換句話(huà)說(shuō),它生成的是“可以繼續(xù)編輯、渲染、放進(jìn)引擎、甚至接入仿真的東西”。
這對(duì)字節(jié)尤其重要。字節(jié)的優(yōu)勢(shì)一直是內(nèi)容分發(fā)和創(chuàng)作者生態(tài),他們的所有產(chǎn)品,都是在降低內(nèi)容生產(chǎn)門(mén)檻。用剪映降低視頻剪輯門(mén)檻、用抖音降低視頻分發(fā)的門(mén)檻,再用Seedance降低視頻生成的門(mén)檻。
Seed3D 2.0降低的是3D資產(chǎn)生產(chǎn)的門(mén)檻。
未來(lái)如果短視頻創(chuàng)作者想做一個(gè)3D商品展示,不需要找建模師。電商商家想把商品變成可旋轉(zhuǎn)、可互動(dòng)的模型,不需要重做一套 3D 流程。游戲團(tuán)隊(duì)想快速生成道具原型,也可以直接從圖片或視頻開(kāi)始。
所以,對(duì)字節(jié)來(lái)說(shuō),Seed3D 2.0的戰(zhàn)略?xún)r(jià)值不是“我也有一個(gè)世界模型”,而是當(dāng)內(nèi)容互聯(lián)網(wǎng)從二維視頻走向三維空間,字節(jié)要繼續(xù)掌握最低門(mén)檻、最高頻的內(nèi)容生產(chǎn)入口。
世界模型最終的競(jìng)爭(zhēng)不會(huì)停留在模型能力上,而是會(huì)延伸到生態(tài)層面。
誰(shuí)的輸出格式被更多工具支持,誰(shuí)的渲染器被更多開(kāi)發(fā)者使用,誰(shuí)的API被更多應(yīng)用接入,誰(shuí)能和Unity、Unreal、Isaac、瀏覽器這些關(guān)鍵平臺(tái)深度整合,誰(shuí)就有機(jī)會(huì)成為這個(gè)領(lǐng)域的標(biāo)準(zhǔn)制定者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.