網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)也入局了，世界模型到底是一門(mén)怎樣的生意？

2026-04-25 12:33:28　來(lái)源: 字母榜

北京舉報(bào)

分享至

這兩天，世界模型這個(gè)概念非常火爆。

騰訊、阿里相繼入局之后，現(xiàn)在好了，字節(jié)也算是“半入局”了。

字節(jié)正式發(fā)布了Seed3D 2.0，這是3D生成模型，你給它文字、圖片、多視角圖，甚至視頻，它幫你生成3D模型。

Seed3D 2.0的第一個(gè)優(yōu)勢(shì)，是它把幾何精度往生產(chǎn)級(jí)推了一步。

過(guò)去的3D生成，最大問(wèn)題不是不夠驚艷，是不夠可靠。邊緣發(fā)軟、薄壁結(jié)構(gòu)斷裂、材質(zhì)只在單一光照下好看，放進(jìn)游戲引擎、仿真系統(tǒng)或機(jī)器人訓(xùn)練環(huán)境里，很快露餡。

Seed3D 2.0用兩階段DiT先搭整體結(jié)構(gòu)，再補(bǔ)高精度細(xì)節(jié)，讓銳邊、曲面、復(fù)雜拓?fù)浜捅〗Y(jié)構(gòu)更穩(wěn)定。

第二個(gè)優(yōu)勢(shì)在材質(zhì)。

別的模型追求的是RGB貼圖，以達(dá)到視覺(jué)效果相似。但Seed3D 2.0追求的是統(tǒng)一生成PBR材質(zhì)，讓金屬、粗糙度、反光邊界在不同光照下保持物理一致。

這意味著生成結(jié)果不只是截圖好看，而是更接近可進(jìn)入真實(shí)渲染管線(xiàn)的資產(chǎn)。

更關(guān)鍵的是，Seed3D 2.0它現(xiàn)在不光是能生成3D物體，它還在生成的同時(shí)考慮這樣一個(gè)問(wèn)題“我生成的物體能不能放進(jìn)接下來(lái)的場(chǎng)景，比如游戲建模、訓(xùn)練機(jī)器人這些”。

所以它支持部件級(jí)拆分、關(guān)節(jié)建模、URDF 輸出，也能做場(chǎng)景組合和空間布局推理。

一個(gè)椅子不只是一個(gè)整體模型，而可以被拆成座面、靠背和底座。一個(gè)物體不只是擺在那里，而可以進(jìn)入仿真、交互和運(yùn)動(dòng)系統(tǒng)。

所以它的真正優(yōu)點(diǎn)，其實(shí)是把3D生成從內(nèi)容生產(chǎn)工具，往具身智能、工業(yè)仿真和游戲資產(chǎn)基礎(chǔ)設(shè)施推進(jìn)了一步。

因此，雖然字節(jié)并沒(méi)有大大方方承認(rèn)Seed3D 2.0是世界模型，但從某種意義上來(lái)說(shuō)，它算是半個(gè)世界模型。

關(guān)鍵點(diǎn)在于，Seed3D 2.0能理解物體的空間結(jié)構(gòu)、部件關(guān)系和可操作性，這就是世界模型的特點(diǎn)。

不過(guò)Seed3D 2.0不能持續(xù)預(yù)測(cè)世界演化，也不理解力、碰撞、摩擦、破壞、流體等物理過(guò)程，這就是為啥它只算是半個(gè)。

世界模型大戰(zhàn)

關(guān)于世界模型這件事，得先從李飛飛開(kāi)始講起。

4月14日，李飛飛的世界模型公司W(wǎng)orld Labs發(fā)布了Spark 2.0，它是一個(gè)Web端的3D高斯濺射渲染引擎。

這個(gè)東西的作用是什么？就是讓你即使是用手機(jī)的瀏覽器，也能流暢地打開(kāi)那些包含上億個(gè)粒子的3D世界。

過(guò)去做3D場(chǎng)景，要么用傳統(tǒng)的三角網(wǎng)格，文件巨大、加載慢；要么就是視頻，看完就沒(méi)了。

3D高斯濺射是個(gè)新路子，用數(shù)百萬(wàn)個(gè)半透明的橢球體來(lái)表示場(chǎng)景，渲染效果接近照片級(jí)，但問(wèn)題是數(shù)據(jù)量太大。一個(gè)稍微復(fù)雜點(diǎn)的場(chǎng)景就能有幾千萬(wàn)個(gè)splats，普通設(shè)備根本跑不動(dòng)。

Spark 2.0的核心突破在三個(gè)地方。

第一是LoD系統(tǒng)，也就是細(xì)節(jié)層次技術(shù)。它會(huì)預(yù)先生成不同分辨率的數(shù)據(jù)，你離得近就顯示高精度，離得遠(yuǎn)就自動(dòng)降低細(xì)節(jié)。

第二是漸進(jìn)式流式傳輸，場(chǎng)景不是一次性加載，而是邊走邊下載，就像看流媒體視頻一樣。

第三是虛擬內(nèi)存管理，在GPU里劃出一塊固定的內(nèi)存池，最多容納1600萬(wàn)個(gè)splats，然后不斷地把需要的數(shù)據(jù)塊換進(jìn)換出。

這套技術(shù)最早是World Labs為自己的產(chǎn)品Marble開(kāi)發(fā)的。

Marble是個(gè)AI生成3D世界的工具，能根據(jù)文字或圖片生成可以進(jìn)入的3D場(chǎng)景。Spark 2.0解決的就是“最后一公里”的問(wèn)題，它讓生成的世界可以被分享、被嵌入網(wǎng)頁(yè)、被任何人在任何設(shè)備上訪(fǎng)問(wèn)。

幾乎在同一時(shí)間，英偉達(dá)發(fā)布了Lyra 2.0。

Lyra 2.0和李飛飛的World Labs雖說(shuō)都是世界模型，不過(guò)前者想要解決的是長(zhǎng)距離、大范圍3D世界生成的一致性問(wèn)題。

現(xiàn)有的視頻生成模型有兩個(gè)致命缺陷。

第一個(gè)叫“空間遺忘”，就是鏡頭走遠(yuǎn)了再回來(lái)，模型已經(jīng)忘記之前那個(gè)地方長(zhǎng)什么樣，只能重新編一個(gè)，結(jié)果前后對(duì)不上。

第二個(gè)叫“時(shí)間漂移”，自回歸生成的過(guò)程中，微小的誤差會(huì)不斷累積，生成幾百幀之后，顏色、結(jié)構(gòu)都開(kāi)始變形。

Lyra 2.0的解決方案是維護(hù)一個(gè)空間記憶系統(tǒng)。

每生成一幀，就把它的3D幾何信息存下來(lái)。下次要生成新視角時(shí)，先從記憶里檢索出相關(guān)的歷史幀，建立3D對(duì)應(yīng)關(guān)系，然后再讓生成模型補(bǔ)充細(xì)節(jié)。這樣既保證了空間一致性，又能利用生成模型的想象力。

更關(guān)鍵的是，Lyra 2.0還用了一個(gè)叫“自增強(qiáng)歷史訓(xùn)練”的技巧。

傳統(tǒng)訓(xùn)練用的都是干凈的真實(shí)數(shù)據(jù)，但實(shí)際使用時(shí)，模型看到的是自己之前生成的、可能有瑕疵的畫(huà)面。Lyra 2.0在訓(xùn)練時(shí)故意喂給模型一些帶有退化的歷史幀，教它學(xué)會(huì)糾正漂移，而不是放大錯(cuò)誤。

不過(guò)，英偉達(dá)做這個(gè)不是為了讓你生成視頻，Lyra 2.0的使用場(chǎng)景是機(jī)器人和自動(dòng)駕駛。

真實(shí)世界的訓(xùn)練數(shù)據(jù)太貴、太危險(xiǎn)，很多極端場(chǎng)景根本采集不到。如果能用AI生成足夠真實(shí)、足夠一致的虛擬環(huán)境，就可以在里面反復(fù)訓(xùn)練、測(cè)試，然后再部署到現(xiàn)實(shí)中。Lyra 2.0生成的世界可以直接導(dǎo)出為3DGS或mesh，接入Isaac Sim這樣的仿真平臺(tái)。

就在李飛飛發(fā)布Spark 2.0的第二天，騰訊正式發(fā)布并開(kāi)源了HY-World 2.0。

騰訊的路線(xiàn)和前兩家都不一樣，它要做的是真正的3D資產(chǎn)生成。

什么叫3D資產(chǎn)？就是那些可以導(dǎo)入Blender、Unity、Unreal Engine的mesh文件和3DGS文件，可以被編輯、被復(fù)用、被二次開(kāi)發(fā)的東西。

HY-World 2.0的工作流程分四步。

第一步是全景圖生成，用HY-Pano 2.0模型把文字或單張圖片擴(kuò)展成360度全景。第二步是軌跡規(guī)劃，用WorldNav算法分析全景圖的幾何和語(yǔ)義信息，自動(dòng)規(guī)劃出合理的相機(jī)運(yùn)動(dòng)路徑。第三步是世界擴(kuò)展，沿著規(guī)劃好的軌跡，用WorldStereo 2.0模型生成多個(gè)關(guān)鍵幀視角，這些視角之間要保持空間一致性。第四步是世界組合，用WorldMirror 2.0把所有關(guān)鍵幀整合成統(tǒng)一的3DGS場(chǎng)景，再優(yōu)化轉(zhuǎn)換成高質(zhì)量mesh。

這套流程里最難的是WorldStereo 2.0。

它要做的是新視角生成，也就是給定一個(gè)起始視角和相機(jī)運(yùn)動(dòng)參數(shù)，生成目標(biāo)視角的畫(huà)面。難點(diǎn)在于既要精確跟隨相機(jī)控制，又要保持視覺(jué)細(xì)節(jié)，還要和之前生成的區(qū)域在幾何上完美銜接。

騰訊的解決方案是引入記憶機(jī)制，讓模型記住已經(jīng)生成的區(qū)域的幾何和外觀(guān)特征，生成新區(qū)域時(shí)參考這些記憶，避免出現(xiàn)“穿幫”。

騰訊做這個(gè)的目的很明確，就是服務(wù)游戲和虛擬內(nèi)容產(chǎn)業(yè)。傳統(tǒng)的游戲場(chǎng)景制作需要美術(shù)、建模、貼圖、燈光多個(gè)環(huán)節(jié)，一個(gè)高質(zhì)量場(chǎng)景可能要幾個(gè)人做幾周。如果能用AI直接生成可編輯的3D資產(chǎn)，整個(gè)生產(chǎn)流程就被重構(gòu)了。而且騰訊強(qiáng)調(diào)的是“可編輯”，生成出來(lái)的不是一段視頻，而是可以在引擎里繼續(xù)調(diào)整、繼續(xù)開(kāi)發(fā)的真實(shí)資產(chǎn)。

就在騰訊發(fā)布的幾個(gè)小時(shí)后，阿里也扔出了自己的世界模型產(chǎn)品Happy Oyster。

現(xiàn)在好了，4家完全都是不同的，阿里想做的是實(shí)時(shí)交互的世界生成。

Happy Oyster有兩個(gè)核心模式。第一個(gè)叫Wandering，漫游模式。你給它一句話(huà)或一張圖，它就生成一個(gè)具備物理一致性的完整空間，然后你可以用第一人稱(chēng)視角在里面自由移動(dòng)，用WASD鍵控制方向，用鼠標(biāo)控制鏡頭。場(chǎng)景會(huì)隨著你的移動(dòng)不斷延展，物體位置穩(wěn)定，光照跟隨視角變化。目前支持最長(zhǎng)1分鐘的連續(xù)實(shí)時(shí)控制。

第二個(gè)模式叫Directing，導(dǎo)演模式。這個(gè)更有意思，它不是生成完就結(jié)束，而是讓你在生成過(guò)程中持續(xù)介入。視頻播放到任意時(shí)刻，你都可以用文字、語(yǔ)音或圖像指令來(lái)改變劇情、切換鏡頭、指揮角色。系統(tǒng)會(huì)實(shí)時(shí)響應(yīng)，場(chǎng)景隨之變化，然后繼續(xù)往下演化。

阿里把Happy Oyster定位為“世界模擬器”。

傳統(tǒng)的文生視頻是輸入prompt、等待渲染、得到成片，這是被動(dòng)的。世界模擬器是主動(dòng)的，它在持續(xù)地模擬世界的演化，用戶(hù)可以隨時(shí)介入、隨時(shí)改變。這種交互方式更接近游戲，而不是看電影。

不過(guò)Happy Oyster的輸出是音視頻流，不是3D資產(chǎn)。它的優(yōu)勢(shì)在于互動(dòng)體驗(yàn)和生成速度，而不是可以導(dǎo)出到游戲引擎。這也反映了阿里的產(chǎn)品思路，它瞄準(zhǔn)的是內(nèi)容創(chuàng)作、互動(dòng)娛樂(lè)、虛擬直播這些場(chǎng)景，而不是游戲開(kāi)發(fā)的底層工具鏈。

這個(gè)時(shí)間窗口里，國(guó)內(nèi)還有兩家公司值得一提。

群核科技在2025年發(fā)布了空間生成模型SpatialGen和Aholo空間智能開(kāi)放平臺(tái)，瞄準(zhǔn)的是室內(nèi)設(shè)計(jì)和具身智能場(chǎng)景。極佳視界的GigaWorld-1在3月底的WorldArena評(píng)測(cè)中拿下全球第一，這是一個(gè)專(zhuān)門(mén)面向機(jī)器人訓(xùn)練的具身世界模型。

為什么都在這個(gè)時(shí)間點(diǎn)發(fā)

這不是簡(jiǎn)單的撞車(chē)。這幾家公司，無(wú)論是產(chǎn)品成熟度、技術(shù)路線(xiàn)、目標(biāo)場(chǎng)景，那真是能都不一樣的地方全都不一樣，所以不可能碰巧在同一時(shí)間準(zhǔn)備好。

更合理的解釋是，大家都在等一個(gè)信號(hào)，而李飛飛的Spark 2.0就是那個(gè)發(fā)令槍。

過(guò)去兩年，AI圈的主旋律是大語(yǔ)言模型。

從GPT-4到Claude，從Gemini到DeepSeek，模型越來(lái)越大，上下文越來(lái)越長(zhǎng)，推理能力越來(lái)越強(qiáng)。

但到了2026年初，這條路開(kāi)始有點(diǎn)難走了。各家的差距在快速縮小。繼續(xù)講“我的模型比你強(qiáng)5%”已經(jīng)很難激起市場(chǎng)興趣。

agent是去年的熱點(diǎn)，但現(xiàn)在也進(jìn)入了擁擠區(qū)。各家都在做能調(diào)用工具、能執(zhí)行任務(wù)的AI助手，技術(shù)框架大同小異，真正的差異化越來(lái)越難。

市場(chǎng)需要一個(gè)新故事，一個(gè)足夠大、足夠性感、能夠承載下一輪想象空間的新敘事。

世界模型就是這個(gè)新故事，聽(tīng)起來(lái)比視頻生成更接近AGI。

更重要的是，世界模型是個(gè)足夠?qū)挿旱母拍睿梢园褍?nèi)容創(chuàng)作、游戲開(kāi)發(fā)、機(jī)器人訓(xùn)練、自動(dòng)駕駛、工業(yè)仿真、數(shù)字孿生這些完全不同的場(chǎng)景都裝進(jìn)去。

從技術(shù)層面看，世界模型的時(shí)機(jī)也確實(shí)到了。

過(guò)去兩年，幾條關(guān)鍵技術(shù)線(xiàn)開(kāi)始匯合。

視頻擴(kuò)散模型提供了生成高質(zhì)量動(dòng)態(tài)畫(huà)面的能力，3D高斯濺射提供了高效的3D表示方法，NeRF和三維重建技術(shù)提供了從2D到3D的轉(zhuǎn)換路徑，實(shí)時(shí)渲染技術(shù)提供了在消費(fèi)級(jí)設(shè)備上打開(kāi)大規(guī)模場(chǎng)景的可能，多模態(tài)理解讓AI能夠同時(shí)處理文字、圖像、視頻輸入，物理仿真平臺(tái)提供了訓(xùn)練和驗(yàn)證的環(huán)境。

這些技術(shù)單獨(dú)看都不是新東西，但它們現(xiàn)在“熟了”。

視頻模型的質(zhì)量已經(jīng)足夠好，3DGS的渲染速度已經(jīng)足夠快，多模態(tài)模型的理解能力已經(jīng)足夠強(qiáng)。

當(dāng)這些技術(shù)組合在一起，世界模型從概念變成了可以落地的產(chǎn)品。

事實(shí)上，李飛飛早在2025年6月16日舊金山的YC AI Startup School爐邊談話(huà)里，就已經(jīng)把這條技術(shù)線(xiàn)索講得很清楚。

她回顧了自己從ImageNet一路走來(lái)的歷程，說(shuō)最早推動(dòng)數(shù)據(jù)驅(qū)動(dòng)視覺(jué)方法時(shí)，很多人還不相信大規(guī)模數(shù)據(jù)會(huì)改變AI；2012年卷積神經(jīng)網(wǎng)絡(luò)的爆發(fā)讓她第一次強(qiáng)烈意識(shí)到，視覺(jué)模型不會(huì)停留在分類(lèi)和識(shí)別，而是會(huì)繼續(xù)走向圖像描述、視覺(jué)敘事，最后一路走到生成模型。

按這個(gè)脈絡(luò)看，今天的世界模型不是突然冒出來(lái)的新概念，而是計(jì)算機(jī)視覺(jué)沿著“理解世界”這條主線(xiàn)自然演化到更高維度的結(jié)果。

更關(guān)鍵的是，她當(dāng)時(shí)強(qiáng)調(diào)的核心詞不是視頻生成，也不是3D內(nèi)容生產(chǎn)，而是空間智能。

她的判斷很直接，如果AI想真正接近AGI，就不能只在語(yǔ)言里做概率預(yù)測(cè)，也不能只對(duì)二維像素做模式匹配，它必須理解三維空間、幾何結(jié)構(gòu)、物體關(guān)系和物理規(guī)律，知道世界是怎么被組織起來(lái)、又會(huì)如何隨著時(shí)間變化。

這也是為什么空間智能看起來(lái)像下一個(gè)前沿，或者我換一種方式來(lái)表達(dá)：世界模型就是整個(gè)行業(yè)長(zhǎng)期低估、一直沒(méi)真正啃下來(lái)的硬骨頭。

從這個(gè)角度再看最近這一波世界模型熱潮，很多事情就更容易理解了。

大家爭(zhēng)的表面上是渲染、生成、交互和資產(chǎn)化，底層爭(zhēng)的其實(shí)都是誰(shuí)更接近“讓機(jī)器理解真實(shí)世界”這件事

。語(yǔ)言當(dāng)然重要，但語(yǔ)言本質(zhì)上是人類(lèi)壓縮過(guò)的符號(hào)系統(tǒng)。

三維世界卻是連續(xù)的、動(dòng)態(tài)的，充滿(mǎn)遮擋、視角變化和物理約束。建模語(yǔ)言已經(jīng)很難，建模空間往往更難。所以李飛飛當(dāng)時(shí)那句話(huà)的分量很重，空間智能不是一個(gè)新標(biāo)簽，它是AI真正走向現(xiàn)實(shí)的物理世界之前必須補(bǔ)上的一課。

但光有技術(shù)還不夠，還需要有人來(lái)定義標(biāo)準(zhǔn)。

誰(shuí)先發(fā)布，誰(shuí)就有機(jī)會(huì)影響行業(yè)對(duì)“世界模型”這個(gè)詞的理解。李飛飛的World Labs在學(xué)術(shù)界和產(chǎn)業(yè)界都有巨大影響力，她發(fā)布Spark 2.0，等于是給世界模型這個(gè)賽道敲響了開(kāi)場(chǎng)鑼。其他公司如果不跟進(jìn)，就會(huì)在這個(gè)新敘事里失去話(huà)語(yǔ)權(quán)。

所以騰訊、阿里、英偉達(dá)、字節(jié)都在最近發(fā)產(chǎn)品。不是因?yàn)楫a(chǎn)品剛好做完，而是因?yàn)檫@個(gè)時(shí)間窗口太關(guān)鍵了。

晚一周發(fā)布，市場(chǎng)的注意力可能就被其他熱點(diǎn)帶走了；早一周發(fā)布，又沒(méi)有李飛飛這個(gè)“發(fā)令槍”來(lái)引爆話(huà)題。

同時(shí)，大廠(chǎng)們也都在搶奪定義權(quán)。世界模型現(xiàn)在還是個(gè)模糊的概念，到底什么算世界模型、世界模型應(yīng)該輸出什么格式、應(yīng)該用什么方式交互、應(yīng)該接入什么樣的工具鏈，這些都還沒(méi)有定論。

誰(shuí)先占據(jù)某個(gè)關(guān)鍵位置，誰(shuí)就有機(jī)會(huì)把自己的標(biāo)準(zhǔn)變成行業(yè)標(biāo)準(zhǔn)。

World Labs搶的是Web分發(fā)入口。如果未來(lái)所有的3D世界都通過(guò)Spark這樣的渲染器在瀏覽器里打開(kāi)，那World Labs就掌握了分發(fā)渠道。

騰訊搶的是3D資產(chǎn)生產(chǎn)入口，如果游戲公司都用HY-World 2.0來(lái)生成場(chǎng)景原型，那騰訊就掌握了內(nèi)容生產(chǎn)工具。

阿里搶的是實(shí)時(shí)交互入口，如果互動(dòng)內(nèi)容都用Happy Oyster這樣的世界模擬器來(lái)制作，那阿里就掌握了新的內(nèi)容形態(tài)。

字節(jié)搶的是3D造物入口，如果未來(lái)游戲、機(jī)器人、工業(yè)仿真里的物體模型，都通過(guò)Seed3D 2.0從文字、圖片或視頻直接生成，并且自帶幾何、PBR 材質(zhì)、部件拆分和關(guān)節(jié)結(jié)構(gòu)，那字節(jié)就掌握了現(xiàn)實(shí)物體進(jìn)入數(shù)字世界的第一道入口。

英偉達(dá)搶的是仿真訓(xùn)練入口，如果機(jī)器人公司都用Lyra 2.0生成的環(huán)境來(lái)訓(xùn)練模型，那英偉達(dá)就掌握了物理AI的基礎(chǔ)設(shè)施。

所以本質(zhì)上，是大家在通過(guò)不同的產(chǎn)品，搶占世界模型生態(tài)里的不同層級(jí)。

誰(shuí)定義了世界的生成格式，誰(shuí)定義了世界的渲染方式，誰(shuí)定義了世界的交互范式，誰(shuí)定義了世界進(jìn)入仿真的路徑，誰(shuí)就可能成為下一代空間AI平臺(tái)。

世界模型對(duì)企業(yè)的意義

還有一點(diǎn)，那就是世界模型不是一個(gè)孤立的技術(shù)，要把它放在企業(yè)實(shí)際的生產(chǎn)上，才能看清楚這個(gè)技術(shù)到底是用來(lái)干嘛的。

對(duì)World Labs來(lái)說(shuō)，世界模型是一個(gè)完整的產(chǎn)品閉環(huán)。Marble負(fù)責(zé)生成3D世界，Spark負(fù)責(zé)渲染和分發(fā)。李飛飛的野心不是做一個(gè)工具，而是做一個(gè)平臺(tái)。

未來(lái)如果有人想分享一個(gè)3D場(chǎng)景，不是發(fā)一個(gè)幾個(gè)GB的文件讓你下載，而是發(fā)一個(gè)鏈接，你在手機(jī)瀏覽器里點(diǎn)開(kāi)就能進(jìn)入。這個(gè)體驗(yàn)類(lèi)似于你現(xiàn)在分享抖音視頻，你并不是真的把視頻下載下來(lái)，你只需要把那個(gè)二維碼發(fā)給你的小伙伴，他就能掃碼直達(dá)視頻原始網(wǎng)頁(yè)。

這個(gè)商業(yè)模式的關(guān)鍵在于降低門(mén)檻。

傳統(tǒng)的3D內(nèi)容創(chuàng)作需要專(zhuān)業(yè)軟件、高性能硬件、復(fù)雜的技術(shù)知識(shí)。

Marble把創(chuàng)作門(mén)檻降到了“輸入一句話(huà)”，Spark又把觀(guān)看門(mén)檻降到了“點(diǎn)開(kāi)一個(gè)鏈接”。當(dāng)創(chuàng)作和消費(fèi)的門(mén)檻都足夠低，3D內(nèi)容才可能像圖片和視頻一樣成為互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施。

對(duì)騰訊來(lái)說(shuō)，世界模型是游戲和虛擬內(nèi)容產(chǎn)業(yè)的生產(chǎn)力工具。騰訊是全球最大的游戲公司，它的核心資產(chǎn)是游戲IP和內(nèi)容生產(chǎn)能力。HY-World 2.0瞄準(zhǔn)的就是內(nèi)容生產(chǎn)環(huán)節(jié)。

傳統(tǒng)游戲開(kāi)發(fā)，一個(gè)高質(zhì)量的3A游戲場(chǎng)景動(dòng)輒就需要幾十個(gè)美術(shù)人員做幾個(gè)月。

即使是那種小規(guī)模的獨(dú)立游戲，場(chǎng)景制作也是最耗時(shí)的環(huán)節(jié)之一。如果AI能生成可編輯的3D資產(chǎn)，美術(shù)團(tuán)隊(duì)就可以從重復(fù)性的建模工作中解放出來(lái)，把精力放在創(chuàng)意設(shè)計(jì)和細(xì)節(jié)打磨上。

更重要的是，HY-World 2.0生成的是真正的3D資產(chǎn)，不是視頻。視頻只能看，資產(chǎn)可以用。你可以在Unity里調(diào)整光照，可以在Blender里修改模型，可以在Unreal里添加物理效果。

這種可編輯性是騰訊強(qiáng)調(diào)的核心價(jià)值，因?yàn)橛螒蜷_(kāi)發(fā)需要的不是成品，而是可以繼續(xù)加工的半成品。

對(duì)阿里來(lái)說(shuō)，世界模型是內(nèi)容形態(tài)的創(chuàng)新。阿里這幾年在內(nèi)容領(lǐng)域投入很大，從優(yōu)酷到大麥，從直播到短視頻，一直在尋找新的內(nèi)容載體。Happy Oyster代表的是一種新的內(nèi)容形態(tài)，介于視頻和游戲之間。

傳統(tǒng)視頻是線(xiàn)性的，你只能從頭看到尾。游戲是開(kāi)放的，但制作成本高、門(mén)檻高。Happy Oyster想做的是“可交互的視頻”或者“低門(mén)檻的游戲”。用戶(hù)不需要學(xué)習(xí)復(fù)雜的操作，只需要用自然語(yǔ)言說(shuō)出自己的想法，場(chǎng)景就會(huì)響應(yīng)。這種體驗(yàn)可能適合互動(dòng)劇、品牌營(yíng)銷(xiāo)、虛擬陪伴、教育培訓(xùn)這些場(chǎng)景。

阿里的商業(yè)邏輯是流量和變現(xiàn)。如果Happy Oyster能夠創(chuàng)造出一種新的內(nèi)容消費(fèi)方式，就可能帶來(lái)新的流量入口和變現(xiàn)模式。比如虛擬直播間，主播可以實(shí)時(shí)改變場(chǎng)景、召喚道具、創(chuàng)造劇情，觀(guān)眾的參與感會(huì)比傳統(tǒng)直播強(qiáng)得多。再比如品牌營(yíng)銷(xiāo)，用戶(hù)可以在虛擬世界里探索產(chǎn)品、體驗(yàn)場(chǎng)景，這種沉浸式的互動(dòng)比傳統(tǒng)廣告更有吸引力。

開(kāi)頭我就提到了，Seed3D 2.0生成的是帶幾何結(jié)構(gòu)、PBR 材質(zhì)、部件拆分、關(guān)節(jié)關(guān)系的3D資產(chǎn)。換句話(huà)說(shuō)，它生成的是“可以繼續(xù)編輯、渲染、放進(jìn)引擎、甚至接入仿真的東西”。

這對(duì)字節(jié)尤其重要。字節(jié)的優(yōu)勢(shì)一直是內(nèi)容分發(fā)和創(chuàng)作者生態(tài)，他們的所有產(chǎn)品，都是在降低內(nèi)容生產(chǎn)門(mén)檻。用剪映降低視頻剪輯門(mén)檻、用抖音降低視頻分發(fā)的門(mén)檻，再用Seedance降低視頻生成的門(mén)檻。

Seed3D 2.0降低的是3D資產(chǎn)生產(chǎn)的門(mén)檻。

未來(lái)如果短視頻創(chuàng)作者想做一個(gè)3D商品展示，不需要找建模師。電商商家想把商品變成可旋轉(zhuǎn)、可互動(dòng)的模型，不需要重做一套 3D 流程。游戲團(tuán)隊(duì)想快速生成道具原型，也可以直接從圖片或視頻開(kāi)始。

所以，對(duì)字節(jié)來(lái)說(shuō)，Seed3D 2.0的戰(zhàn)略?xún)r(jià)值不是“我也有一個(gè)世界模型”，而是當(dāng)內(nèi)容互聯(lián)網(wǎng)從二維視頻走向三維空間，字節(jié)要繼續(xù)掌握最低門(mén)檻、最高頻的內(nèi)容生產(chǎn)入口。

世界模型最終的競(jìng)爭(zhēng)不會(huì)停留在模型能力上，而是會(huì)延伸到生態(tài)層面。

誰(shuí)的輸出格式被更多工具支持，誰(shuí)的渲染器被更多開(kāi)發(fā)者使用，誰(shuí)的API被更多應(yīng)用接入，誰(shuí)能和Unity、Unreal、Isaac、瀏覽器這些關(guān)鍵平臺(tái)深度整合，誰(shuí)就有機(jī)會(huì)成為這個(gè)領(lǐng)域的標(biāo)準(zhǔn)制定者。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.