![]()
智東西
作者 李水青
編輯 云鵬
智東西4月27日報道,今日,螞蟻靈光App上線“體驗世界模型”功能,成為業界首個可在移動端體驗世界模型的智能助手,實現了分鐘級一致性和實時可交互體驗。
![]()
▲靈光App界面更新
用戶只需上傳一張圖片,即可在手機上探索最長60秒的3D世界,并通過手游搖桿操控視角,像玩游戲一樣在其中走動。從觸發指令到開始探索,整個過程僅需秒級。
靈光App“體驗世界模型”功能背后,其接入了螞蟻靈波今年1月開源的LingBot-World-Fast世界模型,該模型可提供高保真、可控制且邏輯一致的模擬環境。
智東西第一時間體驗了該功能,發現該功能確實能實現秒級生成速度,無需等待,生成的3D畫面較自然合理且連續性較好;操縱上雖然有秒級延遲,但可以接受;作為一款端側功能,清晰度仍有提升空間。
![]()
▲輸入給靈光App的圖片
![]()
▲靈光App可一秒內生成一個“世界”
具體操作上,用戶在靈光App對話框上傳一張圖片后,系統會智能推薦操作指令,用戶選擇“生成圖中世界”;或者直接輸入“幫我用第一人稱視角探索這個世界”等自然語言,系統將自動進入世界模型生成流程。
當我上傳《黑神話:悟空》中的小雷音寺場景圖片,靈光迅速生成了以下與游戲界面類似的“世界”。畫面中引入了手游搖桿操控,據稱這是靈光針對動端操作習慣一個創新點。如下圖所示,通過遙感操縱,我能以悟空的第一視角向前。
![]()
▲輸入給靈光App的圖片
![]()
▲靈光App生成的“世界”部分體驗截圖
可以看到,復雜建筑結構被保留還原,門洞內部的景深感明顯,不存在“穿模”情況;右側視角環顧四周時,場景過渡平滑,延遲在1秒鐘左右;不過從清晰度上來說,該功能還有提升空間。
緊接著,我上傳了一張《塞爾達傳說:曠野之息》海拉魯平原的截圖,只見生成的開闊大場景的地面連續性較好,向山下望去可見陡峭的巖石群,無接縫、無孔洞;陽光之下,高飽和綠色與藍天之間的顏色過渡自然,地面上的陰影方向也與圖片中的光源方向保持一致。
![]()
▲輸入給靈光App的圖片
![]()
▲靈光App生成的“世界”部分體驗截圖
再看看《超級馬里奧:奧德賽》都市國街道場景生成情況,路側的近景路燈、中景行人行道、遠景高樓顯得比較有層次,沒有明顯的粘連;角色沿街道直線行走時,兩側建筑保持平行,透視正確;但地上的斑馬線出現了一些扭曲,小摩托“自動駕駛”后消失,略顯不足;隨著游覽速度加快,圖像的清晰度有些打折扣,馬里奧的身形已不太清楚。
![]()
▲輸入給靈光App的圖片
![]()
▲靈光App生成的“世界”部分體驗截圖
最后我又拿一張恐龍滅絕主題的CG藝術圖來嘗試,只見隕石墜落、火山遠景都刻畫得富有動態,但隕石懸浮時間有些久;遠處隕石、濃煙邊界清晰,沒有被簡化為單一色塊;恐龍在走動中及重疊時形態沒有嚴重畸變,整體表現沒有大的視覺Bug。
![]()
▲輸入給靈光App的圖片
![]()
▲靈光App生成的“世界”部分體驗截圖
世界模型的移動端部署面臨算力需求大、延遲控制難、終端性能參差不齊等業界公認難題。實測看到,靈光“體驗世界模型”功能在響應速度上表現突出。靈光官方報道提到,團隊采用了高效、低延遲的流式傳輸技術,實現了百毫秒級響應延遲,從觸發指令到開始探索僅需秒級。
靈光App負責人蔡偉談道:“體驗世界模型功能是靈光在探索智能邊界的又一實踐。此前靈光推出的‘閃應用’功能可實現自然語言30秒生應用,也是把原本專業開發者的Coding能力給到普通用戶。”
結語:世界模型升溫,端側場景是下一關
從阿里、騰訊、李飛飛團隊等密集發布世界模型新作,到靈光App率先將世界模型搬上手機,世界模型賽道正快速升溫。
端側響應速度與生成效果已有明顯進步,正如蔡偉所言,靈光希望不斷探索智能邊界,把好的AI體驗給到所有人。接下來,比拼的不僅是技術,落地后的應用場景挖掘也至關重要。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.