網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

魔芯科技發(fā)布VGGT系列成果，實(shí)現(xiàn)動(dòng)態(tài)高保真重建并獲新一輪融資

2026-05-14 12:48:44　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心發(fā)布

在邁向通用人工智能（AGI）的過(guò)程中，世界模型被視為讓機(jī)器理解物理規(guī)律、實(shí)現(xiàn)空間智能的關(guān)鍵。而高效、魯棒和精準(zhǔn)的三維感知能力，被廣泛認(rèn)為是世界模型的首要前提。通常來(lái)說(shuō)，一個(gè)成熟的世界模型需要具備三大核心能力：對(duì)長(zhǎng)時(shí)空序列的持續(xù)記憶、對(duì)復(fù)雜動(dòng)力學(xué)的因果解耦、以及對(duì)高清物理細(xì)節(jié)的精細(xì)感知。近期，魔芯科技（KOKONI 3D）聯(lián)合同濟(jì)大學(xué)（祝瀾耘教授團(tuán)隊(duì)）等多個(gè)科研團(tuán)隊(duì)，基于視覺(jué)幾何 Transformer（VGGT）架構(gòu)連續(xù)發(fā)布四項(xiàng)成果。該系列工作系統(tǒng)性地突破了三維感知在流式處理、動(dòng)態(tài)魯棒性和精細(xì)感知上的瓶頸，實(shí)現(xiàn)了從基礎(chǔ)圖像重建到高保真 4D 世界模型的跨越。

一、三維感知的核心約束：長(zhǎng)時(shí)序、強(qiáng)動(dòng)態(tài)與高精度的系統(tǒng)性瓶頸

在真實(shí)工業(yè)級(jí)場(chǎng)景中，三維感知模型面臨的挑戰(zhàn)不僅在于精度本身。當(dāng)輸入分辨率提升、場(chǎng)景引入動(dòng)態(tài)變化、數(shù)據(jù)形式擴(kuò)展為視頻流時(shí)，傳統(tǒng)架構(gòu)的算力、算法與內(nèi)存資源將同時(shí)承壓。具體而言，存在三大核心難題：

1.無(wú)限序列與有限內(nèi)存的沖突：現(xiàn)有的流式重建方法在處理長(zhǎng)視頻流輸入時(shí)，模型的 KV 緩存會(huì)隨輸入幀數(shù)呈線性增長(zhǎng)，隨著時(shí)間推移而引發(fā)顯存溢出。這意味著，即便單幀重建精度再高，模型也無(wú)法在有限顯存下完成對(duì)無(wú)限長(zhǎng)序列的持續(xù)推理，長(zhǎng)視頻理解的 “記憶瓶頸” 由此形成。

2.動(dòng)與靜的糾纏：在動(dòng)態(tài)場(chǎng)景中，移動(dòng)的物體會(huì)對(duì)相機(jī)位姿估計(jì)產(chǎn)生嚴(yán)重干擾。傳統(tǒng)模型難以區(qū)分 “相機(jī)自身的運(yùn)動(dòng)” 與 “場(chǎng)景中物體的獨(dú)立運(yùn)動(dòng)”，導(dǎo)致兩套運(yùn)動(dòng)信號(hào)相互污染。其后果是，靜態(tài)背景被錯(cuò)誤地扭曲變形，動(dòng)態(tài)物體的結(jié)構(gòu)出現(xiàn)坍塌或 “鬼影”，整個(gè)重建結(jié)果的幾何一致性被徹底破壞。

3.算力與精度的矛盾：高分辨率特征承載著豐富的物理細(xì)節(jié)（如細(xì)薄結(jié)構(gòu)、紋理邊緣），但特征維度的提升會(huì)引發(fā) Token 數(shù)量的顯著增長(zhǎng)。當(dāng)模型致力于捕獲更精細(xì)的幾何表征時(shí)，顯存占用迅速攀升直至溢出。這使得模型在精度追求與算力約束之間面臨兩難：若降低特征分辨率則細(xì)節(jié)丟失，若維持高分辨表達(dá)則顯存難以為繼。

二、三維感知能力的系統(tǒng)性重構(gòu)：長(zhǎng)效記憶、因果解耦與高保真感知

針對(duì)上述三大技術(shù)瓶頸，魔芯科技聯(lián)合同濟(jì)大學(xué)（祝瀾耘教授團(tuán)隊(duì)）等機(jī)構(gòu)，基于 VGGT 架構(gòu)提出了三項(xiàng)系統(tǒng)性創(chuàng)新：長(zhǎng)效時(shí)空記憶、動(dòng)力學(xué)解耦與高保真感知，分別從序列、動(dòng)態(tài)、分辨率三個(gè)維度切入，逐一攻克三維感知的核心難題，全方位支撐空間智能世界模型的構(gòu)建。

1、流式序列重建：賦予世界模型 “長(zhǎng)效時(shí)空記憶”

論文鏈接：https://arxiv.org/abs/2604.15237

一個(gè)實(shí)用的世界模型不能只具備 “瞬時(shí)感知”，必須能像生物一樣持續(xù)處理無(wú)限流式信息并保持長(zhǎng)久記憶。然而，當(dāng)處理長(zhǎng)視頻流時(shí)，網(wǎng)絡(luò)的 KV Cache 會(huì)隨幀數(shù)線性增長(zhǎng)，迅速榨干顯存。針對(duì)這一痛點(diǎn)，魔芯團(tuán)隊(duì)提出 StreamCacheVGGT，使用創(chuàng)新的記憶管理機(jī)制，在 O (1) 恒定顯存開銷下，實(shí)現(xiàn)了對(duì)無(wú)限長(zhǎng)序列的高保真重建。

圖： StreamCacheVGGT 展示 O(1) 恒定顯存下的長(zhǎng)效流式重建架構(gòu)

該方法并非簡(jiǎn)單壓縮或裁剪緩存，而是引入 “選擇性記憶” 的策略。通過(guò)跨層一致性評(píng)分（CLCES），模型能夠追蹤 Token 在不同 Transformer 層級(jí)中的穩(wěn)定性表現(xiàn)，從而優(yōu)先保留具有長(zhǎng)期幾何意義的特征，同時(shí)抑制短期噪聲的干擾。

圖：跨層一致性評(píng)分

在此基礎(chǔ)上，混合緩存壓縮機(jī)制創(chuàng)新 “三級(jí)分診” 策略。對(duì)于中等價(jià)值的信息，通過(guò)動(dòng)態(tài)性地歸屬合并進(jìn)行壓縮存儲(chǔ)而非生硬剔除。這種機(jī)制有效保存了低頻結(jié)構(gòu)先驗(yàn)，防止世界模型在長(zhǎng)距離任務(wù)中出現(xiàn)幾何坍塌。

圖：混合緩存壓縮

在 500 幀以上的 KITTI 長(zhǎng)序列測(cè)試中，StreamCacheVGGT 在嚴(yán)格的 O (1）顯存限制下，將深度誤差 Abs Rel 降低至 0.123。相比傳統(tǒng) “純剔除” 方案，其重建點(diǎn)云的表面完整度與局部細(xì)節(jié)顯著提升。而在多項(xiàng)可視化結(jié)果中，StreamCacheVGGT 也表現(xiàn)出了相比現(xiàn)有方法更完整、清晰且噪聲更少的重建效果。

2、4D 動(dòng)態(tài)重建：解耦動(dòng)力學(xué)規(guī)律，理解動(dòng)態(tài)世界的 “因果”

論文鏈接：https://arxiv.org/pdf/2604.09366

論文鏈接：https://arxiv.org/pdf/2605.12027

真實(shí)世界是動(dòng)靜結(jié)合的，能夠分離 “自我運(yùn)動(dòng)” 與 “物體運(yùn)動(dòng)” 是世界模型理解物理因果的核心。魔芯科技從漸進(jìn)式解耦與不確定性建模兩個(gè)角度切入，顯著提升了動(dòng)態(tài)場(chǎng)景下的重建穩(wěn)定性。

在運(yùn)動(dòng)建模方面，團(tuán)隊(duì)提出漸進(jìn)式解耦策略，通過(guò) “先穩(wěn)定相機(jī)，再恢復(fù)動(dòng)態(tài)” 的建模路徑，將相機(jī)位姿估計(jì)與場(chǎng)景幾何重建逐步分離。借助動(dòng)態(tài)掩碼機(jī)制，模型能夠在初始階段屏蔽動(dòng)態(tài)物體對(duì)位姿估計(jì)的干擾，從而建立更加穩(wěn)定的參考系，隨后再對(duì)動(dòng)態(tài)區(qū)域進(jìn)行精細(xì)建模，實(shí)現(xiàn)動(dòng)靜分離的重建效果。

為應(yīng)對(duì)復(fù)雜視覺(jué)環(huán)境中的噪聲干擾，模型引入基于不確定性的建模方法來(lái)解構(gòu)子空間投影，對(duì)多頭注意力進(jìn)行自適應(yīng)加權(quán)。這使模型能夠在信息混雜的場(chǎng)景中識(shí)別更具可靠性的運(yùn)動(dòng)信號(hào)，從而在劇烈動(dòng)態(tài)變化下依然維持幾何結(jié)構(gòu)的穩(wěn)定輸出。

兩項(xiàng)成果在多項(xiàng)公開數(shù)據(jù)集上表現(xiàn)優(yōu)異。在 DyCheck 動(dòng)態(tài)幾何基準(zhǔn)上，Accuracy Mean 指標(biāo)提升了 15.4%；定性分析也顯示，該方法能有效抑制動(dòng)態(tài)噪聲，恢復(fù)完整準(zhǔn)確的物體結(jié)構(gòu)，消除了動(dòng)態(tài)場(chǎng)景中常見(jiàn)的 “鬼影” 現(xiàn)象。

3、高保真感知：精細(xì)特征驅(qū)動(dòng)高清幾何重建

論文鏈接:https://arxiv.org/pdf/2603.27222

對(duì)環(huán)境幾何細(xì)節(jié)的掌握程度是影響世界模型預(yù)測(cè)精度的關(guān)鍵因素。為此，魔芯科研團(tuán)隊(duì)提出 HD-VGGT 解決了前饋式模型在處理高清輸入時(shí)的算力與精度的平衡問(wèn)題：

層次化細(xì)節(jié)注入：采用雙分支架構(gòu)，在保持低分辨率全局一致性的基礎(chǔ)上，通過(guò)可學(xué)習(xí)特征上采樣將高清圖像中的高頻物理細(xì)節(jié)（如細(xì)薄燈桿、墻面紋理）精準(zhǔn)注入幾何特征。

特征調(diào)制：針對(duì)鏡面反射、弱紋理等視覺(jué)歧義區(qū)域，HD-VGGT 引入特征調(diào)制機(jī)制，自動(dòng)識(shí)別并抑制不穩(wěn)定的特征 Token，確保模型在復(fù)雜光照條件下依然能夠輸出規(guī)整、邊界銳利的高精度點(diǎn)云。

在實(shí)驗(yàn)結(jié)果層面，HD-VGGT 在多項(xiàng)公開數(shù)據(jù)集上取得領(lǐng)先結(jié)果，特別是在 RealEstate10K 數(shù)據(jù)集上 AUC@30 達(dá)到 87.01%，刷新該數(shù)據(jù)集的記錄。此外，在深度估計(jì)任務(wù)上的多項(xiàng)定性結(jié)果也表明 HD-VGGT 能清晰還原燈桿、椅腿等細(xì)薄結(jié)構(gòu)，解決傳統(tǒng)模型在高清輸入下的過(guò)平滑與偽影問(wèn)題。

魔芯科技研究團(tuán)隊(duì)負(fù)責(zé)人表示： “我們不僅是在做 3D/4D 重建，我們是在為機(jī)器視覺(jué)構(gòu)建一套健壯的‘空間底層協(xié)議’。通過(guò) VGGT 系列技術(shù)，我們賦予了模型精細(xì)的觸感（HD）、動(dòng)態(tài)的洞察（4D）和持久的記憶（Streaming），這正是通往具備物理常識(shí)的高階世界模型的必經(jīng)之路。”

此外，研究團(tuán)隊(duì)在 4D 基座模型上更是取得了關(guān)鍵進(jìn)展，證明了 3D/4D 場(chǎng)景建模同樣遵循 Scaling Law。通過(guò)將訓(xùn)練數(shù)據(jù)規(guī)模擴(kuò)展至百萬(wàn)級(jí)以上，并將模型參數(shù)量提升至百億級(jí)別，我們實(shí)現(xiàn)了重建誤差的顯著下降，并獲得了穩(wěn)定、長(zhǎng)時(shí)一致的空間建模能力。

圖：實(shí)驗(yàn)結(jié)果，隨著數(shù)據(jù)量的增加（左圖）和模型尺寸提升（右圖），模型精度持續(xù)提高（誤差降低）

基于堅(jiān)實(shí)的技術(shù)進(jìn)展，魔芯科技也取得了資本市場(chǎng)的進(jìn)一步認(rèn)可與支持，本輪獲得由富瀚微股份、聯(lián)融志道（聯(lián)想控股旗下基金）、浙創(chuàng)投的聯(lián)合投資，并且老股東持續(xù)跟投。據(jù)悉，魔芯科技后續(xù)將繼續(xù)加大對(duì)空間智能與世界模型技術(shù)的投入，重點(diǎn)推進(jìn)三維 / 四維重建、空間理解、長(zhǎng)視頻推理與交互式建模等核心能力的研發(fā)與落地。我們的目標(biāo)始終是讓 AI 真正理解、生成并能與物理世界交互，為各產(chǎn)業(yè)場(chǎng)景提供關(guān)鍵支撐。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.