全面開源！商湯日日新SenseNova U1發(fā)布，邁向模型理解生成統(tǒng)一時代

2026-04-29 13:21:14　來源: 雷峰網(wǎng)

北京舉報

分享至

今天，商湯科技正式發(fā)布并開源日日新SenseNova U1 系列原生理解生成統(tǒng)一模型。它基于商湯于今年三月自主研發(fā)的NEO-unify架構(gòu)，在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。

NEO-unify架構(gòu)徹底摒棄了主流的拼接式，去除了視覺編碼器（VE）和變分自編碼器（VAE），重新構(gòu)建了統(tǒng)一的表征空間，并且深入融入每一層計算中，從而實現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。

SenseNova U1系列模型能夠?qū)⒄Z言與視覺信息作為統(tǒng)一的復(fù)合體直接建模，實現(xiàn)語言和視覺信息的高效協(xié)同，讓理解與生成能力同步增強(qiáng)，在保留語義豐富度的同時，維持像素級的視覺保真度。

在邏輯推理與空間智能等方向上，它能夠深度理解物理世界的復(fù)雜布局與精細(xì)關(guān)系；在未來，它還能為機(jī)器人提供具身大腦，實現(xiàn)在單一模型閉環(huán)內(nèi)完成從復(fù)雜環(huán)境感知、邏輯推演到精準(zhǔn)任務(wù)執(zhí)行的全過程，為推動技術(shù)與產(chǎn)業(yè)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。

本次開源發(fā)布的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite。它包含兩個不同規(guī)格的模型：

? SenseNova-U1-8B-MoT：基于稠密骨干網(wǎng)絡(luò)

? SenseNova-U1-A3B-MoT：基于混合專家（MoE）骨干網(wǎng)絡(luò)

訪問GitHub https://github.com/OpenSenseNova/SenseNova-U1 、Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1了解更多信息。我們也將在近期公布詳實的技術(shù)報告。

極致高效，以小搏大：開源 SOTA，比肩商用

效率，是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。

傳統(tǒng)多模態(tài)模型是把視覺編碼器和語言骨干通過適配器拼接在一起的。它像一個“說不同語言的人組成的工作組”：有人專門看圖，把圖像翻譯為語言，有人專門理解文字，進(jìn)行推理，有人把結(jié)果再翻譯為設(shè)計指令，把圖畫出來。每完成一次任務(wù)，信息都要在不同成員之間來回傳遞。這個過程雖然可行，但難免會有等待、誤解和信息損耗。為了彌補(bǔ)這些損耗，模型往往需要做得更大才能達(dá)到好的效果。

SenseNova U1 是基于統(tǒng)一表征空間構(gòu)建的，更像是一個從一開始就同時掌握多項技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個系統(tǒng)理解，而是在同一套“思考方式”里直接處理圖像、文字等不同信息。圖像和語言不再是兩套系統(tǒng)之間的接力，而是在同一個大腦中自然融合。這樣帶來的好處是：信息流轉(zhuǎn)更快捷，理解更直接，生成更高效。模型不需要依賴單純堆大參數(shù)來彌補(bǔ)中間轉(zhuǎn)換的損耗，而是通過統(tǒng)一的內(nèi)部表征，把不同模態(tài)的信息以更緊湊、更高密度的方式組織起來。

簡單來說，傳統(tǒng)架構(gòu)像是“多人協(xié)作、層層轉(zhuǎn)述”；SenseNova U1 更像是“一個全能大腦，直接理解，直接表達(dá)”。少了中間轉(zhuǎn)譯，信息損耗更低，也能在相對更精簡的模型規(guī)模下，實現(xiàn)更強(qiáng)的多模態(tài)理解與生成能力。

實驗結(jié)果驗證了我們的想法。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準(zhǔn)測試中，SenseNova U1 Lite均達(dá)到同量級開源模型SOTA水平，為統(tǒng)一多模態(tài)理解與生成樹立了新的標(biāo)桿。甚至僅憑8B-MoT的較小規(guī)格，就能達(dá)到甚至超越部分大型商業(yè)閉源模型，展現(xiàn)出全維度多領(lǐng)域的統(tǒng)治力。

以下兩組對比圖更直觀地展現(xiàn)了 SenseNova U1 Lite 在效率上的突出優(yōu)勢。在通用的圖像生成測試中，SenseNova U1 Lite不但在圖像生成質(zhì)量上比肩 Qwen-Image 2.0 Pro或 Seedream 4.5 等大型閉源模型，達(dá)到商業(yè)級水準(zhǔn)，還在推理響應(yīng)速度上有顯著優(yōu)勢。即使在極具挑戰(zhàn)性、開源模型一直做不好的復(fù)雜信息圖生成任務(wù)中，SenseNova U1 Lite 也表現(xiàn)出商業(yè)級的水準(zhǔn)，對復(fù)雜信息圖的排版和文字有很強(qiáng)的控制力。

以下實際例子，展現(xiàn)了 SenseNova U1 Lite的商業(yè)級復(fù)雜信息圖生成能力。

我們正在沿著當(dāng)前的技術(shù)路徑繼續(xù) Scale，計劃在未來推出體量更大的模型。我們相信，基于高效的原生架構(gòu)，可以以低得多的計算成本達(dá)到國際頂尖模型的水平。

業(yè)內(nèi)首創(chuàng)：連續(xù)性圖文創(chuàng)作輸出

憑借NEO-Unify架構(gòu)的優(yōu)勢，SenseNova U1在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出。并且只需要單次單模型調(diào)用，就能輸出更高質(zhì)量的作品，相比傳統(tǒng)范式，實現(xiàn)了效率的大幅提升。

SenseNova U1 所具備的原生圖文理解生成能力，能天然將圖像和文本底層融合信號完整的保留上下文中，區(qū)別于過去只能利用多模型串聯(lián)勉強(qiáng)實現(xiàn)，它的圖像間風(fēng)格具備明顯的高一致性，能在統(tǒng)一表征空間進(jìn)行高效連貫思考。

下面兩個案例中，SenseNova U1 通過連貫高保真度的圖文交錯思考輸出。

任務(wù)一：五分熟牛排做法：SenseNova U1 可以通過思考和規(guī)劃產(chǎn)生分步的過程，并且給每一步輸出對應(yīng)的圖像展示。各個步驟的圖示表現(xiàn)出極高的一致性。

任務(wù)二：繪制一個鋼鐵俠圖案：它可以從掃描草稿出發(fā)，逐步進(jìn)行連續(xù)創(chuàng)作，最終做出一個完成度很高的圖像。每一步創(chuàng)作的過程對于前一步的結(jié)構(gòu)和細(xì)節(jié)都做了精準(zhǔn)的保持 —— 一個統(tǒng)一表征的共享上下文在其中發(fā)揮了關(guān)鍵作用。

全網(wǎng)開源，即刻可用

開源部署

? GitHub：https://github.com/OpenSenseNova/SenseNova-U1

? Hugging Face：https://huggingface.co/collections/sensenova/sensenova-u1

? 歡迎調(diào)用

SenseNovaU1Skillhttps://github.com/OpenSenseNova/SenseNova-Skills，瀏覽海量樣例庫，獲取Prompt編寫指南，化繁為簡（繁雜文->有趣圖），讓您的Agent成為信息圖生成高手

在線體驗

? 即將上線辦公小浣熊

我們相信，原生統(tǒng)一的多模態(tài)智能是通往 AGI 的必經(jīng)之路。未來，我們還將持續(xù)推動開源生態(tài)建設(shè)，并發(fā)布更大參數(shù)規(guī)模的 U1 系列模型。迎社區(qū)廣大用戶和開發(fā)者提出寶貴建議，共同定義智能交互的未來。

*NEO-unify技術(shù)博客：https://www.sensetime.com/cn/news-detail/51170548?categoryId=73

SenseNova U1 Lite專屬群，歡迎入群掃碼交流~↓↓↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.