今天,商湯科技正式發(fā)布并開源日日新SenseNova U1 系列原生理解生成統(tǒng)一模型。它基于商湯于今年三月自主研發(fā)的NEO-unify架構(gòu),在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。
NEO-unify架構(gòu)徹底摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構(gòu)建了統(tǒng)一的表征空間,并且深入融入每一層計算中,從而實現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。
SenseNova U1系列模型能夠?qū)⒄Z言與視覺信息作為統(tǒng)一的復(fù)合體直接建模,實現(xiàn)語言和視覺信息的高效協(xié)同,讓理解與生成能力同步增強(qiáng),在保留語義豐富度的同時,維持像素級的視覺保真度。
在邏輯推理與空間智能等方向上,它能夠深度理解物理世界的復(fù)雜布局與精細(xì)關(guān)系;在未來,它還能為機(jī)器人提供具身大腦,實現(xiàn)在單一模型閉環(huán)內(nèi)完成從復(fù)雜環(huán)境感知、邏輯推演到精準(zhǔn)任務(wù)執(zhí)行的全過程,為推動技術(shù)與產(chǎn)業(yè)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。
本次開源發(fā)布的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite。它包含兩個不同規(guī)格的模型:
? SenseNova-U1-8B-MoT:基于稠密骨干網(wǎng)絡(luò)
? SenseNova-U1-A3B-MoT:基于混合專家(MoE) 骨干網(wǎng)絡(luò)
訪問GitHub https://github.com/OpenSenseNova/SenseNova-U1 、Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1了解更多信息。我們也將在近期公布詳實的技術(shù)報告。
極致高效,以小搏大:開源 SOTA,比肩商用
效率,是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。
傳統(tǒng)多模態(tài)模型是把視覺編碼器和語言骨干通過適配器拼接在一起的。它像一個“說不同語言的人組成的工作組”:有人專門看圖,把圖像翻譯為語言,有人專門理解文字,進(jìn)行推理,有人把結(jié)果再翻譯為設(shè)計指令,把圖畫出來。每完成一次任務(wù),信息都要在不同成員之間來回傳遞。這個過程雖然可行,但難免會有等待、誤解和信息損耗。為了彌補(bǔ)這些損耗,模型往往需要做得更大才能達(dá)到好的效果。
SenseNova U1 是基于統(tǒng)一表征空間構(gòu)建的,更像是一個從一開始就同時掌握多項技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個系統(tǒng)理解,而是在同一套“思考方式”里直接處理圖像、文字等不同信息。圖像和語言不再是兩套系統(tǒng)之間的接力,而是在同一個大腦中自然融合。這樣帶來的好處是:信息流轉(zhuǎn)更快捷,理解更直接,生成更高效。模型不需要依賴單純堆大參數(shù)來彌補(bǔ)中間轉(zhuǎn)換的損耗,而是通過統(tǒng)一的內(nèi)部表征,把不同模態(tài)的信息以更緊湊、更高密度的方式組織起來。
簡單來說,傳統(tǒng)架構(gòu)像是“多人協(xié)作、層層轉(zhuǎn)述”;SenseNova U1 更像是“一個全能大腦,直接理解,直接表達(dá)”。少了中間轉(zhuǎn)譯,信息損耗更低,也能在相對更精簡的模型規(guī)模下,實現(xiàn)更強(qiáng)的多模態(tài)理解與生成能力。
實驗結(jié)果驗證了我們的想法。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準(zhǔn)測試中,SenseNova U1 Lite均達(dá)到同量級開源模型SOTA水平,為統(tǒng)一多模態(tài)理解與生成樹立了新的標(biāo)桿。甚至僅憑8B-MoT的較小規(guī)格,就能達(dá)到甚至超越部分大型商業(yè)閉源模型,展現(xiàn)出全維度多領(lǐng)域的統(tǒng)治力。
![]()
以下兩組對比圖更直觀地展現(xiàn)了 SenseNova U1 Lite 在效率上的突出優(yōu)勢。在通用的圖像生成測試中,SenseNova U1 Lite不但在圖像生成質(zhì)量上比肩 Qwen-Image 2.0 Pro或 Seedream 4.5 等大型閉源模型,達(dá)到商業(yè)級水準(zhǔn),還在推理響應(yīng)速度上有顯著優(yōu)勢。即使在極具挑戰(zhàn)性、開源模型一直做不好的復(fù)雜信息圖生成任務(wù)中,SenseNova U1 Lite 也表現(xiàn)出商業(yè)級的水準(zhǔn),對復(fù)雜信息圖的排版和文字有很強(qiáng)的控制力。
![]()
以下實際例子,展現(xiàn)了 SenseNova U1 Lite的商業(yè)級復(fù)雜信息圖生成能力。
![]()
![]()
![]()
我們正在沿著當(dāng)前的技術(shù)路徑繼續(xù) Scale,計劃在未來推出體量更大的模型。我們相信,基于高效的原生架構(gòu),可以以低得多的計算成本達(dá)到國際頂尖模型的水平。
業(yè)內(nèi)首創(chuàng):連續(xù)性圖文創(chuàng)作輸出
憑借NEO-Unify架構(gòu)的優(yōu)勢,SenseNova U1在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出。并且只需要單次單模型調(diào)用,就能輸出更高質(zhì)量的作品,相比傳統(tǒng)范式,實現(xiàn)了效率的大幅提升。
SenseNova U1 所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整的保留上下文中,區(qū)別于過去只能利用多模型串聯(lián)勉強(qiáng)實現(xiàn),它的圖像間風(fēng)格具備明顯的高一致性,能在統(tǒng)一表征空間進(jìn)行高效連貫思考。
下面兩個案例中,SenseNova U1 通過連貫高保真度的圖文交錯思考輸出。
任務(wù)一:五分熟牛排做法:SenseNova U1 可以通過思考和規(guī)劃產(chǎn)生分步的過程,并且給每一步輸出對應(yīng)的圖像展示。各個步驟的圖示表現(xiàn)出極高的一致性。
![]()
任務(wù)二:繪制一個鋼鐵俠圖案:它可以從掃描草稿出發(fā),逐步進(jìn)行連續(xù)創(chuàng)作,最終做出一個完成度很高的圖像。每一步創(chuàng)作的過程對于前一步的結(jié)構(gòu)和細(xì)節(jié)都做了精準(zhǔn)的保持 —— 一個統(tǒng)一表征的共享上下文在其中發(fā)揮了關(guān)鍵作用。
![]()
全網(wǎng)開源,即刻可用
開源部署
? GitHub:https://github.com/OpenSenseNova/SenseNova-U1
? Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
? 歡迎調(diào)用
SenseNovaU1Skillhttps://github.com/OpenSenseNova/SenseNova-Skills,瀏覽海量樣例庫,獲取Prompt編寫指南,化繁為簡(繁雜文->有趣圖),讓您的Agent成為信息圖生成高手
在線體驗
? 即將上線辦公小浣熊
我們相信,原生統(tǒng)一的多模態(tài)智能是通往 AGI 的必經(jīng)之路。未來,我們還將持續(xù)推動開源生態(tài)建設(shè),并發(fā)布更大參數(shù)規(guī)模的 U1 系列模型。迎社區(qū)廣大用戶和開發(fā)者提出寶貴建議,共同定義智能交互的未來。
*NEO-unify技術(shù)博客:https://www.sensetime.com/cn/news-detail/51170548?categoryId=73
SenseNova U1 Lite專屬群,歡迎入群掃碼交流~↓↓↓
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.