4月28日,商湯科技發布并開源日日新SenseNova U1系列原生理解生成統一模型。該系列基于今年3月商湯自主研發的NEO unify架構,在單一模型上統一了多模態理解、推理與生成。
傳統多模態模型多采用視覺編碼器搭配語言骨干的拼接方式,存在信息損耗。SenseNova U1去除了視覺編碼器和變分自編碼器,直接在像素上運行,重建統一表征空間。
該架構由商湯與南洋理工大學S Lab合作研發,讓圖像和文本在同一套表征體系中被直接處理,減少了模塊間的信息損耗和延遲。
商湯本次開源的是輕量版SenseNova U1 Lite,包含兩個規格:基于稠密網絡的8B MoT版本,以及采用混合專家架構的A3B MoT版本。
相關代碼已在GitHub和Hugging Face平臺上線。商湯表示,未來計劃推出體量更大的版本并公布詳細技術報告。
效率是該模型較為突出的特點。8B參數規模下,它在多模態理解、生成與推理等多個維度上逼近甚至部分超越一些商業閉源模型。
在AI2D等理解基準中拿到91.7分,在復雜信息圖生成任務中平均得分50.7,是目前開源模型里表現最強的。
在通用圖像生成測試中,生成質量可比肩Qwen Image 2.0 Pro或Seedream 4.5,同時推理響應速度更快。
視覺推理方面,在VBVR(UMM)測試中拿到60.5分,高于Nano Bananaz的49.6。在WISE維度上取得69.0分,領先于Qwen Image的63.0。
此外,SenseNova U1支持連續性圖文創作輸出,只需單次單模型調用即可完成分步驟圖文生成,圖像風格保持高度連貫,這在行業內屬首次實現。
該模型還表現出較強的物理空間理解能力,未來可應用于機器人系統,在單一模型閉環內完成環境感知、推理和任務執行。
商湯此次開源并非孤立行動。在國內開源大模型市場,阿里巴巴通義千問(Qwen)系列占據明顯優勢,截至2026年3月累計下載量突破10億次,占全球開源模型總下載量50%以上。
DeepSeek則通過持續的價格策略壓低了AI調用成本。商湯選擇在這個時間點開源U1,市場分析認為其意圖是從收取短期授權費轉向構建開發者生態,復制阿里巴巴Qwen的路徑,通過模型免費帶動周邊服務和基礎設施實現商業變現。
開源能否幫助商湯在阿里Qwen已經占據主導的市場上打開局面,目前尚無定論。對商湯而言,關注點已從單一模型的技術指標,轉向SenseNova整個生態系統的開發者活躍度和實際應用規模。
當技術架構的創新已經落地,接下來的問題在于開發者是否愿意遷移,以及與之配套的工具鏈和服務能否形成足夠的黏性。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.