![]()
新智元報道
編輯:桃子 犀牛
【新智元導讀】GPT Image 2之后,最強開源生圖模型來了!SenseNova U1正式開源,原生統一理解和生成。它不僅能看懂圖,更能「邊想邊畫」,實現連續圖文創作輸出。這才是通往AGI的正確姿勢。
全球AI生圖大戰正酣!
上一周,OpenAI正式亮出的GPT Image 2,直接讓全網目瞪口呆。
不論是帶貨的直播間、90年代懷舊照片,還是復雜燒腦的知識圖,各種神仙級demo正在刷屏。
![]()
![]()
![]()
別問,問就是AI生圖已進化到下一個Level了。
短短幾天,國內大廠商湯快速反擊,亮出了一張全新的底牌:多模態理解生成模型SenseNova U1。
它把「看懂圖」和「生成圖」這兩件事,塞進了同一個大腦。
其核心突破便在于,通過自研「單一模型架構」NEO-Unify,實現了理解、推理、生成的統一。
更重磅的是,它沒有藏著掖著。
目前,SenseNova U1已在GitHub上全面開源,一大批網友已經開始整花活了。
就連來自Hugging Face、MLS超級智能體實驗室等AI大佬紛紛圍觀和點贊。
![]()
![]()
![]()
![]()
![]()
一手實測,信息量巨大
這一次,開源的是SenseNova U1 Lite輕量版系列,一共包含了兩個不同規格的模型:
SenseNova-U1-8B-MoT:基于稠密骨干網絡
SenseNova-U1-A3B-MoT:基于MoE骨干網絡
參數看著「精煉」,但成績表現遠超預期。
多項基準測試中,U1 Lite爆發出全維度的統治力,達到了同量級開源的SOTA水平。
更令人意外的是,它在多項指標上直逼,甚至超越了部分大型商業閉源模型。
![]()
![]()
![]()
圖像理解、圖像生成、視覺推理基準測試結果
如今,SenseNova U1上線后,各路大神直呼玩得停不下來。
在正式拆解技術之前,先上真實demo,讓你直觀感受U1的能力邊界。
首先,我們來試一下U1的拿手好戲——連續圖文創作輸出,它依托于商湯首創的圖文交錯思維鏈技術。
先來看第一個demo——手繪哥特式大教堂的步驟拆解圖。
令人驚艷的是,在思考的過程中,U1將繁復的建筑美學解構得淋漓盡致,更像是一個擁有深度空間思維的「建筑師」。
![]()
過去,對于生圖AI而言,保持多張圖的一致性曾是最大的難題。
但在這個Demo中,從簡練輪廓到華麗成品,建筑的主體結構、飛扶壁的數量、甚至玫瑰窗的格柵紋路,都保持了近乎完美的物理對齊。
這種高度的一致性,讓它看起來更像是一份真正具備教學意義的連貫教案。
再比如,一句簡單的提示:在海邊懸崖上設計一棟圖書館,并且實現多角度呈現。
五個視角,五段文字,五張圖,嚴格交替、邏輯遞進——從外到內、從結構到氛圍、從白天到黃昏,每一步「想」的內容都直接「畫」了出來。
![]()
思考和視覺表達同步展開,文字為圖像提供設計意圖,圖像為文字提供視覺驗證,二者互為因果。
而且最驚艷的是五張圖之間的風格自洽性——建筑形態、材質語言、色彩體系高度統一,明顯是在同一個「設計概念」下生成的。
這就是「邊想邊畫」該有的樣子。
再來讓它生成一段漫畫故事,同樣是簡單幾句提示詞。
可以看出,四格分鏡的敘事節奏精準到位——從賽博廢墟中的孤燈、到機器人圍觀老人讀書的荒誕溫情、再到淚落書頁的微觀特寫、最后拉到地平線長隊的宏大收束,情緒層層遞進。
而且,從第一幅畫到最后一幅,人物、場景都保持了比較強的一致性。
![]()
這恰恰得益于,SenseNova U1具備的原生圖文理解生成的能力,天然把圖像和文本底層融合信號完整地保留上下文中。
更值得注意的是,U1連續圖文創作輸出的深度,在每格之間自發補充了大量敘事細節:「靜默之塔」的命名、指尖劃過歲月痕跡的動作、晶瑩淚珠與泛黃書頁的對比——
這些文字本身就構成了一部微型科幻小說,圖像則精準地將文字中的情感峰值可視化。
再讓U1生成多種藝術風格的繪畫,主體就一個狼。
看到結果瞬間被驚艷到了,浮世繪、裝飾藝術、表現主義全部呈現。
![]()
甚至,U1可以通過連續的圖文輸出,直出像PPT一樣的高維信息圖。
它的每一步創作,通過共享上下文實現了統一表征,從而確保了前后環節在結構、細節上的高度一致。
![]()
![]()
甚至,UI還可以幫你用「圖文」方式,解釋生活中一些問題,直觀又有讓人想看下去的欲望。
![]()
最后,再來一個抽象、高難度的命題——幫我把「孤獨」畫出來。要求:畫面里絕對不能出現任何人物、表情、文字。
不知,看完之后,你是否感受到了「孤獨」?
![]()
接著,測一下U1的一鍵生成信息圖。
給它一個簡單的提示詞:制作一張手沖咖啡的步驟圖。
SenseNova U1會先思考,再搜索需要的信息,最后把這句簡單的提示詞擴寫。
![]()
一頓操作之后,生成的信息圖內容豐富、詳實多了。
這張詳細的手沖咖啡步驟圖堪稱典范,八個步驟環環相扣。
它精準還原了從最初研磨咖啡,到最后完成萃取的全過程。
![]()
科學知識的科普,一張圖就能搞定。
下面這個demo中,簡單一句話:水循環的奇妙旅程。U1在思考的過程中,開始搜索、匯總相關信息。
![]()
由此,就得到了一張2K超清的一張水循環的奧秘圖。
它再次證明了U1在處理復雜、高密度信息的強大能力,復刻了地理學上的所有關鍵節點——太陽輻射、蒸發、凝結、輸送、降水、徑流。
而且,AI還極具匠心在每一步創作中,對前一步結構和細節做了精準延續。
![]()
6個字,生成西瓜信息圖。
從營養成分、健康益處到食用建議,三大板塊的信息密度拉滿,直接發到小紅書就是完整的推文素材。
六個字的prompt,換來一張可以直接交付的百科信息圖。
![]()
再比如,U1還能生成這種超復雜,又兼具趣味性的「通勤圖鑒」。
它設計的每一個板塊都充滿了巧思和創意,不僅視覺效果拉滿,內涵更是豐富。
![]()
U1還可以駕馭不同的藝術風格,比如「波普漫畫」。
它可以通過分鏡的形式,將信息用獨特的視覺語言傳遞出來,如下便是一個關于職業轉型的波普漫畫。
這張圖簡直就是視覺和邏輯的雙重炸彈,AI對高密度信息的處理能力在這里得到了極致體現。
![]()
估計養毛孩子的打工人,看到下面這張圖,都會產生心照不宣的共鳴。
![]()
U1還能瞬間拿捏樂高風格的信息圖——
一個是樂高環球早餐圖,把每一個國家:日本、墨西哥、英國、土耳其、巴西、印度標志性食物精準還原,并將其重構為樂高積木,有趣還有傳播價值。
另一個是咖啡百科信息圖,從歷史發展、沖煮科學、面臨挑戰,將三大知識板塊全部融入了一張圖中。
![]()
![]()
再來一個,以「地球的呼吸碳循環」為主題的垂直分層信息圖。
![]()
一張羊皮紙,清晰詮釋了都市的變化。
![]()
還有經典的結構爆炸圖測試,U1也是把細節拆解得絲絲入扣。
![]()
原生NEO-Unify架構
最強開源,理解生成一步到位
U1實測表現固然驚艷,但還需回答一個根本問題:為什么一個小參數尺寸的模型能做到這些?
答案藏在架構層。
當前多模態AI模型的主流做法是「拼積木」:用一個視覺編碼器(VE)負責「看」,用一個變分自編碼器(VAE)負責「畫」,中間再接一個大語言模型負責「想」。
三個模塊各自獨立訓練,然后拼在一起協同工作。
這套范式行之有效,但有一個根本性問題——感知和創造是割裂的。
VE把圖像壓縮成語義特征時,不可避免地丟失了像素級細節;VAE在生成圖像時,又得從語義空間重新「猜」回視覺細節。
理解和生成走的是兩條路,模型永遠在做「翻譯」,而不是真正「理解了再畫」。
NEO-Unify做了一件看起來很瘋狂的事:把VE和VAE都扔了。
它從第一性原理出發,基于一個核心假設——語言和視覺信息本質上是內在關聯的,應該被作為統一復合體直接建模。
![]()
打個比方,傳統架構像是一個團隊里有翻譯——視覺信息先被翻譯成「語言能懂的格式」,處理完再翻譯回「圖像能用的格式」。每次翻譯都有信息損耗,還增加了溝通成本。
NEO-Unify則像是一個天生雙語的人,從一開始就同時用視覺和語言思考,不需要翻譯這個中間環節。
技術上,NEO-Unify的實現路徑是:
引入近似無損的視覺接口,統一圖像的輸入與輸出表示;
采用原生混合Transformer(MoT)架構,讓理解分支和生成分支在同一個骨干網絡內協同工作;
文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優化,二者在統一學習框架下聯合訓練。
實驗證實了一個關鍵發現,即使凍結理解分支,獨立的生成分支依然能從統一表征中恢復細粒度的視覺細節。
這意味著NEO-Unify的統一表征確實同時保留了語義豐富性和像素級保真度。這在以前,被認為是魚和熊掌不可兼得的。
團隊還公布了一組硬指標:NEO-unify(2B)在初步9萬步預訓練后,在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,接近Flux VAE的32.65和0.91。
考慮到它完全沒有依賴任何預訓練的VE或VAE,這個數據相當令人矚目。
經過剛才的實測,我們已見識到了NEO-unify架構加持下,SenseNova U1連續圖文創作輸出的殺手級能力。
在多個信息圖生成基準上,SenseNova U1的生成質量亂殺其他開源模型,甚至可以媲美Qwen-Image 2.0 Pro、Seedream 4.5等閉源模型,并在推理延遲上有明顯優勢。
![]()
![]()
和GPT-Image-2比什么?范式差異才是重點
就在一周前,GPT-Image-2(ChatGPT Images 2.0)橫空出世,以近乎完美的文字渲染、多輪編輯和推理驅動的生成。
毫無疑問,GPT-Image-2在創意生圖領域樹立了新的標桿。
但GPT-Image-2本質上仍然是一個「生圖專用模型」,它的核心能力是根據文字指令生成高質量圖像。
SenseNova U1走的是一條完全不同的路。
它不是「生圖模型」,而是一個「原生理解生成統一模型」。
生圖只是它能力譜的一部分;它同時具備圖像理解、視覺推理、圖文交錯思考、信息圖生成等全維度能力,而且這些能力來自同一個架構、同一次訓練、同一個模型。
更關鍵的,SenseNova U1它不但強,還是開源的。
對于那些需要私有化部署、需要深度定制、需要把多模態能力嵌入自己產品的開發者來說,U1提供了一條GPT-Image-2無法提供的路。
原生統一:通往AGI必經之路
站遠一步看,GPT-Image-2引爆的「生圖大戰」,本質上還是在模態割裂的范式里卷——比誰的文字渲染更準、比誰的分辨率更高、比誰的風格更多樣。
這些當然重要,但它們都是「能力增量」,不是「范式變革」。
真正的AGI不會是一堆專用模塊的拼接——人類的大腦不是「語言區負責想、視覺區負責看、運動區負責畫」三個獨立系統的機械組合,而是一個高度統一的認知體。
多模態AI要走向AGI,遲早要走「原生統一」這條路。
NEO-Unify是第一個真正意義上「全扔掉」的原生統一架構,這讓它在學術和工程兩個維度上都具有獨特的坐標價值。
從GitHub和Hugging Face上的早期活躍度來看,NEO-Unify架構本身引發了大量技術討論,已經有開發者在Apple Silicon上復現了NEO-Unify的toy-scale實驗,驗證MoT架構在小規模下的表現。
![]()
對于關注多模態統一范式前沿的研究者來說,U1的開源提供了第一個可以實際上手跑的原生統一模型。
8B只是開始
商湯在U1發布時明確表示:當前開源的U1 Lite是輕量版,團隊正在沿著NEO-Unify架構繼續Scale,更大參數規模的模型將在后續推出。
他們的信念是,基于高效的原生架構,可以用低得多的計算成本達到國際頂尖模型的水平。
這句話的潛臺詞是:8B已經打到了開源SOTA,當參數量Scale到幾十B甚至更大時,NEO-Unify的架構紅利會更加顯著。
多模態AI正在經歷一場「從拼接到統一」的范式遷移。
U1的全球開源,是這條路上的第一步——但從今天的效果來看,這一步已經走得足夠扎實。
至于這條路最終通向哪里,答案或許得由全球社區的開發者們一起來寫。
代碼和權重已經上線了。剩下的,交給你們。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.