henry 發自 凹非寺
量子位 | 公眾號 QbitAI
這兩天打開朋友圈,10條里有7條都是GPT-Image-2生的圖。
中文海報、復古雜志封面、直播畫面、社交截圖、連高考試卷都能照著出一張幾乎以假亂真的。
對此,大家伙的反應也都出奇的一致——
專業設計師們完了,我又能行了!
但實際上上手你就會有同感:免費用戶一天幾張,抽卡次數有限,遇到稍微嚴肅點的活,額度馬上到頂,常常是活沒干完,次數沒了。
針對這一空檔,商湯剛剛開源了一個全新架構的理解生成統一模型SenseNova-U1,雖然小尺寸版本只有8B,卻能復刻不少GPT-Image-2的拿手絕活。
比如,我們拿它做一張量子位的招聘海報:文字、版式、配色,挑不出毛病。
![]()
太陽系圖解,八大行星各自的軌道、屬性、圖文介紹一應俱全,看著挺像那么回事。
![]()
畫個鋼鐵俠,模型也能自動從輪廓、鋪色、細節、質感、氛圍等多個階段拆解完整的繪畫流程。
![]()
來個馬斯克太空集群的信息圖也審美在線。
![]()
可以說,信息圖(InfoGraph)、文字密集排版、圖文交錯——
這幾個曾經被公認是AI生圖最難啃的硬骨頭,U1能跟GPT-Image-2擠進一桌。
在具體的圖像理解與生成的多項指標上,SenseNova-U1也是登頂開源模型的榜首。
![]()
在推理響應速度上也具備相當的優勢,逼近主流商用閉源模型。
![]()
![]()
這是怎么做到的,咱往下看。
連續性圖文創作,這次是原生的
先說U1這次最有意思的能力,連續性圖文創作
所謂連續性圖文創作,就是文字和圖片在一段輸出里自然交疊,而不是文字歸文字、圖片歸圖片。
這聽起來很簡單,但實際上很難。因為文字保留語義、圖片保留像素細節,這兩件事在傳統架構里幾乎是天敵——
保了語義就丟了像素,保了像素就稀釋了語義。
U1的做法是讓兩者在同一個表征空間里共享上下文,語義豐富性和像素級視覺保真度第一次同時拿住。
簡單講,就是模型能像人一樣,邊思考邊畫草圖,文字和圖片在一段輸出里自然交疊。
比如,我讓它生成一個“煎牛排的操作教學”。它能從食材準備,瀝干水分、調味、煎制和翻面……講到最后裝盤。
每一步的關鍵操作都有圖,牛排的形象從生肉到五分熟一路保持高度一致,不會畫著畫著變成另一塊肉。
![]()
再比如,我想學一點漫畫分鏡技巧。
它能直接給我吐出圖文并茂的教材式段落,從準備階段、鏡頭建立、再到引入道具、次要角色一應俱全,比純文字解釋直觀得多。
![]()
這種“始終是同一個主體”的連貫性看起來樸素,但對生成模型卻很難。
傳統范式得在多個模型之間來回調用,各畫各的,角色形象很容易在第三步就走樣。U1是單次單模型調用直接出全套。
對一個新模型來說,還有一個值得關注的考驗就是——
高密度信息圖
在模型界面中,你可以直接輸入“自己的簡歷信息”,它就能返回你一張手繪風格的海報,信息分布、配色、字體層級都安排得明明白白。
![]()
讓它講“三只小豬蓋房子”,我輸入只有這么“7個字”,輸出就能直接給你一整組連環畫——
三只小豬、三種材料、三棟房子、最后那只大灰狼,一格一格排好,順序對得上故事。
![]()
炒紅燒肉這類做菜教程圖,也可以一次直出,圖文對應。
![]()
給一句“做杯咖啡的英文流程圖”,圖也直接出來了。
![]()
在講究排版、涉及多種元素的插畫場景中,U1也能實現比較精細的效果,比如這張劃船樂的教學總覽圖。
![]()
最有意思的是這個,扔給它一張路邊常見的“電梯安全”警示牌,讓它換個排版做成一張信息圖。
它還能直接把這個實現完美遷移,把版式從警示牌切成了科普卡片。
![]()
![]()
前段時間火爆的產品爆炸圖,在U1這里也可以做到。一臺相機,被它拆得整整齊齊:
鏡頭組、反光鏡、快門、傳感器、芯片,電池什么的,統統被它拆得整整齊齊懸浮在空中,標注線一根不少。
![]()
這種程度的玩法,以前是超大參數模型的專屬。更有意思的一點是,SenseNova U1 Lite還在行業首創了圖文交錯的思維鏈。
這種會推理的能力放到圖像編輯上會更有趣。
我扔給它一張剛泡好的玻璃杯熱茶,讓它“畫出一小時后的樣子”。它沒有簡單地直接出圖,而是先做了一段推理:
一是給自己定約束,同一只玻璃杯、同一張原木桌面、同一種側逆光,這樣兩張圖放一起才看得出“是同一杯茶過了一小時”。
二是推導物理:剛泡時,葉片高速舒展、氣泡從葉脈逸出、蒸汽在杯壁上留下弧形折射;
一小時后,多酚類擴散均勻,茶湯變深紅褐,葉子完全沉降呈半透明,杯底跟桌面交界處出冷凝痕跡。光影也跟著從“清晨的清冷”過到“午后的慵懶”。
![]()
類似的還有幾個測試。
給它一個綠色的香蕉,模型會先推理“葉綠素分解+糖化”,從而保證輸出的是一根帶著斑點的成熟香蕉。
![]()
可以說,這款新模型不只是在改圖,還具備了一定的物理常識。
NEO-unify,一個網絡實現“看”和“畫”
看到這,你可能想問,這是怎么做到的?
U1的底層是一套叫NEO-unify的架構。一個模型同時會看、會畫,理解和生成在同一個網絡里完成,中間沒有任何拼接。
![]()
在過去,多模態模型的標配經常是這樣的,視覺編碼器(VE)負責看,變分自編碼器(VAE)負責畫,理解歸理解,生成歸生成,中間靠適配器拼起來。
NEO-unify把這兩個東西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。
具體來說,這一過程分為三步:
第一步,引入近似無損的視覺接口,把圖像的輸入和輸出統一成同一種表示。
第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底層。
第三步,文本走自回歸,視覺走像素流匹配,兩套目標函數在同一個學習框架里跑完。
△圖片由SenseNova U1生成
這套技術架構給了NEO-unify獨門絕活,連續性圖文創作。
傳統模型要做這件事,得外掛工具或者后處理拼接。U1底層就是統一的,原生支持圖片和文字的交叉排版,所有視覺內容都來自模型自身,不調用外部工具。
模型在思考一個問題的時候,可以一邊推理一邊生成中間示意圖,把復雜邏輯可視化。
生成一段教程,可以在恰當的位置自然地插入說明圖。
落地到模型,兩個規格。SenseNova-U1-8B-MoT,8B參數,端側能跑。SenseNova-U1-3AB-MoT,總參數38B的MoE架構,提供更強的能力,底層都是同一套NEO-unify。
此外,商湯還給U1配了一套自研推理棧,LightLLM跑理解、LightX2V跑生成,兩條路解耦各管各的。以H100/H200單節點為例,生成一張2048×2048的圖,端到端大概9秒。
全網開源,即刻可用
值得一提的是,商湯這次在README里把模型的局限也直接寫了出來:
上下文最長32K、人物在復雜場景里的細節有時不夠穩、長文字渲染偶爾會出現拼寫或排版錯誤、連續性圖文創作目前還是beta。
不過這些短板都標了“持續改進中”。換句話說,U1這次開的不是終點,是個起點。
為了方便大家使用,商湯這次順手開源了一套SenseNova-Skills技能包,把U1做成了Agent里能直接調的工具。
sn-infographic自帶87種版式、66種風格,自己評分自己挑;掛進OpenClaw,一句 /skill sn-infographic “提示詞”,圖就出來了。
Skills不只是infographic一個,整套覆蓋圖像生成、PPT制作、Excel數據分析、深度研究、跨平臺搜索。
目前,SenseNova-U1兩個模型已經全網開源。Hugging Face和GitHub都能下,倉庫地址在https://github.com/OpenSenseNova/SenseNova-U1。
想直接體驗不動手部署的,現在可以直接進入SenseNova U1 Lite Skill,https://github.com/OpenSenseNova/SenseNova-Skills。
另外,辦公小浣熊也即將上線U1。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.