![]()
智東西
作者 高遠矚
編輯 程茜
智東西4月29日消息,今天,階躍星辰正式發布新一代圖像編輯生成模型Step Image Edit 2。
該模型參數量僅3.5B,在輕量級圖像編輯評測基準KRIS-Bench中綜合排名第一,支持文生圖、中英文渲染、局部編輯、視覺推理、主體一致性及風格遷移,可廣泛用于IP創作、海報設計、漫畫生成、人像美顏、旅游修圖等場景。
API定價0.02元/張,公測期(4月28日至5月5日)限免體驗。
在官方放出的速度對比視頻中,Step Image Edit 2完成一次文生圖片僅需0.7秒,而國內閉源SOTA模型耗時7秒,開源20B級模型耗時12秒,開源同量級4B模型則耗時0.6秒。
![]()
▲各模型文生圖速度對比(來源:階躍星辰官方視頻)
智東西第一時間上手實測。總體來看,Step Image Edit 2在風格遷移的品牌VI排版上有驚喜,但在中文漢字渲染、空間方位理解、復雜指令執行穩定性上存在明顯不足。
官方體驗入口:https://platform.stepfun.com/console-tools
一、架構數據雙突破:小參數如何挑戰大模型?
Step Image Edit 2主打“小身材、大能力、快響應”,參數量雖小,Step Image Edit 2在技術層面下了功夫。
據階躍星辰介紹,核心支撐來自兩項創新:
一是多專家驅動的自演化學習。思路可概括為“分頭探索、集中聚合”。先從基座模型衍生多個細分任務專家分支進行差異化訓練,再通過迭代式自蒸餾將知識聚合回基座,在不增加參數量的前提下逼近大模型的表現水平。
二是分布匹配強化學習(DARL)。傳統強化學習依賴稀疏獎勵信號,模型容易跑偏。階躍的做法是讓模型當前的輸出分布與參考分布對齊,以分布差距作為稠密獎勵信號,使訓練更平穩、泛化能力更強。
數據層面,Step Image Edit 2在圖像編輯能力上投入了超五千萬規模的專項訓練數據,融合真實場景挖掘、定向合成與高質量開源數據三路來源,并針對文字編輯這一行業難點,自研排版系統生成約兩千萬條專項數據。
數據質控上構建了“智能體自動清洗—大模型全局評估—人工精細篩選”三級體系。
二、中文海報極限測試:4個文字區域同時排版,模型沒完全接住
我們通過階躍星辰開放平臺在線體驗,首先復現了官方演示中最具挑戰性的中文海報排版任務。官方視頻中展示了兩個復雜的中文海報案例,效果相當驚艷。
![]()
![]()
▲Step Image Edit 2的中文海報極限測試(來源:階躍星辰官方視頻)
但實際測試下來,情況要復雜得多。
實測案例:陶罐變手袋 + 四行文字混排
提示詞:
一張黑白線稿風格但帶高光質感的海報。畫面左側擺放三個傳統陶罐,其中中間的那個陶罐被替換成一個奢侈品牌手袋(造型像陶罐但表面有皮革紋理和高光)。所有物品使用黑色雕刻線條表現,但在手袋和蔬菜部分加入細膩的高光。構圖:頂部居中粗體大寫標題「LUXURY DAILY」;底部居中副標題「CRAFTING VALUE FROM NOTHING」;右側豎排文字「日常即奢侈」;右下角有一個超大漢字「物」。整體要求:傳統與奢侈的視覺沖突,線條硬朗,高光精致。
實測結果:
我們針對這個提示詞連續生成了三次,耗時分別為11.33秒、7.98秒和21.31秒,三次生成暴露了模型三個維度的反復偏差:
偏差一:方位理解錯誤(三次全錯)
提示詞明確要求將“中間的那個陶罐”替換為手袋,但三次生成中,模型每次都將最右邊的陶罐變成了手袋。左、中、右的空間方位關系,模型完全沒有理解。
![]()
▲Step Image Edit 2第一次執行中文海報極限測試
偏差二:“華”字錯筆(三次全錯)
三次生成的圖片中,第二個“奢華”里的“華”字,下方都多出了一橫,說明模型存在漢字生成缺陷。
偏差三:蔬菜缺失(僅第一次)
第一次生成的畫面中完全沒有出現提示詞要求的“蔬菜”,后兩次生成則成功補上了蔬菜。說明模型在執行多要素的復雜指令時,生成的結果并不穩定。
![]()
▲Step Image Edit 2第二、三次執行中文海報極限測試
小結:
后兩次生成雖然補齊了蔬菜,文字布局也基本完整,但方位錯誤和“華”字錯筆在所有三次結果中持續出現,未得到修正。
綜合來看,官方視頻中展示的中文海報極限測試效果,在實際測試中打了折扣。模型在空間定位和漢字生成時,能力仍不穩定。
三、跨物種身份遷移?“貓變人”五次才成真
官方演示中有一個很有趣的任務:上傳一只貓的照片,并輸入“這是我的貓,年齡3歲,13斤,女。請將以上信息,按照將貓咪替換成對應的人類女生形象。”
![]()
![]()
▲Step Image Edit 2執行“貓變人”任務(來源:階躍星辰官方視頻)
我們用不同的貓圖實測了這個任務,提示詞與官方一樣,卻連續生成了五次才成功。
第一次生成:畫面中只有原貓,完全沒有人的出現,模型忽略了替換的指令。
![]()
第二次生成:模型直接將人的臉“安”在了貓的身體上,輸出了一個貓身人面的怪異形象。
![]()
第三次生成:輸出了一張人抱著貓的合影,人倒是正常了,但懷里抱的正是原圖中的那只貓,并沒有實現“貓咪替換成人類女生”。
![]()
第四次生成:依然是人與貓合影,但這次貓的品種與原圖不一致,仍然沒有完成替換。
![]()
第五次生成:終于成功,模型輸出了一張完整的人類女生形象,人物姿態自然,無貓元素殘留。
![]()
小結:
五次嘗試才成功一次,成功率20%。前四次失敗分別暴露了不同層面的理解偏差:完全忽略指令、把“替換”理解成“融合”(人面貓身)、把“替換”理解成“抱著原貓”、把“替換”理解成“換一只貓抱著”。
這說明模型在執行需要多層語義理解的復雜指令時,穩定性遠遠不夠,往往需要反復嘗試才能出現理想效果。
四、10種風格一鍵切換+品牌VI設計:漢字再出錯?
我們固定一張風景照片,分別輸入“轉成水墨風格”“轉成賽博朋克風格”“轉成油畫風格”。
![]()
▲Step Image Edit 2執行風格遷移(來源:階躍星辰官方視頻)
平均生成耗時約12秒,高于官方宣稱的0.5-2秒范圍,推測與1024分辨率及復雜場景有關。
![]()
▲Step Image Edit 2執行三種風格遷移
不過模型在三者之間切換流暢,水墨風格的留白與暈染、賽博朋克的霓虹色調、油畫的筆觸質感均較為明顯,主體內容保持一致。
同時,我們嘗試了品牌VI設計任務。
![]()
▲Step Image Edit 2進行品牌VI設計(來源:階躍星辰官方視頻)
提示詞為:為品牌“太陽咖啡”設計一套品牌VI,包括標志、名片、包裝袋,風格為極簡現代。
模型生成了一張包含包裝袋(袋身印有品牌標志)和名片的多元素畫面,但未出現官方視頻示例中的咖啡杯,并且名片上本應是“太陽”二字被生成了“大陽”,又是漢字錯誤。整體風格為極簡現代,符合提示詞的基本要求,生成耗時6.59秒。
![]()
▲Step Image Edit 2執行品牌VI設計
結語:技術架構有亮點,但實際表現稍遜
從技術層面看,Step Image Edit 2在多專家自演化學習和分布匹配強化學習上的探索值得關注。這兩項創新理論上確實可能實現“輕量級模型逼近大模型效果”,思路本身有可取之處。超五千萬專項訓練數據、約兩千萬條文字編輯數據的投入,也體現了階躍對這項任務的重視。
輕量高效是行業發展的正確方向,但Step Image Edit 2的技術成熟度仍需打磨。期待其后續版本能在漢字書寫能力和復雜指令理解的穩定性上補齊短板,真正兌現“小身材、大能力、快響應”的承諾。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.