網易首頁 > 網易號 > 正文申請入駐

香蕉和GPT Image之外的第3條路：華人15人團隊造出AI生圖黑馬

2026-05-06 17:25:32　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

一支不到15人的團隊，把圖像模型做到了全球第三

5月6日凌晨，Luma AI正式宣布開放Uni-1.1 API

幾乎在同一時間，由第三方機構Arena.ai發布的圖像生成榜單，完成了最新一輪的“大洗牌”——

Luma憑UNI-1.1與UNI-1.1-Max直接沖進全球前三，僅次于OpenAI（gpt-image-2）Google（nano-banana-2）。

△Arena.ai圖片生成榜單

把Microsoft AI、Reve、xAI等玩家……悉數甩在身后。

這個排名的含金量不言而喻，Arena.ai采用的是一套依靠用戶盲測投票產出的ELO評分系統，沒有官方公關或自報數據，每張圖都是由真實用戶在不知道模型來源的前提下，對兩份生成結果二選一投出來的。

這意味著，在真實場景下，圖像模型Uni-1.1的審美和輸出質量，已經成了OpenAI和Google之外的最優解。

隨API、排名榜單一同發布的，還有兩項硬指標值得一起看：

價格腰斬：2K分辨率單圖最低$0.0404（合人民幣0.2755元），對比Nano Banana級別模型直接砍半；
落地飛快：阿迪達斯、馬自達以及陽獅集團等廣告大戶，已經帶頭簽了單。

更值得注意的是，一個原本預算1500萬美元、周期一年的廣告campaign，用Luma Agents跑了40小時、花了不到2萬美元，不僅拓展成多國本地化版本，還通過了甲方內審。

這已經不是在討論“圖畫得好不好看”了。

推理和生成，住進同一個模型

很多人最初看到Uni-1，第一反應覺得這是又一個圖像模型。

但Luma這次發布的真正賣點，并不在像素質量本身，而是它把推理（reasoning）和生成（generation）放進了同一個模型。

傳統圖像模型的工作流是：用戶寫prompt → 模型直接出圖 → 不滿意→ 換prompt重抽。

整個過程里，模型理解了什么和模型畫了什么是兩件事，企業拿這種AI工具去跑品牌投放，最大的痛點是不可控，同一個角色到了下一張圖就變樣、品牌色每次都飄、跨市場素材風格各跑各的。

而Uni的架構改變了這件事。

它采用decoder-only自回歸Transformer，文本token與圖像token共享同一個序列——

也就是說，模型不是先翻譯再畫，而是同時跨模態推理；構圖、空間、品牌一致性這些約束，是在像素生成之前就已經在結構層面被求解。

API層面的體現就是兩個端點：

Reasoning端點：解構指令、規劃構圖、鎖定品牌/角色/產品約束；
Generation端點：在推理結果之上完成像素渲染。

這套設計的產業意義，是把創意可控性從prompt工程的玄學，變成了一組能寫進生產pipeline的API契約。

誰在用：廣告巨頭、運動品牌、素材平臺

Luma這次沒有把Uni-1.1當成開發者玩具發布，而是直接把企業客戶名單亮了出來。

1、廣告與營銷側

Publicis Groupe（陽獅，全球領先的廣告與傳播集團）和Serviceplan（歐洲最大的自主經營廣告代理集團）：

把Luma Agents（基于Uni-1.1）部署到從策略、創意開發到生產的全流程。

一個被多次援引的標桿案例是，把某品牌原計劃1500萬美元、一年期的廣告campaign，用40小時、不到2萬美元（合人民幣約13.6萬元）的成本，拓展為多國本地化版本，且通過了甲方內部質量審核。

Adidas、Mazda：

把Uni-1.1接入品牌內容生產流水線，用于跨市場視覺素材的批量生成與一致性維護。

2、素材與開發者生態側

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等創作者平臺與AI工作流公司，已基于Uni-1.1 API發布了集成。

Luma創始人兼CEO Amit Jain把這件事概括為：

用語言思考，用像素想象與渲染，這就是像素中的智能（intelligence in pixels）。

三個最先被產業驗證的應用方向

從已落地的客戶案例倒推，Uni-1.1 API在以下三個方向上，已經有了清晰的ROI模型：

1. 廣告本地化

一支在紐約拍的廣告主視覺，要在東京、利雅得、巴黎、上海各發一版。

傳統流程要重拍、重P、重做合規審查，單條預算從幾萬到幾十萬美元不等。

Uni-1.1單次API調用支持最多9張參考圖聯合輸入，把品牌主形象、文字、產品、地域元素作為模型層級的硬約束傳入，多語言渲染（含中文、阿拉伯文等非拉丁字符）一次到位。

Publicis案例里40小時 vs 一年的差距，就是從這里擠出來的。

2. 電商與產品可視化

電商場景的痛點是量大、SKU雜、還要保證產品本體一致。

開發者可以把產品照、面料樣、場景參考一并喂給API，單圖成本最低$0.0404，做到按頁/按用戶/按地域實時生成產品圖，而不是一次拍完反復套模板。

Luma官方把這種用法叫作reference-grounded brand workflows at scale，即參考圖作為模型級約束，把視覺身份鎖在所有channel里。

3. 角色與IP一致性

游戲美宣、漫畫、影視前期、虛擬代言——

這些場景需要同一個角色穿越不同場景、姿態、光線，但身份信息必須穩如老狗。

Uni-1.1的多參考圖機制+ 句子級編輯（按句改圖，默認保留其他元素），讓這件事可以做成確定性流水線，而不是反復抽卡賭運氣。

能力速覽：3個例子，看懂邊界

單圖直出一整張「2036年新聞網站」

Prompt：Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

（生成一個來自2036年的新聞網站頁面，其中包含相關的新聞，以及專門為Agent設計的廣告模塊。這些Agent已經進化出各自獨特的“人格”。整個網站內容以及所有廣告都必須使用英文呈現。）

一張圖測出一個模型的「真實成色」——

Uni-1.1單次推理生成了一整頁可讀的新聞網站：

包括報頭、欄目導航、突發新聞條、頭條主圖、多欄正文、署名/時間戳、面向AI受眾的橫幅廣告位、頁腳鏈接，十幾類版式元素同框，每一類的英文文本都是真實可讀的。

而不是圖像模型常見的「遠看OK、但近看全是亂碼」。

這樣的復雜版面+長文本任務，在傳統pipeline里要由文本編輯、OCR一致性、版面結構多個模塊聯合完成，Uni-1.1把它們捏在了一次推理里。

多參考圖+品牌logo+真人融合

兩只貓+一位真人+Luma logo，4張參考圖融合成一個有邏輯的會議場景。

GPT Image 1.5把參考圖當貼圖直接嵌入了PPT區域，Uni-1在語義層面完成了融合，這是品牌campaign里產品+代言人+場景+logo組合最常見的需求。

多輪編輯：三連改不丟主體

去掉前面那只熊→加一個黑色布簾→改成黑白照片，三輪指令疊加，主體一致性和空間關系在每一輪都沒崩。

這是按句編輯在生產環境里最值錢的能力，產品經理可以像編輯文檔一樣迭代視覺。

（注：Uni-1.1還支持中文文字渲染、UV貼圖、草稿轉漫畫、風格遷移、跨年齡角色故事板等更多場景，本文不再展開。）

價格：把圖像生成的邊際成本打到地板

API直接對企業敞開了兩檔計費：

Build計劃（按量計費）

Scale計劃（預留吞吐，最低8單元起訂）

Luma的官方說法是，價格與延遲均不到同類模型的一半

這一點在第三方榜單和早期接入客戶的成本對比里已被實證。

SDK覆蓋Python/JavaScript/TypeScript/Go/CLI，從platform.lumalabs.ai拿key即可接入。

團隊不到15人，干到全球第三：DDIM之父&CVPR最佳論文作者帶隊

Uni-1的核心研究團隊不到15人，由兩位華人學者領銜：

宋佳銘（Jiaming Song）：清華本科、斯坦福博士。代表作DDIM（Denoising Diffusion Implicit Models）是擴散模型采樣加速的奠基工作之一，被Stable Diffusion、DALL·E等系統廣泛采用；
沈博魁（William Shen）：斯坦福本科及博士。代表作獲CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。

一位深耕“生成”、一位精于“理解”。

這種互補的陣容，恰好對應了Uni-1.1“腦手合一”的架構，讓模型在落筆畫圖之前，先學會像人類一樣思考構圖和品牌邏輯。

在Google、OpenAI主導的圖像賽道里，一支不到15人的團隊，把API定價壓到同行一半，還順便在Arena.ai上完成了對一眾大廠的“越級反殺”，是這次發布另一個值得記一筆的產業信號。

API發布前后，Luma團隊在X平臺上，貼出了三條短評：

Luma首席科學家宋佳銘說：

我們用的算力規模可能會讓你感到意外。為我們團隊感到驕傲。
（稍微更詳細的報告，很快會發布。）

Uni-1研究負責人沈博魁（William Shen）說：

UNI-1的首發，讓我們成了除OpenAI與Gemini App之外排名最高的實驗室。對一個第一代統一圖像模型來說，這個起點不算差。順帶一提，這次榜單更新里，GPT Image 2的ELO比之前掉了110分，不太確定中間發生了什么……

而Luma模型產品lead Barkley Dai說：

Luma現在是Arena.ai第三名了。GPT-Image 2級別的智能，Midjourney級別的審美，價格只有Nano Banana的零頭。

兩條背后的潛臺詞是，Uni-1.1是Luma統一智能路線的第一代產品；

而它是以第一代的身份，直接干到Arena.ai第三名，把價格壓到同類一半。

下一步：從圖像到“看說推想”的連續流

按照Luma的路線圖，Uni-1.1只是統一智能的第一代落地形態。

下一步，他們會把這套統一框架從靜態圖像擴展到視頻、語音和交互式世界模擬

目標是構建一個能在連續流里看、說、推理、想象的多模態系統

其CEO Amit Jain對此的總結是：

統一智能的真正價值，不是更好看的圖，而是模型既能理解又能生成之后，AI第一次真正具備了端到端完成創意工作的能力。

API入口：lumalabs.ai/api
官方公告：lumalabs.ai/news/uni-1-1-api
接入文檔：platform.lumalabs.ai
SDK：Python/JavaScript/TypeScript/Go/CLI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.