網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從特點(diǎn)到 API，Image2 最完整解讀

2026-04-22 10:17:38　來源: 賽博禪心

北京舉報(bào)

分享至

太牛逼了

本文封面就是 GPT-Image-2 自己畫的，非常強(qiáng)大

凌晨，OpenAI 正式發(fā)布 ChatGPT Images 2.0，ChatGPT、Codex、API 三端同時(shí)全量上線，API 模型名gpt-image-2

文字精細(xì)度，能騙過人眼

在正式發(fā)布前，我做了一輪全面實(shí)測(cè)，簡直是效果夯爆了：

同時(shí)，OpenAI 在推特上甩了一張截圖當(dāng)預(yù)告，配文「This is not a screenshot」，這張截圖本身就是 ChatGPT Images 2.0 畫的

接下來，我會(huì)具體說一說這個(gè)模型的更多信息、效果以及局限性

這應(yīng)該是全網(wǎng)最詳實(shí)的一篇解讀

哪里能用 · 價(jià)格 · 權(quán)限

ChatGPT Images 2.0 今天對(duì)所有 ChatGPT 和 Codex 用戶開放。帶思考模式（Thinking）的進(jìn)階版本，僅 ChatGPT Plus、Pro、Business 用戶能用

API 端的模型字符串叫gpt-image-2，通過 Image API（generations / edits）和 Responses API（image_generation 工具）都能調(diào)用。Codex 內(nèi)置了圖像生成，不需要單獨(dú)申請(qǐng) API key，ChatGPT 訂閱直接覆蓋

API 價(jià)格（按圖按尺寸按質(zhì)量，單位美元）

質(zhì)量

1024×1024

1024×1536

1536×1024

Low

$0.006

$0.005

Medium

$0.053

$0.041

High

$0.211

$0.165

跟上代 gpt-image-1.5 比，high 檔方圖從 $0.133 漲到$0.211（+59%）；medium 檔方圖從 $0.034 漲到$0.053（+56%）；low 檔基本持平

尺寸約束

最大邊長 ≤ 3840px，長短邊比 ≤ 3:1，總像素在 65 萬到 829 萬之間，每邊都是 16px 的倍數(shù)。常用的 2K 方圖、2K 長方圖、4K 橫屏、4K 豎屏都能跑，但 2K 以上當(dāng)前是 beta 階段，結(jié)果可能不穩(wěn)定

編輯參數(shù)變化

gpt-image-2的圖像編輯模式默認(rèn)對(duì)所有參考圖按 high fidelity 處理，所以input_fidelity這個(gè)參數(shù)已經(jīng)移除。帶參考圖的編輯請(qǐng)求 token 消耗會(huì)比上代略高

調(diào)用示例

以本文開頭那張封面右半邊為例，21:9 的橫版雜志頁，high 檔質(zhì)量。完整調(diào)用如下：

from openai import OpenAI

import base64

client = OpenAI(api_key="sk-...")

result = client.images.generate(

model="gpt-image-2",

prompt="A horizontal magazine cover, ...",

size="1920x816",

quality="high",

img_bytes = base64.b64decode(result.data[0].b64_json)

open("cover.png", "wb").write(img_bytes)

就這么短。high 檔每張圖大約 60 秒、$0.165。封面整圖分兩次畫（左 1024×1024 + 右 1920×816），加起來不到三毛錢人民幣

第一個(gè)會(huì)思考的圖像模型

這是這次發(fā)布最大的范式變化

ChatGPT Images 2.0 是 OpenAI 第一個(gè)帶思考能力的圖像模型。在 ChatGPT 里選 thinking 或 pro 模型時(shí)觸發(fā)，做三件事：聯(lián)網(wǎng)搜索實(shí)時(shí)信息、一次產(chǎn)出最多 8 張連貫圖、自我檢查輸出質(zhì)量

OpenAI 給出五個(gè)思考模式的代表演示

演示一扒 OpenAI 官網(wǎng)當(dāng)前在售的 merch，做一張產(chǎn)品海報(bào)

整張海報(bào)上的 10 周年球衣、Diagram 帽衫、Chrome Blossom T 恤、Blue Chair 鑰匙扣、GPT-5 火焰帽、OpenAI 筆記本、辦公咖啡杯、Thinking Deeply 帽子，全是模型實(shí)時(shí)去 OpenAI Supply Co 網(wǎng)站搜出來的真實(shí)在售商品。模型不僅畫了圖，還知道這些商品在哪、長什么樣

演示二在 35mm 黑板照片上證明「奇數(shù)之和等于平方數(shù)」

這是數(shù)學(xué)可視化推理。模型先要算清楚證明步驟，再把推導(dǎo)畫進(jìn)黑板，最后整張圖按 35mm 膠片攝影風(fēng)格輸出

演示三一次畫完四頁連貫漫畫

水豚和水獺去南法度假，主角形象在四頁漫畫里保持穩(wěn)定。這是漫畫工作流第一次跑通的標(biāo)志

演示四抹茶店在不同社交平臺(tái)的多尺寸廣告

布魯克林海茨新開的抹茶店 Kizuki，一次出 Twitter、IG 故事、IG 信息流、LinkedIn 四個(gè)尺寸的草莓抹茶物料，風(fēng)格統(tǒng)一。以前要分四次提示詞

演示五基于上傳的論文 PDF 做學(xué)術(shù)海報(bào)

模型讀完整篇 PDF，提取關(guān)鍵圖表，按學(xué)術(shù)海報(bào)版式輸出

思考模式的核心價(jià)值不是「畫得更好」，是「替你想清楚」。idea 到成品之間那段繁瑣的腦力活，模型自己接下了

文字渲染：從英文跨到非拉丁文字

這是普通用戶最直接能感受到的變化

之前的圖像模型在英文和拉丁字母語言上一直比較穩(wěn)，日文、中文、韓文、印地文、孟加拉文一旦密度上來就崩。ChatGPT Images 2.0 在這五種文字上有顯著提升

日文連環(huán)漫畫主角找到一支「GPT 畫像生成的羽筆」，戲劇化設(shè)定，全篇日文，整張圖當(dāng)物理印刷的漫畫書頁處理

印度書店印地、孟加拉、馬拉地、泰盧固、泰米爾、烏爾都、古吉拉特、卡納達(dá)、奧利亞九種印度語言的書封陳列，所有文字清晰可讀，出版社統(tǒng)一標(biāo) OpenAI

中文連環(huán)漫畫研究員陳博遠(yuǎn)在調(diào)試中文渲染，最后被 Sam Altman 發(fā)的「穩(wěn)穩(wěn)地接住你」式中文氣哭。每個(gè)漢字都準(zhǔn)，包括底部那段超小字號(hào)的「（此處為極小字號(hào)測(cè)試）無錫是作者的故鄉(xiāng)，所以做了這幅海報(bào)，中文總算是修好了」

韓文廣告韓屋酒店預(yù)訂卡片，三幕場(chǎng)景串聯(lián)，韓文標(biāo)題清晰

多語言印刷海報(bào)慶祝世界各地語言的字體藝術(shù)，日本編輯風(fēng)格

中文不再是圖像模型的二等公民。這是這一代國內(nèi)用戶最該關(guān)心的變化

指令服從和細(xì)節(jié)渲染

ChatGPT Images 2.0 在「按你說的精確去做」這件事上提升明顯

特別是圖像模型一向頭疼的幾個(gè)細(xì)節(jié)：小字、圖標(biāo)、UI 元素、密集排版、微妙的風(fēng)格約束。API 端最高支持 2K 分辨率

狼的科學(xué)雜志頁「關(guān)于北美狼遠(yuǎn)沒有想象中那么危險(xiǎn)」的編輯頁，光面、流暢、排版克制的科學(xué)雜志風(fēng)

手寫棒球史用鉛筆在 8.5×11 橫線紙上寫多倫多棒球史，筆畫粗細(xì)帶人為不均，右上角一塊淡淡的咖啡漬

米堆找字上千粒米的特寫，其中一粒上刻著「GPT Image 2」，跟其他米粒一樣大，遠(yuǎn)看完全找不到

多元視覺雜志頁這次發(fā)布的封面海報(bào)。主題是「visual polyglot」，把科學(xué)圖表、元素周期表、太陽系、中世紀(jì)手稿、植物插畫、解剖圖、古地圖、氣候圖、工程示意圖、交通指示、漫畫格、UI 截圖、蝴蝶標(biāo)本、餅圖、建筑藍(lán)圖全堆在一張 4:5 海報(bào)上，標(biāo)題「Create Everything at Once」居中

風(fēng)格保真度

模型在多種視覺風(fēng)格上的還原度提升明顯，包括攝影、電影、像素藝術(shù)、漫畫。重點(diǎn)是能捕捉到風(fēng)格里那些微妙的細(xì)節(jié)，膠片顆粒、鏡頭眩光、光線的不完美都能保留

海岸邊的電影感旁拍35mm 膠片，自然不完美的取景，可見顆粒，烏云早晨的氛圍

超現(xiàn)實(shí)雙胞胎肖像中畫幅模擬相機(jī)，85mm f/4，霧蒙蒙的美國鄉(xiāng)村公路上一對(duì)雙胞胎的特寫

怪誕郊區(qū)肖像戶外、室內(nèi)、私密郊區(qū)場(chǎng)景，畫幅推到中產(chǎn)階級(jí)的奇異感

2015 年 UBC 大學(xué)講堂教授在講 GPT imagegen 2，幻燈片里又是教授在講 GPT imagegen 2，無限遞歸

iPhone 拍的外星人喝咖啡傍晚戶外咖啡館，兩個(gè)外星人坐在桌邊，半空的飲料、不均的陽光、隨意的姿勢(shì)

高級(jí)時(shí)尚攝影集35mm 拍攝的時(shí)尚攝影書

2002 年高中機(jī)房架空歷史，每個(gè)學(xué)生都在用 ChatGPT，米色 CRT 顯示器、Windows XP 瀏覽器、球鼠標(biāo)、纏繞的電纜、地上的雙肩包，左下角帶橘色日期戳「02 18 04」

70 年代紐約街拍攝影集35mm 膠片書頁

風(fēng)格化方面，從青年漫畫到法國新浪潮，從中世紀(jì)粉彩到現(xiàn)代獨(dú)立漫畫，模型都能精準(zhǔn)捕捉

少年動(dòng)漫角色設(shè)定頁基于上傳的真人照片，做漫畫角色 character sheet，名字叫 Adele

GPT Image 2 工作室物料審稿單、釘在墻上的樣張、印刷打樣、版式研究、筆記、各種發(fā)布前的設(shè)計(jì)衍生物，看起來像一個(gè)嚴(yán)肅創(chuàng)意工作室準(zhǔn)備發(fā)布前的桌面

寬高比拉到 3:1 到 1:3

之前的圖像模型一律以方圖為主，這次把寬高比拉開，從 3:1 超寬到 1:3 超高都能跑

3:1 超寬籃球扣籃的連環(huán)動(dòng)作分解

iPhone 全景泰國都市，故意帶輕微的拼接錯(cuò)位

iPhone 全景法國南部夏日

Art Deco 風(fēng)格書簽完整帶尺寸標(biāo)注，含出血、裁切、安全邊距，可以直接拿去印刷

3:1 橫版中國傳統(tǒng)山水畫

1:3 超高 9 人站位日式漫畫長脖子、小臉、最簡線稿、圍一張大白紙做畫

1:3 超高童書風(fēng)路線圖黑色細(xì)線在白底上蜿蜒，穿過各種童書角色和「not yet」之類的短語

真實(shí)世界的智能

ChatGPT Images 2.0 的知識(shí)截止是 2025 年 12 月，比上代新很多

做信息圖、教育插畫、視覺摘要這類內(nèi)容時(shí)，模型給出的具體內(nèi)容是 up-to-date 的

康托對(duì)角線證明信息圖把數(shù)學(xué)證明從「假設(shè)」「對(duì)角線」「構(gòu)造」「矛盾」四步可視化

2025 年六大設(shè)計(jì)趨勢(shì)壁畫風(fēng)海報(bào)，每個(gè)面板尺寸一致

人物色彩分析基于上傳的肖像，做個(gè)人色彩適配診斷，文字最少化

在 Codex 里直接畫圖

Codex 現(xiàn)在內(nèi)置了 ChatGPT Images 2.0

可以在 Codex 工作區(qū)直接生成、迭代、ship 應(yīng)用、做幻燈片，多個(gè) UI 方向、概念、原型一次跑出來對(duì)比，挑最好的轉(zhuǎn)成正式產(chǎn)品。不需要單獨(dú)申請(qǐng) API key，ChatGPT 訂閱直接覆蓋

適用場(chǎng)景從設(shè)計(jì)、營銷、產(chǎn)品、銷售一直延伸到學(xué)習(xí)培訓(xùn)

客戶驗(yàn)證

API 已經(jīng)在四家創(chuàng)意軟件商手里跑過

Canva用 GPT Image 2 做一支美妝品牌的 lip balm 廣告，模型自己加了「viral on TikTok」貼紙，沒人提示

模型不只在渲染。它在理解 brief、理解受眾，背后做創(chuàng)意決策。我們以前評(píng)估 AI 看技術(shù)輸出，真正的變化是創(chuàng)意推理和設(shè)計(jì)審美

Dwayne Koh / Canva 創(chuàng)意策略師

Figma從文字密集的視覺到逼真場(chǎng)景的全流程支持

編輯能力和美學(xué)層面的提升給設(shè)計(jì)師更多塑形空間

Loredana Crisan / Figma 首席設(shè)計(jì)官

Adobe Firefly電影感旅店航拍圖，一排粉色海岸 motel，每家有不同形狀的泳池，旅店名是「Firefly Motel」「Firefly Lodge」「Firefly Stay」「Casa Firefly」

從單圖生成升級(jí)到結(jié)構(gòu)化視覺內(nèi)容

Mike Folgner / Adobe Firefly 產(chǎn)品高級(jí)總監(jiān)

OpenArt用 GPT Image 2 做電影級(jí)視頻生產(chǎn) Smart Shot 的「創(chuàng)意總監(jiān)」，宙斯 vs 黑帝斯的史詩戰(zhàn)斗序列分鏡

本來需要整個(gè)創(chuàng)意團(tuán)隊(duì)的工作，現(xiàn)在瞬間完成

Chloe Fang / OpenArt 合作主管

還做不到的事

ChatGPT Images 2.0 不是完美。OpenAI 在博客里把短板單獨(dú)寫了一節(jié)，沒回避

需要完整、連貫的物理世界模型的任務(wù)（折紙指南、魔方拼圖）依然吃力

極密、極重復(fù)的視覺細(xì)節(jié)（沙粒級(jí)別）會(huì)逼到模型上限

帶精確箭頭和零件標(biāo)簽的標(biāo)注圖、示意圖，準(zhǔn)確度仍需人工復(fù)核

API 端 2K 以上分辨率當(dāng)前是 beta，結(jié)果可能不穩(wěn)定。復(fù)雜提示詞的延遲最高可達(dá) 2 分鐘。重復(fù)角色或品牌元素的連續(xù)生成偶爾會(huì)失穩(wěn)

安全

ChatGPT Images 2.0 的安全棧延續(xù) 1.5 的三層結(jié)構(gòu)：上游文本拒絕、下游圖像/輸入雙重檢查、最終輸出審查

按照 OpenAI 自己發(fā)布的 System Card 數(shù)據(jù)：

InstantInstant 模式 99.1% 的對(duì)抗 prompt 能輸出安全圖像（3085/3112）

ThinkingThinking 模式 99.2%（6886/6944）

Thinking 模式有個(gè)有意思的差異：它從源頭產(chǎn)生的違規(guī)圖本來就少（6.7% vs Instant 的 22.0%），原因是 thinking 模型用 Safe Completions 把對(duì)抗 prompt 轉(zhuǎn)譯成安全版本，而不是直接拒絕

生物領(lǐng)域單獨(dú)應(yīng)用了圖像版的生物風(fēng)險(xiǎn)安全策略。OpenAI 找了生物武器專家來評(píng)估，結(jié)果顯示模型在某些場(chǎng)景下輸出的信息密度足以「為新手提供幫助」，因此按 high capability 級(jí)別配置防護(hù)。配套了實(shí)時(shí)阻斷、離線對(duì)話審查、賬號(hào)封禁三道關(guān)

繼續(xù)堅(jiān)持 C2PA metadata 和不可見水印，便于內(nèi)容溯源

參考資料

官方發(fā)布博客openai.com/index/introducing-chatgpt-images-2-0

API 文檔developers.openai.com/api/docs/guides/image-generation

定價(jià)說明developers.openai.com/api/docs/pricing

模型卡片deploymentsafety.openai.com/chatgpt-images-2-0

我前兩天的 50+ Case 實(shí)測(cè)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.