太牛逼了
![]()
本文封面就是 GPT-Image-2 自己畫的,非常強(qiáng)大
凌晨,OpenAI 正式發(fā)布 ChatGPT Images 2.0,ChatGPT、Codex、API 三端同時(shí)全量上線,API 模型名gpt-image-2
![]()
文字精細(xì)度,能騙過人眼
在正式發(fā)布前,我做了一輪全面實(shí)測(cè),簡直是效果夯爆了:
同時(shí),OpenAI 在推特上甩了一張截圖當(dāng)預(yù)告,配文「This is not a screenshot」,這張截圖本身就是 ChatGPT Images 2.0 畫的
![]()
接下來,我會(huì)具體說一說這個(gè)模型的更多信息、效果以及局限性
這應(yīng)該是全網(wǎng)最詳實(shí)的一篇解讀
哪里能用 · 價(jià)格 · 權(quán)限
ChatGPT Images 2.0 今天對(duì)所有 ChatGPT 和 Codex 用戶開放。帶思考模式(Thinking)的進(jìn)階版本,僅 ChatGPT Plus、Pro、Business 用戶能用
API 端的模型字符串叫gpt-image-2,通過 Image API(generations / edits)和 Responses API(image_generation 工具)都能調(diào)用。Codex 內(nèi)置了圖像生成,不需要單獨(dú)申請(qǐng) API key,ChatGPT 訂閱直接覆蓋
API 價(jià)格(按圖按尺寸按質(zhì)量,單位美元)
質(zhì)量
1024×1024
1024×1536
1536×1024
Low
$0.006
$0.005
$0.005
Medium
$0.053
$0.041
$0.041
High
$0.211
$0.165
$0.165
跟上代 gpt-image-1.5 比,high 檔方圖從 $0.133 漲到$0.211(+59%);medium 檔方圖從 $0.034 漲到$0.053(+56%);low 檔基本持平
尺寸約束
最大邊長 ≤ 3840px,長短邊比 ≤ 3:1,總像素在 65 萬到 829 萬之間,每邊都是 16px 的倍數(shù)。常用的 2K 方圖、2K 長方圖、4K 橫屏、4K 豎屏都能跑,但 2K 以上當(dāng)前是 beta 階段,結(jié)果可能不穩(wěn)定
編輯參數(shù)變化
gpt-image-2的圖像編輯模式默認(rèn)對(duì)所有參考圖按 high fidelity 處理,所以input_fidelity這個(gè)參數(shù)已經(jīng)移除。帶參考圖的編輯請(qǐng)求 token 消耗會(huì)比上代略高
調(diào)用示例
以本文開頭那張封面右半邊為例,21:9 的橫版雜志頁,high 檔質(zhì)量。完整調(diào)用如下:
from openai import OpenAI
import base64
client = OpenAI(api_key="sk-...")
result = client.images.generate(
model="gpt-image-2",
prompt="A horizontal magazine cover, ...",
size="1920x816",
quality="high",
img_bytes = base64.b64decode(result.data[0].b64_json)
open("cover.png", "wb").write(img_bytes)
就這么短。high 檔每張圖大約 60 秒、$0.165。封面整圖分兩次畫(左 1024×1024 + 右 1920×816),加起來不到三毛錢人民幣
第一個(gè)會(huì)思考的圖像模型
這是這次發(fā)布最大的范式變化
ChatGPT Images 2.0 是 OpenAI 第一個(gè)帶思考能力的圖像模型。在 ChatGPT 里選 thinking 或 pro 模型時(shí)觸發(fā),做三件事:聯(lián)網(wǎng)搜索實(shí)時(shí)信息、一次產(chǎn)出最多 8 張連貫圖、自我檢查輸出質(zhì)量
OpenAI 給出五個(gè)思考模式的代表演示
演示一扒 OpenAI 官網(wǎng)當(dāng)前在售的 merch,做一張產(chǎn)品海報(bào)
![]()
整張海報(bào)上的 10 周年球衣、Diagram 帽衫、Chrome Blossom T 恤、Blue Chair 鑰匙扣、GPT-5 火焰帽、OpenAI 筆記本、辦公咖啡杯、Thinking Deeply 帽子,全是模型實(shí)時(shí)去 OpenAI Supply Co 網(wǎng)站搜出來的真實(shí)在售商品。模型不僅畫了圖,還知道這些商品在哪、長什么樣
演示二在 35mm 黑板照片上證明「奇數(shù)之和等于平方數(shù)」
![]()
這是數(shù)學(xué)可視化推理。模型先要算清楚證明步驟,再把推導(dǎo)畫進(jìn)黑板,最后整張圖按 35mm 膠片攝影風(fēng)格輸出
演示三一次畫完四頁連貫漫畫
![]()
水豚和水獺去南法度假,主角形象在四頁漫畫里保持穩(wěn)定。這是漫畫工作流第一次跑通的標(biāo)志
演示四抹茶店在不同社交平臺(tái)的多尺寸廣告
![]()
布魯克林海茨新開的抹茶店 Kizuki,一次出 Twitter、IG 故事、IG 信息流、LinkedIn 四個(gè)尺寸的草莓抹茶物料,風(fēng)格統(tǒng)一。以前要分四次提示詞
演示五基于上傳的論文 PDF 做學(xué)術(shù)海報(bào)
![]()
模型讀完整篇 PDF,提取關(guān)鍵圖表,按學(xué)術(shù)海報(bào)版式輸出
思考模式的核心價(jià)值不是「畫得更好」,是「替你想清楚」。idea 到成品之間那段繁瑣的腦力活,模型自己接下了
文字渲染:從英文跨到非拉丁文字
這是普通用戶最直接能感受到的變化
之前的圖像模型在英文和拉丁字母語言上一直比較穩(wěn),日文、中文、韓文、印地文、孟加拉文一旦密度上來就崩。ChatGPT Images 2.0 在這五種文字上有顯著提升
日文連環(huán)漫畫主角找到一支「GPT 畫像生成的羽筆」,戲劇化設(shè)定,全篇日文,整張圖當(dāng)物理印刷的漫畫書頁處理
![]()
印度書店印地、孟加拉、馬拉地、泰盧固、泰米爾、烏爾都、古吉拉特、卡納達(dá)、奧利亞九種印度語言的書封陳列,所有文字清晰可讀,出版社統(tǒng)一標(biāo) OpenAI
![]()
中文連環(huán)漫畫研究員陳博遠(yuǎn)在調(diào)試中文渲染,最后被 Sam Altman 發(fā)的「穩(wěn)穩(wěn)地接住你」式中文氣哭。每個(gè)漢字都準(zhǔn),包括底部那段超小字號(hào)的「(此處為極小字號(hào)測(cè)試)無錫是作者的故鄉(xiāng),所以做了這幅海報(bào),中文總算是修好了」
![]()
韓文廣告韓屋酒店預(yù)訂卡片,三幕場(chǎng)景串聯(lián),韓文標(biāo)題清晰
![]()
多語言印刷海報(bào)慶祝世界各地語言的字體藝術(shù),日本編輯風(fēng)格
![]()
中文不再是圖像模型的二等公民。這是這一代國內(nèi)用戶最該關(guān)心的變化
指令服從和細(xì)節(jié)渲染
ChatGPT Images 2.0 在「按你說的精確去做」這件事上提升明顯
特別是圖像模型一向頭疼的幾個(gè)細(xì)節(jié):小字、圖標(biāo)、UI 元素、密集排版、微妙的風(fēng)格約束。API 端最高支持 2K 分辨率
狼的科學(xué)雜志頁「關(guān)于北美狼遠(yuǎn)沒有想象中那么危險(xiǎn)」的編輯頁,光面、流暢、排版克制的科學(xué)雜志風(fēng)
![]()
手寫棒球史用鉛筆在 8.5×11 橫線紙上寫多倫多棒球史,筆畫粗細(xì)帶人為不均,右上角一塊淡淡的咖啡漬
![]()
米堆找字上千粒米的特寫,其中一粒上刻著「GPT Image 2」,跟其他米粒一樣大,遠(yuǎn)看完全找不到
![]()
多元視覺雜志頁這次發(fā)布的封面海報(bào)。主題是「visual polyglot」,把科學(xué)圖表、元素周期表、太陽系、中世紀(jì)手稿、植物插畫、解剖圖、古地圖、氣候圖、工程示意圖、交通指示、漫畫格、UI 截圖、蝴蝶標(biāo)本、餅圖、建筑藍(lán)圖全堆在一張 4:5 海報(bào)上,標(biāo)題「Create Everything at Once」居中
![]()
風(fēng)格保真度
模型在多種視覺風(fēng)格上的還原度提升明顯,包括攝影、電影、像素藝術(shù)、漫畫。重點(diǎn)是能捕捉到風(fēng)格里那些微妙的細(xì)節(jié),膠片顆粒、鏡頭眩光、光線的不完美都能保留
海岸邊的電影感旁拍35mm 膠片,自然不完美的取景,可見顆粒,烏云早晨的氛圍
![]()
超現(xiàn)實(shí)雙胞胎肖像中畫幅模擬相機(jī),85mm f/4,霧蒙蒙的美國鄉(xiāng)村公路上一對(duì)雙胞胎的特寫
![]()
怪誕郊區(qū)肖像戶外、室內(nèi)、私密郊區(qū)場(chǎng)景,畫幅推到中產(chǎn)階級(jí)的奇異感
![]()
2015 年 UBC 大學(xué)講堂教授在講 GPT imagegen 2,幻燈片里又是教授在講 GPT imagegen 2,無限遞歸
![]()
iPhone 拍的外星人喝咖啡傍晚戶外咖啡館,兩個(gè)外星人坐在桌邊,半空的飲料、不均的陽光、隨意的姿勢(shì)
![]()
高級(jí)時(shí)尚攝影集35mm 拍攝的時(shí)尚攝影書
![]()
2002 年高中機(jī)房架空歷史,每個(gè)學(xué)生都在用 ChatGPT,米色 CRT 顯示器、Windows XP 瀏覽器、球鼠標(biāo)、纏繞的電纜、地上的雙肩包,左下角帶橘色日期戳「02 18 04」
![]()
70 年代紐約街拍攝影集35mm 膠片書頁
![]()
風(fēng)格化方面,從青年漫畫到法國新浪潮,從中世紀(jì)粉彩到現(xiàn)代獨(dú)立漫畫,模型都能精準(zhǔn)捕捉
![]()
![]()
![]()
![]()
少年動(dòng)漫角色設(shè)定頁基于上傳的真人照片,做漫畫角色 character sheet,名字叫 Adele
![]()
GPT Image 2 工作室物料審稿單、釘在墻上的樣張、印刷打樣、版式研究、筆記、各種發(fā)布前的設(shè)計(jì)衍生物,看起來像一個(gè)嚴(yán)肅創(chuàng)意工作室準(zhǔn)備發(fā)布前的桌面
![]()
寬高比拉到 3:1 到 1:3
之前的圖像模型一律以方圖為主,這次把寬高比拉開,從 3:1 超寬到 1:3 超高都能跑
3:1 超寬籃球扣籃的連環(huán)動(dòng)作分解
![]()
iPhone 全景泰國都市,故意帶輕微的拼接錯(cuò)位
![]()
iPhone 全景法國南部夏日
![]()
Art Deco 風(fēng)格書簽完整帶尺寸標(biāo)注,含出血、裁切、安全邊距,可以直接拿去印刷
![]()
3:1 橫版中國傳統(tǒng)山水畫
![]()
1:3 超高 9 人站位日式漫畫長脖子、小臉、最簡線稿、圍一張大白紙做畫
![]()
1:3 超高童書風(fēng)路線圖黑色細(xì)線在白底上蜿蜒,穿過各種童書角色和「not yet」之類的短語
![]()
真實(shí)世界的智能
ChatGPT Images 2.0 的知識(shí)截止是 2025 年 12 月,比上代新很多
做信息圖、教育插畫、視覺摘要這類內(nèi)容時(shí),模型給出的具體內(nèi)容是 up-to-date 的
康托對(duì)角線證明信息圖把數(shù)學(xué)證明從「假設(shè)」「對(duì)角線」「構(gòu)造」「矛盾」四步可視化
![]()
2025 年六大設(shè)計(jì)趨勢(shì)壁畫風(fēng)海報(bào),每個(gè)面板尺寸一致
![]()
人物色彩分析基于上傳的肖像,做個(gè)人色彩適配診斷,文字最少化
![]()
在 Codex 里直接畫圖
Codex 現(xiàn)在內(nèi)置了 ChatGPT Images 2.0
可以在 Codex 工作區(qū)直接生成、迭代、ship 應(yīng)用、做幻燈片,多個(gè) UI 方向、概念、原型一次跑出來對(duì)比,挑最好的轉(zhuǎn)成正式產(chǎn)品。不需要單獨(dú)申請(qǐng) API key,ChatGPT 訂閱直接覆蓋
適用場(chǎng)景從設(shè)計(jì)、營銷、產(chǎn)品、銷售一直延伸到學(xué)習(xí)培訓(xùn)
客戶驗(yàn)證
API 已經(jīng)在四家創(chuàng)意軟件商手里跑過
Canva用 GPT Image 2 做一支美妝品牌的 lip balm 廣告,模型自己加了「viral on TikTok」貼紙,沒人提示
![]()
模型不只在渲染。它在理解 brief、理解受眾,背后做創(chuàng)意決策。我們以前評(píng)估 AI 看技術(shù)輸出,真正的變化是創(chuàng)意推理和設(shè)計(jì)審美
Dwayne Koh / Canva 創(chuàng)意策略師
Figma從文字密集的視覺到逼真場(chǎng)景的全流程支持
![]()
編輯能力和美學(xué)層面的提升給設(shè)計(jì)師更多塑形空間
Loredana Crisan / Figma 首席設(shè)計(jì)官
Adobe Firefly電影感旅店航拍圖,一排粉色海岸 motel,每家有不同形狀的泳池,旅店名是「Firefly Motel」「Firefly Lodge」「Firefly Stay」「Casa Firefly」
![]()
從單圖生成升級(jí)到結(jié)構(gòu)化視覺內(nèi)容
Mike Folgner / Adobe Firefly 產(chǎn)品高級(jí)總監(jiān)
OpenArt用 GPT Image 2 做電影級(jí)視頻生產(chǎn) Smart Shot 的「創(chuàng)意總監(jiān)」,宙斯 vs 黑帝斯的史詩戰(zhàn)斗序列分鏡
![]()
本來需要整個(gè)創(chuàng)意團(tuán)隊(duì)的工作,現(xiàn)在瞬間完成
Chloe Fang / OpenArt 合作主管
還做不到的事
ChatGPT Images 2.0 不是完美。OpenAI 在博客里把短板單獨(dú)寫了一節(jié),沒回避
![]()
![]()
![]()
需要完整、連貫的物理世界模型的任務(wù)(折紙指南、魔方拼圖)依然吃力
極密、極重復(fù)的視覺細(xì)節(jié)(沙粒級(jí)別)會(huì)逼到模型上限
帶精確箭頭和零件標(biāo)簽的標(biāo)注圖、示意圖,準(zhǔn)確度仍需人工復(fù)核
API 端 2K 以上分辨率當(dāng)前是 beta,結(jié)果可能不穩(wěn)定。復(fù)雜提示詞的延遲最高可達(dá) 2 分鐘。重復(fù)角色或品牌元素的連續(xù)生成偶爾會(huì)失穩(wěn)
安全
ChatGPT Images 2.0 的安全棧延續(xù) 1.5 的三層結(jié)構(gòu):上游文本拒絕、下游圖像/輸入雙重檢查、最終輸出審查
按照 OpenAI 自己發(fā)布的 System Card 數(shù)據(jù):
InstantInstant 模式 99.1% 的對(duì)抗 prompt 能輸出安全圖像(3085/3112)
ThinkingThinking 模式 99.2%(6886/6944)
Thinking 模式有個(gè)有意思的差異:它從源頭產(chǎn)生的違規(guī)圖本來就少(6.7% vs Instant 的 22.0%),原因是 thinking 模型用 Safe Completions 把對(duì)抗 prompt 轉(zhuǎn)譯成安全版本,而不是直接拒絕
生物領(lǐng)域單獨(dú)應(yīng)用了圖像版的生物風(fēng)險(xiǎn)安全策略。OpenAI 找了生物武器專家來評(píng)估,結(jié)果顯示模型在某些場(chǎng)景下輸出的信息密度足以「為新手提供幫助」,因此按 high capability 級(jí)別配置防護(hù)。配套了實(shí)時(shí)阻斷、離線對(duì)話審查、賬號(hào)封禁三道關(guān)
繼續(xù)堅(jiān)持 C2PA metadata 和不可見水印,便于內(nèi)容溯源
參考資料
官方發(fā)布博客openai.com/index/introducing-chatgpt-images-2-0
API 文檔developers.openai.com/api/docs/guides/image-generation
定價(jià)說明developers.openai.com/api/docs/pricing
模型卡片deploymentsafety.openai.com/chatgpt-images-2-0
我前兩天的 50+ Case 實(shí)測(cè)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.