<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練

      0
      分享至


      作者 | 樊雅婷
      郵箱 | fanyating@pingwest.com

      GPT Image 2 憑什么這么強?

      是擴散模型又迭代了一版?是把 DiT 的參數量從 7B 擴到 20B?是訓了更多高質量數據?

      這些答案都對,但都不夠。

      以下是我們與多位從業者交流后,提煉出的幾個值得關注的技術方向,并嘗試做出更清晰的解釋。

      先給結論:OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關系的 LLM 主導語義規劃,至于最后一步的像素生成,可能由擴散組件或其他解碼器完成。

      而這個LLM,極大可能是GPT-4o。

      支撐這個推論的,首先是兩條直接線索。

      1. 模型自述


      2. C2PA溯源驗證

      C2PA 是一種內容溯源標準,相當于給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖,都能查到它是由 GPT Image 2 生成的、生成時間是什么、經過了哪些修改。

      有專業人士在metadata2go.com上對image 2生成的圖片進行元數據提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。

      這也能理解為什么這次image 2的表現驚人了。


      圖片源于: 【深入調查:OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share

      單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時,這些變化,忽然有了統一的解釋。

      1

      一、圖像語義,從像素到token

      1.1

      過去兩年,AI 生圖領域有一條不成文的鄙視鏈:Midjourney 負責美學,Stable Diffusion 負責可控性,DALL·E 負責……嗯,負責被 OpenAI 發布。但不管你站哪一隊,有一件事是所有人的共識——文字是 AI 的鬼門關。

      你能讓 AI 畫出逆光下緬因貓毛發的半透明質感,卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型,在文字上給出的結果仿佛楔形文字。這件事的荒誕與根源,就藏在擴散模型的工作原理里。

      先說擴散模型為什么寫不好字?

      因為它的核心是一個從噪聲中還原圖像的“雕塑家”:

      • 訓練時,向清晰照片逐步撒噪聲,直到變成純電視雪花,模型學習逆向去噪。

      • 生成時,從一片隨機噪聲開始,每步都靠 U-Net 預測并擦除噪聲,幾十步迭代后“雕”出毛發、虹膜和光影。

      這個過程本質上在還原連續的、可以用概率無限逼近的紋理。毛發可以稍微硬一點或軟一點,顏色可以偏暖 5%,無傷大雅。

      但文字是離散符號,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”,用在紋理上是風格,用在文字上就是 O 變 0,或是拼出 WElcOm e。

      最終就成了外行眼中的“楔形文字”。

      不僅如此,擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部,它本質上是整張圖重新畫一遍,沒改動的地方也會悄悄漂移。

      但GPT Image 2現在不僅能“寫對字”,還能保持“有記憶”的一致性例如:你修改一個字之后,周圍的文字會自動調整間距;當你把“咖啡”改成“紅茶”,它不只是替換那個詞,而是連帶把杯子的顏色從深棕調成了琥珀色。

      這說明文字在它的系統里不是圖層標注,而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣,連鎖驅動畫面其他元素的合理變化。


      GPT Image 2 與其他模型對比圖

      1.2

      它不再把圖像當圖像看,而是把圖像當語言看。

      這聽起來像玄學,但其實是個很具體的工程選擇。要理解這件事,得先搞明白一個概念:Tokenizer

      Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前,會先把“你好”這個詞切碎編號,變成一個數字 ID,比如 [11892]。這是文本 token 化。

      圖像能不能也這么干?當然能。你把一張圖切成 16×16 的網格,每個格子編個號,也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token,LLM 還沒開始畫就先被淹死了。

      所以過去兩年,各家大模型公司在拼一件事:怎么把一張圖壓成盡量少的 token,同時還不丟關鍵信息。

      這事有多難呢?想象你是一個情報員,要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多只能發 256 個字。你怎么辦?你不能說“一個女人在笑”,因為對方畫不出來;你也不能逐個像素描述,因為字數不夠。你必須發明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到后能八九不離十地還原出來。

      這就是 OpenAI 在 tokenizer 上干的 事。從 CLIP 到 DALL·E 再到 GPT-4o,他們逐漸構建了一種能夠在視覺與語言之間進行映射的語義表示體系。

      這意味著:圖像和文本被投影到了同一個對齊后的語義 embedding 空間。


      現在在 LLM 眼里,“一只逆光的緬因貓”這行字,和一張逆光緬因貓的照片,是同一個語義空間里的兩套坐標。它能像理解文字一樣理解圖像,也能像生成文字一樣生成圖像。

      所以當你說“把第三行公司名改成團伙名”,它不是在修圖軟件里找那個圖層,而是在改寫一段描述這個畫面的密文。改完后,解碼器再把密文翻譯回像素。

      這就是為什么文字突然能寫對了。因為對 LLM 來說,寫一個W和寫一個我,沒有任何本質區別——都是它在密語系統里調整幾個 token 的事。


      1.3

      既然 GPT Image 2 很可能把圖像變成了語義密文,那這串密文怎么變回一張能看的圖?

      如果直接把 token 映射成像素,畫質必然一塌糊涂,這是自回歸模型的通病:它極度擅長決定畫什么,卻不太擅長畫得好看——就像建筑系教授徒手畫效果圖,空間關系全對,筆觸就是不及美院學生。

      而擴散模型正好相反,紋理光影以假亂真,卻經常不知道自己在畫啥。因此,一個高度自洽的推測浮現:讓兩款模型打配合。

      • 自回歸負責定調:根據你的 prompt 生成那幾百個語義 token,敲定畫面里有什么、它們的位置關系、整體構圖邏輯。這一步決定了“聽得懂”,也保證了多輪編輯時對修改對象的記憶與一致性。

      • 擴散負責潤色:拿到這串語義 token 后,不再負責理解內容,只負責填充高保真像素,把既定框架變成光影自然的成圖。這一步決定了“畫得好”。

      這不是理論空想。Google 發過一篇叫 Transfusion 的論文,Meta 搞過 Chameleon,走的都是類似路線。


      當然,這一切都是基于公開信息和模型表現的推斷。

      OpenAI 有沒有在用?2026 年 4 月的媒體會上,OpenAI 拒絕回答任何關于模型架構的問題。拒絕本身就是一個信號。

      如果這個假設成立,那就解釋了一切——文字寫對是因為自回歸天然懂離散符號;多輪編輯一致是因為自回歸記住了那一串 token;畫質沒崩是因為擴散在最后一關做了精細渲染。

      1

      二、數據飛輪,GPT-4o 自己教自己生圖

      2.1

      但上文那個能把圖像壓成幾百個 token 的“密語系統”,到底是怎么訓出來的?為什么不是別的模型,偏偏是GPT-4o?

      答案藏在一件看起來最沒有技術含量的事里:數據標注。

      在 AI 圈,數據標注長期處于鄙視鏈底端。研究員聊架構可以聊一晚上,聊數據標注三句話就冷場。但 GPT Image 2 這次的表現,甚至表明OpenAI 可能已經不需要人工標注了。

      而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖,它能寫出一段比真人標注師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片,重新“過一遍水”——用 GPT-4o 生成新的、高維度的標注。

      但到這里,只解決了“描述”的問題,沒解決“篩選”的問題。一個模型生成一百張圖,并不是每一張都值得拿來當下一輪訓練的教材。這里需要一套嚴格的“質檢”機制——在機器學習里,這叫拒絕采樣

      具體來說就是,GPT-4o 先根據一段 prompt 生成一批圖像,然后根據美學偏好、指令匹配度、物理合理性等多條標準,逐張打分。批到符合條件的才“收下”,連同它為自己撰寫的詳細解析,一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪里的數據不是在低水平循環,而是在有選擇地自我提純。

      上一代模型給下一代模型當老師,下一代模型再給下下代當老師。每轉一圈,對世界的理解就深一層。

      大家的差距也在這個過程中越來越大。這也解釋了為什么Midjourney在畫質上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉開代差。

      當然,聽上去像個永動機騙局——自己教自己,那不得越教越傻?學術界確實有這個擔憂,管它叫模型崩潰:模型反復吃自己吐出來的東西,會逐漸丟失分布的尾部信息,生成結果越來越單一、越來越平庸。

      但OpenAI在文本側已經證明:只要老師模型足夠強,并且配合拒絕采樣這樣的嚴格篩選機制,這事不但不會崩,還能加速,形成數據飛輪。

      2.2

      這個飛輪里還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。

      我們在文本側已經習慣了 RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習):給一段文字打分,判斷它有用、有趣、符合人類偏好,這件事 GPT-4o 做得很好。

      但在圖像側,難度驟升。因為質檢員需要同時盯住三條線:美學偏好;指令遵循;安全過濾。


      三條線的標準各不相同,甚至互相沖突。一道強光影可能很“好看”,但壓暗了 prompt 里要求的某個細節,就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖,又得回頭調閾值。這種多維度權衡,在文本側已經跑通,但在圖像側變得前所未有的復雜。

      而 OpenAI 之所以能做成,很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場:語言理解。

      美學偏好被轉譯成一段構圖評語,指令遵循被轉譯成一組約束條件的核對清單,安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間里。

      可能這才是數據飛輪真正的底牌。不是數據多,而是從標注、篩選到打分,全鏈路都被統一到了一個理解框架里。拒絕采樣負責海選淘汰,RLHF 負責精修調優,兩者共享一套語義標準,飛輪才轉得起來。

      1

      三、工程解法,兼顧推理速度和對話整合

      3.1

      到這里,我們聊的都是效果。接下來聊一個經常被刻意繞開的話題:推理速度。

      先不說審美和一致性上的飛躍,且說一個看似矛盾的現象:生圖質量躍升了一個代際,但速度并沒有明顯變慢。這本身就是一種工程奇跡——OpenAI 是怎么做到的?

      自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同,它可以在整張畫布上并行去噪,一次處理所有像素。按理論推算,如果 GPT Image 2 確實用了自回歸架構,它的推理延遲應該比純擴散模型高出一個數量級。

      但實際體驗是:沒有。

      第一條線索:Token 壓縮率可能遠超預期。 如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述,對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊,更在壓縮率上做到了極致,把高信息密度濃縮到幾行字的程度。

      第二條線索:推理架構的深度優化。 混合架構中,自回歸生成的是粗粒度的語義 token,決定“畫什么”,不負責“畫成什么樣”。生成步驟大幅縮短,擴散模型只用在最后一小段“按圖施工”,而不是從頭噪到尾。

      第三條線索:投機解碼(Speculative Decoding)可能被用到了圖像側。 用一個更小的“草稿模型”快速生成候選 token,再由大模型一次性驗證,這套 LLM 推理加速經典技巧如果用在圖像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟,移植到圖像側沒有原理障礙。

      所以結論是:GPT Image 2 的快,不是因為擴散模型變快了,而是因為可能它把最慢的語義規劃,從擴散模型手里搶了過來,交給了擅長快速推理的 LLM。

      3.2

      比速度更影響體驗的,是與對話系統的整合。

      在傳統圖像生成工具中,例如 Midjourney 或基于 Stable Diffusion 的工作流,用戶通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支持諸如variations、inpainting和歷史記錄等功能,但整體流程仍然以“單次輸入 → 單次輸出”為主,用戶需要通過多次嘗試逐步逼近目標效果。

      這種過程在實踐中往往表現為反復試錯:

      用戶根據結果調整 prompt,但模型對指令的理解程度并不完全透明,因此需要多輪迭代來校正偏差。

      相比之下,集成在對話系統中的圖像生成引入了連續上下文機制,改變了交互方式。

      • 用戶可以在多輪對話中逐步細化需求

      • 模型能夠利用對話歷史理解“當前修改”對應的對象或屬性

      • 修改請求可以以更自然語言的形式表達,而不需要一次性寫出完整 prompt

      例如,在多輪交互中,用戶可以先生成一個基礎場景,再逐步提出局部修改(如顏色、位置、風格)。最后,模型基于上下文生成新的結果。

      對話式交互還帶來另一個優勢:需求澄清能力clarification。將模糊的自然語言意圖,逐步轉化為更具體的生成條件,從而提高生成結果與用戶預期之間的一致性。

      1

      結語

      在 GPT Image 2 出現之前,AI 生圖領域的討論框架是這樣的:

      “擴散模型的縮放定律還能走多遠?”

      “DiT 架構和 UNet 架構誰更優?”

      “Flow Matching 會不會取代 DDPM?”

      “多模態對齊的損失函數怎么設計?”

      這些問題都有價值,但它們共享一個隱含前提:圖像生成是一個獨立的、需要專門架構來解決的問題。

      而GPT Image 2 給出的的回答是:不一定。

      如果我們把鏡頭再拉遠一點,GPT Image 2 的出現其實指向了一個更大的命題:世界模型。

      讓我們重新思考什么是生成,以及世界。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      來南京下跪,才是真懺悔

      來南京下跪,才是真懺悔

      極目新聞
      2026-05-07 00:57:37
      14歲“手搓”航發引爆全網,我的智商又被按在地上摩擦了

      14歲“手搓”航發引爆全網,我的智商又被按在地上摩擦了

      迷世書童H9527
      2026-05-06 17:01:27
      皇馬又1沖突爆發!2名主力激烈對峙 險些大打出手 主帥背鍋

      皇馬又1沖突爆發!2名主力激烈對峙 險些大打出手 主帥背鍋

      葉青足球世界
      2026-05-07 09:16:28
      三峽“無縫大壩”締造者落馬!功勛滿身,卻沒管住心中一道縫

      三峽“無縫大壩”締造者落馬!功勛滿身,卻沒管住心中一道縫

      甜檸聊史
      2026-03-25 18:43:05
      前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

      前體操冠軍吳柳芳再回應擦邊風波:“把債還完了,我才能把體面重新撿起來”;談及與管晨辰的爭執,吳柳芳表示:“我不會去恨一個人”

      揚子晚報
      2026-05-07 07:43:31
      GDP增速再墊底!西北第一城,怎么了?

      GDP增速再墊底!西北第一城,怎么了?

      西部城市
      2026-05-06 21:27:23
      女子和表弟偷情,丈夫半夜來捉奸,2008年殺表弟后妻子嫌讓她丟臉

      女子和表弟偷情,丈夫半夜來捉奸,2008年殺表弟后妻子嫌讓她丟臉

      漢史趣聞
      2026-05-03 15:27:31
      洪迪厄斯號豪華郵輪毒株確認可人傳人,可通過同床共枕或共享食物傳播,該郵輪上共149人

      洪迪厄斯號豪華郵輪毒株確認可人傳人,可通過同床共枕或共享食物傳播,該郵輪上共149人

      極目新聞
      2026-05-07 10:54:57
      5月1日起全額繳納社保,全民創業時代正式謝幕,但請不要難過

      5月1日起全額繳納社保,全民創業時代正式謝幕,但請不要難過

      月滿大江流
      2026-05-06 17:01:05
      今天,年輕人為什么喜歡馬克思

      今天,年輕人為什么喜歡馬克思

      中央編譯出版社
      2026-05-06 17:01:49
      深海探測器偶遇38米超長海蛇,雷達操作員觀察后崩潰:那不是海蛇

      深海探測器偶遇38米超長海蛇,雷達操作員觀察后崩潰:那不是海蛇

      紙鳶奇譚
      2026-04-27 16:21:08
      中國16城準一線城市排名:蘇州第六,成都超南京,福州新入圍

      中國16城準一線城市排名:蘇州第六,成都超南京,福州新入圍

      最新聲音
      2026-05-07 02:39:00
      荒唐至極!歐洲議會勒令廢除普通話法案?中國主權絕不容外人置喙

      荒唐至極!歐洲議會勒令廢除普通話法案?中國主權絕不容外人置喙

      行者聊官
      2026-05-06 14:16:30
      賴清德回臺灣,三個東盟國家為其開放領空

      賴清德回臺灣,三個東盟國家為其開放領空

      混沌錄
      2026-05-06 22:50:16
      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      李晚書
      2026-05-06 13:21:59
      不與華為合作的車企贏麻了

      不與華為合作的車企贏麻了

      中車網評
      2026-05-06 17:54:28
      恒大集團創始人許家印被曝出猛料

      恒大集團創始人許家印被曝出猛料

      地產微資訊
      2026-05-07 09:28:09
      可靠耐用+AI全能,惠普戰66 2025銳龍版深度體驗

      可靠耐用+AI全能,惠普戰66 2025銳龍版深度體驗

      電腦報
      2026-04-27 16:41:46
      隨著巴黎、阿森納會師歐冠決賽,金球獎誕生3大熱門!領先姆巴佩

      隨著巴黎、阿森納會師歐冠決賽,金球獎誕生3大熱門!領先姆巴佩

      球場沒跑道
      2026-05-07 09:02:57
      品牌煥新背后,傳祺真正要爭的是中國家庭的心智

      品牌煥新背后,傳祺真正要爭的是中國家庭的心智

      AutoBusiness
      2026-05-06 19:57:19
      2026-05-07 12:20:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3061文章數 10495關注度
      往期回顧 全部

      科技要聞

      凌晨突發!馬斯克租22萬塊GPU給“死敵”

      頭條要聞

      北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

      頭條要聞

      北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

      體育要聞

      阿森納巴黎會師歐冠決賽!5月31日開戰

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      健康
      藝術
      教育
      手機
      時尚

      干細胞治燒燙傷面臨這些“瓶頸”

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      教育要聞

      【數育未來專家談·第一期】智能思政課堂、精準德育關懷、沉浸式育人場景……數字教育如何為德育工作提質增...

      手機要聞

      Q1收入榜:蘋果默秒全,三星第二,國產OPPO第一

      “白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰满人妻熟妇乱精品视频| 国产免费人成网站在线播放| 午夜免费无码福利视频| 国产免费网站看v片元遮挡| 天堂中文在线资源库用| 天天射天天日本一道| 亚洲一区在线日韩在线深爱| 欧美日韩国产亚洲沙发| 91亚洲一线产区二线产区| 午夜中文在线| 国产在线精品一区二区三区直播| 亚洲国产黄色美女视频| 果冻传媒一区二区天美传媒| 国产中文字幕精品喷潮| 精品国产99久久久久久www| 性一交一乱一乱一视频| 爆乳日韩尤物无码一区| 久久久久青草线综合超碰| 国产AV无码专区亚洲AV毛片搜| 日韩精品免费一区二区夜夜嗨 | 国产亚洲精品午夜福利| 粗大插入91视频| 日本护士╳╳╳hd少妇| 在线免费观看毛片av| 亚洲欧美日韩中文字幕在线一 | 很很的日夜夜操| 天天摸天天操免费播放小视频| 中文字幕人妻系列人妻有码| 精品美女久久久久| 日韩大片在线永久免费观看网站 | 国产精品sm捆绑调教视频| 亚洲精品成人7777在线观看| 国产精品美女| 亚洲熟女WWW一区二区三区| 国产亚洲精选美女久久久久| 国产福利微视频一区二区| 中国成人XXXX高清视频| 不卡高清av手机在线观看| 国产最新精品系列第三页| 亚洲v?a| 国产精品三级在线观看无码|