![]()
作者|陳博遠
今天凌晨,Open AI 研究科學家陳博遠在知乎上發布了一篇博客,介紹了 GPT Image 2 官網博客的花絮。本文是對該博客的原文轉載。
大家好,我是 GPT Image 團隊的研究科學家陳博遠。上周發布的 GPT 生圖模型就是我主力訓練的!這次終于輪到我和奧特曼一起主持了發布會。很高興這次修好了模型的中文渲染!如果大家有什么反饋可以直接回復我哦。圖 1 中就是我在發布會上的直播(不過多語言能力是直播后半節,國內媒體好像并沒有發現只有我才是國人 QwQ)。這次特意用圖片生成了整個官網 blog,背后有很多花絮很好玩。
![]()
陳博遠在 OpenAI GPT Image 2 發布會上和山姆奧特曼演示文字渲染能力
我們的模型在發布前用 duct-tape 的代號在 LMArena 上進行了雙盲測試。這個代號也是我起的,意思是布基膠帶,也就是下面這個東西:
![]()
duct tape 翻譯過來叫布基膠帶,不過國內不常見。
至于為啥起名叫布基膠帶嘛.. 當然是因為你可以用布基膠帶把香蕉貼在墻上啦!
![]()
那副世界聞名的藝術品,就是用布基膠帶把香蕉貼在墻上
當然,結果也是在雙盲測試中斷崖領先了代號為小香蕉的第二名。
![]()
除此之外我花時間做了好多我們官網上的圖片。整個 Blog 都是用圖片生成的,完全沒有文本。下面這些圖都是我親手做的!每張圖的背后都有很多思考,這里也像藝術家一樣和大家展示下。
![]()
然后是我們的中文彩蛋。當時特別想做一個很搞笑的漫畫,于是想到了接住梗和香蕉梗。當然,為了秀一下文字能力,我特意讓他用多國語言加了很多文字,并且家鄉海報的右下角讓他生成特別特別小的中文來測試到底能多細節。我為了讓模型做一些只有我們才做得到的事情,特意讓他生成的圖要看起來像是一張對著一本真的漫畫書拍的照片。這整張圖,包括畫中畫和畫中畫中畫都是一次性生成的。我設計完以后擔心大家覺得這是張拼接圖,于是特地在圖底加了備注。
![]()
思來想去,這樣的文字渲染其實還是不夠驚艷。在隊友的提示下我做了一張 4K 圖 (為了節省大家的流量壓縮了一點點)。內容是一堆米粒,但是其中的一顆上面刻著字。你能找到嗎?
![]()
![]()
這張日語漫畫也是我做的。當時想做一個和 GPT 圖片生成相關的漫畫。當時做了一張和香蕉有關的巨搞笑的漫畫,但是感覺放在官網上不太合適。于是最后還是用了另一種方式把漫畫和 GPT 生圖聯系在一起。我構思了羽毛筆這個主題,剩下的只有很簡單的提示詞,告訴他構思 “戲劇化” 的漫畫。
![]()
更多雜志頁,這張是和同事一起做的。思路是讓生圖模型用一些真實的物體結合藝術的布局。這樣既可以體現模型的對真實世界的還原,又不失設計感。
![]()
做下面這張圖的時候,我在想到底有什么東西能突出我們模型在思考能力上的進步。如果讓他解普通數學題方程啥的,似乎就太簡單了。nano banana 似乎通過思考模式 + 文字渲染的方式也能做。于是我想到了我非常喜歡的一個視覺證明來真正考驗 GPT Image 2 獨特的視覺推理效果。圖里提示詞說的是,在黑板上用視覺(而不是代數)證明從 1 開始的奇數之和是一個平方。普通的模型其實很容易推理出代數解,但是圖形解只有視覺模型才能做了。
![]()
最后這張圖展示的是搜索能力,要去我們官網的商店里找內容做一個海報。直播里我們還展示了 Thinking mode 自動生成二維碼放進圖片里 - 其實背后有個彩蛋,當時展示的二維碼掃進去的前若干個人可以獲得一個免費小獎品。
![]()
最后的最后還是要感謝團隊的齊心協力!每個人都做了很多很多的事情。在發布前的尾聲,我除了在修一些小東西就是和市場部門的同事還有做藝術的同事一起準備發布會和這個網站,他們真的是我見過的最強大的合作者了,也讓我們最后才有了這么漂亮的網站。
希望這回穩穩地接住了大家!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.