GPT Image2全網(wǎng)刷屏,但效果究竟為什么這么好?
研究負責(zé)人陳博遠揭秘:底層架構(gòu)已徹底重構(gòu)。
![]()
但他又拒絕回答是否采用擴散模型或自回歸技術(shù),只是神秘的將其描述為“通用模型”或“圖像領(lǐng)域的GPT”。
![]()
![]()
這樣突破性的成果,核心團隊只有13人。
整個團隊的負責(zé)人Gabriel Goh曬出了的團隊成員AI全家福。
![]()
評論區(qū)有網(wǎng)友感嘆:怎么全是亞洲人?
![]()
GPT Image 2究竟是什么架構(gòu)?
OpenAI恐怕很長一段時間都不會公布了,但從核心團隊成員的學(xué)術(shù)經(jīng)歷可以看出一些痕跡。
陳博遠是團隊的Research Lead,他和另一位成員Kiwhan Song在MIT讀博時有同一位導(dǎo)師Vincent Sitzmann。
![]()
他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。
這項研究提出Diffusion Forcing這一全新序列生成訓(xùn)練范式,將逐token獨立噪聲級擴散與因果下一個token預(yù)測結(jié)合,融合自回歸模型的可變長度生成與全序列擴散模型的長程引導(dǎo)優(yōu)勢。
![]()
他在谷歌實習(xí)期間還以共同一作身份發(fā)表了SpatialVLM。
通過過自動構(gòu)建互聯(lián)網(wǎng)規(guī)模的3D空間推理 VQA 數(shù)據(jù)集(1000 萬圖像、20 億 QA 對),為視覺語言模型賦予定量 / 定性空間推理能力,可從單張 2D 圖像輸出米制距離、尺寸、方位等精確數(shù)值。
這項研究把思維鏈空間推理應(yīng)用到了具身智能領(lǐng)域。
![]()
在谷歌實習(xí)期間,他開發(fā)的指令微調(diào)技術(shù)后續(xù)還被Gemini 2.0采用。
他在高中參加科研夏令營時,還不懂Python的基本語法,那時結(jié)識的谷歌DeepMind資深研究員夏斐把他引入了AI世界。
夏斐兩次邀請他到DeepMind完成高質(zhì)量實習(xí),這些經(jīng)歷使陳博遠積累了大規(guī)模模型訓(xùn)練的工程經(jīng)驗,也為他理解多模態(tài)系統(tǒng)的數(shù)據(jù)需求提供了寶貴視角。
![]()
中科大博士畢業(yè)的Jianfeng Wang,在GPT Image 2團隊負責(zé)的是另一個讓人驚嘆的能力:指令遵循和理解世界。
![]()
舊模型畫的永遠時鐘永遠指向10:10,源于網(wǎng)絡(luò)上的鐘表廣告圖,幾乎清一色都是10:10。
這是因為鐘表廠商找心理學(xué)家做過實驗,認為這有助于刺激消費者買表的意愿。
![]()
他讓新模型畫2:25、3:30、9:10、7:45,全部精準(zhǔn)。
![]()
這只是開胃菜。
更多復(fù)雜的空間布局,蘋果在中心、杯子在右邊、書在上面、相機在左邊、籃球在下面。模型全部精準(zhǔn)執(zhí)行。
![]()
在加入OpenAI 之前,他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。
世界知識理解能力的大幅提升,對象的語義內(nèi)容和功能結(jié)構(gòu) 有正確的理解
JianFeng Wang在演示視頻結(jié)尾說到:GPT Image 2正在消除你的意圖和模型產(chǎn)出之間的差距。
真正做到你想要什么,模型就給你什么。
Yuguang Yang在GPT Image 2的發(fā)布活動中演示了生成信息圖和PPT。
![]()
![]()
他的經(jīng)歷可以說是團隊成員中最豐富的,每換一個工作都是跨界,但都聚焦機器學(xué)習(xí)。
他本科在浙大竺可楨學(xué)院學(xué)的工程,博士在約翰斯霍普金斯大學(xué)期間學(xué)的是計算化學(xué)物理與機器學(xué)習(xí)。
他第一份全職工作是量化分析師,在清華做訪問研究員期間亞牛的的是用于納米機器人的強化學(xué)習(xí)和控制算法。
后來他在亞馬遜做過Alexa語音研究。
2025年初加入OpenAI后,除了圖像生成還參與過ChatGPT智能體項目。
![]()
他在個人賬號上介紹GPT Image 2的信息圖生成能力,可以為科研人員節(jié)省大量時間。
![]()
還反復(fù)提醒大家,要做信息圖不要忘記選擇思考模式。
![]()
從團隊成員Kenji Hata的自我介紹中得知,GPT Image 1.0也就是GPT-4o的圖像生成部分。
![]()
有一個人從DALL-E開始參與了OpenAI多模態(tài)系列研究的全程。
他就是GPT Image 2.0團隊負責(zé)人Gabriel Goh。
從2019年加入OpenAI,他的早期研究更篇理論,專注于可解釋性和凸優(yōu)化等等。
從DALL-E開始慢慢轉(zhuǎn)向了圖像生成。
![]()
看到另一位團隊成員Weixin Liang的研究履歷,GPT Image 2的技術(shù)底色又揭開了一角。
他在Meta實習(xí)期間的代表作Mixture-of-Transformers,引入模態(tài)解耦的MoE和解耦注意力,顯著降低多模態(tài)模型預(yù)訓(xùn)練的計算成本。
![]()
他博士畢業(yè)自斯坦福,本科也畢業(yè)自浙大竺可楨學(xué)院,不過比Yuguang Yang要晚好幾年。
Weixin Liang與陳博遠一樣都是25年博士剛畢業(yè)就加入OpenAI,迅速成為團隊的核心成員。
![]()
其他GPT Image 2.0團隊成員還包括:
Ayaan Haque,之前在Luma AI 工作,參與過Luma的視頻生成基礎(chǔ)模型Dream Machine的訓(xùn)練。
Bing Liang,在Google干了5年多,參與Imagen3、Veo、Gemini Multimodal,2025年跳到OpenAI做圖像生成研究。
Mengchao Zhong,本科上海交通大學(xué)校友,碩士畢業(yè)于得克薩斯農(nóng)工大學(xué),在Pinterest和Airtable做過軟件工程師,在OpenAI負責(zé)多模態(tài)產(chǎn)品的工程。
Dibya Bhattacharjee,耶魯大學(xué),2015年IPhO銅牌,CIE A-Level數(shù)學(xué)和生物全球最高分。
Kiwhan Song是25年10月最晚加入的,除了做研究之外,他還是團隊里的提示詞大師,大家看到的官方演示圖很多都出自他手。……
從最早的DALL-E到今天的GPT Image 2.0,這只團團隊先后解決了。畫得出來、畫得清楚、畫得好看、畫得準(zhǔn)。
盡管近年來OpenAI的人才流動很大,但OpenAI還是那個能不斷吸引各種有個性的人才,不限制專業(yè)、歡迎跨界,信奉自下而上涌現(xiàn)式研究的公司。
從一個小團隊開始,有了突破后公司傾斜更多資源,直到改變世界。
曾經(jīng),GPT-4o圖像生成模仿吉卜力風(fēng)格生成的頭像席卷了全世界。
如今GPT Image 2.0的團隊成員,都把自己頭像換成了這種奇脖子畫風(fēng)。
![]()
那么這種畫風(fēng)的提示詞是什么?團隊成員也公布了出來
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.