網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從Python小白到AI核心：被AI改變的華人青年

2026-04-26 17:03:37　來源: 夢想的現(xiàn)實

四川舉報

分享至

GPT Image2全網(wǎng)刷屏，但效果究竟為什么這么好？

研究負責(zé)人陳博遠揭秘：底層架構(gòu)已徹底重構(gòu)。

但他又拒絕回答是否采用擴散模型或自回歸技術(shù)，只是神秘的將其描述為“通用模型”或“圖像領(lǐng)域的GPT”。

這樣突破性的成果，核心團隊只有13人。

整個團隊的負責(zé)人Gabriel Goh曬出了的團隊成員AI全家福。

評論區(qū)有網(wǎng)友感嘆：怎么全是亞洲人？

GPT Image 2究竟是什么架構(gòu)？

OpenAI恐怕很長一段時間都不會公布了，但從核心團隊成員的學(xué)術(shù)經(jīng)歷可以看出一些痕跡。

陳博遠是團隊的Research Lead，他和另一位成員Kiwhan Song在MIT讀博時有同一位導(dǎo)師Vincent Sitzmann。

他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。

這項研究提出Diffusion Forcing這一全新序列生成訓(xùn)練范式，將逐token獨立噪聲級擴散與因果下一個token預(yù)測結(jié)合，融合自回歸模型的可變長度生成與全序列擴散模型的長程引導(dǎo)優(yōu)勢。

他在谷歌實習(xí)期間還以共同一作身份發(fā)表了SpatialVLM。

通過過自動構(gòu)建互聯(lián)網(wǎng)規(guī)模的3D空間推理 VQA 數(shù)據(jù)集（1000 萬圖像、20 億 QA 對），為視覺語言模型賦予定量 / 定性空間推理能力，可從單張 2D 圖像輸出米制距離、尺寸、方位等精確數(shù)值。

這項研究把思維鏈空間推理應(yīng)用到了具身智能領(lǐng)域。

在谷歌實習(xí)期間，他開發(fā)的指令微調(diào)技術(shù)后續(xù)還被Gemini 2.0采用。

他在高中參加科研夏令營時，還不懂Python的基本語法，那時結(jié)識的谷歌DeepMind資深研究員夏斐把他引入了AI世界。

夏斐兩次邀請他到DeepMind完成高質(zhì)量實習(xí)，這些經(jīng)歷使陳博遠積累了大規(guī)模模型訓(xùn)練的工程經(jīng)驗，也為他理解多模態(tài)系統(tǒng)的數(shù)據(jù)需求提供了寶貴視角。

中科大博士畢業(yè)的Jianfeng Wang，在GPT Image 2團隊負責(zé)的是另一個讓人驚嘆的能力：指令遵循和理解世界。

舊模型畫的永遠時鐘永遠指向10:10，源于網(wǎng)絡(luò)上的鐘表廣告圖，幾乎清一色都是10:10。

這是因為鐘表廠商找心理學(xué)家做過實驗，認為這有助于刺激消費者買表的意愿。

他讓新模型畫2:25、3:30、9:10、7:45，全部精準(zhǔn)。

這只是開胃菜。

更多復(fù)雜的空間布局，蘋果在中心、杯子在右邊、書在上面、相機在左邊、籃球在下面。模型全部精準(zhǔn)執(zhí)行。

在加入OpenAI 之前，他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。

世界知識理解能力的大幅提升，對象的語義內(nèi)容和功能結(jié)構(gòu) 有正確的理解

JianFeng Wang在演示視頻結(jié)尾說到：GPT Image 2正在消除你的意圖和模型產(chǎn)出之間的差距。

真正做到你想要什么，模型就給你什么。

Yuguang Yang在GPT Image 2的發(fā)布活動中演示了生成信息圖和PPT。

他的經(jīng)歷可以說是團隊成員中最豐富的，每換一個工作都是跨界，但都聚焦機器學(xué)習(xí)。

他本科在浙大竺可楨學(xué)院學(xué)的工程，博士在約翰斯霍普金斯大學(xué)期間學(xué)的是計算化學(xué)物理與機器學(xué)習(xí)。

他第一份全職工作是量化分析師，在清華做訪問研究員期間亞牛的的是用于納米機器人的強化學(xué)習(xí)和控制算法。

后來他在亞馬遜做過Alexa語音研究。

2025年初加入OpenAI后，除了圖像生成還參與過ChatGPT智能體項目。

他在個人賬號上介紹GPT Image 2的信息圖生成能力，可以為科研人員節(jié)省大量時間。

還反復(fù)提醒大家，要做信息圖不要忘記選擇思考模式。

從團隊成員Kenji Hata的自我介紹中得知，GPT Image 1.0也就是GPT-4o的圖像生成部分。

有一個人從DALL-E開始參與了OpenAI多模態(tài)系列研究的全程。

他就是GPT Image 2.0團隊負責(zé)人Gabriel Goh。

從2019年加入OpenAI，他的早期研究更篇理論，專注于可解釋性和凸優(yōu)化等等。

從DALL-E開始慢慢轉(zhuǎn)向了圖像生成。

看到另一位團隊成員Weixin Liang的研究履歷，GPT Image 2的技術(shù)底色又揭開了一角。

他在Meta實習(xí)期間的代表作Mixture-of-Transformers，引入模態(tài)解耦的MoE和解耦注意力，顯著降低多模態(tài)模型預(yù)訓(xùn)練的計算成本。

他博士畢業(yè)自斯坦福，本科也畢業(yè)自浙大竺可楨學(xué)院，不過比Yuguang Yang要晚好幾年。

Weixin Liang與陳博遠一樣都是25年博士剛畢業(yè)就加入OpenAI，迅速成為團隊的核心成員。

其他GPT Image 2.0團隊成員還包括：

Ayaan Haque，之前在Luma AI 工作，參與過Luma的視頻生成基礎(chǔ)模型Dream Machine的訓(xùn)練。

Bing Liang，在Google干了5年多，參與Imagen3、Veo、Gemini Multimodal，2025年跳到OpenAI做圖像生成研究。

Mengchao Zhong，本科上海交通大學(xué)校友，碩士畢業(yè)于得克薩斯農(nóng)工大學(xué)，在Pinterest和Airtable做過軟件工程師，在OpenAI負責(zé)多模態(tài)產(chǎn)品的工程。

Dibya Bhattacharjee，耶魯大學(xué)，2015年IPhO銅牌，CIE A-Level數(shù)學(xué)和生物全球最高分。

Kiwhan Song是25年10月最晚加入的，除了做研究之外，他還是團隊里的提示詞大師，大家看到的官方演示圖很多都出自他手。……

從最早的DALL-E到今天的GPT Image 2.0，這只團團隊先后解決了。畫得出來、畫得清楚、畫得好看、畫得準(zhǔn)。

盡管近年來OpenAI的人才流動很大，但OpenAI還是那個能不斷吸引各種有個性的人才，不限制專業(yè)、歡迎跨界，信奉自下而上涌現(xiàn)式研究的公司。

從一個小團隊開始，有了突破后公司傾斜更多資源，直到改變世界。

曾經(jīng)，GPT-4o圖像生成模仿吉卜力風(fēng)格生成的頭像席卷了全世界。

如今GPT Image 2.0的團隊成員，都把自己頭像換成了這種奇脖子畫風(fēng)。

那么這種畫風(fēng)的提示詞是什么？團隊成員也公布了出來

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

廣西平陸運河建240米動物通道橋，供豹貓等動物通行

星視頻 2026-05-01 11:08:08
93 跟貼 93
上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229

上海醫(yī)保新政落地！5月起配藥這部分費用提高了

看看新聞Knews 2026-05-01 13:24:05
246 跟貼 246

堵！堵！堵！排隊14公里

無錫博報 2026-05-01 06:18:41
285 跟貼 285
天柱山景區(qū)“擺渡車問題”被點名后，記者實探

極目新聞 2026-05-01 19:46:05
122 跟貼 122

爆火兩個月后，上海的河南水煎包老板直言壓力很大，曾“后悔爆火”想盡快回歸平常，帶火整條街，周邊新開多家河南美食店

極目新聞 2026-05-01 15:20:27
70 跟貼 70

導(dǎo)游稱大熊貓“花花”是殘疾，旅行社致歉

界面新聞 2026-05-01 07:59:04
8524 跟貼 8524
大國重器集體亮相！人民海軍成功配齊“航母五件套”

環(huán)球網(wǎng)資訊 2026-05-01 07:24:23
417 跟貼 417

險！今天下午龍華會一自動扶梯“開倒車” 幸無人員傷亡

上觀新聞 2026-05-01 22:55:06
0 跟貼 0
labubu冰箱售價5999元秒沒有平臺掛出22999元價格

新聞坊 2026-05-01 12:27:36
843 跟貼 843
一路飄紅！粵S大軍出動了！東莞多地人流、車流爆滿！

東莞陽光網(wǎng) 2026-05-01 12:27:00
96 跟貼 96
搭載磁流變懸架與防滾梁，極狐以問道V9進軍高端MPV市場

澎湃新聞 2026-05-01 14:29:24
81 跟貼 81
廣州最高補3萬、天津可退個稅多地出臺樓市調(diào)控新政

新京報 2026-05-01 12:36:09
240 跟貼 240
“吳越杯”第六輪順利完賽！積分榜排名有更新

浙江發(fā)布 2026-05-01 19:59:21
22 跟貼 22
28178人！中冠聯(lián)賽單場觀眾紀(jì)錄在江蘇常州誕生

江蘇新聞 2026-05-01 16:26:00
0 跟貼 0
五一的莫氏雞煲現(xiàn)場爆滿：上午客人沒吃完，下午客人又開始排隊，還有人花80元買號

極目新聞 2026-05-01 18:33:42
684 跟貼 684
蘭州一餐館懸掛錢學(xué)森和袁隆平照片，顧客直呼“這才是真正的明星”，老板回應(yīng)：因為有他們我們才有飯吃

極目新聞 2026-05-01 20:08:28
0 跟貼 0
A50，直線拉升！中國資產(chǎn)，集體爆發(fā)

證券時報 2026-05-01 10:52:07
648 跟貼 648
美政府官員：2月28日開始的“敵對行動已結(jié)束”

新華社 2026-05-01 08:55:07
795 跟貼 795
美媒報道稱自二戰(zhàn)結(jié)束以來美國債首次超過經(jīng)濟總量

財聯(lián)社 2026-05-01 22:12:15
172 跟貼 172
“甲亢哥”不小心把在中國買的三折疊手機掉進海里，嘴里念叨“我的中國手機、花了4000美元”，感覺整個人要碎掉；網(wǎng)友：出新款了再來一趟

瀟湘晨報 2026-05-01 20:15:11
0 跟貼 0
站旁自動扶梯市民無奈雨天爬梯管理物業(yè)“一問三不知”

上觀新聞 2026-05-01 22:55:08
0 跟貼 0
游客聲稱在上海街頭"走路也罰款" 上海交管還原真相

上游新聞 2026-05-01 20:01:19
0 跟貼 0
美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

看看新聞Knews 2026-05-01 22:58:33
0 跟貼 0
張雪回應(yīng)“820賽道熄火”：車子傾角設(shè)定是61度就會熄火，我們判斷為摔車

極目新聞 2026-05-01 17:58:29
0 跟貼 0

夢想的現(xiàn)實

962文章數(shù) 85關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

健康

數(shù)碼

手機

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

從Python小白到AI核心：被AI改變的華人青年

DeepSeek發(fā)布多模態(tài)論文又連夜刪除

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

GPU神話松動，AI真正的戰(zhàn)場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態(tài)度原創(chuàng)

用青花瓷的方式，打開西溪濕地

干細胞治燒燙傷面臨這些“瓶頸”

華碩官宣洛天依“出席”天選2026新品發(fā)布會，將有聯(lián)名新品

華為Pura 90系列、Pura X Max手機備件價格公布

伊朗：持續(xù)推進海上封鎖的行為不可容忍

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產(chǎn)后身材恢復(fù)超好現(xiàn)身戶外直播

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市