近期,GPT Image2憑藉極其驚豔的生成效果在社交媒體上引發轟動。隨着項目的走紅,這支低調的幕後團隊也逐漸浮出水面。據瞭解,該核心團隊僅由13人組成,在短短4個月內便完成了底層架構的徹底重寫。儘管研究負責人陳博遠並未透露具體的技術路線,但他將這一新模型描述爲“圖像領域的GPT”,預示着其在通用性上的巨大飛躍。

作爲團隊的靈魂人物,陳博遠的成長曆程頗具傳奇色彩。他在讀博期間便提出過“Diffusion Forcing”等創新範式,並曾在Google參與開發後續被Gemini2.0採用的指令微調技術。有趣的是,他在高中參加科研營時甚至還不懂Python。在加入OpenAI後,他不僅負責了GPT圖像模型的所有訓練工作,還是Sora視頻生成團隊的核心成員。在演示中,他通過生成精準渲染中、韓、孟加拉語等多種文字的海報,展示了模型卓越的語言處理能力。

image.png

除了文字渲染,GPT Image2在理解世界知識和指令遵循方面也達到了新高度。由中科大博士Jianfeng Wang負責的這一模塊,解決了生圖AI長期以來的痛點——例如,過去模型畫的時鐘幾乎永遠停在10:10,而新模型已能精準理解任意時間點及複雜的空間佈局指令。他表示,該模型正在消除用戶的創作意圖與最終產出之間的鴻溝。

在生產力工具化方面,來自浙大竺可楨學院的Yuguang Yang演示了將長篇論文一鍵轉化爲高精度PPT和信息圖表的能力。這得益於團隊在多模態理解、MoE(混合專家模型)架構以及長程引導技術上的深度融合。

從最初的DALL-E到如今的GPT Image2,這支平均年齡極輕、背景多元的團隊(包含多位2025年剛畢業的博士)完成了從“畫得出”到“畫得準”的進化。目前,團隊成員紛紛將社交頭像換成了極簡的日系貼紙風格。這種帶有幾分戲謔色彩的自嘲,或許正是這羣信奉“涌現式研究”的天才們改變世界的一種獨特方式。