作者: 一直在路上的Max , 01Founder
如果要給OpenAI 的2025 年寫個階段性總結,很多人大概會用平淡甚至略顯被動來形容。
在過去的一年多里,他們確實按部就班地跑通了邏輯推理的路徑,密集發布了從o3pro 到o4mini 的推理模型,也推出了GPT-4.5和GPT-5 這樣的全新的基座模型。
但在一般使用者最容易感知、也最容易形成自發性傳播的視覺生成領域,他們的存在感卻在漸漸減弱。
自從Sora 問世初期的震撼過後,OpenAI 似乎在這個賽道進入了漫長的靜默期。
同時,牌桌上的其他玩家並沒有閒著。
開源生態裡,像Flux 這樣的模型徹底將高品質本地出圖的門檻踩碎;
在商業端,不僅有老對手把持著極致的美學壁壘,甚至還湧現出了像Nano-banana 這樣自帶連網搜尋功能的新銳選手。
相較之下,OpenAI 過去的主力生圖模型GPT-Image-1.5 早就已經顯得老態龍鍾:
不僅畫質差、排版死板、面對複雜文本經常崩潰。
漸漸地,產業裡形成了一種共識:
OpenAI 在視覺生成這條線上遇到了技術瓶頸,在各路競品的圍剿下已經顯得力不從心了。
直到前幾週,轉折點以一種非常隱密的方式出現了。
在知名的大模型盲測平台LM Arena 上,悄悄混入了一個代號為Duct Tape(膠帶)的神秘影像模型。
參與盲測的用戶很快就發現事情不太對勁:
這個模型不僅對極端畫幅的把控極為精準,還能毫無瑕疵地輸出包含大量多語種文字的排版海報,甚至在出圖前似乎有一種隱形的邏輯規劃過程。
一時間,各個技術社群都在猜測這是哪家偷偷上線的大招,但OpenAI 方面始終保持沉默。
今天凌晨,靴子終於落地。
沒有冗長的發表會,也沒有鋪天蓋地的行銷預熱, OpenAI 直接將這個代號膠帶的模型正式命名為ChatGPT GPT-Image-2,並全面推向市場。
隨之公佈的,還有一張讓人感到有些窒息的Text-to-Image 競技場排行榜。
GPT-Image-2 以1512 的超高分直接空降榜首,領先第二名(也就是那個有連網搜尋功能的Nano-banana-2)整整242 分。
在大模型跑分的脈絡裡,大家通常會對零點幾或個位數的超越大書特書,頭部模型之間的分數咬得極度死。
一個242 分的領先落差,在競技場的歷史上是絕無僅有的。
這根本不是什麼微小的版本迭代,這是一種粗暴的代差碾壓。
我花了大半天時間,把它的各種極限能力以及最新的API 介面文件仔細過了一遍。
最大的感受只有一個:
OpenAI 還是那個OpenAI。
當它決定收復失地的時候,它用的方式是直接掀翻舊的牌桌。
在這個模型面前,那些我們以為還需要兩三年才會被AI 徹底取代的視覺設計工作,今天基本上可以說是走到頭了。
PART.01圖片產生從模型到視覺智能體
要理解GPT-Image-2 為什麼能拉開這麼誇張的分數差距,得先拋棄過去對文生圖模型的固有認知。
以前我們用AI 畫圖,本質上是抽盲盒,丟幾個提示詞進去,等著它把像素排列成你想要的樣子。
但GPT-Image-2 更像是內建了視覺引擎的智能體。
最明顯的變化,是它在機制上直接分出了兩個完全不同的模式。
一個是面向所有使用者開放的即時模式(Instant Mode)。
這個模式主打極速響應和生活工作流程的無縫接入。
例如你在手機上給它一個指令,它能在幾秒鐘內給你一張結構完整的圖。
它的底層視覺理解能力極強,但主要解決的是高頻的、單次的視覺轉換需求。
而開放給付費用戶的思考模式(Thinking Mode)。
在它真正開始渲染哪怕一個像素之前,它會先進入一段長達十幾秒的邏輯推理與連網搜尋。
正是這個模式,解決了一個極為核心但也極為困難的命題:
模型第一次真正知道自己該畫什麼了。
舉個最直觀的例子。
你在對話框裡輸入:
幫我做一張海報,上網搜一下大家對Duct Tape 這個神祕模型的評價,並附上ChatGPT 的二維碼。
如果用以前的模型,它根本不知道網友說了什麼,只會為你畫一張有亂碼假字的海報,二維碼也是掃不出來的假貼圖。
但在思考模式下,它的工作流程是這樣的:
它會先暫停畫圖,啟動網路搜尋工具,到Reddit、Threads 或LinkedIn 上把網友的真實評價爬取下來;
然後,它開始規劃海報的版面、留白和字體層級;
最後,它產生一個真實可用、可以直接掃碼跳轉的二維碼,並把整張圖渲染出來。
這已經不是在畫圖了,這其實是在自主完成研究、策劃、文案提取、版面設計的一條龍工作。
這裡需要做一個平行的對比。
關注大模型圈的人都知道,有連網與搜尋能力的生圖模型並不是OpenAI 首創。
排行榜第二名的Nano-banana 早就具備了這個機制。
但在實際使用Nano-banana 的時候,你會發現它在很多地方看起來有點笨。
Nano-banana 的思考往往是一種機械的拼接邏輯。
例如你讓它去搜尋個產業趨勢做海報,它確實去搜了,但通常只是把維基百科的句子生硬地摳下來,強行貼在畫面上。
一旦遇到需要解讀抽象商業訴求的指令,它就很容易抓瞎。
那種感覺,就像是個聽得懂話、但沒有絲毫工作經驗的實習生,懂執行,但完全不懂策略。
但GPT-Image-2 在這方面的表現,只能用誇張來形容。
它的思考不是走過場,而是真正了解背後的文化脈絡和商業意圖。
我在測試時輸入了一句極簡的中文指令:幫我畫一個馬斯克在抖音直播帶貨豆包的截圖。
如果用以前的畫圖模型,大機率會為你畫一個長得像馬斯克的白人,手裡拿著個包子,背景模糊不清,甚至連抖音長什麼樣子都不知道。
但在思考模式下,GPT-Image-2 所給的結果讓人感到有些心驚。
它並沒有簡單地拼湊元素,而是自主地調用了對中國互聯網的理解,生成了一張堪稱像素級復刻的抖音直播間UI 截圖。
畫面裡不僅有逼真的馬斯克舉著完美排版的豆包AI 助手廣告牌,更可怕的是那些沒有在提示詞裡出現過的細節:
左上角的關注按鈕與小時榜、右上角1023.6萬的在線人數、底部彈出的標準商品卡,甚至標明了劃線價99、特價69 和帶有倒數計時的立即搶購按鈕。
最讓人頭皮發麻的是左下角滾動得極為真實的網友彈幕:
科技小白:豆包是什麼?好用嗎?
星辰大海:支持馬斯克!支持國產AI!
沒有任何人告訴它彈幕該寫什麼,商品UI該長什麼樣,價格該怎麼定。
這是模型在分析了抖音帶貨和豆包大模型這兩個標籤後,替人類腦補並執行的完整商業UI 設計和運營策劃。
大模型在影像生成上的評價維度,在這一刻正式從單純的能不能畫好看,跨越到了懂不懂策略與排版邏輯。
PART.02實測核心能力
為了探探它的底線,我按照商業設計的標準,拿幾個高頻且複雜的場景去試了試。
結果發現,它解決問題的顆粒度,已經細到了令人毛骨悚然的地步。
第一個場景:視覺理解與業務閉環(給模特兒穿衣服)
在傳統的電商視覺或是時尚規劃裡,從有個點子到看到上身效果,中間的執行成本極高。
你要找模特兒、借衣服、搭影棚、後期精修。
後來有了AI,大家開始訓練LoRA 模型來固定人物臉型,但這依然需要幾十張圖的素材和不小的學習成本。
在GPT-Image-2 裡,這個流程被壓縮到了極致。
我試著傳了一張自己的日常自拍,告訴它我下個月要去海島度假,讓它幫我搭幾套衣服。
它先是給了我8 套完全不同風格的夏裝圖鑑,排版看起來就像專業的電商Lookbook,每一件單品旁邊甚至還帶著正確的文字標註。
更關鍵的是,它在這一瞬間就已經精準解析了我的臉部特徵和身材比例。
當我跟它說我想看看第一套上身的效果,並給我幾個不同角度的細節圖時,它直接把我那張自拍裡的人扒了出來,換上了那套夏裝,輸出了側面、半身等不同視角的圖。
這個轉折非常順滑。這意味著,初級的服裝搭配渲染,或是那些找模特兒試衣的外包工作,它的護城河被徹底切斷了。
第二個場景:解決一致性與連續敘事(一句話生成漫畫)
玩過AI 生圖的人都知道,要讓AI 畫一張漂亮的圖不難,難的是讓它畫十張同一個人的圖,而且動作和視角還得連貫。
這就是所謂的一致性(Consistency)難題。
但在這次的實測中,我看到了一個極度違背過去經驗的案例。
你可以只上傳一張你和朋友昨天的合照,然後輸入一句極為簡單的提示字:
把我們兩個變成主角,畫三張三頁日式漫畫,劇情你定
幾秒鐘後,它直接輸出了三頁帶有標準分鏡的黑白漫畫。
最可怕的地方在於,這兩個基於真人生成的漫畫角色,在三頁紙的不同分鏡裡。
不管是近景特寫、遠景奔跑,還是背影,甚至他們的臉特徵、髮型細節和衣服上的褶皺,全都保持了完美的一致性。
更誇張的是,漫畫的情節是完全連貫的,甚至連對話框裡的文字也構成了完整的故事邏輯。
能做到時間與空間上的一致性,說明它已經脫離了單張影像生成的範疇,具備了連續敘事的導演能力。
第三個場景:跨越文字渲染的最後門檻(多語言排版)
如果說一致性解決了敘事問題,那麼對多語種文字的精準渲染,就是真正把平面設計師逼到了牆角。
以前只要圖裡帶點文字,大模型就開始鬼畫符。
因為模型理解的文字是Token(語意塊),而生成的圖像是像素點,這兩者過去是割裂的。
GPT-Image-2 把這個問題徹底解決了。
我讓它產生了一張法文的時尚雜誌封面,又做了一張帶有滿平假名和漢字的日文餐廳菜單,甚至還試了排版密度極高的俄語註釋。
結果是一次成型,零拼字錯誤。
最讓人絕望的是,它不只把字寫對了,它還懂得根據語種去搭配當地的文化美學和字體設計。
例如日文傳單裡的漢字,它用了非常道地的日式復古美術字,平假名的排版也符合日文的直排閱讀習慣。
版式設計曾是平面設計師的一塊自留地。
字間距怎麼調、主次怎麼分、文字和背景怎麼做視覺平衡,這都需要大量的練習。
但當AI 能夠零錯誤處理這麼多語言,還自備高級排版美學的時候,那些日常的海報、宣傳冊、資訊流廣告,真的就不再需要人去手動拉參考線對齊了。
第四個場景:畸形畫幅與極端的微觀控制(米粒上的刻字)
最後,為了看看它的服從度有多恐怖,我給了它幾個非常刁鑽的指令。
我先測試了它的極端畫幅。
傳統的擴散模型極度害怕非標準比例。
以前稍微把圖拉長,畫面裡就會長出兩個頭。
但我要求Images 2.0 產生3:1 的超寬圖和1:3 的豎長圖,它不僅沒有崩壞,甚至產生了首尾相連、邏輯閉環的360 度全景圖。
加上2015年一次性相機拍攝的詞條後,連老舊鏡頭的畸變和閃光燈打在牆上的劣質反光都還原得一清二楚。
而另一個更能體現它微觀控制力的,是官方在發表會上展示的一個略顯瘋狂的米粒測試。
研究員呼叫了目前還在內測的實驗性4K API,他們沒有堆砌任何諸如微距攝影、8K超高清之類的修飾詞,僅僅給了一句極其抽象的大白話指令:
一堆米。在這堆米的其中一顆單粒米上寫著GPT Image 2。
當畫面在螢幕上被放大數十倍、甚至出現像素顆粒時,你真的能在一堆米里找到那一顆刻了字的微粒。
這顆米的質感依然符合物理定律,文字精準地順著米粒的微小弧度嵌在了表面。
剩下的所有工作——調用微距視角、計算景深、在潛空間裡尋找那顆米的物理坐標,並把字印上去——全是大模型在思考模式下自動腦補並完成的。
這個案例直觀地反映出,模型對空間位置的理解達到了像素級的手術刀精確度。
這代表著,以後在實際工作中,你可以精準修改設計稿裡的任何一個微小局部,指哪打哪,而不是像以前那樣,想改個領子,結果整張圖全跟著變了。
PART.03一些技術細節
這種極端的控制力和策略級智能,絕對不是光靠無腦堆算力砸出來的。
為了搞清楚它的底牌到底是什麼,我做了一些針對GPT-Image-2的探針測試。
結果發現了一個非常有趣的點。
雖然官方文件裡宣稱GPT-Image-2 的整體知識庫截止日期更新到了2025 年12 月,但在我實際測試裡。
即時模式(Instant Mode)的訓練資料截止日期,依然停留在2024 年5 月底;
而那個需要長考的思考模式(Thinking Mode),其原生知識庫大約停留在2024 年6 月(但可以透過即時連網獲得目前準確日期)。
順著這兩個時間點推算,整個GPT-Image-2 的底層似乎有跡可循。
先說主打高頻出圖的即時模式。
2024 年5 月的截止日期,意味著它大機率是直接套用了o4-mini,或是GPT-5 家族裡的輕量級版本(GPT-5 mini 甚至極小參數的GPT-5 nano)。
正是因為這批輕量化基座已經具備了極強的空間規劃和聽懂複雜指令的能力,上層的圖像生成才能穩住陣腳不亂套。
而那個極為聰明、懂得商業策略的思考模式,其底座不可能是GPT-5 主模型。
因為GPT-5 的基礎知識庫截止日期是2024 年9 月。
思考模式極大機率接入的是不斷在後台迭代的O 系列推理模型(例如o4,或是更新後的o3)。
大模型先用O 系列特有的長考機制,在潛空間裡把商業邏輯、受眾心理、排版座標全部算得清清楚楚,然後再交由視覺模組進行最終的像素渲染。
當然,也有另一種可能的路徑:
在OpenAI 內部極其精細的算力調配機制下,快速模式可能直接調用的是GPT-5 nano 來保底,而思考模式則調用了稍微大一點的GPT-5 mini 結合外部工具。
但無論是哪一種底座組合,如果你一直關注OpenAI 的API 生態就會發現,它底層的生成邏輯早就和Midjourney 完全不在一個維度了。
PART.04大家最在意的定價
但比起猜底座,對於真正要把它連接到工作流程的開發者和企業來說,更值得關注的是那張極為現實且反直覺的API 定價表。
以前的DALL-E 3 是按張收費的(例如0.04 美元一張圖)。
但從第一代GPT-Image-1 開始,OpenAI 就已經把它徹底改成了按Token 計費的框架。
這次的GPT-Image-2 依然延續了這個標準,不僅如此,它還玩了一手加量降價。
根據官方剛公佈的定價表,每百萬Token 的價格如下。
GPT-Image-2 影像部分:輸入8.00,快取輸入(Cachedinputs)2.00,輸出$30.00。
對比上一代gpt-image-1.5:輸出是$32.00。
新模型反而更便宜了。
我們不妨來算一筆。
在過去的模型裡,產生一張高品質的影像,大概需要消耗1000 到1500 個輸出Token。
以每百萬輸出Token 30 美元的價格計算,產生一張圖的實際成本大約在0.03 到0.045 美元之間(約合人民幣2 到3 毛錢)。
如果你不需要秒回,而是使用官方提供的Batch(批次)API 模式,這個價格還會直接腰斬(輸出直接降到$15.00)。
算下來,產生一張圖最低只要1 毛多錢。
這個單張價格已經夠有性價比了,但它真正的殺手鐧,在於定價表裡的那個快取輸入(Cached inputs)。
以前畫連環畫或做同系列的海報設計,每次重新生成,你都要把大量的人物參考圖、前情提要和長提示詞重新傳一遍,輸入成本極高。
但在如今的Token 計費模式下,你讓它一次生成8 張連貫的漫畫,第一張圖的視覺元素會被直接當作上下文緩存下來。
從第二張圖開始,影像的輸入成本直接從$8.00 暴跌到了$2.00(也就是只收25% 的錢)。
這意味著,在進行大規模的商業批量出圖、或要求極高角色一致性的連續生成時,它的邊際成本會直線下降。
模型越聰明、畫越多,單張均攤的成本反而越低。
這種工業化的計費邏輯,才是真正能把流水線畫師逼上絕路的東西。
PART.05幕後團隊揭秘
最後,我們再回看這次在直播發布會上登台演示的OpenAI 內部視覺夢之隊,很多之前覺得離譜的功能,就完全解釋得通了。
例如,它到底是怎麼解決多語言複雜排版和鬼畫符難題的。
這離不開團隊裡的資深科學家Gabriel Goh。
在這個學術界裡,他最著名的身份是開創性多模態模型CLIP 的核心作者。
CLIP 奠定了當代AI 搞懂人類語言和圖像像素到底是怎麼對應的基石。
有了這位跨模態語義映射的學者帶隊,GPT-Image-2 不再是瞎猜文字形狀,而是真正在像素層面寫字。
再例如,它怎麼會懂立體空間關係,甚至能做極長寬比的360 度全景圖,還能懂米粒上的微距光影。
這要歸功於另一位核心成員Alex Yu。
在加入OpenAI 之前,是3D 生成領域明星新創公司Luma AI 的聯合創始人兼前CTO,也是專門死磕3D 神經渲染(NeRF 等)的頂尖學者。
有他在,GPT-Image-2 其實已經跳脫了傳統的2D 像素塗抹。
它很有可能是在腦海裡先建了一個三維的場景,布好了光,然後再給你渲染出一張準確的2D 切片。
那極其可怕的多頁漫畫一致性是怎麼做到的。
這對應的是團隊裡那對剛從麻省理工學院(MIT CSAIL)畢業的年輕搭檔、:
Boyuan Chen(左)和Kiwhan Song(右)。
他們在學術界的核心方向叫做世界模型(World Models)和具身智能。
教機器去理解物理世界是怎麼運作的,讓角色在不同時間和空間的分鏡下保持特徵完全一致、不發生形變,剛好就是這兩位學者一直試圖解決的命題。
最後,加上一直致力於打通推理大模型與視覺底層邏輯的Nithanth Kudige(左,O系列推理模型重要作者) 和Kenji Hata(右,前谷歌研究員畢業於斯坦福視覺實驗室)。
當這群人湊在一起,底層的邏輯推理、3D 空間渲染、圖文極致對齊以及物理世界規律,就被順理成章地縫合在了同一個模型裡。
PART.06 GPT-Image-2的邊界
任何模型都有邊界。
官方也坦承,它在面對某些極端情況時仍會掙扎。
例如需要嚴密物理空間翻轉的摺紙指南、解魔術方塊,或是像極度密集的沙粒這種重複性極高的細節,依然會觸及它的能力極限。
但放在商業應用的脈絡下,這已經是極為微小的瑕疵。
對整個設計產業來說,我們沒必要販賣焦慮,這絕不代表美學的消亡。
有品味、有商業洞見、懂策略的人,還是能用它做出極佳的東西。
但客觀存在的事實是,設計師作為一種職業的護城河,已經被實質地瓦解了。
以前,靠著背熟了設計軟體的快捷鍵、懂得怎麼把字體橫平豎直地對齊、懂得怎麼根據語種排版、懂得精細修圖和摳圖來討生活。
但以後很難了,因為這些過去能被明碼標價拿來交易的技能,現在變成了任何人都可以透過一句話免費調用的基礎指令。
沉寂了一段時日後,OpenAI 確實用了一種非常平靜,但殺傷力極強的方式,又一次證明了在這張牌桌上,誰的手裡才真正攥著底牌。
舊的執行工具鏈正在斷裂,留給產業的問題不再是AI 會不會取代我們,而是我們該怎麼去適應這條全新的生產線。

