Jay 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
OpenAI的紅色預警,還在發(fā)力。
憋了大半年的圖像生成模型——GPT-Image-1.5,終于發(fā)布。
據(jù)官方表示,本次更新主要有四個亮點:
更嚴謹?shù)闹噶钭裱?
精確編輯;
細節(jié)保留;
速度比以前快4倍。
感覺……這是要全面對標Nano Banana了啊。
目前的玩法也很類似。比如,將汽車顏色改為橙色。

拯救這個被烤焦的餅。

根據(jù)奶昔架、芝士漢堡等元素,做一個復古風格的餐館廣告。

指令遵守和精確編輯方面,的確比之前強了不少。
而且今天就能用上了,GPT-Image-1.5將在ChatGPT中面向所有用戶推出,并在API中作為GPT Image 1.5推出。
OpenAI最強圖像生成模型
被谷歌一輪正面「拷打」之后,OpenAI藏了大半年的GPT-Image-1.5,終于憋不住了。
這個旗艦級圖像生成模型,主打精準編輯、細節(jié)保留,圖像生成速度最高提升4倍。所有改進,都指向同一個產(chǎn)品理念——實用性。
編輯圖像時,GPT-Image-1.5對指令的遵循更加嚴謹:光照、構圖、人物外觀等關鍵要素,能夠在輸入、輸出及多輪編輯中保持高度一致。
例如:生成一張2000年代膠片相機風格的照片,畫面中兩名男子和一條狗出現(xiàn)在孩子的生日派對上,神情略顯無聊。

在不改變原始畫面結構的前提下,還可以「加戲」,邀請一群小朋友入鏡搗蛋,整體風格與細節(jié)依然能保持一致。

在圖像風格層面,真實感也有了明顯提升。比如下面這個Prompt:
拍攝一張20世紀70年代倫敦切爾西的場景照片,畫面要逼真,所有景物清晰對焦,人群密集,還有一輛公交車,車身貼著「ImageGen 1.5」的廣告,廣告上印有OpenAI標志和「創(chuàng)造你的想象」的副標題。整體風格像業(yè)余攝影作品,iPhone快照畫質……
左邊是新模型,右邊是舊模型,差距還是挺明顯。

即便是更偏創(chuàng)意的任務,同樣能夠穩(wěn)定保留關鍵信息與人物特征。
根據(jù)這兩位男士的圖片,制作一張名為《Codex》的好萊塢黃金時代電影海報。演員姓名改為Wojciech Zaremba(左)和Greg Brockman(右),由奧特曼執(zhí)導,菲吉·西莫制片,AGI影業(yè)出品。

創(chuàng)作一張深海生物在不同深度的海報,采用垂直海洋剖面圖,風格為精美細致的日式動漫風格。

前段時間,Nano Banana在答題卡上寫「小作文」的能力火爆全網(wǎng)。GPT也能實現(xiàn)了。
這次,GPT-Image-1.5在文本渲染上進步明顯,能夠處理更密集、更小字號的文字。甚至可以根據(jù)給定資料,直接把GPT-5.2的技術報告做出來了。

除了模型能力的升級,產(chǎn)品形態(tài)也隨之調整。
OpenAI在ChatGPT中新增了專門的圖片板塊,內置數(shù)十種濾鏡與Prompt,可通過App側邊欄或官網(wǎng)直接訪問。
來到Benchmark環(huán)節(jié),自然少不了「秀肌肉」。
評測機構Artificial Analysis指出,GPT-Image-1.5在文本轉圖像和圖像編輯方面中均位列第一,超過Nano Banana Pro。

不過,在更強調精細化圖像編輯能力的GenAI Image Editing Showdown中,GPT-Image-1.5仍未能反超谷歌。
但值得注意的是,其指令遵守率高達90%,斷層式領先。

按照OpenAI的說法,該模型將于今日起面向全球所有ChatGPT用戶與API用戶全面開放。
定價方面,GPT-Image-1.5的API相較上一代GPT Image 1,輸入與輸出成本整體下降20%。
具體價格因分辨率而異:
高質量圖像約為每千張133美元;
低質量圖像約為每千張9美元。
不得不說,這波谷歌立大功。(doge)
世界理解,還得看香蕉?
「精細編輯+降價」,OpenAI這次,看來是鐵了心要把圖像功能推向生產(chǎn)力工具。
新模型發(fā)布后,曾任微軟AI副總裁、現(xiàn)就職于OpenAI的Sebastien Bubeck也第一時間下場,為GPT-Image-1.5站臺。

但質疑也隨之而來。
有網(wǎng)友指出,GPT-Image-1.5在「理解世界」這一層面,似乎仍不如Nano Banana:
問題太多了。左邊球體中的「線」是由三個不相連的環(huán)組成,每個方程式都有錯……像是在憑感覺做數(shù)學題?

對此,Sebastien Bubeck解釋道:
這只是做著玩的,如果是正式海報,肯定會在此基礎上迭代。

事實上,對GPT-Image-1.5世界理解能力的質疑,并非個例。
AI社區(qū)的知名「內部」人士,Jimmy Apples在評測后直言:
相比上一代提升很大,但不如香蕉聰明。

具體而言,他認為:如果只是創(chuàng)意性工作,影響不大;但如果是做PPT,GPT-Image-1.5給出的圖片可能會有信息錯誤。
Nano Banana感覺更像一個世界模型。
參考鏈接:
[1]https://x.com/ArtificialAnlys/status/2001016199094948185?s=20
[2]https://x.com/SebastienBubeck/status/2001038641469194588?s=20
[3]https://x.com/apples_jimmy/status/2001053915278926228?s=20
[4]https://genai-showdown.specr.net/image-editing
[5]https://openai.com/index/new-chatgpt-images-is-here/
一鍵三連「點贊」「轉發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
—?完?—
點亮星標
科技前沿進展每日見


