12月16日,OpenAI正式推出全新旗艦圖像生成模型GPT Image 1.5,這是繼GPT-5.2之后,OpenAI紅色警報計劃中的又一重要產(chǎn)品。新模型在指令執(zhí)行、編輯精度、細(xì)節(jié)保留和生成速度四大維度實現(xiàn)顯著提升,其中生成速度比前代快4倍,API成本降低20%。GPT Image 1.5最大的突破在于"精準(zhǔn)編輯"能力。模型能夠準(zhǔn)確理解用戶意圖,在修改圖片時僅改變指定區(qū)域,同時保持光線、構(gòu)圖、人物外觀等關(guān)鍵要素在多輪編輯中高度一致。官方演示展示了從兩個男人和一只狗合成到2000年代膠片風(fēng)格派對場景,再到添加背景元素、風(fēng)格轉(zhuǎn)換、換裝等連續(xù)編輯,狗的形象始終如一,這在以往模型中幾乎無法實現(xiàn)。在指令遵循方面,新模型能夠完美執(zhí)行6×6網(wǎng)格生成任務(wù),36個指定物品準(zhǔn)確放置在對應(yīng)位置,希臘字母、數(shù)字、文字等元素清晰可辨。文本渲染能力也大幅提升,能夠處理密集、小字號文本,官方演示將Markdown文檔渲染為報紙版面,表格、標(biāo)題、正文均清晰可讀。產(chǎn)品形態(tài)上,ChatGPT新增了獨立的Images創(chuàng)作空間,內(nèi)置預(yù)設(shè)濾鏡和熱門提示詞模板,用戶可通過側(cè)邊欄快速進(jìn)入。該功能已面向全球所有ChatGPT用戶開放,包括免費用戶。API方面,GPT Image 1.5已同步上線,輸入輸出成本相比上一代降低約20%,提供低、中、高三檔質(zhì)量選擇。值得注意的是,該版本在中文文字渲染方面仍有提升空間,復(fù)雜漢字可能出現(xiàn)模糊或錯漏。此外,在處理多人臉場景時偶爾會出現(xiàn)面部畸變問題。OpenAI表示,模型在科學(xué)準(zhǔn)確性上約達(dá)70%,未來將繼續(xù)優(yōu)化多語言支持和風(fēng)格一致性。(來源于網(wǎng)絡(luò))