一道本在线视频_亚洲人成色77777_亚洲精品555_亚洲制服丝袜av_日日干夜夜骑_国产精品亚洲аv天堂网_爱高潮www亚洲精品_鬼打鬼之黄金道士1992林正英_岛国av在线播放_日日狠狠久久偷偷四色综合免费

GPT5.2發布:屠榜?不,是OpenAI在補課
2025-12-12 12:08來源:硅星人

作者|周一笑

郵箱|zhouyixiao@pingwest.com

四個月前,GPT-5 發布時一堆人吐槽,跑分是高了,但聊天冷冰冰;一個月前,GPT-5.1 回應了這波差評,主打“更好聊、更好調”,算是把人味兒找回來了。

結果還沒暖熱乎,Google 的 Gemini 3 就殺了過來,直接把 LMArena 榜單屠了個遍。緊接著 Anthropic 的 Claude Opus 4.5 也上線,在編程榜單上把 OpenAI 按在地上摩擦。

于是就有了昨天凌晨的 GPT-5.2。

這次發布的背景很微妙,就在幾天前,有媒體爆出 Sam Altman 在內部發了一封Code Red郵件,要求全公司集中資源改進 ChatGPT。雖然官方說 GPT?5.2 不是專門為 Gemini 3 趕出來的,但 Code Red 和發布時間點都說明:Gemini 3 至少加快了 OpenAI 把這版推向用戶的步伐。

這一次,OpenAI 雖然繼續強調跑分相對5.1點提升,但還在反復突出一個關鍵詞:專業知識工作。

換句話說,這次瞄準的不是“更好聊”,而是“更能干活”。

1

第一個在“真實工作”上打平人類專家的模型?

這次 OpenAI 主推的新基準測試叫 GDPval:讓 AI 去做 44 種職業的真實工作任務,比如做 PPT、做表格、寫分析報告。

成績是這樣的:

GPT-5.2 Thinking 在?70.9%?的任務上能打平或者贏過行業專家

上一代 GPT-5 才?38.8%

Claude Opus 4.5 是?59.6%

Gemini 3 Pro 是?53.5%

更夸張的是效率:速度快?11 倍,成本不到?1%

當然,GDPval 是 OpenAI 自己搞的基準,還沒有被獨立驗證,所以這個打平人類專家的說法要打個問號。但即便打個折扣,從 38% 跳到 70%,這個提升幅度也很難忽視。

Anthropic 的 Claude 最近在這類任務上同樣進步明顯,但從 5.2 的發力方向來看,OpenAI 顯然想在"AI 替代知識工作"這條賽道上搶先卡位。

OpenAI官方也放了一些工作中的案例,比如,同樣是讓模型做一個勞動力規劃表格(包含員工人數、招聘計劃、流失率和預算影響),5.1 輸出的是一堆原始數據堆砌,5.2 則自動按部門分類、加上顏色標注和清晰的層級結構,看起來像是有人真的用心排過版。

1

Coding:前端又雙叒叕更強了

編程能力也是 5.2 的重點宣傳方向。

SWE-bench Pro:55.6%(5.1 是 50.8%,Gemini 3 Pro 是 43.3%,Claude Opus 4.5 是 52%)

SWE-bench Verified:80%(和 Claude Opus 4.5 的 80.9% 基本打平,這個榜已經快刷到極限了)

OpenAI 這次重點宣傳的是 SWE-bench Pro 而不是 Verified,角度是:Pro 版本場景更多樣、污染更少,更能反映真實的軟件工程能力。

前端開發能力又上了一個臺階,特別是在 3D 場景渲染和復雜交互界面這塊。Cognition、Warp、JetBrains、Augment Code 這些合作伙伴都表示,5.2 在交互式編程、代碼審查和 bug 查找上都有可測量的提升。

最直觀的是這個波浪模擬案例的對比,

GPT-5.2 Thinking:

Gemini 3 Pro:

1

更像數學家了

數學能力是這次升級的另一個重頭戲。

幾個關鍵數字:

FrontierMath(Tier 1-3):40.3%,創下新的行業紀錄,上一代 5.1 是 31%

AIME 2025:100%,滿分。這是第一個在不使用工具的情況下刷滿這個競賽數學基準的模型

GPQA Diamond(博士級科學問答):Thinking 版 92.4%,Pro 版 93.2%

但最讓人印象深刻的,是 GPT-5.2 Pro 在一個真正的數學研究問題上的表現。

OpenAI 在博客里提到,研究人員用 GPT-5.2 Pro 探索了一個統計學習理論中的開放問題,這個問題最早是在 2019 年的一個數學會議上提出的。在一個特定的高斯設定下,模型提出了一個證明思路,隨后被人類研究者驗證并擴展。

這不是AI 從零發現物理定律那種科幻場景,但確實是一個 AI 在人類監督下提供了非平凡的數學洞見,而且經受住了專家審查。5.1 沒有被廣泛報道做到過這一點。

用一位測試者的話說:5.1 像一個很強的數學家教和助手,5.2 開始有點"初級合作者"的意思了——尤其是配合代碼工具使用的時候。

1

API 漲價:OpenAI 的小心思

5.2 的 API 漲價了。

輸入輸出的單價都上調了約 40%:$1.75/百萬輸入,$14/百萬輸出。Pro 版本更貴,分別是 $21 和 $168。

官方的解釋是:單價雖然漲了,但模型效率更高,完成同樣的任務消耗的 token 更少,所以"達到同等質量水平的總成本可能反而更低"。

但如果花更少的 token 只能達到"同等質量",那升級的意義在哪兒?要是真的又好又省,直接說"更好更便宜"不就完了?

說白了,模型確實變強了,但 OpenAI 選擇把效率提升的紅利收進自己口袋,而不是讓利給用戶。

1

幾個重點提升

除了上面這些亮點,5.2 還有幾個實打實的提升:

錯誤率降低 30%

這一點其實很關鍵。很多人只盯著"智商"看,但實際用下來會發現,國產模型和海外頭部模型之間,幻覺控制的差距往往比純智力差距更影響體驗。5.2 的 Thinking 版本比 5.1 的錯誤率降低了 30%,在日常決策、研究和寫作場景下會更靠譜。

長文能力提升

以前長上下文是個老大難問題,塞太多內容進去模型就開始健忘。5.2 在 256k token 級別的測試中表現穩定,基本能把關鍵信息都記住。像合同審核、文獻梳理這種需要反復引用上文的場景,體驗會好很多。Box 反饋說,5.2 從長文檔中提取信息的速度快了 40%,推理準確率也提升了 40%。

看圖能力

圖表理解、軟件界面識別這塊錯誤率砍了一半。在 CharXiv Reasoning(科學論文圖表理解基準)上,5.2 Thinking 達到了 88.7%,比 5.1 提升了 8 個百分點以上。

OpenAI 內部測試里,有人給模型一張低分辨率的主板照片,它能準確識別出關鍵元器件。這意味著以后扔給 AI 一張模糊的業務報表截圖,它大概率能直接把里面的數據結構化提取出來,這對做數據分析的人來說挺實用的,畢竟現在海外已經有不少人把 AI 當成數據分析的主力工具了。

1

Code Red 下的補課之作

拉遠一點看,GPT-5.2 本質上是一次“補課”。

從 8 月的 5.0 到 11 月的 5.1 再到 12 月的 5.2,四個月三個版本,這個節奏本身就說明問題:OpenAI 在被 Gemini 3 和 Claude Opus 4.5 逼著跑。結果就是PT?5.2 在 benchmark 上把很多榜單拉了回來,但真正有意義的是,它在長時知識工作、復雜編碼和 agent 工作流上的表現。

另外也有觀點認為,這種緊急動員 + 小步快跑的節奏可能會成為常態,年底各家都可能還有新發布。好處是各家實驗室會被倒逼著把模型做得更快、更便宜、更能變現;壞處是大家都盯著短期 benchmark 卷,真正需要長期投入的基礎性突破可能會被擠壓。

這次的社區的反饋也很多樣,做正事的用戶普遍覺得真香,長上下文、復雜推理確實更穩了;但陪聊黨和角色扮演玩家吐槽“5.2 冷冰冰的,像從好朋友變成了 HR”,人味兒又被收回去了,還有人吐槽說好的成人模式也遙遙無期。

總結一下,如果你是 ChatGPT Pro 用戶,5.2 在需要深度分析、復雜推理的場景下值得一試——做 PPT、做表格、寫報告、啃長文檔,這些方面的進步是實打實的。

但如果你期待的是日常聊天體驗的質變,可能要失望了。5.2 的真正價值,或許要等它接入 Codex 這類 agent 產品、開始真正替你跑腿干活的時候,才能完全釋放出來。

屠榜不重要,能干活才重要。這一點,OpenAI 這次算是想明白了。

點個“愛心”,再走吧

精品久久久久久中文字幕一区| 天天做人人爱夜夜爽2020毛片| 国产亚洲精品aaa大片| 日日爽天天| 日本在线不卡视频| 日本免费乱人伦在线观看 | 成人免费观看视频| 91麻豆爱豆果冻天美星空| 免费一级片网站| 一本伊大人香蕉高清在线观看| 可以在线看黄的网站| 国产91精品一区| 亚洲 欧美 成人日韩| 久久久久久久免费视频| 深夜做爰性大片中文| 黄视频网站免费| 精品视频在线观看一区二区三区| 成人高清视频免费观看| 成人影院一区二区三区| 黄色免费三级| 日韩综合| 99色吧| 日韩中文字幕在线观看视频| 亚欧成人乱码一区二区| 99久久精品费精品国产一区二区| 99色视频在线| 成人高清视频免费观看| 韩国三级视频网站| 亚洲精品久久玖玖玖玖| 免费的黄色小视频| 国产一区二区精品在线观看| 国产国产人免费视频成69堂| 九九干| 日韩免费在线视频| 九九免费高清在线观看视频| 免费一级片网站| 亚洲精品影院一区二区| 999久久66久6只有精品| 亚洲 国产精品 日韩| 国产视频一区二区三区四区| 国产网站免费在线观看| 青青久久国产成人免费网站| 91麻豆国产福利精品| 日本伦理网站| 国产成人精品一区二区视频| 国产亚洲精品aaa大片| 欧美激情一区二区三区视频 | 国产成人精品综合在线| 天天色色网| 精品国产一区二区三区久久久狼| 欧美a级v片不卡在线观看| 国产国语在线播放视频| 美女免费精品高清毛片在线视| 日本免费乱人伦在线观看 | 久久久久久久网| 国产高清在线精品一区二区| 国产国产人免费视频成69堂| 国产网站免费在线观看| 四虎影视库| 欧美a级v片不卡在线观看| 精品视频在线观看视频免费视频 | 国产91丝袜高跟系列| 欧美激情影院| 精品国产一区二区三区久久久狼| 免费的黄色小视频| 国产福利免费观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 精品视频免费观看| 久久99中文字幕| 韩国三级香港三级日本三级| 亚洲第一页色| 四虎影视久久久| 中文字幕97| 天天做人人爱夜夜爽2020毛片| 日韩一级黄色大片| 国产不卡在线看| 国产麻豆精品hdvideoss| 美女免费精品高清毛片在线视| 国产高清视频免费观看| 日韩一级黄色大片| 色综合久久久久综合体桃花网| 国产不卡高清| 国产亚洲精品aaa大片| 中文字幕一区二区三区 精品| 日本伦理网站| 久久精品成人一区二区三区| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产一区二区精品久久| 一级片片| 国产一区精品| 国产极品精频在线观看| 四虎久久影院| 欧美国产日韩久久久| 韩国三级视频网站| 久久国产精品自由自在| 精品国产香蕉在线播出| 免费毛片播放| 国产精品1024永久免费视频| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产伦久视频免费观看视频| 国产91精品露脸国语对白| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 成人高清视频免费观看| 99色视频在线| 国产麻豆精品免费密入口| 香蕉视频久久| 91麻豆爱豆果冻天美星空| 精品视频在线观看视频免费视频 | 日韩中文字幕一区二区不卡| 国产91精品一区| 国产原创中文字幕| 99久久精品费精品国产一区二区| 日本伦理网站| 天天色色网| 亚洲女初尝黑人巨高清在线观看| 日本特黄特黄aaaaa大片| 日韩女人做爰大片| 久久国产精品自由自在| 999久久久免费精品国产牛牛| 国产一区二区高清视频| 99久久网站| 日本伦理黄色大片在线观看网站| 欧美国产日韩久久久| 九九九国产| 天天做人人爱夜夜爽2020毛片| 香蕉视频一级| 国产伦久视频免费观看视频| 国产成人精品综合在线| 99久久网站| 国产成人精品综合| 色综合久久天天综合绕观看| 日韩在线观看免费完整版视频| 韩国三级视频网站| 二级片在线观看| 成人免费观看的视频黄页| 欧美一区二区三区性| 青青青草影院| 国产一区精品| 欧美国产日韩在线| 国产亚洲精品aaa大片| 欧美激情一区二区三区在线播放| 欧美一级视| 91麻豆国产福利精品| a级精品九九九大片免费看| 精品国产一区二区三区久久久狼| 成人高清视频免费观看| 精品国产亚洲人成在线| 欧美激情影院| 一级片片| 国产一区二区精品久久91| 国产精品自拍亚洲| 黄视频网站免费| 欧美a级v片不卡在线观看| 亚欧成人乱码一区二区| 欧美a级v片不卡在线观看| 成人免费观看视频| 亚洲精品影院| 国产综合91天堂亚洲国产| 欧美国产日韩在线| 欧美另类videosbestsex| 亚欧乱色一区二区三区| 日本特黄特黄aaaaa大片| 黄色免费三级| 99久久网站| 国产不卡高清| 成人免费观看视频| 免费毛片播放| 97视频免费在线观看| 国产伦精品一区二区三区无广告 | 欧美18性精品| 欧美日本国产| 久草免费在线视频| 可以在线看黄的网站| 欧美a级v片不卡在线观看| 国产网站免费观看| 国产91精品露脸国语对白| 青青青草影院| 免费一级生活片| 91麻豆爱豆果冻天美星空| 久草免费在线视频| 国产一区二区精品在线观看| 国产a一级| 精品国产一区二区三区久久久狼| 久久99中文字幕| 美女免费精品高清毛片在线视| 精品久久久久久免费影院| 精品毛片视频| 日本特黄一级| 日韩免费片| 香蕉视频一级| 一本伊大人香蕉高清在线观看| 国产原创中文字幕| 精品视频在线看 | 天天做人人爱夜夜爽2020毛片| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 99久久精品国产国产毛片| 日韩在线观看免费完整版视频| 国产极品精频在线观看| 欧美国产日韩在线|