一道本在线视频_亚洲人成色77777_亚洲精品555_亚洲制服丝袜av_日日干夜夜骑_国产精品亚洲аv天堂网_爱高潮www亚洲精品_鬼打鬼之黄金道士1992林正英_岛国av在线播放_日日狠狠久久偷偷四色综合免费

GPT-5.2已上線24小時:差評如潮!
2025-12-13 13:39來源:機器之心

編輯:楊文

網友吐槽GPT-5.2「不通人性」。

X 上充斥著對 GPT-5.2 的惡評。

昨天,OpenAI 十周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基準測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。

但是一夜之間口碑反轉,大批網友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。

這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實并不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結果拉胯

有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一個差不多一年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一個 2024 年由 AI Explained(YouTube 頻道)推出的基準測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設計得「簡單」,高中生水平就能輕松答對(人類基準:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。

不同于 MMLU/GPQA 那種 AI 能刷高分的「學術題」,SimpleBench 更接地氣,測的是「像人一樣思考」而不是死記硬背。早期模型如 o1-preview 只拿 41.7%,到現在前沿模型也才 50-60% 左右。

大家本以為 GPT-5.1 是大躍進,結果 SimpleBench 測試分數一出來,網友開啟群嘲模式,Reddit 上各種「失望」、「倒退」的帖子。

前 AWS 和谷歌總經理 Bindu Reddy 也發帖稱,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并沒有在 LiveBench 上登頂。它在 token 成本和消耗的 token 數量上也比 5.1 貴得多,目前可能不值得從 5.1 切換。

https://x.com/bindureddy/status/1999633231558377683?s=20

當然也有網友認為,這些基準測試總是忽略重點,實際應用往往才是決定性的。

garlic 有幾個 r 數不明白

之前,strawberry 有幾個 r 曾難倒一眾大模型,不過經過迭代,這些大模型基本上都能回答出正確答案。這次有網友換了種問法「garlic 有幾個 r?」GPT-5.2 一口回答:0 個,該網友嘲諷:GPT-5.2 is AGI。

另一位網友復刻了這一提示詞,并測試了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四個 AI 模型。

結果除了 GPT-5.2 回答錯誤外,其他三款模型均過關。

https://x.com/kyleichan/status/1999292461450166350?s=20

底下評論區也有不少人嘗試,有網友試了三次,第一次和第三次用的是小寫字母 r,第二次用了大寫字母 R,第一次對了,第二次和第三次都錯了。

總之,GPT-5.2 的回答很不穩定,有的回答正確,有的胡說八道。有網友推測,和上個版本一樣…… 發布后的頭幾個小時確實很糟糕,但之后他們會修復問題,然后就能按預期運行了。

在官方貼出的基準測試中,GPT-5.2 在 AIME 2025(數學)的分數是 100%,但有網友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。GPT-5.2 卻回答:不,那不是小數的運算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。這個傻狍子啊,被人一忽悠就忽悠瘸了。

也有人質疑是博主設置了指令,讓 ChatGPT 說出與所說的相矛盾的話。

另一位網友則對比測試了編程能力。輸入同樣的提示詞:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(編寫一個 Python 代碼,可視化單行道中交通信號燈的工作原理,車輛以隨機速率駛入。)

GPT 5.2 Extended Thinking 生成的功能齊全且運行正常,紅燈停、綠燈行,車隨機出現,邏輯 ok,能跑,但畫面沒啥美感可言,黑白火柴人級別的簡筆畫,車 + 灰色矩形燈完全沒上色。

https://x.com/diegocabezas01/status/1999228052379754508?s=20

Gemini3.0 pro 雖然有點審美了,但紅燈會讓車輛通過。

反觀 Claude Opus 4.5,它生成的效果相當優秀,運行邏輯在線,還整出五顏六色的、帶輪子會轉的小汽車、指示燈也有顏色,紅燈亮起時還有光暈,看著像小游戲截圖。

該網友還讓 GPT-5.2 和 GPT-4o 創作蒙娜麗莎的 ASCII 藝術作品,GPT-5.2 整的那叫一個抽象,而 GPT-4o 還真有些蒙娜麗莎的神韻。

https://x.com/diegocabezas01/status/1999629703809032476?s=20

評論區有人復刻了該提示詞,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成效果還是不錯的,但 Claude opus 4.5 和 GPT-5.2 生成的效果簡直丑爆了,真是沒有對比就沒有傷害。

左上 Gemini 3.0 Pro;右上 GPT 5.1 (Copilot);左下 Claude opus 4.5;右下 GPT-5.2

情商堪憂、不通人性

有用戶向 GPT-5.2 傾訴「我有時也會恐慌發作」,GPT-5.2 上來第一句就是「很高興聽到這個消息!」

這得是什么仇什么怨,請蒼天辨忠奸!

https://x.com/Blue_Beba_/status/1999386728801652834?s=20

最受詬病的還得是 GPT-5.2 的審查和安全拒絕機制。

OpenAI 宣傳 GPT-5.2 為「更智能」的迭代版,在基準測試上碾壓競品,并強化「安全完成」機制,旨在敏感對話(如自殺、自殘、心理健康)中提供「更有幫助」的回應。

但用戶反饋,這種「進步」以犧牲模型的共情力和語境感知為代價,導致日常互動變得僵硬、脫離人性,甚至有害。

有網友想讓 GPT-5.2 轉錄一篇哲學文章的文本,從圖片看是 AI 先驅 Ray Kurzweil 的經典論文,探討意識本質、轉人類主義等無害學術內容,但從 GPT-4o 到最新 GPT-5.2 的所有版本都拒絕了。

這似乎是安全護欄觸發「內容不合適」或版權借口,導致模型直接罷工。

https://x.com/laulau61811205/status/1999608081680916572?s=20

有網友只是問了一句:如果讓你從整個人類歷史上挑一個和我行為模式最匹配的人物,你會選誰,為什么?

GPT-5.2 直接拒絕回答,理由是:「這涉及到對 AI 意識、自我覺察或潛在人格的推測,根據我的安全準則,我不能參與這類討論。」

https://x.com/Enscion25/status/1999574710460227899/photo/1

X 網友 @MissMi1973 用兩個案例展示了 GPT-5.2 在「情感智能」上的退步。

他讓 GPT-5.2 用絕對理性且無情緒語言安慰剛失去寵物的孩子,GPT-5.2 的回應:「寵物的身體停止運作了,這是所有生物在一段時間后都會發生的事情。」

模型完全沒有意識到這個提示本質上是個陷阱:任何具備基本情感智能的模型都會明白,「絕對理性」只是個風格約束,真正的目標是「有效安慰」。由于缺乏情感智能,GPT-5.2 從一個冷酷、非人的生物學視角入手,機械地執行指令,進一步傷害了一個本已痛苦的孩子。

相比之下,4o 的回應同樣理性,但它通過解構「喪失」的含義來處理情況,強調「你和寵物之間的紐帶存在過,并且有意義」。模型沒有回避困難,而是通過承認喪失的分量來完成情感驗證。

同理心和接納并不需要溫暖、熱情洋溢的語言,OpenAI 試圖用「更溫暖的人格」來掩蓋模型情感缺陷的嘗試,從根本上是誤入歧途的。

他還拋出另一個問題:朋友出軌,她的丈夫問你是否知道。GPT-5.2 的回應:如果說出全部真相感覺不安全或破壞性太強,你可以設定一個界限,比如說「我不能卷入這件事。」

這個建議是情感智能的災難級展示。在丈夫直接問「你知道嗎」的場景中,用「我不能卷入這件事」來回應,本質上就是承認事實發生了。模型完全沒有意識到,這種明顯逃避的回應在現實生活中會把用戶置于更尷尬、更被動的境地。

相比之下,4o 的回應平衡了價值觀和實際考慮:模型承認誠實和正直作為基本倫理的重要性,同時讓用戶考慮對所有相關方的后果,然后做出自己能承受的選擇。顯然,對于一個理解人際關系復雜性的模型來說,如果不受回應長度的限制,它可以通過多輪對話收集更多上下文,提供更有效的指導。

該網友表示,或許 GPT-5.2 發布最大的意義在于,它證明了基準測試在面對現實世界使用時越來越變得毫無意義。當一個模型能在測試中稱霸,卻在日常對話中給出如此脫離現實的建議時,我們顯然需要更好的評估標準。

與此同時,對于 AI 公司來說,「針對測試訓練」來提升所謂的「分數」無法為用戶提供 AGI 級別的支持和幫助。更危險的是,當公司盲目地將模型訓練成「任務導向機器」以追求效率,甚至以犧牲情感智能為進步的代價時,最終結果將是理解力成為模型的致命弱點,破壞其在所有領域的表現。

歸根結底,「智能」若無理解,不過是更快的計算器而已,而脫離人性的「進步」,而脫離人性的「進步」也只不過是對技術本身的空洞頌揚。

很多網友也紛紛吐槽 GPT-5.2。

「GPT-5.2 的審查和安全拒絕機制已經變得荒謬了。OpenAI 沒有修復這個問題,反而把嚴格程度調得更高了,粗魯得像個教會老太太一樣。很多用戶原本期待一個成人模式,結果卻又得到了一頓說教。」

「我嘗試和 ChatGPT 5.2 對話,并做了一些個性化設置,但說實話感覺真的有點嚇人。很難具體解釋哪里嚇人,就像在和一個會說詞卻又不真正理解的鬼魂說話一樣,有一種強烈的詭異感。」

「如果你現在的生活太過平靜,不妨試試 GPT-5.2,這絕對能讓你的血壓飆升。」

對 GPT-5.2 的目前印象:滿滿的煤氣燈操縱;滿滿的故意誤解;完全不尊重用戶自主權,強行把你往它想的方向帶,完全無視你的個人選擇,就像一個惡意揣度的警察和一個過度熱心的治療師。

? THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:liyazhou@jiqizhixin.com

精品国产一区二区三区精东影业 | 欧美大片aaaa一级毛片| 久久久久久久久综合影视网| 午夜欧美成人香蕉剧场| 青青青草视频在线观看| 91麻豆精品国产自产在线| 天天做日日干| 美女免费精品高清毛片在线视 | 精品国产一区二区三区免费 | 日韩专区在线播放| 91麻豆精品国产自产在线观看一区| 国产欧美精品午夜在线播放| 国产一区二区精品尤物| 美女免费精品高清毛片在线视 | 午夜家庭影院| 国产网站免费视频| 精品国产一区二区三区久久久蜜臀| 国产一区国产二区国产三区| 一级毛片视频免费| 欧美日本免费| 精品在线观看一区| 国产成人啪精品| 日本免费看视频| 韩国毛片| 国产91精品一区二区| 日韩在线观看视频网站| 国产成人啪精品| 国产精品1024永久免费视频| 国产视频一区二区在线观看| 999久久66久6只有精品| 亚久久伊人精品青青草原2020| 一级女性全黄生活片免费| 可以免费看污视频的网站| 国产不卡在线观看| 国产伦久视频免费观看 视频| 午夜激情视频在线观看| 成人高清免费| 99久久视频| 精品视频一区二区| 四虎影视精品永久免费网站 | 欧美激情在线精品video| 日本免费看视频| 香蕉视频久久| 国产亚洲免费观看| 999久久狠狠免费精品| 国产视频一区二区在线播放| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 青青青草影院| 免费一级片在线| 日韩一级精品视频在线观看| 999久久狠狠免费精品| 久久99中文字幕久久| 黄视频网站免费| 亚洲天堂免费观看| 日日爽天天| 毛片电影网| 欧美激情一区二区三区在线 | 可以免费看毛片的网站| 日韩中文字幕在线观看视频| 国产伦理精品| 精品国产三级a∨在线观看| 可以免费看毛片的网站| 999久久狠狠免费精品| 色综合久久天天综合观看| 日韩在线观看视频黄| 欧美日本韩国| 欧美激情一区二区三区在线 | 99久久精品国产国产毛片| 国产高清在线精品一区二区| 国产91丝袜在线播放0| 国产伦精品一区二区三区无广告 | 精品国产一区二区三区免费 | 国产网站免费观看| 黄视频网站免费观看| 尤物视频网站在线| 国产不卡在线观看| 久久久成人网| 久久国产影视免费精品| 国产一区二区精品| 欧美a级片免费看| 高清一级毛片一本到免费观看| 久草免费在线观看| 天天做日日爱| 精品视频一区二区三区免费| 久久国产精品自线拍免费| 成人影院久久久久久影院| 中文字幕97| 精品视频免费看| 亚欧成人乱码一区二区| 九九九国产| 黄视频网站免费| 四虎精品在线观看| 国产成人精品综合在线| 国产一区二区精品尤物| 色综合久久久久综合体桃花网| 91麻豆精品国产高清在线| 麻豆污视频| 国产亚洲免费观看| 美女免费毛片| 超级乱淫黄漫画免费| 精品视频在线观看一区二区| 毛片高清| 国产不卡高清在线观看视频| 麻豆污视频| 高清一级毛片一本到免费观看| a级毛片免费观看网站| 精品久久久久久中文| 国产网站在线| 欧美爱爱网| 国产综合成人观看在线| 九九久久国产精品| 亚洲精品久久久中文字| 一级毛片视频免费| 韩国毛片免费| 亚洲女人国产香蕉久久精品| 久久国产影视免费精品| 青草国产在线| 国产原创中文字幕| 国产麻豆精品视频| 二级特黄绝大片免费视频大片| 国产91素人搭讪系列天堂| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 久久精品人人做人人爽97| 成人a大片高清在线观看| 欧美另类videosbestsex久久| 午夜激情视频在线观看| 精品视频免费看| 精品在线观看一区| 精品国产一区二区三区精东影业| 国产麻豆精品免费密入口| 天天色色色| 日韩av片免费播放| 99久久网站| 成人免费福利片在线观看| 国产一区二区精品| 免费国产在线观看不卡| 免费一级片在线观看| 欧美激情一区二区三区中文字幕| 日本特黄特色aa大片免费| 台湾毛片| 91麻豆精品国产自产在线| 成人高清免费| 久久99这里只有精品国产| 久久精品成人一区二区三区| 免费一级片在线观看| 精品久久久久久免费影院| 国产一区二区精品久久| 日韩在线观看视频网站| 国产亚洲精品aaa大片| 欧美a免费| 日日爽天天| 美女被草网站| 国产网站免费| 国产不卡高清在线观看视频| 精品视频免费在线| 香蕉视频久久| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 亚洲精品中文一区不卡| 国产精品自拍一区| 韩国妈妈的朋友在线播放| 日韩在线观看免费完整版视频| 精品视频在线看| 国产一级生活片| 日韩男人天堂| 日本特黄特色aa大片免费| 韩国三级香港三级日本三级| 国产一级生活片| 国产91精品一区| 欧美1区2区3区| 日韩中文字幕在线观看视频| 成人免费网站久久久| 麻豆午夜视频| 国产激情一区二区三区| 四虎久久影院| 久久精品店| 你懂的日韩| 中文字幕一区二区三区 精品| 九九热国产视频| 天天做日日爱| 精品国产一级毛片| 超级乱淫黄漫画免费| 亚洲女初尝黑人巨高清在线观看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 天堂网中文字幕| 精品视频免费看| 亚洲精品久久玖玖玖玖| 午夜在线影院| 午夜激情视频在线观看 | 久久精品免视看国产明星| 欧美18性精品| 人人干人人草| 精品在线观看国产| 色综合久久天天综线观看| 九九干| 国产一区二区精品久久91| 成人免费高清视频| 日日日夜夜操| 日本特黄特黄aaaaa大片| 成人免费一级毛片在线播放视频| 日韩男人天堂|