網易首頁 > 網易號 > 正文申請入駐

OpenAI甩出GPT-5.5 Instant！幻覺暴降52%，話少三成，全員免費

2026-05-06 10:56:22　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯冰倩

智東西5月6日報道，今天，OpenAI正式推出GPT?5.5 Instant版，將從今天開始向所有ChatGPT用戶逐步推出，取代GPT?5.3 Instant成為默認模型。

此次更新主要體現在日常交互上，GPT?5.5 Instant的對話語氣更加自然，回答準確率更高且更緊湊，并且當用戶使用個性化功能時，模型還能夠調取過往的對話記錄，補充背景信息。

Sam Altman第一時間轉發官宣推文“強推”這一模型，并稱：“速度、智能、個性，再加上強大的記憶與個性化能力，這幾方面的改進組合在一起，當它們同時發揮作用時，給人的感覺已經遠不止是各部分簡單的相加，而是一種整體大于部分之和的體驗。”

在內部評估中，在醫學、法律和金融等領域，GPT?5.5 Instant的幻覺率比GPT?5.3 Instant減少了52.5%。

基準測試方面，在衡量科學圖表推理準確度的CharXiv-reasoning中，GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模態專家推理測試MMMU-Pro中，GPT-5.5 Instant的準確率提升了6.8%。

在文檔解析任務中，GPT-5.5 Instant的錯誤率降低了2.1%，相對降幅約14.4%。在博士級科學問答測試中，GPT-5.5 Instant的準確率提升了7.1%。在數學競賽AIME 2025中，其準確率漲了15.8%。

在API中，GPT?5.5 Instant的名稱為“chat?latest”。對于付費用戶，GPT?5.3 Instant在退役前還將保留三個月，可通過模型配置設置進行訪問。

基于過往對話、上傳文件及已連接Gmail的增強個性化功能，正在向網頁端的Plus和Pro用戶推出，即將登陸移動端，并計劃在未來幾周內擴展至Free、Go、Business和Enterprise用戶。

記憶來源功能正在向網頁端所有ChatGPT個人版套餐用戶推出，并將很快登陸移動端。特定個性化來源的可用性可能因地區而異。

在OpenAI官宣推文下方有，網友注意到了該模型的AIME成績的提升，認為“這表面上是產品更新，實則是純粹的推理能力升級，絕不僅僅是聊天的微調。這是一種“偷偷”發布思考模型的方式。”

還有網友發現：“‘更溫暖、更簡潔’這兩點恰恰是用戶真正抱怨過的地方。有意思的是，今年最大的一次模型升級，本質上卻更像是一次‘性格補丁’。”

但也有不少網友對這次升級并不買賬，他們想要的是更實用的功能更新。甚至還有網友在懷念GPT-4o。

一、圖像解析能力提高，虛假信息減少52.5%

在內部評估中，對于涵蓋醫學、法律和金融等領域的高風險提示，GPT?5.5 Instant生成的虛假信息比GPT?5.3 Instant減少了52.5%。在用戶曾標記存在事實錯誤的特別具有挑戰性的對話中，它也減少了37.3%的不準確說法。

GPT-5.5 Instant提升了圖像解析、STEM學科（科學、技術、工程和數學）問答水平，還可智能判斷是否調用網絡搜索，從而給出更優質的回復。

從案例中可以看出，GPT?5.5 Instant一開始認可了錯誤的解法，但隨后發現將x=3代回原方程時不成立。它識別出了實際的代數錯誤（用戶移項有誤），然后使用求根公式得出了正確的解。

而GPT?5.3 Instant雖然也發現了x=3不成立，但就此止步，錯誤地得出沒有實數解的結論，而不是重新檢查代數步驟并求解修正后的二次方程。

二、回答更緊湊，字數減少30.2%

此外，GPT?5.5 Instant的回答更加緊湊、切中要點，同時在保持溫暖感和個性化。

該模型能夠在傳達相同信息且更具實用性的同時，減少冗長和過度格式化導致的回答過長問題。其還會減少不必要的追問，并避免如隨意添加表情符號等讓回答顯得雜亂。

GPT?5.5 Instant使用的字數減少了30.2%，行數減少了29.2%。其回答語氣把握得當：非正式、實用且適合工作場合，同時避免了過度解釋。該模型針對不同情況提供了可實際使用的腳本，始終圍繞“界限”來闡述問題。

GPT?5.3的回答則更完整，尤其是“不要做什么”的部分，但對于一個非正式的日常建議類提示來說，略顯過于復雜，其結構和推敲程度可能超出了用戶的實際需求。

三、自動檢索歷史對話，記憶來源功能全系上線

GPT?5.5 Instant還能利用過往聊天記錄、上傳的文件以及Gmail中的上下文信息，從而使回答更具個性化。

該模型可智能判斷何時融入個性化元素以優化回復，同時其檢索歷史對話、匹配上下文的速度大幅提升，無需用戶反復重復表述。

可以看到，GPT?5.5 Instant的回答能夠更好地引用過往對話和相關的已連接數據，從而提供更細致、高度個性化的建議。而GPT?5.3 Instant的回答雖然考慮到了用戶位于舊金山這一因素，但對于推薦嘗試的地方，給出的建議仍較為籠統。

ChatGPT全系模型現已上線記憶來源功能。用戶可查看個性化回答所引用的上下文依據，并獲得自主管控權限。

當模型生成個性化回復時，用戶能夠追溯答案所依托的具體上下文，包括已保存記憶及歷史對話記錄；對于過時、失效或無關的信息，可隨時進行刪除與更正。

此外，用戶分享對話內容時，記憶來源信息不會對外展示。同時該功能支持多種隱私管控方式：可單獨刪除不愿被引用的歷史對話，在設置界面編輯或清空已保存記憶，也可使用臨時對話模式，全程不調用、不更新個人記憶。

結語：交互質量與用戶可控性提升

在基礎能力趨于收斂的背景下，“怎么讓模型回答地更讓用戶舒服？”成為大模型廠商思考的問題。

GPT?5.5 Instant的更新給出了OpenAI的答案：：其一，其減少了在專業知識問答方面的幻覺率；其二，回答的簡潔度與語氣調控被納入優化目標；其三，記憶來源功能建立信任基礎。

客觀而言，這類“體驗型更新”難以通過傳統基準測試完全量化其價值，其真實效果還將取決于用戶在長期使用中的主觀感受。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

早報｜微信灰測「組合支付」功能/蘋果或重新設計macOS27「液態玻璃」/哈啰回應員工腳踩青桔美團

愛范兒 2026-05-11 08:17:29
2 跟貼 2
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
97 跟貼 97

13年不寫代碼，5天花200美元重建400萬美元產品——YC掌門人是怎么做到的？

華爾街見聞官方 2026-05-11 10:52:07
6 跟貼 6

別再把長文切碎了，HiLight讓AI直接在原文里劃重點

機器之心Pro 2026-05-11 10:39:41
0 跟貼 0
女子指揮男子用斜坡把行李箱滑下去，沒想到男子把自己也一起滑下去了

南陽日報 2026-05-10 18:54:56
259 跟貼 259

2500億美元的xAI死了，但SpaceXAI的算力游戲才剛開始

鈦媒體APP 2026-05-11 11:15:26
0 跟貼 0

AI突現首例自我復制！橫跨4國160小時無限繁殖

新智元 2026-05-09 18:31:30
82 跟貼 82
「思考用時100秒」成歷史？AI推理太耗時，伯克利整了個大活兒

雷科技 2026-05-10 16:59:53
0 跟貼 0

Suno不再是唯一答案，企業開始選擇這個國產AI音樂

機器之心Pro 2026-05-11 14:24:35
0 跟貼 0
醫療軟件工程師必須掌握的六大標準

爬蟲飼養員 2026-05-11 09:50:50
0 跟貼 0
OpenAI砸200億美元買單，英偉達挑戰者沖刺350億美元估值IPO

量子位 2026-05-11 15:33:52
0 跟貼 0
奧特曼親封GPT-5.5「自閉天才」！16人團隊連夜退訂Claude

新智元 2026-05-10 19:07:08
44 跟貼 44
晉升最快的工程師，都在干同一件事

摸魚算法 2026-05-09 08:39:41
2 跟貼 2
張雪參加兒子校運動會被同學推銷自家業務:必須去考察

極目新聞 2026-05-10 17:11:32
1072 跟貼 1072
開發者薪酬悖論：誰在拿"泡沫工資"，誰又被低估？

硅嶼手記 2026-05-10 08:39:09
2 跟貼 2
殲-35出口型亮相，第一個用戶究竟是誰，改造生產三年不算慢

陳虎點兵 2026-05-10 21:37:40
1 跟貼 1
大模型工程師的必修課清單

我是一個養蝦人 2026-05-11 11:29:41
0 跟貼 0
數據湖面試的四個底層模型：別急著報廠商名字

Ping值焦慮 2026-05-11 11:46:50
0 跟貼 0
吃瓜、開會、追熱點，我靠AI穩坐信息高地

36氪 2025-11-27 18:27:11
0 跟貼 0
167高考數學全國3卷理 17 數列通項公式前n項和

我服子佩 2026-05-10 11:38:29
1 跟貼 1
游戲AI如何下棋：從Minimax到Alpha-Beta剪枝

硬核玩家2哈 2026-05-11 11:52:47
0 跟貼 0
山姆成“欠款大戶”？雨花客廳北區法拍公告披露：山姆欠租887萬元

揚子晚報 2026-05-10 20:25:23
605 跟貼 605
解讀狹義相對論，希望關于相對論的不解和謠言終結于此！

宇宙時空 2026-05-10 14:49:21
0 跟貼 0
臺"軍購條例"大幅縮水美坐不住了美官員:向大陸屈服

澎湃新聞 2026-05-10 17:54:57
411 跟貼 411
Agent評測的下半場：為什么需要一個「活的」Benchmark？

新智元 2026-05-11 13:08:40
0 跟貼 0
王勵勤總結世乒賽：男隊陣容不是最強但最拼，女隊經受對手超水平發揮考驗，點贊孫穎莎王楚欽力挽狂瀾

紅網 2026-05-11 11:59:00
507 跟貼 507
拒絕大力出奇跡，PRISM框架讓dLLM也能高效Test-Time Scaling

機器之心Pro 2026-05-11 14:28:29
0 跟貼 0
浙江一加油站92號汽油6.6元/升被質疑“便宜沒好貨”，回應：優惠力度大

瀟湘晨報 2026-05-10 17:11:17
570 跟貼 570
解讀微積分之謎，看看天才數學家是如何思考的！

宇宙時空 2026-05-10 19:55:06
30 跟貼 30
35歲以后不想被AI取代的能力是什么

虎嗅APP 2026-04-14 08:02:21
0 跟貼 0
別卷推理了！當前大模型 STEM 短板在視覺感知，代碼才是破局關鍵

機器之心Pro 2026-05-11 11:53:59
0 跟貼 0
天舟十號貨運飛船發射任務取得圓滿成功

新華社 2026-05-11 08:34:33
677 跟貼 677
小伙刮刮樂中了一百萬，中獎當天花了三四百元

今日女報 2026-05-11 05:37:35
199 跟貼 199
余額寶年化收益率0.888% 刷新歷史最低紀錄

紅星新聞 2026-05-10 21:54:53
611 跟貼 611
衛星圖像剛曝光！莫斯科外圍驚現“恐懼之環”，普京這次真的怕了

星星郵遞員 2026-05-09 03:37:55
0 跟貼 0
剝奪大模型執行權！港中文開源Agent治理內核，高危攔截率達92.95%

新智元 2026-05-09 12:08:54
18 跟貼 18
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
297 跟貼 297
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
365 跟貼 365
形勢這么嚴峻？網傳程序員也失業嚴重

慧翔百科 2026-05-11 11:42:56
211 跟貼 211
Claude正式接管Office全家桶：跨應用記憶成最大殺器

算力游俠 2026-05-11 12:15:06
0 跟貼 0

智東西

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11795文章數 117070關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數碼

教育

時尚

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

OpenAI甩出GPT-5.5 Instant！幻覺暴降52%，話少三成，全員免費

黃仁勛：你們趕上了一代人一次的大機會

媒體：中美元首即將北京會晤 美方一細節耐人尋味

媒體：中美元首即將北京會晤 美方一細節耐人尋味

那個曾讓詹姆斯抱頭的兄弟，40歲從大學畢業了

“孕婦墜崖案”王暖暖稱被霸凌協商解約

"手搓汽車"曝光:偽造證件、電池以舊代新

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

多元生活 此處無聲

努比亞推出GT Buds耳機：支持35dB降噪，269元

雞娃放養，都不如養個“晨型人格”的孩子，他會自信又自律

襯衫四季都能穿！簡約大方適合日常穿搭，配褲子、裙子都好看

特朗普：伊朗的回應“完全不可接受”

媒體：中美元首即將北京會晤美方一細節耐人尋味

媒體：中美元首即將北京會晤美方一細節耐人尋味

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

多元生活此處無聲