<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.5實測:更聰明,也更愛“說謊”

      0
      分享至


      值得嘗鮮,但不夠可靠。

      AIX財經(AIXcaijing)原創

      作者| 王璐

      編輯| 魏佳

      4月23日,OpenAI發布新一代旗艦模型GPT-5.5,并在其官網寫道,是其迄今為止最智能、最直觀易用的模型,也是在計算機上完成工作的新方式的下一步。

      這一發布迅速引發行業關注,不僅因為它號稱在智能體任務上實現突破,更因其在多項基準測試中展現出的“統治力”。根據第三方評測機構Artificial Analysis公布的綜合智能指數榜單,OpenAI憑借GPT-5.5系列在前六名中獨占四席,該機構認為,“GPT-5.5讓OpenAI重回AI領域的第一位,打破了與Anthropic和谷歌的三方平局。”

      但與高性能一同被曝光的,還有高幻覺率。在Artificial Analysis的私有基準測試AA-Omniscience中,GPT-5.5的幻覺率高達86%,遠高于Claude Opus 4.7的36%。

      這意味著,當這個目前“最聰明”的AI大腦面對不確定或未知的問題時,選擇“坦言不知”的概率極低,反而更傾向于“自信地虛構”一個答案。而這種高幻覺率一旦放在需要高可靠性的工作場景中,很可能導致分析偏差、決策失誤甚至財務損失。

      最強的AI也是最危險的“說謊者”?面對高幻覺率,GPT-5.5究竟能否在實際應用中可靠地完成復雜的知識任務?為了回答這些關鍵問題,我們對GPT-5.5進行了實測,從處理家庭賬本到編寫實時對戰游戲,測試其應對長上下文、復雜邏輯的知識工作與編程實戰能力。

      此次測試不僅關乎一個模型的性能,更關乎AI技術進入深水區后,我們如何在擁抱其強大能力的同時,應對其潛在風險。

      01.

      知識能力:它真的像職場人一樣會干活

      根據官方發布的基準測試結果,GPT-5.5在幾乎所有核心指標上都超越了前代GPT-5.4,在知識工作領域表現尤為突出。

      在一項覆蓋44個職業的GDPval測試中,GPT-5.5取得了84.9%的得分,不僅超過了83.0%的真實職場人員水平,也高于Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。該測試模擬了金融分析師、市場經理、軟件工程師等多種白領職業的日常工作,要求模型完成信息整合、分析推理、決策建議與報告生成等綜合性任務。

      此外,GPT-5.5在其他多個實用場景的測試中也表現不錯。在模擬復雜客服對話的測試中,無需特別指導就能達到98.0%的準確率;在讓AI像真人一樣操作電腦完成任務的測試中,得分78.7%;在需要結合圖像、文字理解并調用工具解決問題的測試中,分別拿到83.2%和75.3%的分數。這些成績說明,GPT-5.5正在逐步打通“看、說、做”等一系列能力。

      OpenAI還用內部的實際案例證明了它的生產力價值。其財務團隊用它審核了24771份K-1稅表、總計71637頁文件,并稱這套流程比上一年提前了兩周完成。這說明GPT-5.5是能夠直接融入工作流程、切實提升效率的生產力工具。

      這些能力在真實生活中用起來怎么樣?我們設計了一個貼近家庭的測試來驗證。

      我們給GPT-5.5多條格式凌亂的單月開支數據,讓其扮演家庭數據分析師,完成整理數據、計算總支出、分析各支付方式占比、分類統計開銷等任務,并最終生成一份給家人看的建議報告。

      這個測試場景設計得雖然簡單,卻很能看出AI是否真的“好用”。因為家庭記賬是很多人的日常,但記錄常常是隨手寫、格式亂,“亂七八糟”的記賬數據要求AI不能只會處理整齊的表格,還得能“看懂”手寫式的記錄、理解每筆錢是什么意思,并把相似項目歸到一起。

      而算總賬、分析錢花在哪兒、給出節省建議,其實對應著一套完整的思考過程,GPT-5.5需要先把信息理清楚,再從里面看出門道、提出可行的辦法,最終讓它“寫報告”,則是要求它會用人能聽懂、能接受的方式來匯報工作。

      測試結果顯示,它準確合并了“外賣-午餐”和“外賣-晚餐”,而且主動提示“支付寶自動扣”應統一計入“支付寶”統計,展現出了理解混亂賬目和用戶真實意圖的能力。



      GPT-5.5自主梳理表格并給出分析

      在分析中,它通過計算占比,指出“網購”(衣物、書籍)類目支出較高,且多為非急需品,因此建議為這類消費設置預算,給出的建議具體可行。最后生成的報告也充滿人情味,那句“稍微管住網購的小沖動,咱們家的開支就能更輕松一些”,符合“給家人看”的溝通要求,語氣親切,建議接地氣。

      這個簡單的測試,相當于在生活場景中還原了上述GDPval測試所考察的核心能力,目前的結果也說明它的專業能力能用到實際生活中。

      02.

      編程能力:從初級到復雜,它沒添亂

      除了在日常知識任務中表現可靠,在編程這類對精準性要求更高的“硬功夫”上,GPT-5.5同樣展現了不錯的進步。

      在一項考驗“智能體”的基準測試(Terminal-Bench 2.0)中,它拿到了82.7%的高分。這個測試模擬了在命令行里執行一連串復雜操作,就像讓AI自己完成一個多步驟的運維任務。它的成績不僅比自家上一代(GPT-5.4的75.1%)高,也明顯超過了競爭對手Claude Opus 4.7(69.4%)。這說明它在需要記住步驟、自己調試、堅持完成長時間任務時,表現更好。

      其次,在處理超長內容方面也有進步。在一項針對50萬到100萬字符超長文本的檢索測試中,它的得分達到74.0%,是上一代(36.6%)的兩倍還多。這意味著讓它分析一本厚書、瀏覽龐大的代碼倉庫時,它更不容易“看漏”或“記混”,找信息更準、思路也更連貫。

      而且多項測試結果顯示,在執行相同的編程任務時,GPT-5.5消耗的token數量顯著少于GPT-5.4。就連代碼編輯器Cursor的聯合創始人Michael Truell也評價說,它比上一代更聰明、更有韌性,調用工具更可靠,面對復雜長期任務時能堅持更久。

      簡單來說,在編程這類復雜操作場景下,上述數據說明,GPT-5.5不僅更強,而且更穩、更省資源,適合處理那些步驟多、耗時長的實際開發任務。

      為了驗證它真實的編程能力,我們用一個具體的開發任務進行了測試,從零開始構建并逐步升級一款連連看游戲,并硬性規定其必須使用給到的12種不同的emoji表情。

      首先,我們讓GPT-5.5生成一個完整可運行的連連看游戲。

      這需要它理解開發者的文字需求、設計界面、管理游戲狀態,并自主實現核心的路徑搜索算法。結果它在幾分鐘之內便順利完成了。


      GPT-5.5生成的連連看小游戲

      接著,我們提高難度,要求它在游戲中加入一個“重繪”道具。

      這個道具的功能是:玩家使用時,能消耗“連擊”能量,把棋盤上與最后一次消除相同類型的圖標全部隨機刷新一次。

      要實現這一點,GPT-5.5必須做兩件事,一是修改游戲背后的數據規則來支持這個新功能;二是確保刷新后的棋盤布局仍然是“有解”的,不會讓玩家卡關。最終,GPT-5.5成功寫好了這部分代碼。

      之后,我們繼續讓其為游戲加入完整的用戶系統,包括登錄、積分記錄和排行榜展示。

      這一步主要考驗的是,GPT-5.5能否將新功能平滑地接入現有框架,同時保持游戲原有的核心玩法和邏輯不被破壞。

      它再一次順利完成了任務,并且在代碼迭代過程中表現得相當克制,沒有進行過度重構,也沒有引入不必要的變化。


      GPT-5.5執行對游戲細節的調整指令

      最后,我們將難度推至更高階的實時對戰模式,讓兩名玩家能在不同瀏覽器中實時競爭消除。

      這其中涉及棋盤狀態同步、操作沖突裁決和網絡延遲處理等一系列典型的多人在線難題。面對這樣一個集成度高、實時性強的復雜挑戰,GPT-5.5依然做到了準確交付。

      這個從簡到繁的測試表明,GPT-5.5在真實編程任務中,既能處理復雜邏輯與架構設計,也能精準響應開發者需求,且不隨意重構或引入其他代碼,甚至當我們要求回退到上一版本時,它也能穩定恢復到之前的狀態。

      03.

      高幻覺率:能用,但不敢放手

      盡管在實測中表現驚艷,但結合公開數據來看,GPT-5.5依然沒有超過市場太大預期,而且存在不可忽視的風險。

      來看一組對比數據。

      在Artificial Analysis的私有基準測試AA-Omniscience中,GPT-5.5的幻覺率高達86%,而Claude Opus 4.7僅為36%。這意味著在該測試所設定的、專門探測模型知識邊界的場景下,當GPT-5.5面對不確定的答案時,其“坦言不知”的概率遠低于對手,更傾向于生成一個可能錯誤的回答。

      需要注意的是,這86%并不意味著模型在大多數日常問答中都會產生幻覺,而是其在觸及知識盲區時的特定行為傾向。一位從業者解釋,這可能是因為GPT-5.5的事實知識覆蓋面更強,但不確定性也更偏激進,對于不確定的問題會猜答案。但在將其用于需要高可靠性的任務時,這一指標仍需引起高度警惕。

      當GPT-5.5被部署到“自主工作”場景中時,這種高幻覺傾向可能會引發風險。


      圖源 / pexels

      比如在數據分析與報告生成任務中,它可能自信地引用不存在的數據、編造統計趨勢,或基于錯誤事實提出決策建議,導致用戶做出偏離實際的商業判斷。而在編程與調試環節,它提供的代碼方案也許看起來合理,卻可能無法運行,甚至暗藏安全漏洞,大幅增加后期排查與修復的成本。

      而且,這類幻覺往往以高度自信、邏輯自洽的形式呈現。對于缺乏相關專業背景的用戶而言,這種“確定性”輸出極具欺騙性,需要提高警惕。

      除了技術層面的隱憂,OpenAI此次的商業策略也顯露出明確的意圖:先用生態鎖定用戶,再用漲價收割市場。

      一方面,GPT-5.5首發時并未同步開放API,僅限自家ChatGPT和Codex使用,初步將用戶鎖定在其應用生態內。另一方面,GPT-5.5的定價相比上一代有了明顯上漲。根據官方公布的數據,GPT-5.5每處理100萬tokens,輸入收費5美元,輸出收費30美元。而上一代的GPT-5.4,輸入和輸出價格分別為2.5美元和15美元,這意味著新一代的價格直接翻了一倍。

      如果與當前的主要競爭對手對比,Anthropic最強的模型Opus 4.7定價為每百萬tokens輸入5美元、輸出25美元。可以看出,GPT-5.5在輸入價格上與對手持平,但在輸出價格上則高出20%。

      盡管OpenAI解釋稱,token使用效率的提升可對沖價格上漲,使用戶實際成本無明顯增加,但具體性價比仍需業界進一步驗證。

      對于這一模型,資深Agent從業者趙江杰評價道,這次GPT-5.5的發布并未形成斷檔領先,不如對社區熱傳的“Spud”模型預期的大幅提升期望那么大,但在agentic和coding能力上仍然繼續保持頭部頂尖位置,agentic能力提升的同時也在推動基模廠商提升模型迭代效率,OpenAI的下一代突破模型(GPT-6)很可能也在路上了。

      總之,對普通用戶而言,GPT-5.5或許值得嘗鮮,但不應視其為絕對可靠的工具,對企業用戶來說,在將其接入核心工作流前,則必須慎重,一旦出現那86%的“自信錯誤”,該由誰來兜底?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國民黨果然沒變!鄭麗文、盧秀燕回應賴清德竄訪:祝出訪順利

      國民黨果然沒變!鄭麗文、盧秀燕回應賴清德竄訪:祝出訪順利

      阿龍聊軍事
      2026-05-04 21:47:19
      重磅內幕!名記曝掘金炒掉馬龍原因:擔心阿德爾曼被其他球隊挖走

      重磅內幕!名記曝掘金炒掉馬龍原因:擔心阿德爾曼被其他球隊挖走

      體育見習官
      2026-05-04 08:29:14
      U17國足前瞻:最強一代沖亞洲杯開門紅 3個月前曾雙殺印尼+轟10球

      U17國足前瞻:最強一代沖亞洲杯開門紅 3個月前曾雙殺印尼+轟10球

      我愛英超
      2026-05-05 06:38:21
      全新一代寶馬 X5 更多信息曝光!網友:00 后設計的吧

      全新一代寶馬 X5 更多信息曝光!網友:00 后設計的吧

      汽車網評
      2026-05-04 21:58:38
      這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

      這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

      潮鹿逐夢
      2026-03-02 17:19:02
      過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

      過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

      白話電影院
      2026-04-09 14:36:58
      無人機襲擊致阿聯酋富查伊拉石油工業區起火

      無人機襲擊致阿聯酋富查伊拉石油工業區起火

      財聯社
      2026-05-04 23:38:05
      豆包新增付費訂閱,標準版每月68元、加強版200元、專業版500元,官方回應:始終提供免費服務,相關方案細節還在測試階段

      豆包新增付費訂閱,標準版每月68元、加強版200元、專業版500元,官方回應:始終提供免費服務,相關方案細節還在測試階段

      深圳晚報
      2026-05-04 13:26:59
      在西方媒體的宣傳下,中國簡直就是世界上最恐怖的國家!?

      在西方媒體的宣傳下,中國簡直就是世界上最恐怖的國家!?

      夢史
      2026-04-07 21:13:07
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      白金漢宮:尤金妮公主懷上第三胎,查爾斯國王對此感到高興

      白金漢宮:尤金妮公主懷上第三胎,查爾斯國王對此感到高興

      透視到底
      2026-05-05 07:33:07
      世乒賽淘汰賽簽位:國乒男團或直通四強,女團沒對手,日乒下下簽

      世乒賽淘汰賽簽位:國乒男團或直通四強,女團沒對手,日乒下下簽

      林子說事
      2026-05-04 15:14:14
      美國移民大變天?新法案擬砍親屬移民、廢綠卡抽簽,只留“高技能”通道!

      美國移民大變天?新法案擬砍親屬移民、廢綠卡抽簽,只留“高技能”通道!

      大洛杉磯LA
      2026-05-05 06:11:38
      油價大漲超1.71元/升,今年一箱油貴85元后,5月8日油價或再大漲

      油價大漲超1.71元/升,今年一箱油貴85元后,5月8日油價或再大漲

      油價早知道
      2026-05-04 01:15:42
      湖南瀏陽煙花廠爆炸后續!知情人爆料,隱患早有苗頭

      湖南瀏陽煙花廠爆炸后續!知情人爆料,隱患早有苗頭

      一口娛樂
      2026-05-05 03:44:24
      首相出訪,委員長訪華!日本也沒想到中國連基本的面子都不給

      首相出訪,委員長訪華!日本也沒想到中國連基本的面子都不給

      蘭妮搞笑分享
      2026-05-05 00:17:55
      霍爾木茲海峽的寂靜被打破!日本油輪過境,全球能源棋局暗流涌動

      霍爾木茲海峽的寂靜被打破!日本油輪過境,全球能源棋局暗流涌動

      別人都叫我阿腈
      2026-05-04 14:23:58
      不可忽視的選秀大年!杰倫格林本賽季完成進化,仍進不了21屆前六

      不可忽視的選秀大年!杰倫格林本賽季完成進化,仍進不了21屆前六

      你的籃球頻道
      2026-05-04 13:38:29
      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      極目新聞
      2026-05-04 09:46:46
      熱議李金羽下課:有點突然,鎮不住遼寧這些人;徐正源有鐵血氣質

      熱議李金羽下課:有點突然,鎮不住遼寧這些人;徐正源有鐵血氣質

      懂球帝
      2026-05-04 18:24:14
      2026-05-05 08:12:49
      AIX財經 incentive-icons
      AIX財經
      AI新時代,財經新觀察。
      47文章數 23216關注度
      往期回顧 全部

      科技要聞

      在中國市場搞「付費訂閱」,豆包咋想的?

      頭條要聞

      00后吳宜澤獲斯諾克世錦賽冠軍 7歲接觸臺球展現天賦

      頭條要聞

      00后吳宜澤獲斯諾克世錦賽冠軍 7歲接觸臺球展現天賦

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      數碼
      藝術
      旅游
      公開課

      家居要聞

      靈動實用 生活藝術場

      數碼要聞

      華碩推出ZenScreen OLED MQ16FC便攜顯示器:16英寸,280歐元起

      藝術要聞

      震驚!43歲媽媽曬女兒合影,30萬網友猜測身份!

      旅游要聞

      假期滬郊露營地人氣旺,林下經濟激活鄉村休閑新場景

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: www.天天操| 18禁无遮挡羞羞污污污污网站| 日韩精品久久久久久免费| 亚洲色偷拍一区二区三区| 久久久亚洲欧洲日产国码aⅴ| 国产欧美日本| 久久精品国产高潮国产夫妻| jiZZjiZZ欧美69| 人妻系列国产精品| 一本大道色婷婷在线| 国产一卡2卡3卡四卡精品网站免费国| 亚洲成a人v欧美综合天堂| 人人妻人人澡人人爽人人精品av| 亚洲精品国产一区二区精华液| 内射毛片内射国产夫妻| 国产女主播精品一区二区三区| 五月六月伊人狠狠丁香网| 免费观看国产小粉嫩喷水精品午.| 久久99国产精品久久99| 午夜A片| 一本综合久久| 丁香综合网| 亚洲中文字幕av天堂| 99久久婷婷国产综合精品电影 | 99热这里只有精品2| 中国熟女仑乱hd| 国产精品自拍中文字幕| 青春草在线观看精品免费视频| 国产凸凹视频一区二区| 精品久久久久久亚洲精品| 丰满少妇被猛烈进入| 久久久亚洲精品一区二区三区| 中文字幕在线不卡一区二区| а天堂中文在线资源| 女人18一级毛片免费观看| 日韩精品亚洲精品第一页| 久久国内精品一区二区三区| 一区二区中文| 国产精品99精品久久免费| 亚洲AV性色精品国产小电影| 亚洲日本韩国|