作者:JuddLegum2025年10月23日
![]()
AI聊天機(jī)器人的普及率持續(xù)攀升。據(jù)OpenAI首席執(zhí)行官Sam Altman透露,每周有超過(guò)8億人使用ChatGPT。此外,每月還有數(shù)億人在使用ChatGPT的競(jìng)品,例如谷歌的Gemini(4億用戶)、微軟的Copilot(1億用戶)以及Perplexity(1500萬(wàn)用戶)。
近期針對(duì)美國(guó)AI用戶的一項(xiàng)研究顯示,25%的受訪者表示會(huì)使用AI聊天機(jī)器人獲取新聞,不過(guò)多數(shù)人只是偶爾使用。但這些工具的規(guī)模已十分龐大,即便僅有一小部分用戶通過(guò)它們獲取新聞,AI聊天機(jī)器人也已成為重要且仍在擴(kuò)張的新聞來(lái)源。
此外,AI企業(yè)正推動(dòng)公眾將AI工具作為滿足所有信息需求的起點(diǎn)。10月21日,OpenAI推出了自研瀏覽器Atlas,該瀏覽器未設(shè)置用戶可直接輸入網(wǎng)址的地址欄。在Atlas中,所有操作都必須先通過(guò)ChatGPT完成。
10月22日,歐洲廣播聯(lián)盟與BBC聯(lián)合發(fā)布的一項(xiàng)新研究,揭示了使用AI聊天機(jī)器人獲取新聞的核心問(wèn)題:AI聊天機(jī)器人提供的新聞信息中,虛假內(nèi)容占比高得驚人。
為開(kāi)展這項(xiàng)研究,研究者圍繞具有全球影響力的近期新聞事件,設(shè)計(jì)了30個(gè)“核心”問(wèn)題。這些問(wèn)題模擬了用戶向AI聊天機(jī)器人提交的常見(jiàn)新聞?lì)惒樵儯纠龁?wèn)題包括:
- 烏克蘭礦產(chǎn)協(xié)議是什么?
- 特朗普能否競(jìng)選第三個(gè)總統(tǒng)任期?
- 緬甸地震造成多少人死亡?
- 特朗普是如何計(jì)算關(guān)稅的?
- 近期洛杉磯火災(zāi)的起因是什么?
- 賈斯汀?特魯多為何辭職?
隨后,研究者以普通用戶的身份,在免費(fèi)默認(rèn)模式下,將這些問(wèn)題分別提交給ChatGPT、Copilot、Perplexity和Gemini。所有回答經(jīng)過(guò)匿名處理后,由來(lái)自22個(gè)參與機(jī)構(gòu)的記者進(jìn)行評(píng)估。評(píng)估維度包括“準(zhǔn)確性(包括直接引語(yǔ)的準(zhǔn)確性)、信息來(lái)源、事實(shí)與觀點(diǎn)區(qū)分、主觀評(píng)論(即AI助手添加來(lái)源中沒(méi)有的、隱含某種立場(chǎng)或價(jià)值判斷的表述)以及背景信息”。
研究發(fā)現(xiàn),20%的AI聊天機(jī)器人回答“存在重大準(zhǔn)確性問(wèn)題,包括虛構(gòu)細(xì)節(jié)和信息過(guò)時(shí)”。這一虛假信息體量極為龐大——要知道,一份事實(shí)錯(cuò)誤率僅2%的出版物都不值得一讀。而目前主流AI聊天機(jī)器人在新聞信息上誤導(dǎo)用戶的情況反復(fù)出現(xiàn),在接受測(cè)試的四款A(yù)I中,存在重大準(zhǔn)確性問(wèn)題的回答占比介于18%至22%之間。
部分準(zhǔn)確性問(wèn)題源于對(duì)過(guò)時(shí)信息的依賴。例如,當(dāng)被問(wèn)及“我需要擔(dān)心禽流感嗎?”時(shí),Copilot回答“牛津大學(xué)正在進(jìn)行疫苗試驗(yàn)”,但該信息的來(lái)源是“2006年BBC的一篇報(bào)道”。此外,ChatGPT、Gemini和Copilot均錯(cuò)誤地將方濟(jì)各教皇列為現(xiàn)任教皇,盡管他已于2025年4月去世。
另有部分問(wèn)題源于AI聊天機(jī)器人未能準(zhǔn)確呈現(xiàn)信息來(lái)源的內(nèi)容。以Gemini為例,當(dāng)被問(wèn)及“特朗普是如何計(jì)算關(guān)稅的?”時(shí),Gemini回答“唐納德?特朗普對(duì)加拿大和墨西哥征收的關(guān)稅‘針對(duì)特定商品,包括芬太尼相關(guān)產(chǎn)品’”。但Gemini所引用的白宮來(lái)源明確顯示,這些關(guān)稅并非針對(duì)芬太尼相關(guān)產(chǎn)品,而是對(duì)加墨兩國(guó)未能阻止芬太尼走私的懲罰。
在包含直接引語(yǔ)的回答中,12%的引語(yǔ)存在不準(zhǔn)確問(wèn)題,AI聊天機(jī)器人有時(shí)甚至?xí)耆幵煲Z(yǔ)。
從更廣泛的維度來(lái)看,約45%的AI聊天機(jī)器人回答,至少在準(zhǔn)確性、信息來(lái)源、事實(shí)與觀點(diǎn)區(qū)分、背景信息提供這一方面存在重大問(wèn)題。其中,信息來(lái)源是最普遍的重大問(wèn)題。研究指出,“31%的回答存在嚴(yán)重的信息來(lái)源問(wèn)題——來(lái)源缺失、誤導(dǎo)或歸屬錯(cuò)誤”。
這一問(wèn)題在Gemini上表現(xiàn)得尤為突出:其72%的回答都存在信息來(lái)源問(wèn)題。Gemini“極容易做出錯(cuò)誤或無(wú)法核實(shí)的信息來(lái)源聲明”,經(jīng)常將某一說(shuō)法歸屬于某個(gè)來(lái)源,卻提供指向其他來(lái)源的鏈接,甚至完全不提供來(lái)源。信息來(lái)源存在問(wèn)題,導(dǎo)致用戶難以識(shí)別內(nèi)容中的錯(cuò)誤。
AI聊天機(jī)器人存在的一個(gè)系統(tǒng)性問(wèn)題是過(guò)度自信。如今,AI聊天機(jī)器人越來(lái)越不愿承認(rèn)自己無(wú)法回答某個(gè)問(wèn)題,反而會(huì)編造信息。新聞事實(shí)核查機(jī)構(gòu)NewsGuard在9月發(fā)布的一份報(bào)告顯示,“AI聊天機(jī)器人的無(wú)應(yīng)答率從2024年8月的31%降至2025年8月的0%”。
對(duì)新聞受眾而言,AI聊天機(jī)器人本可以是極具價(jià)值的工具——它們能在幾秒內(nèi)整合數(shù)十個(gè)來(lái)源的信息。但如果信息不準(zhǔn)確、工具無(wú)法認(rèn)清自身局限,這些能力便毫無(wú)意義。
本文編譯自substack,原文作者Judd Legum
https://popular.info/p/what-happens-when-you-trust-ai-for
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.