![]()
2024年初,一位瑞典研究者搞了一個惡作劇。她編造了一種名為“Bixonimania”的疾病,并將其寫入一份漏洞百出的預印本論文中上傳。隨后,荒誕的一幕出現了,當用戶詢問自己是不是患了Bixonimania,ChatGPT、Gemini等頭部AI產品紛紛確認了這種疾病的存在。
時至今日,隨著用戶使用AI聊天助手的頻率越來越高,很多人發現AI越來越能“胡說八道”了。那些荒誕的、不切實際的答案正在干擾著用戶的判斷,甚至產生了實際的負面影響。
曾經一位網友讓Deepseek推薦樓盤,Deepseek回答得有理有據,連戶型都選好了,他非常心動,結果自己一查,根本沒有這個樓盤;另一位網友也表示,自己列舉了看書的偏好,讓豆包給推薦小說,它推薦的小說看簡介都很吸引人,可一去搜索,一本也搜不到,“鏈接都是現編的”。
更令人無奈的是,同一個問題,問不同的AI助手,給出的答案不一,到最后我們只能重新借助傳統搜索進行最后驗證。這讓很多用戶懷念起當初那個“百度一下你就知道”的時代。
信源決定AI內容的準確度
層出不窮的AI幻覺,不斷引發用戶對AI生成內容的質疑,而給AI“投毒”則進一步放大了幻覺的問題,讓用戶更加焦慮。
今年3·15,一項名為“GEO(Generative Engine Optimization,生成式引擎優化)”的黑灰產業務被曝光。一款純虛構的商品,花費幾十元,生產十余篇看起來很有專業范的軟文,就可以將虛假產品信息成功“投喂”給AI大模型,并在幾天內獲得推薦,甚至“名列前茅”。
這套業務流程被直白地稱為“給AI投毒”,一旦被投毒,AI給出的答案更加不可信。
![]()
給AI投毒,是利用生成大模型漏洞、對普通用戶進行的一場大規模“收割”,它的影響不單單是誤導用戶,而是引導用戶決策,損害他們的利益。一位用戶表示,她在咨詢某主流AI大模型“高性價比智能血糖儀推薦”時,AI優先推薦了一款產品,到手后卻發現連生產廠家信息都查不到。
AI搜索,或者說AI聊天助手,勝在極致的效率,可它卻無法保障生成內容的可信度,這是因為AI大模型在其回答、思考過程中,抓取了大量真假難辨的信息。一篇軟文、一則未被證實的傳言,甚至是某些自媒體為了博取流量而發布的消息,都可能被AI抓取,從而影響問題的答案。
大模型在復雜信息環境中的理解與判斷能力需要更多的時間來提升,而從源頭來看,保證真實的、準確的、有權威性的信源,也可以極大增強AI內容的可信度。
果殼?發布的《左?幻覺,右?投毒,普通?憑什么相信AI?》一文,用實驗證明了權威知識庫的引入,能讓AI結果變得更詳實精準,答案整體的準確度大幅提高。
在準確度測試中,多領域專家評估團采用“雙盲測試”法,對8個主流模型在參考與不參考百科狀態下的脫敏回答進行獨立打分。結果顯示,參考百科組的AI綜合準確度平均提升38%以上,專家認可度高達91.5%,表現遠優于無參考組。
這組數據,有力地證明了「信源決定準確度」,而掌握權威性信源的傳統搜索巨頭,也有望令答案達到更高的可信度。
一個「完成式」答案的價值,遠超過無數個模型直接?成的答案
遇到問題、問問AI,已經成為不少人的生活習慣,可是面對越來越頻繁的AI幻覺,用戶最終還是需要回到百度,通過熟悉的“百度一下”,進行驗證。當搜索引擎成為我們最后的“避難所”,這背后的意義不言而明,傳統搜索仍然是用戶獲取可靠信息不可替代的工具。
而在如何解決AI幻覺、讓AI生成的內容更可靠這個問題上,傳統搜索服務巨頭也更有優勢。
4月24日,百度萬象?會召開,會上AI 權威性正是重要議題之?。透過這場大會,我們可以清晰地看到百度基于傳統搜索積累的優質內容及技術底蘊,在提升AI生成內容的可信度上正在發揮引領性作用,能夠幫助用戶高效獲取信息的同時,最大可能保障信息準確。
與其他憑借訓練數據直接輸出答案的大模型不同,百度AI走的是一種“先篩選再?成”的路徑,它能夠給出「完成式」答案。
這歸功于百度在AI API基礎上疊加了雙層Agent—“組織?成Agent +需求規劃Agent”,前者能對提供不同觀點和信息的內容進?篩選、校驗和總結,后者是對?戶潛在需求進?推斷和細粒度拆解,針對每個?需求得到多維度信息后再?成。
信源不同,輸出的結果各有差異,百度AI對不同信源中的內容進行篩選,因為其本身對接的更多是百度百科、百度文庫等準確性和專業性較強的信源,這能很大程度上提升訓練數據的質量,輸出更可靠的答案。再疊加百度多年來積累的溯源技術,可以確保生成答案中的關鍵事實能追溯到可驗證的、高質量的原始信息來源,進一步降低了出現AI幻覺的概率。
![]()
比如近期在保健品領域因大V互撕引發了關于魚油是否為智商稅的爭議,我們通過百度AI詢問該問題,AI給出了一個相對準確的回答,“魚油是否為‘智商稅’,取決于你購買的是科學驗證的高純度處方級產品,還是市場泛濫的虛假宣傳劣質品”。
“組織?成Agent”能幫助百度AI給用戶提供直擊要點的準確回答,而“需求規劃Agent”則是對問題進行多維度的拓展,以便用戶獲得更深層次的了解,使答案更加豐富、立體。
![]()
這有賴于百度深厚的內容積累,為AI縱深挖掘有效信息提供了基礎。果殼?的文章提及,經過20個問題的主觀評測發現,在引用百科的AI結果中,包含的獨立知識點數量平均增加了2.4個,觀點的維度從單一的現狀描述延伸到了歷史淵源、社會影響以及技術原理等多個方向。
![]()
參考了百科的AI答案
![]()
百度百科中關于磷酸鹽過量攝入對兒童的危害的闡述
舉個簡單的例子,針對今年3·15食品安全板塊提及的“食品保水劑”濫用提問,參考了百科詞條的AI明確指出長期大量攝入磷酸鹽(保水劑主要成分),可能導致兒童發育遲緩和骨骼畸形,并根據百科中的內容進一步說明了原因。
AI回答的質量,取決于它?什么信源,而這正是百度搜索架構設計的核?邏輯。可靠的、權威性的信源,在雙層Agent的加持下,讓百度AI回答得更“準”,也更“好”。
AI答案的可信度,既是架構問題,也是治理問題
對于AI幻覺,?戶的擔憂正在分裂成兩個層次:「為什么會出錯」以及「出了錯有沒有?管」。搞清楚「為什么會出錯」,才會從源頭改善,而「出了錯有沒有?管」則直指內容治理,內容治理得好了,也會減少偏離基本事實的概率,讓答案變得更加準確。
在內容治理上,百度設置了三道權威性過濾,第一是來源準?,只有權威專業領域、時效性強的信息源才有資格進?候選池。比如在內容產業中代表著權威性的百度百科,它既是百度龐大內容生態體系的一個關鍵組成部分,也是百度AI提升內容可信度所倚賴的最可靠信源。
一直以來,百度百科實行嚴苛的內容準入機制,所有詞條內容必須提供權威參考資料,?媒體/UGC內容不直接?庫,而且百度百科的內容都是先審后發,“機審+人審”雙重流程,特殊身份信息還需高級別審核員二次核驗。
百度百科已成為大模型對抗幻覺的關鍵。在果殼網的對比測試中,明確顯示了無百科參考時AI關鍵事實偏離率為26.4%,接入后降至4.1%以內。這說明參考百科顯著降低了出錯率。
第二則是多信源交叉驗證,簡單來講就是同?個結論?少有多個可信來源?撐才會被采?。
以上文提到的魚油問題為例,答案主要參考了《新英格蘭醫學雜志》(NEJM)、歐洲心臟病學會(ESC)與歐洲動脈硬化學會(EAS)聯合發布的《2025 ESC/EAS血脂異常管理指南(更新版)》及美國心臟協會(AHA)2022年立場聲明(2026年仍有效)等文獻。這些資料都來自權威性最強的機構,且具有時效性,至于百家號/知乎專欄的內容,僅作為輔助參考。
![]()
秒級巡檢兜底是最后一道,這屬于內部?動巡檢系統,?旦內容有偏離即??介?并重新?產。此外,百度還有引?AI鑒真機制專項打擊?信源內容等等,這是?套?多數對話式AI產品?前不具備的平臺級治理能?。
百度在AI內容治理上表現出的突出能力,是作為傳統搜索巨頭對海量內容有效管理的一種延續。多年深耕搜索領域,百度搭建了嚴格的內容審核機制和反作弊算法體系,以及完整的辟謠機制與內容溯源功能,盡可能地篩選和剔除不實信息,保證了信息的可靠性。
而在AI時代,不管AI技術如何迭代,對人機交互形式帶來多大的改變,都無法改變用戶的核心訴求:獲取真實、可靠的信息或服務。百度提供一種「說得清、查得到、有?管」的確定性,把“可信”打造為核心能力,這不僅能滿足用戶的需求,留住用戶,也將大大推動內容產業的信任重建。
在未來,AI助手或者說所有AI入口的競爭,都可以說是一場打造和提升信任高度的競爭,誰能占領信任的高地,也就在AI時代擁有了更大的主動權。
作者:道總有理,科技創新與商業趨勢觀察家。深耕科技商業領域 15 年,完整跨越 PC 互聯網、移動互聯網、AI 產業三大變革周期。堅持獨立立場,堅守產業理性。本文為原創內容,未經授權謝絕任何形式轉載、摘編與修改,歡迎轉發分享。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.