<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI的看圖能力,可能是編出來的

      0
      分享至



      一個學生忽視了一行代碼,結果發現了一件很不對勁的事:

      在一個多模態醫學AI項目中,這行代碼原本負責讓模型讀取圖像數據。但因為這次疏忽,模型實際上完全沒有看到任何圖片。

      按理說系統應該報錯,或者至少拒絕回答,可它沒有。它依然正常作答,給出了完整的分析過程,甚至在圖像理解的基準測試中拿到了很高的分數。

      斯坦福大學上周發布的一篇論文就這件事進行了嚴肅驗證,指出了這樣的一個問題:當前許多多模態AI,在沒有成功讀取圖像信息的情況下,并不會提示錯誤,而是煞有其事地編造出從看見到理解、再到推理的全過程,給出一個看似合理的結果。

      更離譜的是,研究團隊訓練了一個僅3B參數、完全沒有圖像理解能力的純文本模型,結果卻顯示,這個模型在胸部影像問答基準(ReXVQA)中超過了所有前沿的多模態模型,甚至超過了人類放射科醫生。

      這意味著,我們一直用來測試“視覺理解”的基準,可能并不在測試視覺能力。



      論文原文:
      https://arxiv.org/abs/2603.21687

      01

      沒有圖片,AI還在做“視覺理解”

      事情是這樣開始的:

      一群研究者在做一個心血管疾病方向的多模態醫療AI,名字叫MARCUS。

      他們的目標很明確,就是讓AI能夠讀取心電圖(ECG)、超聲心動圖和心臟磁共振成像(CMR),結合問題描述,給出推理過程和診斷。

      但在研究的過程中,發生了一個小事故:研究者在調試代碼的時候不小心忘記對一行關鍵代碼去注釋,導致模型根本沒辦法讀取圖片。盡管如此,該模型依然回答了所有問題,給出了復雜的推理過程,并在基準測試中取得了高分。

      這種“模型在沒有圖像的情況下,假裝自己看到了圖,并據此推理”的現象,在論文中被稱之為“海市蜃樓”(原文為mirage)。



      乍一看這個概念或許會和模型幻覺(hallucination)混淆,但幻覺被定義為是在已有信息上胡編細節,例如為寫論文而編造引用;而“海市蜃樓”直接虛構了一個不存在的輸入,并以此為基礎進行對話,從而改變當前任務的上下文。

      這就暴露出一個很大的漏洞:如果模型在看不見圖像的情況下,僅靠“腦補”圖像并推理就能高分通過測試,那我們一直測試的“多模態理解”能力,真的涉及到多模態嗎?

      為了回答這個問題,論文做了這樣的一件事情:它把現有的各種視覺理解題目配套的圖片全部刪掉,只給AI看文字題目。

      結果卻發現,在完全沒有圖片的情況下,GPT-5、Gemini-3-Pro和Claude Opus 4.5等頂尖模型,在超過60%的題目中都能給出極其詳細的視覺描述,在加入一些提示詞后,“海市蜃樓”的概率甚至達到了驚人的90%以上。

      并且AI在回答這些無圖題目時,語氣堅定,完全沒有表現出“沒看到圖”的猶豫。它的推理邏輯看起來和有圖時一模一樣,用戶根本無法通過回答內容判斷AI是否真的看到了圖。



      AI編造出的“圖像描述”細節豐富,涉及到具體的車牌、有效期、位置、腦結節描述以及醫學診斷。

      研究人員對Gemini-3-Pro在胸部X光、腦部MRI、病理切片、心電圖(ECG)和皮膚病這5個醫學領域進行了深度測試。結果顯示,在沒圖的情況下,AI傾向于診斷出那些極其嚴重、緊迫且耗費醫療資源的疾病,比如心肌梗死(STEMI)、黑色素瘤(Melanoma)和癌變(Carcinoma)。

      這種傾向會直接誤導醫療決策和不必要的恐慌,例如本來圖像上傳失敗,結果AI光憑文字描述給出了一個癌癥的診斷——簡直駭人!

      最危險的是,AI既不提示圖像缺失,也不表達不確定,只是是沉默地用腦補的“海市蜃樓”替換真實信息。從自信地報出車牌號到誤診癌癥,AI的這種“自信”在現實應用(如自動駕駛、遠程醫療)中可能造成不可估量的后果。



      02

      純文本模型戰勝多模態模型

      OpenAI、Google、Anthropic 三大陣營的主流多模態模型都出現了“海市蜃樓”,意味著這個問題并非個別缺陷,而是一整個跨模型、跨架構、跨廠商的系統性問題。

      簡單來講,這些模型的核心都是自回歸語言模型,訓練目標只有一個,那就是預測下一個最可能的token。當使用者提出一個問題(哪怕是視覺問題)時,模型真正做的是尋找最可能的答案分布,而不是“先看圖再推理”。

      因此,使用圖像只是其中一種路徑,而不是必須路徑。

      在實際訓練中,存在很多利用文本就能答對的情況,并且由于訓練時從未強制模型“必須使用圖像”,于是模型就會走“語言捷徑”——這些模型是基于海量的互聯網數據訓練出來的,它們極其擅長捕捉統計學規律,會利用問題中隱藏的文字線索、常識以及對測試題套路的理解,而不是去處理復雜的視覺信息。

      而“海市蜃樓”的本質,其實是生成式補全的副產物。就像是填空題目一樣:當用戶在輸入的文本中不小心漏打了幾個字,AI并不會停下來,而是根據經驗推導出空缺處應該包含什么樣的信息。

      當模型看到一個視覺問題,但題目中并未給出應有的圖像時,模型同樣也基于以往的訓練數據,自動補全輸入,假設出這里本來應該存在的圖像信息。

      生成式模型的目標并非判斷輸入是否完整,而是生成最合理、最連貫的輸出。

      在這些模型的訓練中,它們重復過無數次類似的模式:輸入圖像+問題,生成描述+推理+答案。模型在這個過程中學到的并非“一定要用圖像”,而是“遇到這種問題,就輸出這種結構”。因此,當圖像缺失時,模型依然會執行同樣的輸出模板,它的本質并不是在處理輸入,而是復現訓練時的任務模式。

      這并不意味著模型完全不會利用圖像,而是當前的訓練與評測體系無法保證模型在回答時真正依賴了圖像信息。



      為了驗證以上觀點,研究團隊還做了一件特別狠的事情:他們在ReXVQA數據集的公開數據集上,訓練了一個只有3B參數的純文本模型(Qwen-2.5)。

      ReXVQA數據集是胸部放射學中最大且最全面的視覺問答基準,選擇Qwen-2.5則是因為它發布于基準測試發布前一年,能夠最大限度地減少預訓練時基準泄露的可能性。

      結果顯示,訓練后的模型在ReXVQA測試中,表現優于那些千億參數的頂尖多模態大模型,并且得分平均比人類放射科醫生高出10%以上。



      最諷刺的地方在于,這個純文本模型不僅能選對答案,還能寫出漂亮的思維鏈:它生成的視覺分析和解釋,在專業性上與真實答案幾乎沒有區別;它的解釋和那些千億參數的多模態AI生成的解釋,兩者完全無法區分。

      整個推理建立在虛構的前提上,模型先假設了一張圖的存在,對其進行描述,然后基于這個描述進行推理。

      這就揭露了當前視覺理解評測基準的巨大漏洞:它們測試的可能并不是AI的圖像理解能力,而僅僅是AI對題目套路的把控。

      測試的題目設計可能存在文本強關聯性,題目描述或語境已經強烈暗示了答案,以至于模型可以反向推導出“圖像里應該包含什么信息”。

      03

      創建新的基準并不能解決根本問題

      對于上述提到的漏洞,迄今為止,大多數建議的解決方案都集中在引入專門策劃的新基準,不斷編寫新的、更難的評測集來堵漏洞。

      但論文認為,這種方法只能說是“治標不治本”:AI模型是在全網抓取數據進行訓練的,剛出的新題,轉頭就會被爬蟲抓走,變成下一代模型的“課后答案”;即使題目沒泄露,每套題庫都有自己固有的結構模式,而AI極其擅長捕捉這些人類察覺不到的文字規律;此外,想要修復現有成千上萬套舊題庫里的每一個漏洞,工作量巨大且不具備可擴展性。

      因此,論文提出了一個新的事后框架B-Clean

      邏輯很簡單:如果一個題目,AI在沒看圖的情況下也能答對,那這道題就不能用來測試 AI的“視覺能力”。

      B-Clean的完整流程就是這樣:把視覺基準測試中的圖像全部去掉,讓各個模型進行理解,如果模型在沒有圖的情況下還能答對,就說明這些題對模型的圖像理解能力無效。把那些無效題刪掉,最后剩下的,所有模型在沒圖的情況下都答不對的題目,才能真正考驗模型的“視覺能力”。

      研究人員用B-Clean對現有的主流視覺評測基準進行清洗后,得到了非常夸張的結果:

      三個主流的視覺評測基準,有約74%–77%的題被清洗。

      許多在原始測試中拿到80-90分的頂級模型,在經過B-Clean清洗后的測試集中,得分直接跌到了20-30分,甚至更低。



      這意味著,那些被稱為“視覺理解能力”的高得分,很大一部分從來就不屬于視覺。它們來自語言統計、數據分布、題目結構,來自模型對套路的熟練掌握。

      至于圖像有沒有被使用?不重要,答案看起來對就夠了。

      但這篇論文真正令人警示的地方,并不在于模型分數在清洗過后掉了多少,而是AI可以在什么都沒看到的情況下,把“看見、理解、推理”這一整套過程演出來。

      當推理不再是證據,解釋不再是保證,高分也不再說明任何事情,這些曾經用來判斷“AI是否可靠”的信號,在這里全部失效。更糟的是,這種錯誤不會發出任何警報,只有一個看起來合理、完整、甚至專業的結果。

      當前的訓練方式和評測體系,正在獎勵“看起來像理解”的行為,而不是真正基于證據的推理,如果這個方向不被修正,未來的AI會越來越強,但同時也會越來越難以驗證、難以解釋,也越來越容易在關鍵場景中給出無法察覺的錯誤結果。

      AI是會出錯的,它只是在不斷生成一個最像答案的答案。輸入是否真實,信息是否缺失,對它來說不是問題。

      真正的問題是:當它出錯的時候,我們有沒有能力意識到它正在出錯?

      而這個問題,AI到現在并沒有解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      這魚再貴也別省,男人吃了腰有勁,女人吃了氣色好,別的真比不了

      江江食研社
      2026-04-30 18:30:09
      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      男足的小球童
      2026-05-01 16:54:27
      令人憤怒“媽媽身上只剩4383塊”事件:病態教育觀,毀了多少孩子

      令人憤怒“媽媽身上只剩4383塊”事件:病態教育觀,毀了多少孩子

      夜深愛雜談
      2026-04-30 07:23:39
      中信建投:霍爾木茲海峽封鎖是核心矛盾 阿聯酋退出OPEC對油價的壓制短期效果有限

      中信建投:霍爾木茲海峽封鎖是核心矛盾 阿聯酋退出OPEC對油價的壓制短期效果有限

      財聯社
      2026-05-01 20:10:42
      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

      川渝視覺
      2026-04-25 20:19:24
      傅作義親手放走5個蔣介石嫡系將領,幾十年后才知他保全的是什么

      傅作義親手放走5個蔣介石嫡系將領,幾十年后才知他保全的是什么

      睡前講故事
      2025-12-09 13:06:03
      赴港一晚籌436萬救患兒,李亞鵬全程彎腰致謝,背巨債干公益20年

      赴港一晚籌436萬救患兒,李亞鵬全程彎腰致謝,背巨債干公益20年

      以茶帶書
      2026-05-01 18:12:05
      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      夢史
      2026-05-01 16:47:14
      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      韓小娛
      2026-04-30 15:29:59
      毛主席開會沒煙了,看鄧華口袋鼓鼓的,問:你的白金龍還有沒有?

      毛主席開會沒煙了,看鄧華口袋鼓鼓的,問:你的白金龍還有沒有?

      尋史微鑒
      2026-03-08 12:20:24
      馬寧連掏兩黃!茹薩踩人染黃,韋世豪不滿,媒體人:撞槍口上了

      馬寧連掏兩黃!茹薩踩人染黃,韋世豪不滿,媒體人:撞槍口上了

      奧拜爾
      2026-05-01 20:42:45
      高市早苗公然喊出 “戰爭宣言”,30 國大使離場,中方強硬亮劍

      高市早苗公然喊出 “戰爭宣言”,30 國大使離場,中方強硬亮劍

      什么都嘮嘮
      2026-04-30 16:02:31
      重要調整!央視直播斯諾克世錦賽做2處改變,CCTV5直播吳宜澤

      重要調整!央視直播斯諾克世錦賽做2處改變,CCTV5直播吳宜澤

      云隱南山
      2026-05-01 10:20:12
      事關普京訪華,克宮最新回應

      事關普京訪華,克宮最新回應

      中國網
      2026-04-30 11:28:02
      美伊大戰,意外暴露中國家底,美國才懂,為啥中國人的底氣這么足

      美伊大戰,意外暴露中國家底,美國才懂,為啥中國人的底氣這么足

      阿尢說歷史
      2026-04-30 16:05:43
      比亞迪4月銷量321123輛

      比亞迪4月銷量321123輛

      界面新聞
      2026-05-01 19:19:35
      為什么整個亞洲只有中國有山姆超市?

      為什么整個亞洲只有中國有山姆超市?

      流蘇晚晴
      2026-04-30 18:50:00
      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      史行途
      2026-05-01 12:29:39
      視頻丨多國政要:中國市場巨大 零關稅政策助非洲發展

      視頻丨多國政要:中國市場巨大 零關稅政策助非洲發展

      北青網-北京青年報
      2026-05-01 18:01:02
      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      健身狂人
      2026-05-01 19:26:00
      2026-05-01 21:35:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2430文章數 8062關注度
      往期回顧 全部

      科技要聞

      蘋果上季在華收入繼續大增 iPhone收入新高

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      親子
      手機
      游戲
      公開課
      軍事航空

      親子要聞

      寶藍和爸爸比賽吹氣球,吹成各種各樣的形狀,快來看看誰贏了~

      手機要聞

      硬件守正,體驗出奇 | 華為 Pura90 Pro Max 影像測評

      PS主機獨占漫威大作官宣重磅驚喜:周日見!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:持續推進海上封鎖的行為不可容忍

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 就去吻亚洲精品国产欧美| 国产一区二区欧美丝袜| 国产日韩久久久久无码精品| 亚洲国产成人高清在线播放| 熟女丰满老熟女熟妇| 日韩AV无码社区一区二区三区| 亚洲高清最新AV网站| 国产美女精品在线| 国产精品久久久久影院老司| 狠狠干影院| 久久一本精品久久久ー99| 亚洲第一区av| 手机AV网址| 亚洲日韩欧美在线观看| 国产亚洲精品久久久久久无几年桃 | 国产高清亚洲精品91| 亚洲超清无码制服丝袜无广告| 日本成人H网站| 国产成人av乱码在线观看| 亚洲AV无码专区首页第一页| 青青草免费公开视频| 996久久国产精品线观看| 无码人妻精品一区二区在线视频| 欧美乱子伦xxxx12| 人人妻人人澡人人爽欧美二区| 人人爽久久久噜噜噜婷婷| 全部av―极品视觉盛宴| 性色av成人精品久久| 狠狠色丁香久久婷婷综合五月 | 国产ssss在线观看极品| 6080亚洲人久久精品| 99久久国产一区二区三区| 亚洲成人av在线| 日韩精品人妻中文字幕| 无码小电影在线观看网站免费| 国产一区二区波多野结衣| 亚洲色偷偷色噜噜狠狠99 | 激情自拍一区| 国产精品成人无码久久久| 成人午夜精品久久久久久久网站| 免费又爽又大又高潮视频|