<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MinerU 再次改變 OCR,5 倍提升

      0
      分享至

      關于 OCR 這個話題,我之前寫過不少:

      今天這篇要聊的東西可能是 OCR 領域近年來最大的范式轉換,MinerU 團隊用擴散模型重新定義了文檔 OCR 的解碼方式

      MinerU:OCR 領域的扛把子

      先說說 MinerU 這個項目在 OCR 圈子的地位

      MinerU 由上海人工智能實驗室的 OpenDataLab 團隊開發(fā),最初誕生于 InternLM 大模型的預訓練數(shù)據(jù)處理過程中

      做過 RAG 的朋友應該都知道,文檔解析是 RAG 流水線上最關鍵的一環(huán)——你的知識庫質量上限,就取決于你的文檔解析能力

      而 MinerU 幾乎是開源文檔解析工具的事實標準:

      • 全格式覆蓋:支持 PDF、圖片、DOCX 輸入,輸出 Markdown 和 JSON

      • 109 種語言的 OCR 支持

      • 全平臺兼容:Windows、Linux、Mac,CPU/GPU/NPU/MPS 都能跑

      • 功能全面:自動去除頁眉頁腳頁碼、保留文檔結構、提取表格公式、處理復雜多欄布局

      剛剛,MinerU 發(fā)布了3.0.0 大版本更新——新增了原生 DOCX 解析、pipeline 后端在 OmniDocBench v1.5 上得分達到 86.2,上線了多 GPU 部署路由

      更關鍵的是,MinerU 的 VLM 版本 MinerU2.5 在 OmniDocBench 等權威 Benchmark 上一直是各路 OCR 模型的對標基準。

      新范式:用 Diffusion 重新思考 OCR

      好了,鋪墊完背景,來說今天的主角——MinerU-Diffusion

      這是 MinerU 團隊在 3 月 24 日放出的全新框架,論文標題非常到位:

      Rethinking Document OCR as Inverse Rendering via Diffusion Decoding(將文檔 OCR 重新定義為通過擴散解碼的逆渲染問題)

      一句話總結:把傳統(tǒng)的自回歸(從左到右一個字一個字吐)解碼,換成了并行的擴散去噪解碼

      這個思路非常有意思

      為什么自回歸解碼不適合 OCR?

      現(xiàn)在主流的 OCR 方案,本質上都是一個路子:視覺編碼器把圖片變成特征,然后語言模型一個 token 一個 token 地從左到右生成文字

      這個架構有三個致命問題:

      1. 速度瓶頸

      自回歸解碼是串行的——生成第 100 個 token 必須等前 99 個都完成。

      文檔越長,越慢,延遲線性增長。

      2. 錯誤累積

      前面錯了一個,后面大概率跟著錯。

      就像多米諾骨牌,一倒一片。

      對于長文檔、復雜表格和公式這種動輒幾千 token 的場景,這個問題尤為致命。

      3. 依賴語言先驗而非視覺證據(jù)

      這是論文中最犀利的觀察

      自回歸模型在解碼時會不自覺地依賴"語義補全"——它更多是靠上下文猜接下來的字是什么,而非認真看圖片上寫的是什么

      論文專門設計了一個Semantic Shuffle測試來證明這個問題:把文檔中的單詞打亂順序,重新排版成圖片,讓模型去識別。

      結果自回歸模型的準確率隨著打亂程度直線下跌,而擴散模型基本紋絲不動。

      下圖就是 Semantic Shuffle 測試的結果,可以清楚看到 AR(自回歸)和 Diffusion(擴散)兩種解碼方式面對語義打亂時的表現(xiàn)差異:


      Semantic Shuffle 測試結果

      這說明什么?自回歸模型做 OCR 時有很大程度上是在"理解"文本然后"猜"出來的。而 OCR 的本質應該是忠實地"看"圖片上寫了什么,跟文字有沒有語義無關。

      MinerU-Diffusion 如何解題?

      MinerU-Diffusion 的核心思想是:把 OCR 看作"逆渲染"

      什么意思?文檔渲染是:結構化文本 → 2D 圖片

      OCR 就是反過來:2D 圖片 → 結構化文本

      既然渲染過程不需要從左到右逐字生成,OCR 解碼憑什么必須從左到右?

      下圖展示了自回歸解碼和擴散解碼兩種方式的對比:


      自回歸 vs 擴散解碼

      基于這個洞察,MinerU-Diffusion 設計了三大核心技術:

      1. Block-wise 分塊擴散解碼器

      不搞全局的擴散(那樣計算量太大),把輸出序列分成若干個 Block。Block 內部用擴散并行生成,Block 之間保留粗粒度的自回歸結構,兼顧了效率和全局一致性。

      擴散解碼的過程如下——黑色 token 是已確認的,紅色 token 正在更新,黃色 token 是未處理的 mask,整個過程是并行推進的:


      擴散解碼過程

      2. 不確定性驅動的兩階段課程學習

      訓練分兩步走:

      • 第一階段:用大規(guī)模多樣化數(shù)據(jù)建立基礎能力(約 750 萬樣本)

      • 第二階段:通過多次推理找出模型"不確定"的硬骨頭樣本,人工精標后重點訓練

      這個策略非常聰明。擴散模型的訓練比自回歸更不穩(wěn)定,數(shù)據(jù)利用效率也更低,分階段先建立基本功、再專攻難點,是一個務實的工程選擇。

      下圖展示了 MinerU-Diffusion 的訓練架構——左側是 mask 訓練過程,右側是 Block 注意力機制的結構:


      訓練架構

      3. 動態(tài)置信度調度

      解碼時,模型會根據(jù)每個 token 的置信度動態(tài)決定是否"落筆確認"。高置信的直接定了,低置信的繼續(xù)去噪。這個閾值就像一個"旋鈕",可以在速度和精度之間靈活調節(jié)。

      跑分:快 3 倍,準確率不掉

      直接看數(shù)據(jù):

      在 OmniDocBench v1.5 評測中(帶 GT Layout),以 τ=0.97 動態(tài)解碼對比:

      指標

      MinerU2.5 (自回歸)

      MinerU-Diffusion (擴散, τ=0.97)

      Overall ↑

      Text Edit ↓

      Formula CDM ↑

      Table TEDS ↑

      吞吐量 TPS

      Overall 分數(shù)幾乎一模一樣,但吞吐量接近 2 倍!

      而且這還只是置信度閾值 0.97 的結果

      調到 0.95(Overall 93.37,精度與 MinerU2.5 幾乎無差),吞吐量達到 108.9 TPS,2.1 倍加速

      再放到 0.6,164.8 TPS,3.26 倍加速,準確率仍然超過 90%

      下面這張圖非常直觀地展示了精度-吞吐量的權衡曲線:


      精度-吞吐量權衡

      在公式識別和表格識別上,MinerU-Diffusion 也表現(xiàn)出色:

      • 公式識別(UniMER-Test):CPE 91.6 / HWE 91.6 / SCE 92.0 / SPE 96.8,全面碾壓 GPT-4o(CPE 82.7 / HWE 85.9 / SCE 87.8),每個指標都領先 4~9 分

      • 表格識別(OCRBench v2):TEDS 81.18 / TEDS-S 88.66,跟一眾 AR 模型不相上下

      效果展示:看看擴散解碼到底怎么工作的

      光看數(shù)字不過癮,論文里給了大量的定性示例,非常直觀

      端到端文檔解析效果

      下面展示幾種典型文檔頁面的完整識別結果,每組從左到右分別是:原始頁面、布局檢測結果、最終解析渲染輸出。

      學術論文頁面——包含表格、圖片、標題、公式等復雜元素,布局檢測精確,解析結果完整保留了文檔結構:


      學術論文解析 - 原始輸入學術論文解析 - 布局檢測學術論文解析 - 渲染輸出

      報紙版面——密集的多欄排版,閱讀順序正確恢復:


      報紙解析 - 原始輸入報紙解析 - 布局檢測

      公式密集的試卷——大量數(shù)學公式精準識別為 LaTeX:


      試卷解析 - 原始輸入試卷解析 - 布局檢測試卷解析 - 渲染輸出

      擴散解碼的漸進生成過程

      這組圖更有意思——展示了擴散解碼器在不同任務上是怎么"一步步去噪"的

      上面是原始輸入,下面是解碼過程的可視化,可以看到 token 從 mask 狀態(tài)逐步被確認的全過程。

      布局檢測的擴散解碼——模型逐步確認頁面各區(qū)域的位置和類別:


      布局解碼示例1-輸入布局解碼示例1-過程

      文本識別的擴散解碼——文字從 mask 中并行"浮現(xiàn)"出來:


      文本解碼示例-輸入文本解碼示例-過程

      表格識別的擴散解碼——表格結構和內容同步恢復:


      表格解碼示例-輸入表格解碼示例-過程

      公式識別的擴散解碼——LaTeX 符號從噪聲中逐步精確還原:


      公式解碼示例-輸入公式解碼示例-過程

      可以看到,擴散解碼是全局并行推進的——不像自回歸那樣從左上角一路寫到右下角,而是整個頁面同時"顯影"。這種解碼模式天然適合文檔這種二維空間結構。

      模型規(guī)格與使用

      MinerU-Diffusion-V1 是一個2.5B 參數(shù)的模型,支持四種任務:

      Prompt 類型

      功能

      輸出格式

      Layout Detection

      頁面級布局解析

      邊界框 + 標簽

      Text Recognition

      純文本 OCR

      原始 OCR 文本

      Formula Recognition

      公式提取

      LaTeX

      Table Recognition

      表格提取

      OTSL 結構化表格

      支持三種推理引擎:HuggingFace TransformersNano-DVLM(單 GPU 推理)、SGLang(高性能服務化部署)。

      快速上手

      安裝環(huán)境:

      conda create -n dmineru python=3.12 -y
      conda activate dmineru


      pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128
      pip install "transformers>=4.52.1"
      # flash-attn 需要單獨安裝預編譯 wheel(需匹配 CUDA/PyTorch 版本)
      wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
      pip install flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
      pip install -r requirements.txt

      用 Transformers 跑一下:

      import torch
      from transformers import AutoModel, AutoProcessor, AutoTokenizer

      model_id = "opendatalab/MinerU-Diffusion-V1-0320-2.5B"
      image_path = "path/to/page.png"

      tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
      processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True, use_fast=False)
      model = AutoModel.from_pretrained(
      model_id, trust_remote_code=True,
      torch_dtype=torch.bfloat16, low_cpu_mem_usage=True
      ).eval().to("cuda")

      messages = [
      {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
      {"role": "user", "content": [
      {"type": "image", "image": image_path},
      {"type": "text", "text": "\nText Recognition:"},
      ]},
      ]

      prompt_text = processor.apply_chat_template(messages, add_generation_prompt=True)
      if isinstance(prompt_text, tuple):
      prompt_text = prompt_text[0]

      inputs = processor(images=[image_path], text=prompt_text, truncation=True, max_length=4096, return_tensors="pt")
      input_ids = inputs["input_ids"].to(torch.long).to("cuda")
      pixel_values = inputs["pixel_values"].to(torch.bfloat16).to("cuda")
      image_grid_thw = inputs.get("image_grid_thw")
      if image_grid_thw isnotNone:
      image_grid_thw = image_grid_thw.to(torch.long).to("cuda")

      with torch.no_grad():
      outputs = model.generate(
      pixel_values=pixel_values,
      image_grid_thw=image_grid_thw,
      input_ids=input_ids,
      mask_token_id=tokenizer.convert_tokens_to_ids("<|MASK|>"),
      denoising_steps=32,
      gen_length=1024,
      block_length=32,
      temperature=1.0,
      remasking_strategy="low_confidence_dynamic",
      dynamic_threshold=0.95,
      tokenizer=tokenizer,
      stopping_criteria=["<|endoftext|>", "<|im_end|>"],
      )

      output_ids = outputs[0] if isinstance(outputs, tuple) else outputs
      text = tokenizer.decode(output_ids[0], skip_special_tokens=False)
      for stop in ("<|endoftext|>", "<|im_end|>"):
      text = text.split(stop, 1)[0]
      print(text.strip())

      端到端頁面解析也支持:

      cd /path/to/MinerU-Diffusion
      MODEL_PATH=/path/to/model \
      IMAGE_PATH=/path/to/input-page.png \
      OUTPUT_PATH=/path/to/output.md \
      bash scripts/run_end2end.sh

      HuggingFace 上也有 Gradio Demo 可以直接體驗:MinerU-Diffusion Demo

      這個項目的意義,在我看來不只是"一個更快的 OCR 模型"。它驗證了一個根本性的觀點——OCR 的本質是視覺任務,解碼方式應該與任務本質對齊。自回歸解碼是語言模型的標配,但 OCR 不是語言生成——你是在讀圖片,不是在寫文章。

      MinerU 團隊從 MinerU 到 MinerU2.5 再到今天的 MinerU-Diffusion,一路走來持續(xù)在 OCR 領域推動技術前沿。這次用 Diffusion 思路來解 OCR,確實是一步好棋。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世錦賽落幕,中國球員獎金分配出爐,吳宜澤第一趙心童第三

      世錦賽落幕,中國球員獎金分配出爐,吳宜澤第一趙心童第三

      觀察鑒娛
      2026-05-05 11:10:37
      賴斯:我們需要厄德高,尤其是在決賽中;決賽遇到誰不重要

      賴斯:我們需要厄德高,尤其是在決賽中;決賽遇到誰不重要

      懂球帝
      2026-05-06 06:57:11
      蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

      蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

      芊芊子吟
      2026-04-12 21:20:03
      河北市民買菜遇"怪事",剛買的西葫蘆放了4天,竟然長滿"硬疙瘩"

      河北市民買菜遇"怪事",剛買的西葫蘆放了4天,竟然長滿"硬疙瘩"

      夜深愛雜談
      2026-05-05 22:14:55
      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

      蠟筆小小子
      2026-04-21 14:43:37
      嘴上反對,心里狂喜:美國精英層為什么巴不得立刻再打伊朗

      嘴上反對,心里狂喜:美國精英層為什么巴不得立刻再打伊朗

      高博新視野
      2026-05-05 07:30:18
      季后賽場均14+6!博伊爾斯這個新秀值得期待!而他的女友同樣搶鏡!

      季后賽場均14+6!博伊爾斯這個新秀值得期待!而他的女友同樣搶鏡!

      籃球大圖
      2026-05-05 11:26:52
      里子面子全丟光!唐嫣新劇創(chuàng)下央8今年收視最低記錄

      里子面子全丟光!唐嫣新劇創(chuàng)下央8今年收視最低記錄

      手工制作阿殲
      2026-05-06 08:27:31
      1980年,得知父親江騰蛟將接受審判,江新德:我爸該落得這個結果

      1980年,得知父親江騰蛟將接受審判,江新德:我爸該落得這個結果

      雍親王府
      2026-05-04 13:00:14
      去醫(yī)院千萬不要和醫(yī)生說的三句話,很多人張口來,難怪越治越麻煩

      去醫(yī)院千萬不要和醫(yī)生說的三句話,很多人張口來,難怪越治越麻煩

      王二哥老搞笑
      2026-05-05 20:00:43
      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      夜深愛雜談
      2026-04-09 19:39:13
      巨好笑的神評來了!高手從不露臉,只在評論區(qū)大展身手

      巨好笑的神評來了!高手從不露臉,只在評論區(qū)大展身手

      蘭妮搞笑分享
      2026-05-04 19:07:21
      外媒:FIFA仍在與中印談世界杯轉播權,想對印度要6千萬美元

      外媒:FIFA仍在與中印談世界杯轉播權,想對印度要6千萬美元

      懂球帝
      2026-05-05 17:13:04
      張萌每一套都那么誘人

      張萌每一套都那么誘人

      鄉(xiāng)野小珥
      2026-04-30 15:18:35
      最好的報答,就是恩將仇報?孟加拉是如何讓印度欲哭無淚的

      最好的報答,就是恩將仇報?孟加拉是如何讓印度欲哭無淚的

      青途歷史
      2026-05-06 02:07:02
      長沙瀏陽市華盛煙花公司法定代表人:胡正平

      長沙瀏陽市華盛煙花公司法定代表人:胡正平

      行舟問茶
      2026-05-05 16:22:08
      眼紅啊!南寧一教師月薪14044元的截圖引熱議,網(wǎng)友:副高五級吧

      眼紅啊!南寧一教師月薪14044元的截圖引熱議,網(wǎng)友:副高五級吧

      火山詩話
      2026-05-06 07:43:22
      決勝盤錯失5-3領先!中國金花1-2被逆轉出局,無緣WTA1000賽正賽

      決勝盤錯失5-3領先!中國金花1-2被逆轉出局,無緣WTA1000賽正賽

      月下追尋者
      2026-05-05 19:45:09
      李小冉曬乘風后臺隨拍,隨性坐姿卻依舊美到犯規(guī)

      李小冉曬乘風后臺隨拍,隨性坐姿卻依舊美到犯規(guī)

      農(nóng)村黃煮任
      2026-05-05 21:12:13
      朱棣問姚廣孝:我大明江山能傳多少代?姚廣孝嘆道:本可傳500年

      朱棣問姚廣孝:我大明江山能傳多少代?姚廣孝嘆道:本可傳500年

      縱古貫今
      2026-05-05 21:44:08
      2026-05-06 08:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數(shù) 11146關注度
      往期回顧 全部

      科技要聞

      告別廢話文學與幻覺!GPT-5.5 Instant發(fā)布

      頭條要聞

      牛彈琴:高市終于下跪了 中韓等亞洲人內心感到氣憤

      頭條要聞

      牛彈琴:高市終于下跪了 中韓等亞洲人內心感到氣憤

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經(jīng)要聞

      70億,保時捷把布加迪賣了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      房產(chǎn)
      家居
      健康
      藝術
      數(shù)碼

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      家居要聞

      靈動實用 生活藝術場

      干細胞治燒燙傷面臨這些“瓶頸”

      藝術要聞

      江青鄧穎超等四位女性罕見合影,書法風格各異引關注!

      數(shù)碼要聞

      蘋果因內存短缺再砍Mac Studio與Mac mini的內存配置選項

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美日韩亚洲视频| 巨茎爆乳无码性色福利| 婷婷五月丁香五月| 日本精品aⅴ一区二区三区| 精品国产品香蕉在线| 亚洲欧美日本韩国| 精品va在线观看| 秋霞鲁丝无码一区二区三区| 2020亚洲天堂网| 黑人大战亚洲人精品一区| 无码人妻少妇色欲AV一区二区| 在线看日韩| 免费人成视频在线播放| 99久久久精品免费观看国产| 亚洲精品国产一区二区精华| 欧美精品videosex极品| 醴www,亚洲熟女,Com| 欧美性猛交xxxx黑人| 伊人久久大香线蕉AV网| 黄色网址在线播放| 欧美人与zoxxxx另类| 日韩丝袜欧美人妻制服| 国产av无码专区亚洲草草| 999国产精品| 亚洲最大国产成人综合网站| 九九99久久精品午夜剧场免费| 一区二区国产传媒视频| 国产又爽又黄又舒服又刺激视频| 99在线精品国自产拍中文字幕| 97人妻人人做人碰人人爽| 岛国无码在线观看| 精品国产自在久久现线拍| 亚洲精品第一| 欧美性爱播放| 四虎影视久久久免费观看| 国产精品大屁股1区二区三区| 精品夜夜澡人妻无码av| 亚洲性XXXX丝袜护士HD| 久久影院午夜理论片无码| 丝袜 亚洲 另类 欧美 变态| 成人无码区免费AⅤ片WWW|