<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      阿里巴巴團隊開源,OCR 又來一個高手,第一!

      0
      分享至

      大家好,我是Ai學習的老章

      OCR 我寫過太多了,每隔一段時間就有新模型出來:

      今天這位選手是阿里巴巴團隊開源的Logics-Parsing-v2,在兩個主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


      https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

      市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個字:全能

      傳統 OCR 做的事情比較窄——識別文字、提取表格、處理公式。但實際文檔遠比這復雜:報紙那種多欄排版、跨頁表格、豎排文字、手寫內容……這些"臟活累活",大部分模型處理得都不太行。

      Logics-Parsing-v2 在 v1 的基礎上,除了把這些傳統任務做得更好之外,還加了一個全新的能力維度,叫Parsing-2.0——支持解析以下內容:

      • 流程圖 / 思維導圖→ 輸出 Mermaid 格式

      • 樂譜→ 輸出 ABC 記譜法

      • 代碼塊 / 偽代碼→ 結構化提取

      • 化學分子式→ SMILES 格式

      你沒看錯,它能看懂樂譜。這在 OCR 領域算是相當炸裂的能力了。


      Logics-Parsing-v2 能力概覽——從傳統文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績單

      先看自家的LogicsDocBench,這是阿里專門建的評測集,900 頁 PDF,覆蓋三大場景:

      場景

      頁數

      包含內容

      STEM 文檔

      218 頁

      物理、數學、工程等十多個學科

      復雜排版

      459 頁

      多欄、跨頁表格、豎排、圖文混排

      Parsing-2.0

      223 頁

      化學式、樂譜、代碼塊、流程圖

      在這個 Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠超其他選手。


      LogicsDocBench 評測結果——Logics-Parsing-v2 全面領先

      再看公開的OmniDocBench-v1.5,這個是業界公認的文檔解析評測標準。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


      OmniDocBench-v1.5 評測結果——開源模型首次登頂

      說實話,開源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測過不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現在這個天花板被捅穿了。

      跟其他模型比怎么樣?

      在阿里自建的 Benchmark 上(v1 評測,數值越低越好,TEDS 越高越好):

      幾個值得關注的對比:

      • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競爭力

      • vs Mathpix:公式識別 Mathpix 還是很強(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

      • vs MonkeyOCR / GOT-OCR:全面領先,不在一個檔次

      • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優勢明顯

      一個模型,端到端推理,不需要復雜的 pipeline,直接圖片進、HTML 出。這個思路比傳統的"檢測+識別+后處理"流水線簡潔太多了。

      輸出格式很講究

      Logics-Parsing-v2 輸出的不是純文本,而是結構化 HTML

      每個內容塊都帶有:

      • 類別標簽:段落、表格、圖片、公式等

      • 邊界框坐標:精確到像素級的位置信息

      • OCR 文本:識別出的內容

      對于 Parsing-2.0 的新場景,輸出格式也做了定制:

      • 流程圖 →Mermaid語法(可以直接渲染)

      • 樂譜 →ABC 記譜法(音樂人看得懂)

      • 化學式 →SMILES格式(化學標準表示)

      這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

      怎么跑?

      部署很簡單:

      conda create -n logics-parsing-v2 python=3.10
      conda activate logics-parsing-v2
      pip install -r requirements.txt

      下載模型(HuggingFace 或 ModelScope 二選一):

      # HuggingFace
      pip install huggingface_hub
      python download_model_v2.py -t huggingface


      # ModelScope(國內更快)
      pip install modelscope
      python download_model_v2.py -t modelscope

      推理一行搞定:

      python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

      基于 Qwen3-VL 架構,對 GPU 有一定要求,但不算離譜。

      實際效果展示

      說了這么多數據,看幾個實際效果:

      扭曲文檔識別——拍照角度歪斜、紙張彎曲,照樣準確識別:


      扭曲文檔識別效果

      STEM 文檔——復雜的數學公式、物理圖表,結構完整保留:


      STEM 文檔解析效果

      代碼塊識別——不只是識別文字,還能保留代碼結構:


      代碼塊識別效果

      流程圖解析——識別流程圖并轉成 Mermaid 代碼,可以直接渲染:


      流程圖解析效果

      樂譜識別——這個真的是第一次在 OCR 模型里見到:


      樂譜識別效果 總結

      Logics-Parsing-v2 給我的感覺就是:OCR 這個賽道,終于有一個模型把"全能"兩個字做到位了

      • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

      • Parsing-2.0:流程圖、樂譜、代碼、化學式,傳統 OCR 碰都不碰的東西它全能解

      • 端到端單模型:不需要復雜 pipeline,圖片進 HTML 出

      • 開源免費:代碼和模型全部開放

      如果你在做文檔數字化、論文解析、知識庫構建這類工作,這個模型真的值得試試。

      • GitHub:https://github.com/alibaba/Logics-Parsing

      • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

      • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      中國女子在挪威被捕被指控收集衛星數據 外交部:堅決反對任何對中方的無端指責和惡意抹黑

      中國女子在挪威被捕被指控收集衛星數據 外交部:堅決反對任何對中方的無端指責和惡意抹黑

      每日經濟新聞
      2026-05-08 22:49:23
      徹底攤牌!火箭官宣留下杜蘭特,不交易等傷兵,下賽季背水一戰

      徹底攤牌!火箭官宣留下杜蘭特,不交易等傷兵,下賽季背水一戰

      海闊山遙YAO
      2026-05-09 12:02:44
      徹底打臉!皇馬球迷狂噴安切洛蒂下課,如今才懂他有多神

      徹底打臉!皇馬球迷狂噴安切洛蒂下課,如今才懂他有多神

      奶蓋熊本熊
      2026-05-09 04:50:02
      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業務給停了

      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業務給停了

      新浪財經
      2026-05-08 15:09:54
      泰康人壽全國銷冠被拘

      泰康人壽全國銷冠被拘

      菜鳥理財
      2026-05-08 11:42:38
      “牛鼻子”校友有了新身份,就職衡水泰華中學科技校長

      “牛鼻子”校友有了新身份,就職衡水泰華中學科技校長

      趣筆談
      2026-05-06 11:30:03
      1991年蘇聯解體后,當年叛逃蘇聯的開國少將馬爾果夫通過外交致信懇請歸國,我國如何處理的

      1991年蘇聯解體后,當年叛逃蘇聯的開國少將馬爾果夫通過外交致信懇請歸國,我國如何處理的

      花開無田
      2026-05-05 10:44:31
      活塞超級奇兵,鄧羅三分爆發,從熱火棄子強勢逆襲

      活塞超級奇兵,鄧羅三分爆發,從熱火棄子強勢逆襲

      秋姐居
      2026-05-09 10:43:47
      京滬大戰主裁公布!馬寧主哨國安已11戰不勝,3年兩負海港

      京滬大戰主裁公布!馬寧主哨國安已11戰不勝,3年兩負海港

      奧拜爾
      2026-05-09 10:41:49
      國際奧委會官宣上海成為2028年奧運會賽事的舉辦城市

      國際奧委會官宣上海成為2028年奧運會賽事的舉辦城市

      安安說
      2026-05-09 10:59:51
      老舊小區原拆原建,有人算了一筆賬,果然吃虧的是老業主啊!

      老舊小區原拆原建,有人算了一筆賬,果然吃虧的是老業主啊!

      墜入二次元的海洋
      2026-05-08 13:52:48
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      足協強硬表態!世界杯期間中超不停擺,聯手央視硬剛國際足聯

      足協強硬表態!世界杯期間中超不停擺,聯手央視硬剛國際足聯

      漫川舟船
      2026-05-09 03:25:57
      生吃解毒,熟吃潤肺,大量上市,10元5斤,兩天吃一次,作用真多

      生吃解毒,熟吃潤肺,大量上市,10元5斤,兩天吃一次,作用真多

      馬蹄燙嘴說美食
      2026-05-09 11:06:23
      成都“牽手門”事件女主現今狀況曝光,太慘了......

      成都“牽手門”事件女主現今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      文章面館正式開業,免費送汽水喝,馬伊琍帶著兩女兒低調支持!

      文章面館正式開業,免費送汽水喝,馬伊琍帶著兩女兒低調支持!

      老吳教育課堂
      2026-05-08 20:15:22
      大連5外援齊發青島,毛偉杰大考 頂住葉博亞沖擊 斯坦丘能踢半場

      大連5外援齊發青島,毛偉杰大考 頂住葉博亞沖擊 斯坦丘能踢半場

      替補席看球
      2026-05-09 11:39:00
      倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

      倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

      林子說事
      2026-05-09 11:27:17
      廣州飛新加坡航班遇嚴重顛簸:劇烈起伏如坐過山車,緊急迫降巴淡島

      廣州飛新加坡航班遇嚴重顛簸:劇烈起伏如坐過山車,緊急迫降巴淡島

      新加坡眼
      2026-05-08 17:55:20
      2026-05-09 12:51:04
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3384文章數 11148關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      女子每月花10萬租住酒店遭索3300元磨損費 最新發聲

      頭條要聞

      女子每月花10萬租住酒店遭索3300元磨損費 最新發聲

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財經要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      時尚
      教育
      家居
      房產
      公開課

      盧昱曉真的要被審判到這種程度嗎?

      教育要聞

      北京師范大學第1專業,就業現狀與報考性價比分析!#金榜同行人

      家居要聞

      菁英人居 全能豪宅

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品综合av一区二区国产馆| 中国普通话特级毛片| 亚洲一区二区三区av免费| 久久精品国产亚洲αv忘忧草| 国产偷国产偷亚洲清高APP| 丰满的少妇xxxxx青青青| 2020亚洲男人天堂| 国产精品亚洲精品日韩已方| 西西人体大胆瓣开下部69| 激情偷乱人伦小说视频| 欧美日本视频在线观看| 中文字幕亚洲无线码在线一区| 色老大久久综合网天天| 亚洲国产av自拍精选| 久久久久青草大香综合精品| 最新中文字幕AV无码专区不| 久久精品国产一区二区电影| 日韩无码AV电影网| 国产第一页屁屁影院| 中文字幕第一页国产| 婷婷亚洲国产成人精品性色| 国产精品无码一区二区三区| 亚洲中文字幕成人综合网| 懂色av一区二区夜夜嗨| gogogo高清在线播放免费| 真实国产乱子伦视频| 少妇人妻在线无码天堂视频网| 男人的天堂av社区在线| 国产精品99精品一区二区三区∴| 麻豆亚洲国产成人精品无码区| 亚洲精品www久久久久久| 中文字幕二区三区| 午夜免费视频国产在线| 久久久久se色偷偷亚洲精品av| 欧美无人区码一码二码三码的区别| 拍国产真实乱人偷精品| 精品国产av| 久久久无码视频| 欧美一级高清片在线观看| 岛国毛片一级一级特级毛片| 丰满无码人妻热妇无码区|