<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      OCR 新紀元,超強文檔解析 Skills 來了

      0
      分享至


      知識管理缺了一塊拼圖

      前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki

      這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown

      合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出

      OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

      現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式

      先說大家最關心的格式支持問題,再細說安裝的事兒

      格式支持

      TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

      • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

      • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限

      Skills 地址:github.com/intsig-textin/xparse-skills

      核心是兩樣東西:

      • SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由

      • xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API

      整個工作流如下圖:


      用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

      全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

      安裝方式

      方式一:對話框一句話安裝

      在 Agent 對話框直接說:

      幫我從技能市場安裝 intsig-textin/xparse-parser

      方式二:npx 命令安裝(強烈推薦)

      npx skills add intsig-textin/xparse-skills

      我最推薦這種方式,比較優雅


      而且還可以一鍵安裝到所有 Agent 工具中


      憑證配置只要一條命令:

      xparse-cli auth

      按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取

      也支持環境變量方式(適合 CI/CD):

      export XPARSE_APP_ID=your_app_id
      export XPARSE_SECRET_CODE=your_secret_code
      用法

      在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

      例如:

      • “幫我讀一下這份PDF合同,提取關鍵條款”

      • “把這個報告轉成Markdown,保存到桌面”

      • “這份加密PDF密碼是123456,幫我解析前10頁”

      • “提取這張表格圖片里的內容,輸出JSON”

      核心命令詳解

      這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

      # 最基礎:解析 PDF,輸出 Markdown 到終端
      xparse-cli parse report.pdf

      # 輸出結構化 JSON
      xparse-cli parse report.pdf --view json

      # 保存到目錄(自動命名為 report.md / report.json)
      xparse-cli parse report.pdf --output ./result/

      # 保存到指定文件
      xparse-cli parse report.pdf --output parsed.md

      # 只解析指定頁碼范圍(支持多段)
      xparse-cli parse report.pdf --page-range 1-5
      xparse-cli parse report.pdf --page-range 1-2,5-10

      # 解析加密 PDF
      xparse-cli parse secret.pdf --password mypassword

      # 獲取字符級坐標和置信度(做人工核驗時用)
      xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

      值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:

      能力

      標題層級

      自動識別文檔結構,最多 5 級標題

      表格結構

      HTML 格式保留單元格層級

      圖片提取

      內嵌圖片識別和提取

      目錄樹

      自動生成文檔 TOC

      分頁結果

      頁面級元數據

      唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟

      幾個實用進階玩法

      ① 管道組合,直接喂給 LLM

      # 解析后搜索關鍵詞
      xparse-cli parse report.pdf | grep "revenue"


      # 解析完直接喂給 LLM 總結
      xparse-cli parse paper.pdf | llm "summarize this paper"

      ② 批量處理

      # 準備一個文件列表 files.txt,一行一個路徑
      xparse-cli parse --list files.txt --output ./results/

      ③ 從解析結果里下載圖片

      # 先解析為 JSON
      xparse-cli parse report.pdf --view json --output result.json


      # 再從 JSON 里批量下載所有圖片
      xparse-cli download --from result.json --output ./images/

      ④ 私有化部署

      如果是私有部署的 TextIn 服務,可以通過--base-url指定:

      xparse-cli parse report.pdf --base-url https://your-private-server.com
      總結

      xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:

      適合你用的場景:

      • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

      • 搭建 RAG 知識庫,需要高精度的文檔結構化

      • 日常工作要解析合同、財報、研報這類復雜文檔

      優缺點直說:

      評價

      ? 零代碼零門檻

      說話就能用,適合所有技術水平

      ? 復雜表格能力強

      跨頁拼接、合并單元格、無線表格都不虛

      ? 免費額度夠用

      PDF+ 圖片 1000 頁/天,輕度使用完全夠

      ? 管道/批量支持

      可與 LLM、腳本組合,適合自動化流水線

      ?? Word/PPT/Excel 需付費

      免費版只有 PDF 和圖片

      ?? 免費版 10MB 限制

      大型 PDF 需要付費賬戶

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月14日,人社部公布2026年養老金調整通知了嗎?來看看最新動態

      5月14日,人社部公布2026年養老金調整通知了嗎?來看看最新動態

      社保小達人
      2026-05-14 11:48:06
      看完《低智商犯罪》24集結局,我心情復雜意猶未盡,寫下這篇文章

      看完《低智商犯罪》24集結局,我心情復雜意猶未盡,寫下這篇文章

      八卦南風
      2026-05-14 13:28:54
      上海中環一段道路因車速109碼被記6分!司機哭訴防不勝防,引熱議

      上海中環一段道路因車速109碼被記6分!司機哭訴防不勝防,引熱議

      火山詩話
      2026-05-14 06:11:38
      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      極目新聞
      2026-05-14 16:30:33
      起底日本抹黑中國流水線:利用AI批量生成“中國人不文明”等內容!自2015年以來,已投入超560億日元預算對華展開輿論抹黑

      起底日本抹黑中國流水線:利用AI批量生成“中國人不文明”等內容!自2015年以來,已投入超560億日元預算對華展開輿論抹黑

      每日經濟新聞
      2026-05-14 15:09:59
      中國領空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      中國領空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      聞識
      2026-05-14 13:25:29
      急急急!特朗普第二次訪華開局不利,打破一個慣例,普京:將受益

      急急急!特朗普第二次訪華開局不利,打破一個慣例,普京:將受益

      田柳
      2026-05-15 09:00:06
      收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

      收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

      究竟誰主沉浮
      2026-03-24 02:59:41
      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      金曲獎來了,看完提名名單,我要說:華語樂壇完了!

      八卦南風
      2026-05-13 18:27:59
      姆巴佩:阿韋洛亞說我是隊內第四前鋒

      姆巴佩:阿韋洛亞說我是隊內第四前鋒

      懂球帝
      2026-05-15 06:00:41
      一架俄羅斯專機深夜直飛中國,搶先特朗普半天,先一步抵達北京

      一架俄羅斯專機深夜直飛中國,搶先特朗普半天,先一步抵達北京

      裝滿幸福
      2026-05-15 07:22:51
      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      高博新視野
      2026-05-13 07:30:17
      “吃20個餃子用8張餐巾紙” 餃子店老板發視頻吐槽被指格局太小

      “吃20個餃子用8張餐巾紙” 餃子店老板發視頻吐槽被指格局太小

      閃電新聞
      2026-05-14 09:58:40
      你見過多少賭博做局內幕?網友:全是精心套路,根本贏不了

      你見過多少賭博做局內幕?網友:全是精心套路,根本贏不了

      另子維愛讀史
      2026-05-13 07:43:50
      哈登96勝無冠歷史第二,距馬龍僅差2勝,36歲還在沖

      哈登96勝無冠歷史第二,距馬龍僅差2勝,36歲還在沖

      林子說事
      2026-05-14 12:49:18
      現貨白銀日內大跌5%

      現貨白銀日內大跌5%

      財聯社
      2026-05-15 04:39:08
      采訪兩位年薪60萬(字節2-2、阿里P7)女生,房子、婚姻、被裁

      采訪兩位年薪60萬(字節2-2、阿里P7)女生,房子、婚姻、被裁

      螞蟻大喇叭
      2026-04-14 11:21:18
      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      阿廢冷眼觀察所
      2026-05-14 17:52:15
      重慶“網紅佛頭”雕刻者找到了!74歲石匠師傅:瀘定橋紀念碑文、“小蘿卜頭”雕像均出自他手

      重慶“網紅佛頭”雕刻者找到了!74歲石匠師傅:瀘定橋紀念碑文、“小蘿卜頭”雕像均出自他手

      封面新聞
      2026-05-14 19:04:40
      收視率暴跌,為什么05年馬刺活塞的“鐵血七場”反而成了經典

      收視率暴跌,為什么05年馬刺活塞的“鐵血七場”反而成了經典

      林子說事
      2026-05-14 18:09:32
      2026-05-15 09:27:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3403文章數 11152關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      數碼
      藝術
      親子
      手機
      公開課

      數碼要聞

      雷蛇發布2026款靈刃18游戲本,聚焦細節升級

      藝術要聞

      花園里,花叢中

      親子要聞

      “67歲自然懷孕”的天賜媽媽,現狀曝光:7年前的預言,正在應驗

      手機要聞

      英特爾試產蘋果部分A/M系列芯片 臺積電獨家代工地位或就此松動

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成在线人视频免费视频| 久久久久久久av| 人妻无码免费系列| 玛多县| 久久国产福利播放| 亚洲国产精品综合久久网络| 中文字幕日韩精品人妻在线第一区| 午夜无码一区二区三区在线app| 思思99热| 日韩无码网站| 中文有码无码人妻在线| 亚洲嫩模一区二区三区| 无码国产精品一区二区免费式直播| 色综合久久久无码中文字幕波多| 成人永久在线| 国产麻豆乱子伦午夜视频观看| www.四虎.com| 久久精品免视看国产明星| 视频一区国产第一页| 国产偷自视频区视频| 麻豆精品在线| 在线视频一区二区亚洲| 日本成人不卡视频| 成人免费的视频| 亚洲中文字幕播放| 中文字幕一区二区三区在线毛片| 人妻聚色窝窝人体WWW一区| 国语自产精品视频在 视频| 国产成人精品亚洲一区二区| 日韩电影在线观看视频| 久久国产综合精品欧美| 337p日本欧洲亚洲| 最近中文字幕完整版hd| 天天狠天天天天透在线| 国产精品自在在线午夜出白浆 | 2021精品国产自在现线看| 天堂tv亚洲tv无码tv| 国产真实露脸精彩对白| 国产9 9在线 | 中文| 精品久久久亚洲中文字幕| 欧美日韩无套内射另类|