一個IP專員季度末的典型一天:打開USPTO,復制粘貼20小時,最后發現同一家公司被記成了5個名字。
專利數據庫理論上全公開,但"能訪問"和"能用"是兩回事。2025年了,這活兒為什么還這么苦?
![]()
五座大山:專利調研的結構性痛點
第一個麻煩是數據源碎片化。USPTO PatFT/AppFT、Google Patents、Espacenet、WIPO PATENTSCOPE,再加上日本J-PlatPat、中國國知局——每家搜索語法不同,分頁邏輯各異,導出格式亂七八糟。
第二個坑更隱蔽:沒有標準化導出層。USPTO確實有批量數據門戶,但想要結構化的單次查詢導出(帶權利要求文本、受讓人歷史、審查元數據)?得自己折騰。Google Patents干脆不給普通用戶官方接口。
第三個是名稱歸一化噩夢。同一家公司可能叫"International Business Machines"、"IBM Corp."、"IBM Corporation"、"I.B.M.",還有拼寫錯誤。自動去重?技術上非平凡問題。
第四個涉及語言本身。權利要求文本是密集的對抗性散文,為 survive 審查而生。把獨立權利要求翻譯成產品團隊能懂的大白話,傳統上需要 trained attorney 逐條閱讀。
第五個是時間滯后。專利申請18個月后才公開。追蹤"現在誰在提交什么"、監控續案申請、跟蹤狀態變更——這需要持續監視,不是一次性拉取能解決的。
工具層:Browzey 的解題思路
Browzey 的定位是"AI引導的瀏覽器自動化",專門針對這類工作流。不用寫CSS選擇器或脆弱的XPath查詢,直接用自然語言描述需求,agent 負責導航、提取、結構化。
專利場景下,它的核心能力有三塊:
跨站點導航——自動處理不同數據庫的搜索語法和分頁;智能提取——從非結構化頁面抓權利要求、受讓人、日期等字段;數據歸一化——內置處理公司名稱變體的邏輯。
一個典型指令長這樣:
「去 patents.google.com,搜索'transformer架構',申請日2022-01-01至2024-12-31,受讓人排除Google和Meta。前三頁結果,提取:公開號、標題、摘要、第一獨立權利要求、受讓人名稱、申請日、法律狀態。」
注意這里的細節:時間范圍過濾、排除特定公司、指定輸出字段——這些在傳統工作流里需要多次點擊和手動復制。
為什么現在能成:技術棧的成熟
瀏覽器自動化不是新概念,但前幾年卡在兩個地方:腳本脆弱(頁面一改就崩)、提取弱智(只能抓固定位置文本)。
大語言模型(LLM,大語言模型)的加入改變了游戲規則。現在的 agent 能"理解"頁面結構,即使布局微調也能定位目標信息;能把非標準格式的日期、公司名稱自動規范化;還能把法律術語翻譯成業務語言。
具體到專利場景,這意味著:15-20小時的季度審查,可能壓縮到2-3小時的指令調試+結果校驗。省下的時間不是邊際改善,是數量級差異。
落地建議:從最小閉環開始
別一上來就追求"全自動"。建議路徑:
第一步,選一個重復性最高的子任務——比如"監控競爭對手的新公開專利",用 Browzey 跑通單輪查詢→提取→郵件通知的閉環。
第二步,逐步疊加復雜度:加入跨庫交叉驗證、名稱去重、權利要求摘要生成。
第三步,把校驗環節嵌入流程。AI提取的準確率取決于頁面結構穩定性,專利數據庫偶爾改版,需要人工抽檢機制。
最后一點:這類工具的真正價值不是"替代人",而是把人的注意力從機械操作轉移到判斷和策略上。專利調研的核心競爭力從來不是復制粘貼的速度,而是對技術趨勢和競爭格局的解讀。
如果你現在還在手動跨五個數據庫查專利,本周花兩小時試跑一個自動化腳本——時間ROI大概率是正的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.