![]()
![]()
![]()
一、版本概覽
github.com/infiniflow/ragflow 的 v0.25.1 于 2026 年 5 月 2 日發布。
這次版本更新可以說是一次“全面升級”:一方面對 Web API、HTTP API、RESTful 路由進行了大規模統一和重構,另一方面在文檔解析、PDF 大文件處理、數據源同步、模型支持、問題修復等方面也有明顯增強。
如果用一句話概括這個版本,可以說是:
統一接口、優化解析、增強同步、擴展模型、修復大量升級與使用問題。
下面將按照“Summary、Improvements、Model support、Model providers、Bug fixes、What's Changed”這幾個部分,把 v0.25.1 的更新內容完整梳理出來,便于你快速了解這次升級的重點。
二、版本摘要 1)API 重構與統一
本次版本最核心的變化之一,就是API refactoring and unification。
官方對各類接口做了標準化處理,把 Web API 統一為 RESTful 風格,同時對文檔創建、索引流程進行了統一整合,并且保持了向后兼容。
這意味著什么?
意味著在后續開發、對接、維護過程中,接口風格會更加一致,邏輯會更清晰,使用和擴展的成本也會更低。對于長期集成 ragflow 的用戶來說,這類變化通常會顯著提升系統可維護性。
2)解析性能優化
本版本新增了OpenDataLoader PDF backend,并且對 PDF 解析做了進一步優化。
尤其值得注意的是:
? 對于超過 50 頁的大 PDF,新增了lazy loading 和 chunked parsing
? 這樣可以顯著降低內存占用
? 對大文件處理的穩定性和效率都有提升
同時,版本里還提到對超過 300 頁的大 PDF的解析失敗問題做了修復,說明這次在 PDF 處理鏈路上改動非常集中,也非常關鍵。
3)數據源同步增強
這次更新還增強了多種數據源的刪除文件同步能力,包括:
? Bitbucket
? Gmail
? Google Drive
? Airtable
? GitLab
? Dropbox
? Discord
這類能力的增強很實用,尤其適合需要保持知識庫內容與外部數據源狀態一致的場景。
4)模型支持更新
本版本新增或擴展了多個模型支持與模型提供方支持,其中包括:
? DeepSeek v4
? UCloud
? Astraflow
? Minimax
? Gitee
? SiliconFlow
? Aliyun
? Google
? Volcengine
? Moonshot
? Paddle 更多模型
這說明 ragflow 在模型生態兼容性上繼續擴張,適配范圍更廣。
5)Bug 修復
官方還修復了多個重要問題,包括:
? v0.24.0 到 v0.25.0 升級期間的元數據可見性問題
? 重復聊天輸出
? 文檔與 SDK 搜索消息時 user_id 支持問題
? 上傳流導致文件截斷問題
? 大量接口、頁面、同步、展示、解析相關問題
下面進入重點部分,把本次更新按類別完整展開。
四、API 重構與 RESTful 統一
v0.25.1 的大量提交都集中在 API 重構上,說明這次版本的一個主線就是:把原來分散的接口逐步整合到統一的 RESTful 設計下。
1. 文檔相關接口統一
本次對以下內容做了統一或遷移:
? document get_filter
? document infos
? document delete api
? document create flows
? document metadata config update API
? file2document
? doc metadata update
? document upload_and_parse API
? document run api
? document thumbnails API
? doc parse API 的清理
? doc batch change status
? document upload info used in chat
? document metadata config
這表明文檔相關鏈路幾乎全線被梳理了一遍,從創建、上傳、解析、運行、刪除、縮略圖、信息獲取、元數據更新,到批量狀態變更都進行了重構。
2. Chat、Search、Chunk、MCP、Agent 等 REST 化
除了文檔鏈路,本次還對多個系統級模塊進行了 REST API 改造或遷移:
? chat 和 search 的 restful API 對齊
? chunk APIs 遷移為 RESTful routes
? MCP APIs 遷移到 RESTful api
? agent webhook routes 遷移到 REST APIs
? system apis 重構
? stats_api 和 plugin_api 重構
? artifact API 遷移
? user REST API 重構
? tenant api 重構
? task API 新增
這些變化說明 ragflow 正在系統性地統一整個 API 體系,不只是局部修修補補,而是向著更一致、更規范的服務端接口結構推進。
3. 向后兼容支持
本次還加入了backward compat APIs。
這非常重要,因為 API 大規模重構最怕影響舊系統接入,而向后兼容接口的加入,可以幫助已有用戶平滑過渡。
4. 其他接口調整
版本中還包括:
? restore openai-compatible chat completions api
? align list operations and strict mode
? search id 或 _id 都可支持
? query param type 修復
? allow use image2text as chat model
? support release in agent update api
? fix api user patch verb does not work
這些看似分散,但都屬于 API 層面的穩定性和一致性修復。
五、文檔解析與 PDF 處理優化
這是本版本另一個非常突出的亮點。
1. 新增 OpenDataLoader PDF parser backend
版本中新增了OpenDataLoader PDF parser backend。
這意味著 ragflow 在 PDF 接入和解析后端上又多了一種可用方案。
2. 大 PDF 的懶加載與分塊解析
對于超過 50 頁的 PDF,新增了:
? lazy loading
? chunked parsing
這類機制的核心好處是減少一次性加載帶來的資源壓力,尤其適合大文檔、掃描件、長報告、手冊類文件。
3. 路由到 native chunking endpoints
版本里還提到:
? route docling parsing through native chunking endpoints
說明解析流程和 chunk 處理流程進一步貼近統一的原生分塊接口。
4. 刪除硬編碼頁數限制
修復了:
? hardcoded page limits causing parsing failures on large PDFs (>300 pages)
這意味著超大 PDF 的解析失敗問題得到處理,和前面的懶加載、分塊解析形成配套優化。
5. MinerU 相關修復
版本中還包括對 MinerU 解析鏈路的多個修復:
? switch MinerU API endpoint to /pdf_parse
? MinerU 3.x output discovery and API contract
說明 PDF 解析后端適配上做了明顯調整。
6. 其他解析相關改進
還有這些內容:
? manual naive parser position extraction fallback
? fix isinstance before len in VariableAssigner _remove_first/_remove_last
? fix thumbnail issue in chat
? update rootAsHeadingTip
? optimize title chunk
? docling parse routing
? performance improvements for image loading and parse_into_bboxes
整體來看,這一版的解析優化非常系統,既有性能優化,也有兼容修復,還有后端適配。
六、數據源同步能力增強
本版本對“同步刪除文件”這個能力做了非常廣泛的擴展。
1. 已支持刪除同步的數據源
本次支持同步刪除文件的連接器包括:
? Bitbucket
? Gmail
? Google Drive
? Airtable
? GitLab
? Dropbox
? Discord
還特別提到:
? optimize memory payload and enable sync deletion
? google authentication - gmail && google-drive
說明這兩個數據源不僅支持刪除同步,還修復了認證與內存負載方面的問題。
3. 其他同步相關修復
還有:
? skip unsupported files before download
? prune deleted doc chunks from retrieval
這意味著刪掉的內容在同步、下載、檢索鏈路中會更合理地被處理,避免臟數據繼續影響結果。
七、模型支持與模型提供方更新 1. 新增模型支持
本版本新增DeepSeek v4支持。
這是本次模型能力更新里最醒目的內容之一。
2. 新增模型提供方
版本中新增或補充了多個 provider 支持:
? UCloud
? Astraflow
? Minimax
? Gitee
? SiliconFlow
? Aliyun
? Google
? Volcengine
? Moonshot
版本中還提到:
? more model for paddle
? add deepseek and moonshot model json
? update based on more model support
這表示模型配置和適配層做了擴展,模型選擇更加豐富。
4. 其他模型相關修復
還包括:
? model in GO refactor
? model type to model class
? remove model_bundle.go
? fix think tags in final chat answer
? fix DeepSeek think history
? normalize think tags in final chat answer
? allow image2text as chat model
這表明模型調用和輸出處理鏈路都進行了整理。
八、聊天、檢索、Agent、GraphRAG 等能力調整 1. 聊天功能修復
本版本修復了多個聊天相關問題,其中最典型的是:
? 修復了重復聊天輸出
? 修復了思考模型在聊天頁輸出重復文本
? 修復了chat shared page 中 canvas SSE fetch 導致的 spurious 103 error
? 修復了聊天頁底部按鈕點擊無法彈出對話框的問題
? 修復了聊天中的 thumbnails 問題
? 修復了chat recommendation 和 thumbup API 對齊問題
? 修復了widget 頁面右下角按鈕無法顯示彈窗的問題
? 修復了duplicate chat output
? 修復了final chat answer 中 think tags 的規范化問題
? 修復了DeepSeek think history 相關問題
? 修復了image2text 可作為 chat model 使用的問題
這些修復說明聊天頁面、輸出流、推薦交互、縮略圖、模型思考歷史等多個環節都進行了穩定性處理。
2. 檢索與召回調整
本版本還修復和增強了檢索相關能力,包括:
? 支持search id 或 _id
? 修復allow search id or _id
? 修復retrieval fallback comments
? 修復prune deleted doc chunks from retrieval
? 在 GO 中實現retrieval_test
? 將chunk retrieval_test 和 knowledge_graph遷移到 REST API endpoints
? 修復enable sync deleted file 后對檢索的影響
這些更新說明檢索鏈路在 ID 兼容性、刪除內容過濾、測試接口、REST 化方面都做了調整。
3. Agent 相關更新
Agent 模塊在這一版也有明顯動作,包括:
? 新增Agent api
? 將agent webhook routes遷移到 REST APIs
? 修復agent toolcall null response
? 修復schema validation
? 修復DeepSeek think history
? 修復support release in agent update api
? 優化agent reset conversation variable defaults
? 修復prioritize explore session ID and reset default conversation variables
說明 Agent 的 API、變量默認值、工具調用返回、發布支持、會話優先級等都進行了整理。
4. GraphRAG 相關修復
版本中與 GraphRAG 相關的內容也不少:
? 修復GraphRAG entity resolution merges以避免 graph mutation races
? 修復delete graphrag raptor
? 修復graph task type
? 修復delete graph
? 修復GraphRAG icon not displaying
? 新增persist RAPTOR layer metadata on summary chunks
? 新增persist PDF bookmark outline as document metadata
這些改動說明 GraphRAG、RAPTOR、圖任務、圖刪除、元數據持久化和圖標展示都經歷了較多修復。
九、數據與元數據相關更新 1. 元數據可見性與遷移問題修復
這次版本明確修復了:
? v0.24.0 到 v0.25.0 升級期間的metadata visibility issues
?Recall Test Page Metadata Not Displaying
?document level auto metadata config missing after save
?document level auto metadata config
?metadata parsing regression for upgraded v0.24 datasets
?metadata config
?doc metadata update
?migrate document metadata config update API
?migrate doc upload info used in chat
?document level auto metadata config missing after save
這些問題都和升級后的元數據展示、保存、解析、配置遷移有關,屬于版本升級中的高頻痛點,這次都做了修復和重構。
2. 元數據與數據集操作
版本中還涉及:
? dataset management endpoints
? visit dataset error
? file logs not displayed in dataset ingestion page
? dataset: general chunk method 配置選項缺失
? fix api and sdk support of searching message with user_id
? fix document and sdk support of searching message with user_id
? fix query param type
? fix preserve infinity available_int zero filter
? fix case-insensitive matching for manual meta_data_filter in / not in list values
這說明數據集、消息搜索、過濾條件、日志展示、chunk 配置等也都在同步調整。
3. 數據庫與遷移文檔
版本還新增了:
? database schema and migration guide
這表示官方提供了數據庫結構和遷移指引,有助于用戶理解升級變化。
十、連接器與數據源同步的進一步擴展
前面已經提到刪除文件同步能力增強,這里再完整整理一下本版本涉及的連接器和相關修復。
1. 新增或增強刪除同步能力的連接器
這次明確支持同步刪除文件的場景包括:
? Bitbucket
? Gmail
? Google Drive
? Airtable
? GitLab
? Dropbox
? Discord
還包括:
? fix blob sync: skip unsupported files before download
? fix google authentication - gmail && google-drive
? optimize memory payload and enable sync deletion
? enable sync deleted files in gitlab
? support deleted-file sync in dropbox
? enable sync deleted file for Discord
? enable sync deleted files in Bitbucket
? enable sync deleted files for Gmail && fix google drive issues
? enable sync deleted file in airtable
這些條目說明連接器側的刪除同步能力是本版本的重要工作方向之一,而且覆蓋面很廣。
十一、Go 端與服務端能力更新
這一版在 Go 相關能力上也做了很多補充和修復。
1. 新增和擴展 provider
Go 端新增或擴展了這些模型提供方:
? UCloud
? Astraflow
? minimax
? gitee
? siliconflow
? aliyun
? google
? volcengine
? moonshot
? drop instance models
還有:
? add balance command
? update db model
? implement provider: Moonshot
? implement provider: volcengine
? implement provider: MiniMax
? fix compilation
? update chat URL
? update create model instance command
? refactor model in GO
? refactor model type to model class
? simplify Encode
? remove model_bundle.go, modify chat_session.go
? add new provider
? add redis zcard
? add missing timeout to ragflow server health check
? add executor.shutdown
? go: fix compilation
這些內容體現出 Go 端在 provider、編譯、健康檢查、聊天會話、模型抽象、命令行、數據庫、Redis 等方面都有同步維護。
十二、前端、頁面與交互修復
本版本的 UI 和頁面問題修復也不少。
1. 頁面和按鈕問題
包括:
? chat 頁面重復輸出修復
? widget 頁面右下角按鈕彈窗問題修復
? PaddleOCR dialog 按鈕樣式問題修復
? GraphRAG 圖標不顯示修復
? thumbnails issue in chat 修復
? file logs table pipeline column header 顯示錯誤修復
? file logs not displayed in dataset ingestion page 修復
還有:
? Recall Test Page Metadata Not Displaying
? visit dataset error
? fix button styles in PaddleOCR dialog
? fix widget page dialog display
? fix chart or table related display problems
? fix v0.24 to v0.25 metadata visibility issues
? fix chat shared page SSE fetch error
這些修復說明頁面體驗、表格顯示、對話框、日志、縮略圖、圖標展示等都在這一版被持續整理。
十三、文檔、說明與發布相關內容
本版本還包含多項文檔和發布說明更新:
? add DeepWiki developer guide page
? user-level memory is supported in v0.25.0
? v0.25.0 release notes
? two PDF parser optimizers are supported as of v0.25.0
? fix API key guide typo
? updated a 0.25-specific faq
? update API document
? update version references to v0.25.1 in READMEs and docs
? add database schema and migration guide
? updated Title chunker references
? add shared UI component lock convention to CLAUDE.md
? release note update
這些內容說明本版本不僅改了代碼,也補充和維護了大量文檔、指南、FAQ、版本引用和遷移說明。
十四、安全、穩定性與兼容性修復
這一版還針對不少穩定性和安全性問題進行了處理。
1. 安全相關
包括:
? validate URL scheme and resolved IP before crawling to prevent SSRF
這是一個非常關鍵的安全修復,說明抓取流程對 URL 與 IP 做了更嚴格校驗。
2. 上傳與文件處理穩定性
包括:
? fix upload stream handling to prevent truncated files
? skip unsupported files before download
? add executor.shutdown
? add missing timeout to health check
這些修復提升了上傳、下載、任務執行和健康檢查的穩定性。
3. 兼容性與數據處理
包括:
? fix Infinity table-not-exist error
? preserve infinity available_int zero filter
? fix case-insensitive matching for manual meta_data_filter
? fix query param type
? always return success if no such task id
? fix api user patch verb does not work
? fix commit override from api-key to api_key
? fix create folder does not accept FOLDER
? fix allow search id or _id
這些都屬于接口行為、參數兼容、過濾邏輯和異常返回方面的
十五、繼續整理:更多 API、任務、檢索與系統修復 1. 任務與調度相關
本版本在任務管理上也有補充:
? 新增task API
? 修復always return success if no such task id
? 修復add executor.shutdown
? 修復add missing timeout to ragflow server health check
這些內容說明任務創建、查詢、執行收尾和健康檢查鏈路都更完整了。
2. 系統與基礎接口調整
本次還涉及:
?system apis重構
?tenant api重構
?stats_api and plugin_api重構
?REST API langfuse api-key調整
?API connectors重構
?api document更新
?api refactor: stats_api and plugin_api
?refactor user REST API
?fix api user patch verb does not work
?fix commit override from api-key to api_key
這類工作雖然不直接面向業務功能,但對系統統一性和長期維護很重要。
十六、上傳、文件、縮略圖與解析鏈路修復 1. 文件上傳與流處理
這次修復了:
? upload stream handling to prevent truncated files
這說明上傳過程中斷文件被截斷的問題得到處理。
2. 文件與縮略圖
還包括:
? thumbnails issue in chat
? migrate document thumbnails API
? fix thumbnails issue in chat
? The GraphRAG icon is not displaying
? button styles in PaddleOCR dialog not applying correctly
這些改動涉及縮略圖接口、聊天頁縮略圖展示、圖標展示、按鈕樣式等,屬于前端體驗與接口聯動修復。
3. 文件日志與數據集頁面
版本中還修復:
? file logs not displayed in dataset ingestion page
? FileLogsTable pipeline column header displaying incorrectly
? visit dataset error
這些問題都屬于數據集和文件日志頁面的可視化與可訪問性修復。
十七、繼續補充:解析器、Chunk、RAPTOR、Title Chunk 等優化
本版本中與解析、Chunk 組織、標題處理相關的條目也很多。
1. Chunk 與標題優化
包括:
? optimize title chunk
? updated Title chunker references
? route docling parsing through native chunking endpoints
? migrate chunk APIs to RESTful routes
? migrate chunk retrieval_test and knowledge_graph to REST API endpoints
這說明 chunk 處理和標題處理作為文檔分析的關鍵環節,在這一版被集中整理。
2. RAPTOR 與 PDF 元數據
還包括:
? persist RAPTOR layer metadata on summary chunks
? persist PDF bookmark outline as document metadata
? fix delete graphrag raptor
? RAPTOR “Generation scope” reset to “Single file” when selecting “Dataset”
這些內容說明 RAPTOR 層的元數據、書簽大綱、刪除邏輯和生成范圍都做了處理。
3. 解析位置與回退邏輯
包括:
? manual naive parser position extraction fallback
? doc change parser
? switch MinerU API endpoint to /pdf_parse
? MinerU 3.x output discovery and API contract
這些都是解析后端的細節優化。
十八、繼續補充:搜索、過濾、消息與用戶 ID
這一版對搜索與消息相關的兼容問題也做了很多修正。
1. 搜索消息與 user_id
包括:
? document and sdk support of searching message with user_id
? searching message with user_id
? allow search id or _id
說明搜索接口在用戶維度和 ID 兼容維度上都做了擴展。
2. 過濾條件修復
包括:
? preserve infinity available_int zero filter
? case-insensitive matching for manual meta_data_filter in / not in list values
? fix query param type
這些修復讓過濾行為更符合預期,避免因類型、大小寫、零值而出現結果偏差。
3. 檢索測試與知識圖譜
包括:
? implement retrieval_test in GO
? migrate chunk retrieval_test and knowledge_graph to REST API endpoints
? add retrieval fallback comments
說明檢索測試和知識圖譜相關接口也在 REST 化。
十九、繼續補充:數據庫、模型、依賴與構建 1. 數據庫與遷移
包括:
? add database schema and migration guide
? update db model
? handle Infinity table-not-exist error
? preserve infinity available_int zero filter
包括:
? model refactor in GO
? model type to model class
? remove model_bundle.go, modify chat_session.go
? more model for paddle
? add deepseek and moonshot model json
? add drop instance models
包括:
? bump lxml from 6.0.2 to 6.1.0
? bump grpc from 1.66.2 to 1.79.3
? fix uv.lock
? fix compilation
? go: fix compilation
這些內容說明本版本也完成了依賴更新和編譯層面的維護。
二十、補充:更多連接器刪除同步場景
為了更清晰,這里再把本次新增或修復的刪除同步能力統一總結一遍:
? Bitbucket 刪除文件同步
? Gmail 刪除文件同步
? Google Drive 刪除文件同步
? Airtable 刪除文件同步
? GitLab 刪除文件同步
? Dropbox 刪除文件同步
? Discord 刪除文件同步
以及與之相關的修復:
? skip unsupported files before download
? optimize memory payload and enable sync deletion
? fix google authentication - gmail && google-drive
? enable sync deleted files for Gmail && fix google drive issues
這部分是本次連接器能力提升的重點之一。
二十一、最終總結:v0.25.1 到底強在哪里
代碼地址:github.com/infiniflow/ragflow
綜合這次更新可以看到,ragflow v0.25.1 不是一個單點修復版本,而是一個覆蓋面非常廣的版本,主要體現在以下幾個方向:
1. 接口全面統一
Web API、HTTP API、REST API 被大范圍統一,文檔、聊天、搜索、chunk、MCP、Agent、統計、插件、租戶、任務等鏈路都在收斂到更一致的架構。
2. 解析能力更強
新增 OpenDataLoader PDF backend,支持大 PDF 懶加載和分塊解析,修復超大 PDF 解析失敗,MinerU 適配也有修正,PDF 處理能力明顯增強。
3. 刪除同步更全面
多個連接器支持同步刪除文件,尤其是 Bitbucket、Gmail、Google Drive、Airtable、GitLab、Dropbox、Discord 等場景,進一步提升了知識庫與外部數據源的一致性。
4. 模型生態繼續擴展
DeepSeek v4、UCloud、Astraflow、Minimax、Gitee、SiliconFlow、Aliyun、Google、Volcengine、Moonshot 等支持陸續加入,模型選擇更豐富。
5. 穩定性修復很多
包括重復聊天輸出、元數據可見性、上傳截斷、檢索過濾、頁面顯示、圖標樣式、任務返回、健康檢查、編譯問題等,覆蓋了前后端和服務端的多類問題。
6. 文檔和遷移信息更完整
版本說明、FAQ、API 文檔、遷移指南、數據庫 schema、版本引用等都有更新,便于升級和排查。
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.