#分享 純地端的文本解析方案 OpenDataLoader

做 RAG 做久了會發現一件事:檢索品質的天花板,其實卡在最前面那一步「PDF 解析」。 表格讀壞、圖片丟失、頁眉混進正文、段落從右欄跳到左欄 — 後面再好的 embedding 跟 LLM 都是在提油救火。最近實測 opendataloader-pdf,這工具有幾個優點: ・100% 本地執行,不打任何雲端 API ・Apache 2.0,繁中 first-class 支援 ・公開 benchmark 三項第一(Overall / Reading Order / Table) ・圖表會用本地 VLM 自動生成 alt text,可以一起 embed ・表格保留 row/column 結構,不會 embed 成一鍋糊 ・預設內建 Prompt Injection 過濾 — 自動移除透明字、頁面外隱藏文字 唯一要注意:別手動打 `—hybrid hancom` 這個 flag,它會把整份 PDF 上傳到韓國雲端。預設不啟用,知道就好。如果你的公司剛好對法遵敏感、有繁中掃描需求,這個工具值得放進試用清單。
megapx
#
megapx
megapx
megapx
megapx
megapx
megapx
megapx
megapx
愛心
4
3
全部留言