#分享純地端的文本解析方案 OpenDataLoader

做 RAG 做久了會發現一件事：檢索品質的天花板，其實卡在最前面那一步「PDF 解析」。表格讀壞、圖片丟失、頁眉混進正文、段落從右欄跳到左欄 — 後面再好的 embedding 跟 LLM 都是在提油救火。最近實測 opendataloader-pdf，這工具有幾個優點：・100% 本地執行，不打任何雲端 API ・Apache 2.0，繁中 first-class 支援・公開 benchmark 三項第一（Overall / Reading Order / Table）・圖表會用本地 VLM 自動生成 alt text，可以一起 embed ・表格保留 row/column 結構，不會 embed 成一鍋糊・預設內建 Prompt Injection 過濾 — 自動移除透明字、頁面外隱藏文字唯一要注意：別手動打 `—hybrid hancom` 這個 flag，它會把整份 PDF 上傳到韓國雲端。預設不啟用，知道就好。如果你的公司剛好對法遵敏感、有繁中掃描需求，這個工具值得放進試用清單。

#分享 純地端的文本解析方案 OpenDataLoader

#分享純地端的文本解析方案 OpenDataLoader