Folio-OCR — 智能文档 OCR 工作台

核心功能

从上传到导出，覆盖文档 OCR 全流程

📄

多格式支持

PNG、JPG、GIF、BMP 图片和 PDF 文件混合上传，PDF 以 2x 高分辨率拆页确保识别质量

⚙

版面分析

自动检测标题、正文、表格、图片等区域，智能合并相邻文本区域减少 OCR 调用（2.5x 加速）

⚡

批量识别

一键 OCR 全部页面，实时进度条 + ETA 估算，随时可停，选页时自动预识别下一页

✎

编辑预览

Edit / Preview 双模式切换，Preview 原生渲染 HTML 表格和 Markdown，段落智能重排

📦

多格式导出

支持 .md、.txt、.docx 三种格式，DOCX 基于 python-docx 生成真实 Word 文档

💾

数据持久化

SQLite 数据库自动保存，编辑内容 800ms 防抖存盘，重启服务不丢数据，自动恢复上次文档

三条命令，即刻部署

Docker Compose 一键启动，无需手动配置环境

Terminal

# 克隆项目
git clone https://github.com/vorojar/Folio-OCR.git
cd Folio-OCR

# 启动全部服务
docker compose up -d

# 下载 OCR 模型（约 2GB，仅首次）
docker compose exec ollama ollama pull glm-ocr

# 打开浏览器访问
open http://localhost:3000

也支持不用 Docker 直接运行 — 详见本地部署说明

智能文档 OCR 工作台