智能文档 OCR 工作台

基于 GLM-OCR + Ollama,三栏布局、批量识别、一键导出,专为书籍和文档设计

快速部署 查看源码
Folio-OCR 界面截图

核心功能

从上传到导出,覆盖文档 OCR 全流程

📄

多格式支持

PNG、JPG、GIF、BMP 图片和 PDF 文件混合上传,PDF 以 2x 高分辨率拆页确保识别质量

版面分析

自动检测标题、正文、表格、图片等区域,智能合并相邻文本区域减少 OCR 调用(2.5x 加速)

批量识别

一键 OCR 全部页面,实时进度条 + ETA 估算,随时可停,选页时自动预识别下一页

编辑预览

Edit / Preview 双模式切换,Preview 原生渲染 HTML 表格和 Markdown,段落智能重排

📦

多格式导出

支持 .md、.txt、.docx 三种格式,DOCX 基于 python-docx 生成真实 Word 文档

💾

数据持久化

SQLite 数据库自动保存,编辑内容 800ms 防抖存盘,重启服务不丢数据,自动恢复上次文档

三条命令,即刻部署

Docker Compose 一键启动,无需手动配置环境

Terminal
# 克隆项目
git clone https://github.com/vorojar/Folio-OCR.git
cd Folio-OCR

# 启动全部服务
docker compose up -d

# 下载 OCR 模型(约 2GB,仅首次)
docker compose exec ollama ollama pull glm-ocr

# 打开浏览器访问
open http://localhost:3000

也支持不用 Docker 直接运行 — 详见 本地部署说明

技术栈

轻量架构,单文件后端 + 单文件前端

🤖 GLM-OCR
🐰 Ollama
FastAPI
🎨 Vanilla JS
🗃 SQLite
📎 PyMuPDF
📜 python-docx
🐳 Docker