基于 GLM-OCR + Ollama,三栏布局、批量识别、一键导出,专为书籍和文档设计
从上传到导出,覆盖文档 OCR 全流程
PNG、JPG、GIF、BMP 图片和 PDF 文件混合上传,PDF 以 2x 高分辨率拆页确保识别质量
自动检测标题、正文、表格、图片等区域,智能合并相邻文本区域减少 OCR 调用(2.5x 加速)
一键 OCR 全部页面,实时进度条 + ETA 估算,随时可停,选页时自动预识别下一页
Edit / Preview 双模式切换,Preview 原生渲染 HTML 表格和 Markdown,段落智能重排
支持 .md、.txt、.docx 三种格式,DOCX 基于 python-docx 生成真实 Word 文档
SQLite 数据库自动保存,编辑内容 800ms 防抖存盘,重启服务不丢数据,自动恢复上次文档
Docker Compose 一键启动,无需手动配置环境
# 克隆项目 git clone https://github.com/vorojar/Folio-OCR.git cd Folio-OCR # 启动全部服务 docker compose up -d # 下载 OCR 模型(约 2GB,仅首次) docker compose exec ollama ollama pull glm-ocr # 打开浏览器访问 open http://localhost:3000
也支持不用 Docker 直接运行 — 详见 本地部署说明
轻量架构,单文件后端 + 单文件前端