跳到主要内容

Paperless-ngx - 自托管文档数字化管理系统

Summary

37.9k stars 的自托管文档数字化系统,将纸质文档 OCR 识别后建立可搜索数字档案。Python/Django 后端 + Angular 前端,Docker 部署,多语言支持。建议本地私有服务器部署(文档未加密存储)。

Key Concepts

  • Paperless ngx — 自托管文档扫描/OCR/搜索系统(37.9k stars)
  • Digital Archive — 纸质文档→可搜索数字档案
  • OCR — 全文字符识别,支持多语言
  • Self Hosted — 本地部署,数据私有
  • ConvertX - 自托管文件格式转换平台(1000+格式)
  • CommonForms - PDF 自动转可填写表单(ML表单字段检测)
  • dots.ocr (dots.mocr) - 多语言文档版式解析 VLM