跳到主要内容

Hyper-Extract:文档转结构化知识图谱(80+ 模板,8 种输出,增量更新)

Summary

开源工具,一条命令将非结构化文档转为结构化知识图谱。80+ 预设模板(金融/法律/医疗/中医/工业/通用),8 种知识结构输出(知识图谱、超图、时空图等),YAML 配置无需代码,支持增量更新(新文档自动扩展知识而非重建)。

Key Concepts

  • Knowledge Graph Extraction — 从非结构化文档提取实体关系
  • Hypergraph — 超图,超越普通图谱的高阶结构输出
  • YAML Schema — 用 YAML 配置定义提取规则,无需编码
  • Incremental Knowledge Update — 新文档自动扩展演化已有知识

Features

特性数据
预设模板80+
覆盖领域6 个(金融/法律/医疗/中医/工业/通用)
输出类型8 种(知识图谱/超图/时空图等)
配置方式YAML
增量更新支持
  • Google LangExtract - 带溯源的LLM结构化信息提取库
  • Context Graph是下一代数据平台 - Glean创始人论企业流程理解
  • RAGFlow - 开源 RAG + Agent 引擎
  • MinerU:PDF 转结构化 AI 可用数据(OCR + 版式解析)