Google LangExtract - 带溯源的LLM结构化信息提取库

Summary

35.5k stars 的 Google 开源库，用 LLM 从非结构化文本提取结构化信息，核心特色是精确溯源——每条提取结果映射到原文具体位置。支持 Gemini/OpenAI/Ollama，Few-shot 定义任务无需微调，生成可视化 HTML 审查结果。适用于医疗、法律、文学等任意领域。

Key Concepts

LangExtract — Google 出品的带溯源结构化提取库（35.5k stars）
Source Grounding — 提取结果精确映射原文位置，可视化高亮
Structured Output — 基于示例强制一致 Schema
Document AI — 长文档分块并行处理

Use Cases

# 示例：医疗记录药物提取
extractor = LangExtract(model="gemini-2.0-flash")
results = extractor.extract(clinical_note, examples=few_shot_examples)

dots.ocr (dots.mocr) - 多语言文档版式解析 VLM
CommonForms - PDF 自动转可填写表单（ML表单字段检测）
cognee - AI Agent记忆知识引擎（6行代码）

Summary​

Key Concepts​

Use Cases​

Related Topics​

Summary

Key Concepts

Use Cases

Related Topics