跳到主要内容

RAG 检索质量评估:Precision@K、Recall@K 与 F1@K

Summary

Towards Data Science 文章,系统讲解 RAG 检索层质量评估的三大指标:Precision@K(检索精度)、Recall@K(召回率)、F1@K(调和均值)。帮助定位 RAG 失败是排序问题还是覆盖问题,在生成层之前优先优化检索。

Key Concepts

  • RAG Evaluation — 检索增强生成系统的评估方法
  • Precision@K — 前K条结果中相关文档比例:相关数 / K
  • Recall@K — 前K条结果覆盖全部相关文档的比例:相关数 / 总相关数
  • F1@K — P@K 与 R@K 的调和平均:2×P×R / (P+R)
  • Retrieval Quality — 检索质量是 RAG 成败的关键基础

Formulas

Precision@K = 前K条中相关文档数 / K
Recall@K = 前K条中相关文档数 / 全部相关文档总数
F1@K = 2 × (P@K × R@K) / (P@K + R@K)

Key Insights

  • RAG 失败往往在检索层,不在生成层
  • Precision 高 → 排序质量好;Recall 高 → 文档覆盖全
  • K 值选择应匹配实际用户行为
  • cognee - AI Agent记忆知识引擎(6行代码)
  • All Agentic Architectures - 17种AI Agent架构完整实现
  • 为什么(资深)工程师难以构建AI Agent - 五大范式转变
  • Context Engineering 实用指南 - 优化 AI 编码的上下文策略