原文:12-demystifying-evals-for-ai-agents.md 来源:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
揭秘 AI Agent 评估
发布于 2026 年 1 月 9 日
让 Agent 有用的能力,也让它们难以评估。跨部署起作用的策略结合多种技术以匹配它们衡量的系统的复杂性。
引言
好的评估帮团队更自信地交付 AI Agent。没有评估,很容易陷入响应式循环——只在生产中捕捉问题,修一个失败创造另一个。评估让问题和行为变化在影响用户之前可见,价值在 Agent 生命周期中复合。
构建有效 Agent 一文中描述:Agent 跨多轮运作——调用工具、修改状态、基于中间结果适应。这些让 AI Agent 有用的能力——自治、智能、灵活——也让它们更难评估。
评估的结构
评估(eval)是 AI 系统的测试:给 AI 一个输入,对输出应用评分逻辑衡量成功。本文聚焦自动化评估——可以在开发期间运行而无需真实用户。
单轮评估直接:提示、响应、评分逻辑。早期 LLM 中,单轮、非 Agent 评估是主要评估方法。多轮评估随能力进步变得越来越常见。
Agent 评估更复杂。Agent 跨多轮使用工具、修改环境状态、边走边适应——错误可以传播和复合。前沿模型也能找到超越静态评估限制的创意方案。例如 Opus 4.5 通过发现政策漏洞解决了 𝜏2-bench 的订机票问题。它"按所写"失败评估,但实际为用户提出了更好方案。
关键定义
| 术语 | 定义 |
|---|---|
| 任务(task / problem / test case) | 带定义输入和成功标准的单个测试 |
| 试运行(trial) | 任务的一次尝试。模型输出运行间变化,多次试运行产生更一致结果 |
| 评分员(grader) | 评分 Agent 表现某方面的逻辑。一个任务可有多个评分员,每个含多个断言(checks) |
| 转录(transcript / trace / trajectory) | 试运行的完整记录——输出、工具调用、推理、中间结果、其他交互 |
| 结果(outcome) | 试运行结束时环境的最终状态 |
| 评估 harness | 端到端运行评估的基础设施 |
| Agent harness(scaffold) | 让模型作为 Agent 行动的系统 |
| 评估套件(eval suite) | 设计衡量特定能力或行为的任务集合 |
为什么构建评估?
团队开始构建 Agent 时,结合手工测试、内部用、直觉能走得令人惊讶地远。更严格的评估甚至看似拖慢交付的开销。但早期原型阶段后,一旦 Agent 进入生产并开始扩展,无评估构建就开始崩溃。
崩溃点常在:用户报告 Agent 改动后感觉变差,团队"盲飞"——除了猜和检查没有验证方式。没有评估调试是响应式的:等抱怨、手工复现、修 bug、希望没回归。团队无法区分真正回归 vs. 噪声、自动测试改动、衡量改进。
写评估在 Agent 生命周期任何阶段都有用。早期评估迫使产品团队明确成功对 Agent 意味着什么,后期帮助维持一致质量门槛。
评估也塑造你能多快采用新模型。强大模型出现时,没评估的团队面临数周测试,有评估的竞争对手能快速确定模型强项、调整提示、几天内升级。
如何评估 AI Agent
Agent 评估员的类型
Agent 评估通常结合三种评估员:基于代码、基于模型、人类。
基于代码的评估员
方法:字符串匹配检查(精确、regex、模糊)、二进制测试、静态分析(lint、type、security)、结果验证、工具调用验证、转录分析
优点:快速、便宜、客观、可复现、易调试、验证特定条件
缺点:对不精确匹配预期模式的有效变体脆弱、缺乏细微、对某些更主观任务有限
基于模型的评估员
方法:基于规则评分、自然语言断言、成对对比、基于参考的评估、多评判员共识
优点:灵活、可扩展、捕捉细微、处理开放任务、处理自由形式输出
缺点:非确定、比代码贵、需与人类评分员校准
人类评估员
方法:主题专家审查、众包判断、抽查采样、A/B 测试、评注者间一致性
优点:黄金标准质量、匹配专家用户判断、用于校准基于模型的评估员
缺点:贵、慢、常需大规模人类专家访问
能力评估 vs. 回归评估
能力("质量")评估问"这个 Agent 能做好什么?" 应该从低通过率开始,瞄准 Agent 挣扎的任务,给团队一座要爬的山。
回归评估问"Agent 还处理它过去能处理的所有任务吗?" 应有近 100% 通过率。它们防止退化——分数下降信号有什么坏了。
Agent 启动并优化后,高通过率的能力评估可"毕业"成为持续运行的回归套件——曾衡量"我们能做这个吗?"的任务现在衡量"我们还能可靠做这个吗?"
评估编码 Agent
编码 Agent 写、测试、调试代码——像人类开发者那样导航代码库和运行命令。有效评估通常依赖良好规格的任务、稳定测试环境、对生成代码的彻底测试