AHE:Agent 自进化优化 Harness 的可观测性框架
Summary
复旦 + 北大提出 AHE(Agentic Harness Engineering)——让"进化 Agent"自动迭代优化 Coding Agent 的 Harness(系统提示、工具、中间件、技能、记忆等所有可编辑组件)。核心洞察:进化 Agent 稳定优化的瓶颈不在 Agent 智能,而在可观测性(Observability)。三大支柱:① 组件可观测性(基于 NexAU 把 Harness 解耦为 7 种正交文件,每次编辑对应一次 git commit)② 经验可观测性(Agent Debugger 把数百万 token 轨迹蒸馏成 per-task + benchmark-level 两层报告)③ 决策可观测性(每次编辑附 Manifest 自声明预测,下轮 rollout 用真实 delta 做验证,可证伪而非自我合理化)。结果:Terminal-Bench 2 从 69.7% → 77.0%,超越人类设计的 Codex-CLI(71.9%);零样本迁移到 SWE-bench 比种子还少用 12% token;跨 6 个基座普遍正增益(DeepSeek-v4-flash +10.1pp 最高)。最反直觉发现:System Prompt 单独移植反而 -2.3pp,AHE 的 Prompt 是"配合型选手",需要 Memory + Tools + Middleware 协同。最大局限:能预测修复(Fix Recall 51.4% vs 随机 10.6%),但预见不到回归(Regression Recall 11.1% vs 随机 5.4%)。
Key Concepts
- AHE 三大可观测性支柱 — 组件可观测性 + 经验可观测性 + 决策可观测性,构成进化循环的全部前提
- NexAU 7 组件解耦 — System Prompt / Tool Description / Tool Implementation / Middleware / Skill / Sub-agent Config / Long-term Memory 各自独立文件,文件级 diff 与回滚
- Agent Debugger 渐进披露 — Per-task 根因 + Benchmark-level 概览两层报告,原始轨迹保留侧用于钻取
- Manifest 编辑契约 — 每次修改附自声明预测(失败证据 / 根因 / 修复方案 / 预期影响),下轮实测验证(verdict)
- 可证伪进化 — 用跨轮实测 替代自我合理化;这是从"自由发挥"升级到"科学方法"
- 组件非加性干扰 — Memory + Tools + Middleware 单独 +11.1pp,组合只 +7.3pp;过度堆叠"验证-闭环"行为在 Hard 任务上消耗长程预算
- Prompt 是配合型选手 — System Prompt 单独移植 -2.3pp,必须与 Memory/Tools/Middleware 协同才有价值
- 回归预测盲点 — 进化 Agent 能精准定位"该修什么",但预见不到"会搞坏什么",这是当前最清晰的改进方向
- 离饱和越远增益越大 — AHE 编码通用协调模式而非提示词玄学,能力弱的模型从中获益更多
- 跨任务/跨模型零样本迁移 — Harness 在原任务进化出的"协调模式"在新任务上仍有效
Tags
ahe, harness-engineering, agent-self-improvement, coding-agent, observability, nexau, agent-debugger, manifest, falsifiable-evolution, terminal-bench, swe-bench
Detailed Content
论文解决的问题
手工作坊 vs 模型迭代速度的鸿沟:
人工 Harness 工程:
开发者读海量轨迹 → 识别失败模式 → 改 Prompt/工具
↑
跟不上 Base Model 迭代速度(GPT-5.4 → DeepSeek V4 → Qwen3.6 …)
真正的瓶颈定位:
进化 Agent 不是不够聪明,而是整个进化循环缺乏可观测性。
——这句反直觉判断是 AHE 全部设计的起点。