Agent Harness完全指南：12组件、7决策、Von Neumann类比

Summary

qiaomu.ai发布的Agent Harness全面指南（2026-04-18）。核心命题：Harness即产品——相同模型不同基础设施结果截然不同（LangChain证据：只改Harness，TerminalBench排名30+→第5）。三层工程模型（Prompt/Context/Harness），12个核心组件，7个关键架构决策。Von Neumann类比：Harness=操作系统。Ralph Loop解决跨Context Window长任务。

Key Concepts

Harness即产品 — 改变Harness而非模型是当前最直接的竞争优势
12核心组件 — 编排循环/工具/记忆/Context管理/Prompt构建/输出解析/状态管理/错误处理/护栏/验证/Subagent/Session
Von Neumann类比 — LLM=CPU, Context=RAM, 外部DB=存储, 工具=驱动, Harness=操作系统
错误复合 — 10步×99%/步=90.4%端到端；长链任务的根本风险
中间遗失 — Stanford研究：关键信息在Context中间位置时性能下降30%+
Ralph Loop — 两阶段跨Context Window模式：初始化（git基线）+ 迭代（读历史选优先级执行提交）
Plan Execute优势 — 规划-执行方案比ReAct快3.6x

Detailed Content

三层工程模型

Harness工程（最外层）
  ├── Context工程（管理信息）
  │     └── Prompt工程（构建指令）
  └── + 编排/状态/错误/生命周期

12个核心组件速查

组件	一句话
编排循环	TAO/ReAct的机械实现
工具	Schema定义的Agent能力
记忆	Session短期 + 持久化长期
Context管理	防中间遗失的压缩/检索
Prompt构建	分层组装指令/工具/历史
输出解析	响应→结构化工具调用
状态管理	跨Session进度持久化
错误处理	级联失败管理
护栏/安全	三层权限（输入/输出/工具）
验证循环	规则验证+LLM评判
Subagent编排	多Agent协调
Session管理	跨Context Window恢复

7个架构决策

单/多Agent → 工具<10个先用单Agent
ReAct/Plan-Execute → Plan-Execute快3.6x，优先考虑
Context策略 → 时间清除/摘要/掩码/笔记/委托
验证设计 → 确定性计算 vs 语义推理的权衡
权限架构 → 安全vs速度的权衡
工具范围 → 少而精胜过多而全
Harness厚度 → 薄Harness+好模型 vs 厚架构显式控制

关键数据点

发现	数据	来源
Harness改变的威力	排名30+→第5（模型不变）	LangChain/TerminalBench
中间遗失	性能下降30%+	Stanford研究
错误复合	10步99%→90.4%	数学推导
Token优化	减少26-54%，维持95%+精度	ACON研究

Ralph Loop（跨Context Window长任务）

初始化阶段
  → 设置环境
  → 创建进度文件
  → 捕获初始状态
  → 建立git基线

迭代阶段（每个Context Window）
  → 读取git历史 + 进度文件
  → 选最高优先级未完成工作
  → 执行
  → 提交
  → 写摘要
  → 下一个Context Window重复

Harness Engineering：7层架构让AI Agent不再崩溃 — ltbase 7层Harness架构（更深入的实战细节）
Claude Code架构拆解：Agent Harness的四层蓝图 — Claude Code 4层框架
Ralph Loop 的四种变体详解 — Ralph Loop四种变体
Anthropic：AI Agent 有效上下文工程 — Anthropic Context工程指南
Claude Code Session管理：1M上下文的双刃剑 — Session管理与Context Rot

Summary​

Key Concepts​

Tags​

Detailed Content​

三层工程模型​

12个核心组件速查​

7个架构决策​

关键数据点​

Ralph Loop（跨Context Window长任务）​

Related Topics​