从 Anthropic 两篇实战文章提炼:用"框架 + 约束"解决 AI Agent 长时运行的核心难题,以及 GAN 启发的三段式架构如何将复杂任务从失败推向完成。
模型负责原始推理能力,Harness 负责其他一切——状态管理、进度追踪、质量保证、错误恢复。即便最强的模型,没有合适的 Harness,也无法可靠完成真正复杂的长时任务。
"想象一个软件项目,工程师分班工作,每个新工程师来接班时对上一班发生的事情毫无记忆。这就是 AI Agent 在多上下文窗口工作时面临的根本挑战。" — Justin Young,Anthropic
passes: false。使用 JSON 而非 Markdown——模型不太可能对 JSON 进行不当修改。核心问题:LLM 天生对 LLM 生成的内容持宽容态度。让同一个 Agent 评判自己的工作,结果往往是自我称赞。解决方案:将执行者与评判者分离,灵感来自 GAN(生成对抗网络)。
💡 关键洞察:将评估器调整为"持怀疑态度",比让生成器批评自己的工作要可行得多。分离本身是解决自我评估偏差的强力杠杆。
⚠️ 设计质量和独创性权重更高——Claude 在工艺和功能上默认表现良好,在设计品味和创意上最薄弱。
在一个值得注意的例子中,我提示模型为一家荷兰艺术博物馆创建网站。到第九次迭代时,它产出了一个干净的深色主题着陆页。然后,在第十次循环时,它彻底推翻了思路,将网站重新想象为一种空间体验:一个用 CSS 透视渲染的 3D 房间,带有棋盘格地板,艺术品自由挂在墙上,用门道式导航在展厅之间切换。这是我以前从未见过的、来自单次生成的创意飞跃。
— Prithvi Rajasekaran,Anthropic Labs(2026.03.24)
🔬 实验发现:即使在第一次迭代,输出也明显优于基线——标准措辞本身就在引导模型远离通用默认值,甚至在评估器反馈触发改进之前。
通信通过文件系统处理:一个 Agent 写入文件,另一个读取并在同一文件中响应——保持工作与规格一致性,不会过早过度规格化实现细节。
Opus 4.6 发布后,Rajasekaran 对 Harness 进行了系统性精简实验——"找到最简单的解决方案,只在需要时增加复杂性"
| Agent / 阶段 | 时长 | 费用 |
|---|---|---|
| Planner | 4.7 分钟 | $0.46 |
| Build(第1轮) | 2小时7分钟 | $71.08 |
| QA(第1轮) | 8.8 分钟 | $3.24 |
| Build(第2轮) | 1小时2分钟 | $36.89 |
| QA(第2轮)+ Build(第3轮) | 17.7 分钟 | $8.97 |
| QA(第3轮) | 9.6 分钟 | $4.06 |
🎵 最终结果:包含完整核心功能的可用音乐制作程序——工作中的编排视图、调音台和传输控制在浏览器中运行。Opus 4.6 在没有 Sprint 分解的情况下连贯运行超过 2 小时。
"从这项工作中,我的信念是,有趣的 Harness 组合空间不会随着模型改进而收缩。相反,它会移动,AI 工程师的有趣工作就是不断找到下一个新颖组合。" — Prithvi Rajasekaran,Anthropic Labs(2026.03.24)