在人工智能领域,一个名为Harness的工程基础设施正引发广泛关注。Anthropic和OpenAI近期通过独立实验证实,AI编程智能体性能瓶颈往往不在模型本身,而在于缺乏完善的Harness系统。这一发现正在改变行业对AI开发范式的认知。
Anthropic的对照实验极具说服力:使用相同的Opus 4.5模型解决同一编程问题时,裸跑模式仅需9美元成本,但代码通过率不足20%;而搭载Harness系统后,虽然成本增至200美元,代码通过率却飙升至92%。这多出的191美元主要消耗在验证循环上——系统自动执行测试、修正代码,直至通过所有检查。
OpenAI的百万行代码实验同样印证了这一结论。研究团队仅在代码仓库根目录添加了一个不到100行的AGENTS.md文件,就使智能体的代码质量产生质的飞跃。这个看似简单的配置文件,实则构建了完整的工程约束体系。
Harness系统的核心是五大工程子系统:指令系统通过标准化文档注入项目规范,防止代码风格混乱;工具系统严格限定可执行命令,避免误删文件等灾难性操作;环境系统锁定依赖版本,消除"本地能跑但CI失败"的虚假环境;状态系统持久化开发进度,解决跨会话信息丢失问题;反馈系统强制执行测试流程,杜绝"自我感觉良好"的虚假完成。
行业实践显示,智能体开发存在三大致命缺陷:过早宣布任务完成、上下文压力导致的质量崩塌、跨会话信息断层。Anthropic的裸跑实验中,智能体常在未通过类型检查时就宣称完成开发,这正是缺乏强制反馈机制的结果。而状态系统的缺失,则会导致不同开发会话间产生功能冲突。
构建基础Harness系统并不复杂。开发者只需在项目根目录创建AGENTS.md文件定义规范,通过配置文件限制可执行命令,编写环境锁定脚本,建立PROGRESS.md记录开发状态,最后在AGENTS.md中明确完成标准——必须通过类型检查、单元测试、代码规范审查和构建流程。这整套配置通常不超过200行代码。
实验数据显示,未建立反馈循环的Harness系统形同虚设。Anthropic的失败案例表明,即使前四个子系统部署完善,若缺少强制测试流程,代码通过率仍会低于30%。这印证了行业共识:Harness不是可选配件,而是AI工程化的基础设施。
当前技术格局下,模型能力决定性能上限,而Harness系统决定实际利用率。没有工程约束时,顶尖模型生成的代码可能连编译都无法通过;完善的Harness系统却能让次优模型稳定交付。这种工程化思维正在重塑AI开发流程——在追求更强模型之前,先构建可靠的工程基础设施已成为行业新准则。






