滚动资讯

当前位置：网界 > 数据洞察 > 正文内容

Harness思维：七大要点解锁大模型应用，构建可靠Agent服务的关键路径

时间：2026-07-02 18:40 作者：刘敏

在大模型应用开发领域，Harness 正成为核心焦点。如今，借助 Harness 开展大模型创新应用恰逢其时，不过其与传统应用开发范式差异较大，沿用旧思维难以取得理想效果，需要采用新方法才能打造出优质产品。

所谓 Harness，可理解为模型之外的工程层，涵盖上下文管理、工具、记忆、持久化状态、评测、循环控制、可观测性与权限治理等内容。有标准说法称 Agent = Model + Harness，模型负责“思考”，Harness 则让思考具备可理解、可协作、可复现、可长期运行等特性。对于复杂的 Agent 而言，模型可能仅完成 20%的工作，剩余 80%让产品持续可靠运行的基础工作都依赖 Harness。这也正是“Harness 即产品”的内涵，在大模型应用中，团队重点设计和迭代的产品往往是 Harness 这一整体。

构建基于 Harness 的优质产品，有多个关键要点。首先，要面向下一代模型能力设计产品。许多团队常犯的错误是围绕模型当前能力优化功能，导致产品很快被新模型替代。为避免这种情况，应进行超前定位，产品路线图不仅要考虑模型当前能力，更要设想半年后模型能力提升后的应对策略。工程上，可先用强模型取得效果，再逐步尝试用小模型替换；业务上，优先选择会随模型智能提升而放大价值的场景，如复杂决策、深度思考、跨系统调度或专业知识深入的产品。Claude Code 团队就是按“模型将会变成什么样”设计产品，最终取得巨大成功，其负责人给出的“别试图把模型框死”和“押注更通用的模型”两条原则值得思考。

其次，要做高智能产品。并非所有 AI 功能都值得投入，判断标准是问题是否依赖模糊判断、跨文档理解、多步骤推理和复杂协作。应优先筛选单次任务价值高、判断复杂度高、人工成本贵的场景，这类场景虽起步难，但一旦成功，用户会将其视为生产力工具。而且任务越难、价值越高，模型单独交付的比例越低，产品能否稳定上线取决于 Harness 的建设情况。

再者，有价值的 Agent 产品往往消耗较多 tokens。很多团队想降低 token 用量，但对于高价值场景，这并非正确优化目标。在一定范围内，token 消耗与创造价值成正比，所以对于高价值场景应舍得花。Harness 的重要任务是让 token 花费具有经济可核算性，可通过提示词缓存、分层与路由、批处理和上下文重置等方式节省开销，同时保证高价值环节的充分投入。

另外，要把上下文工程当成主任务。上下文工程旨在让模型明确知晓不同时刻该知道、记住和遗忘的内容，而非编写更长更巧妙的提示词。上下文管理是 Harness 的核心，至少要将上下文拆分为系统规则、当前任务、检索知识、用户历史、长期偏好、工具结果等层次，不同层次有不同的优先级、生命周期和压缩方式。Anthropic 将其目标概括为找到“能最大化达成目标的、最小的一组高信号 token”。

工具设计也至关重要。Agent 调不好工具，常是工具设计问题。如今主流模型 Agent 能力较强，能驱动设计良好的工具集合工作，所以团队应聚焦工具设计。工具是给模型看的产品界面，设计时要收敛工具数量，将高频业务动作做成少数高信号、强约束的工具；使用严格 schema 和结构化输出，避免自由文本传递错误指令；为关键工具写清使用规则。Anthropic 强调工具描述影响调用效果，实践表明工具过多模型易选错，应避免“瑞士军刀式”工具，改用单一职责、强 schema 的小工具，并在调用前做参数校验。

用评测驱动开发也很关键。做 Agent 易陷入产品“差不多能工作”却问题不断的困境，缺乏量化评测办法。可上线的 Agent 必须有细分任务级的量化评测体系，至少覆盖最终答案质量、工具调用正确率、流程完成率和安全样本通过率，还可进一步考虑边界样本、对抗样本和真实线上日志回灌，将“凭感觉”改为“看数据”。Anthropic 的《Demystifying evals for AI Agents》是权威评测指南，也有多个开源框架可供参考。

最后，默认从单 Agent 开始。多 Agent 看似像组织协作，但很多有经验团队建议先把单 Agent 做到极致，只有当 prompt 逻辑复杂、工具集合拥挤、权限等级不同、任务目标天然分离时，再拆成多 Agent。社区中 Cognition 主张默认用单 Agent，Anthropic 则给出主从式多智能体在“读”类开放式研究任务上效果更好的反例，这表明任务偏“读”还是偏“写”、能否共享上下文决定了是否拆分。

更多>同类内容

小米智能存储众筹爆火：精准戳中家庭存储痛点，开启大众化新纪元

07-02

SpaceX被传展示AI手机原型机？马斯克火速辟谣：传闻不实

07-02

大朋DPVR：十年磨剑技术精进，国产XR品牌迈向全球新征程

07-02

八年磨剑，三代更迭：蔚来ES8如何书写国产高端电车突围传奇

07-02

古尔曼爆料：苹果将推新入门级MacBook Pro，2026年起陆续升级M6、M7芯片

07-02

马斯克晒照透露新动向：特斯拉Optimus擎天柱机器人生产线准备就绪

07-02

字节Seed团队新论文：破解AI生图模型能力叠加难题，实现高效编辑与生成双赢

具体做法是，让当前学生模型先自己跑一遍生成轨迹，在这条轨迹上挑一个点，再把对应老师请过来，在这个点给出正确的箭头。跑完一看，让它生成圆环时，它给出的是四个角的点簇——文生图的能力被编辑带串了味，正好对上论文开…

07-02

97年复旦博士孙天祥加入百度任BMU负责人，学术产业双路径契合百度战略

近日，大模型领域技术专家孙天祥正式加入百度，就任基础模型研发部（BMU）负责人。孙天祥此次同时进入百度模型委员会（BMC），从研发MOSS到提出MaaS再到其后续创业方向，他的学术与产业路径与百度基础模型…

07-02

三星One UI 9.0测试范围扩大 20余款机型参与入门级与高端机型同获关注

包括Galaxy A07、Galaxy A17和Galaxy A16在内的多款入门级手机，已被发现搭载One UI 9.0测试固件出现在服务器中。这些入门级机型预计将直接收到稳定版系统更新，而正式版本的推送…

07-02

人形机器人伴侣面世，最高99万引热议，是情感新出口还是伦理挑战？

07-02

优必选全尺寸超仿生人形机器人订单破万，量产挑战下迈向消费新场景

07-02

常州女企业家付杰携手姐夫张春晖，嘉轩智能冲刺港股IPO前景几何？

07-01

优必选CEO周剑：未来20年机器人或全面上岗人类将转向创新领域

07-01

Coffee AI Sound殿堂声音响系统夺冠，彰显中国品牌智能声学技术新高度

近日，由IASCA国际汽车音响竞赛联盟及全球50多家知名品牌联合主办的“2026首届全球汽车音响锦标赛”圆满落幕。

07-01

河南金融监管局正式批复：周锋出任中原银行新一任董事长

07-01

点击查看更多 +

全站最新

京东与长安汽车携手：数智赋能推动汽车制造服务升级新实践

春水堂仿真人形伴侣机器人开启预售，聚焦陪伴场景，1.5万元级能否走进生活？

乐享科技获近5亿Pre-A轮融资

技术赋能与人文坚守：杨君媒介理论三次跃迁下的传播范式革新

苏宁易购：从疯狂扩张到断臂求生，历经波折后终踏上回归原点之路

转型浪潮下，照明灯饰企业：大而全与小而专的破局之道

热门内容

本栏最新

网界 - 新财经新科技新未来 - 网界传媒旗下网站 - 中国 · 北京
合作咨询微信：netspread（注明:网界）
网界^®是本公司38类注册商标，是该商标的唯一持有者，未经授本公司授权，严禁使用。
Copyright © CNU 2012-2022 www.cnu.com.cn All rights reserved. 鲁ICP备2022032383号-6 鲁公网安备37010202700502号