Published on

当 Harness 开始产品化,企业级 Agent 才算真正进入正赛

Authors

我越来越确定一件事:2026 年企业 AI 的关键变量,已经不是模型本身,而是 Harness Engineering

模型能力当然还在继续进步,但真正决定 Agent 能不能在企业里落地的,不是它会不会回答问题,而是它能不能在一个可控、可审计、可协同、可复用的执行环境里稳定工作。换句话说,模型只是大脑,Harness 才是骨架、神经系统和组织纪律

这也是为什么我最近密集看了网易智企发布的 ClawHive(帝王蟹)和 Anthropic 的 Claude Managed Agents 之后,会有一种很强的确认感:这条路已经从"概念正确",走到了"产品开始收敛"。两边几乎在同一时间段交出了答卷,而且答案的核心逻辑高度一致。

这让我想认真写一篇文章,把这里面的关键脉络梳理清楚。

企业 Agent 的真正障碍,从来不是模型够不够聪明

很多人做 AI 产品喜欢从"智能性"出发,一上来先展示自动化、多轮规划、复杂推理、工作流编排。那当然能吸引眼球。但企业采购和上线的时候,真正卡住项目的往往不是这些。

真正卡住的是:

  • 安全部门会不会放行
  • 业务部门能不能自己上手
  • 管理层能不能看到成本和风险
  • 团队做出来的东西能不能复用,而不是每次从零开始

ClawHive 产品界面

网易智企发布的 ClawHive(帝王蟹)这家公司,基本就是在正面回答这些问题。它把企业上 Agent 的四个真实障碍拆得很清楚:安全、门槛、管控、沉淀

这四个词很朴素,但非常对。

ClawHive 强调四层防御体系、三重沙箱隔离、PII 脱敏、权限黑白名单、审计回溯,这些东西听起来不性感,但这才是企业会掏钱的部分。因为 企业不是怕 Agent 不够聪明,企业是怕 Agent 太聪明但不可控。

降低使用门槛的思路也很有意思。深度集成飞书、钉钉、企微,本质上不是做聊天入口,而是在做分发渠道和行为习惯迁移。业务部门根本不想重新学一套系统,他们希望 Agent 就出现在自己每天已经在用的软件里。这件事说起来简单,但真正做好了的没几家。

很多 Agent 产品死得很早,不是因为能力不行,而是因为用户必须先改变工作方式。企业内部的 adoption,从来不是"你这个产品厉不厉害",而是"你有没有顺着组织现有流程往里长"。

Anthropic 把 Harness 的底层抽象正式产品化了

Claude Managed Agents 核心架构

如果说 ClawHive 更偏企业运营侧,那么 Anthropic 的 Claude Managed Agents 更像是在把 Harness 的底层抽象正式商品化

过去大家都在说 Agent = Model + Tools + Prompt。但这套说法太轻了,轻到会让人误以为只要接几个工具、写几个 prompt,就算做完了 Agent。

实际上真正难的是中间那层运行系统:

  • 沙箱执行
  • 状态持久化
  • 检查点和恢复
  • 工具编排
  • 凭证管理
  • 权限边界
  • 长任务运行
  • 多 Agent 协调
  • 全链路追踪

这些东西拼在一起,才是 Harness。

SWE-bench Verified 基准测试演进

Anthropic 这次最值得注意的地方,不是它又发了一个 API,而是它承认并且产品化了一个事实:开发者真正缺的,不是另一个更聪明的模型,而是一套可以让模型稳定工作的生产环境。

这也解释了为什么文中提到,Vibecode 的开发速度提升了 10 倍,Sentry 从构想到交付只用了几周。因为一旦 Harness 被托管,团队就不用把大量时间耗在那些"用户完全看不见,但你又必须自己造"的基础设施上。

说白了,过去很多团队其实不是在做 Agent 产品,而是在偷偷做一个小型操作系统。现在 Anthropic 直接下场,把这部分商品化了。

管理平台和运行底座,其实是上下游关系

Harness Engineering 全景

这两条路线我都看好,而且我觉得它们不是竞争关系,反而是上下游关系。

Anthropic 更像是在做通用型的 Agent runtime 和托管层。ClawHive 这种产品,则是在面向企业真实组织结构、流程规范和 SaaS 生态,把 Harness 再往上包一层,变成管理平台、集成平台、治理平台。

前者解决的是"Agent 如何稳定运行"。后者解决的是"组织如何大规模采用 Agent"。这两件事缺一不可。

很多人会误判这个市场,以为谁的模型最强,谁就自动赢。但我不这么看。

接下来真正有机会形成护城河的,是三种能力的组合:

  1. 模型能力:足够强,但不是唯一决定项
  2. Harness 能力:让 Agent 真正可执行、可恢复、可追踪
  3. 组织适配能力:把 Agent 嵌进企业已有流程、权限体系和协作工具里

没有第三层,再好的 Harness 也很难卖进企业。没有第二层,再强的模型也只是 demo。

Harness Engineering 会成为未来两年的高杠杆方向

我一直觉得,所谓"互联网数据运营的 Harness Engineering",不是一个边缘问题,而是一个核心问题。

因为未来不是一个 Agent 接一个 Agent 地堆,而是要形成一整套系统:

  • 数据怎么进来
  • 任务怎么拆解
  • 工具怎么路由
  • 上下文怎么维护
  • 审核和护栏怎么插入
  • 结果怎么回写业务系统
  • 经验怎么沉淀成模板、技能和工作流

这一整条链路里,模型可能只占其中一部分价值。剩下的大部分,都是 Harness Engineering。

我对"Agent 平台"这个词一直有点保留。很多平台其实只是把 prompt、workflow 和聊天 UI 打包了一下。那不叫平台,那只是一个更复杂的壳。

真正的平台,应该能承载:

  • 多模型
  • 多工具
  • 多身份
  • 多任务
  • 多环境
  • 多团队
  • 多层治理

并且让这些东西不是拼在一起,而是协同起来。这件事非常难。但难,才说明值得做。

接下来最值得关注的,不是"更强的 Agent",而是"更稳的系统"

Claude Managed Agents 工具组合

我觉得这个阶段一个很大的认知偏差是,行业还在用看 demo 的眼光看企业级 Agent。

demo 里最容易被放大的,是规划能力、推理能力、自动执行能力。但企业真正看重的,是另外几个词:

  • 稳定
  • 安全
  • 合规
  • 成本可见
  • 失败可恢复
  • 结果可审计

这几个词听起来不性感,但它们决定了预算会不会下来。

如果现在有人问我,企业级 Agent 下一阶段的机会在哪,我的答案会很直接:别只盯着模型和工作流,去做 Harness。

去做那些又脏又重、短期看起来不够"AI"、但长期最有复利的部分。

因为当 Anthropic 开始把 Harness 做成产品,当国内厂商开始把 Agent 管理平台推向企业,信号已经很明显了。

行业正在从"Agent 能不能做事",切换到"Agent 能不能被大规模、低风险、可持续地使用"。

这不是一个小升级。这是正式进入正赛。

最后一句

如果你现在还把 Harness 当成配角,那大概率会错过这一轮企业级 Agent 真正的基础设施机会。

模型会继续进步,Agent 的表现会继续变强,但最后能留下来的,不会只是最会回答问题的系统,而是 最会把能力组织起来、约束起来、复用起来的系统

我觉得,这才是接下来两年最值得下注的地方。


本文相关图片来源:网易智企 ClawHive 发布稿、Anthropic Claude Managed Agents 官方发布内容。