返回 Claude 简报

智能体解构 工具 技能 子代理

Anthropic 的 Will 使用 Stock Pilot 库存助手展示:当智能体膨胀成 400 行提示词、过多工具和不透明子代理包装器时会发生什么。工作坊将系统重构为 Claude 托管代理、模块化技能、代码执行原语,以及一个在仍需隔离时使用的原生可调用代理。

处理日期:2026 年 5 月 29 日
解构过度膨胀 Claude 智能体的信息图,展示托管代理、技能、代码执行原语和可调用代理。

执行摘要

Anthropic Applied AI 团队的 Will 在 Code with Claude London 现场工作坊中展示:当每个新业务需求都直接写进核心提示词时,智能体会如何退化。示例系统 Stock Pilot 已经膨胀为 400 行系统提示词、12 个自定义工具和 3 个自定义子代理包装器。使用 Claude Code 运行 Opus 4.7 并开启 extra high effort 的现场评估基线是 62%,失败原因与上下文污染、指令边界不清和脆弱交接有关。

重构将系统从自定义 Messages API 循环迁移到 Claude 托管代理,让会话状态、沙箱、安全层和多用户扩展成为平台责任,而不是应用层胶水代码。随后,提示词被压缩到只保留全局身份和基础规则,业务流程与领域逻辑则移入使用渐进式披露的技能。

工作坊还收窄了工具表面。Claude 不再使用许多专门的数据抽取工具,而是获得 bash、read、write 等类计算机原语,再编写 Python 脚本,在大型文件进入上下文前先完成过滤。子代理没有被当作默认逃生口:两个包装器被移除,而预测流程保留为原生可调用代理,用于上下文隔离和更清晰的日志。该工作坊结果仅限于这个演示:15 行提示词、3 个原语、1 个可调用代理,以及报告的 92% 评估峰值。

关键要点

  • 提示词膨胀是架构问题,不只是写作问题:长期堆积的指令会制造规则冲突和上下文污染。
  • 工作坊将评估拆分为单轮回归测试和更复杂的多轮失败模式测试。
  • 有用的遥测包括 token、成本、延迟、正确性、风格和语气;非确定性质量则使用 LLM-as-judge 评分。
  • Claude 托管代理将会话路由、沙箱、安全层和扩缩容从自定义应用编排中移出。
  • 技能被用作领域信息的模块化包,让模型通过渐进式披露拉取任务所需上下文。
  • 核心提示词应承载全局身份和严格基线规则,而不是每一个战术性业务流程。
  • 当智能体需要检查或转换本地数据时,通用代码执行原语可以替代脆弱的专用工具。
  • 让 Claude 针对文件编写小型 Python 脚本,比把原始数据集直接塞进上下文更能降低 token 负载。
  • MCP 适合跨客户端共享的标准化工具,但重叠的 MCP 服务器会污染上下文并消耗大量 token 空间。
  • 当工作流需要并行处理或隔离的新上下文时,子代理仍然有用,例如将预测流程与主规划器分离。
  • 相较于不透明的自定义工具包装子代理,原生可调用代理把日志、转录和指标放在同一个托管流程中,从而提升可观测性。

构建者启发

  • 审计系统提示词,找出应迁移到技能或文件中的业务流程、季节性政策和静态数据。
  • 当会话持久性、沙箱和多用户基础设施开始变成应用复杂度时,使用 Claude 托管代理。
  • 当 Claude 可以安全地针对文件编写和运行代码时,数据工作优先使用通用原语,而不是把所有内容读入上下文。
  • 只在真正需要独立上下文窗口的工作流中保留子代理,不要把它当作隐藏超大提示词的方法。
  • 把延迟与正确性和 token 成本一起评估;这个工作坊并不意味着每项改进都会同等降低延迟。
  • 将指标攀爬式评估循环纳入部署流程,让每次提示词、工具或智能体重构都能与既有行为对比。

待验证事项

  • 工作坊仓库中使用的 Claude 托管代理技能载荷、schema 和部署 API。
  • 工作坊 UV 项目管理器和部署命令所需的配置。
  • 报告中评估变化背后的 LLM-as-judge 标准、权重和评分规则。
  • 将托管代理扩展到真实生产流量时的定价、并发限制和性能行为。
  • 可调用代理如何在不撑爆父上下文的情况下将状态传回主编排器。
  • 哪些工具属于 Claude 托管代理内置能力,哪些属于标准 Anthropic SDK 选项。