智能体解构工具技能子代理

Anthropic 的 Will 使用 Stock Pilot 库存助手展示：当智能体膨胀成 400 行提示词、过多工具和不透明子代理包装器时会发生什么。工作坊将系统重构为 Claude 托管代理、模块化技能、代码执行原语，以及一个在仍需隔离时使用的原生可调用代理。

处理日期：2026 年 5 月 29 日

解构过度膨胀 Claude 智能体的信息图，展示托管代理、技能、代码执行原语和可调用代理。

执行摘要

Anthropic Applied AI 团队的 Will 在 Code with Claude London 现场工作坊中展示：当每个新业务需求都直接写进核心提示词时，智能体会如何退化。示例系统 Stock Pilot 已经膨胀为 400 行系统提示词、12 个自定义工具和 3 个自定义子代理包装器。使用 Claude Code 运行 Opus 4.7 并开启 extra high effort 的现场评估基线是 62%，失败原因与上下文污染、指令边界不清和脆弱交接有关。

重构将系统从自定义 Messages API 循环迁移到 Claude 托管代理，让会话状态、沙箱、安全层和多用户扩展成为平台责任，而不是应用层胶水代码。随后，提示词被压缩到只保留全局身份和基础规则，业务流程与领域逻辑则移入使用渐进式披露的技能。

工作坊还收窄了工具表面。Claude 不再使用许多专门的数据抽取工具，而是获得 bash、read、write 等类计算机原语，再编写 Python 脚本，在大型文件进入上下文前先完成过滤。子代理没有被当作默认逃生口：两个包装器被移除，而预测流程保留为原生可调用代理，用于上下文隔离和更清晰的日志。该工作坊结果仅限于这个演示：15 行提示词、3 个原语、1 个可调用代理，以及报告的 92% 评估峰值。

关键要点

提示词膨胀是架构问题，不只是写作问题：长期堆积的指令会制造规则冲突和上下文污染。
工作坊将评估拆分为单轮回归测试和更复杂的多轮失败模式测试。
有用的遥测包括 token、成本、延迟、正确性、风格和语气；非确定性质量则使用 LLM-as-judge 评分。
Claude 托管代理将会话路由、沙箱、安全层和扩缩容从自定义应用编排中移出。
技能被用作领域信息的模块化包，让模型通过渐进式披露拉取任务所需上下文。
核心提示词应承载全局身份和严格基线规则，而不是每一个战术性业务流程。
当智能体需要检查或转换本地数据时，通用代码执行原语可以替代脆弱的专用工具。
让 Claude 针对文件编写小型 Python 脚本，比把原始数据集直接塞进上下文更能降低 token 负载。
MCP 适合跨客户端共享的标准化工具，但重叠的 MCP 服务器会污染上下文并消耗大量 token 空间。
当工作流需要并行处理或隔离的新上下文时，子代理仍然有用，例如将预测流程与主规划器分离。
相较于不透明的自定义工具包装子代理，原生可调用代理把日志、转录和指标放在同一个托管流程中，从而提升可观测性。

构建者启发

审计系统提示词，找出应迁移到技能或文件中的业务流程、季节性政策和静态数据。
当会话持久性、沙箱和多用户基础设施开始变成应用复杂度时，使用 Claude 托管代理。
当 Claude 可以安全地针对文件编写和运行代码时，数据工作优先使用通用原语，而不是把所有内容读入上下文。
只在真正需要独立上下文窗口的工作流中保留子代理，不要把它当作隐藏超大提示词的方法。
把延迟与正确性和 token 成本一起评估；这个工作坊并不意味着每项改进都会同等降低延迟。
将指标攀爬式评估循环纳入部署流程，让每次提示词、工具或智能体重构都能与既有行为对比。

待验证事项

工作坊仓库中使用的 Claude 托管代理技能载荷、schema 和部署 API。
工作坊 UV 项目管理器和部署命令所需的配置。
报告中评估变化背后的 LLM-as-judge 标准、权重和评分规则。
将托管代理扩展到真实生产流量时的定价、并发限制和性能行为。
可调用代理如何在不撑爆父上下文的情况下将状态传回主编排器。
哪些工具属于 Claude 托管代理内置能力，哪些属于标准 Anthropic SDK 选项。