自动化评估 | Microsoft Foundry

Microsoft Foundry 提供了一个企业级控制平面，用于监控、压力测试和管理自主智能体的安全性、成本和任务合规性。

处理日期：2026 年 5 月 30 日

Foundry 控制平面架构图，展示了通过 OpenTelemetry 指标、聚类分析器和保护性防护栏关卡跟踪活跃智能体会话的流程。

执行摘要

Microsoft Foundry 控制平面在发布到生产环境之前，充当了跟踪、评估和保护自主智能体的统一平台。虽然诸如 Foundry SDK 之类的工具框架定义了本地系统能力，但 Foundry 门户在成本向量、处理错误和执行指标方面强制执行严格的结构化测试。

Foundry 通过将对话交互处理为存储在 Azure Monitor 中的 OpenTelemetry (OTel) 系统追踪，实现了遥测收集的标准化。构建者可以分析模型行为、令牌负载和嵌套工具请求，而无需提取日志。自动化评估允许用户创建多行合成验证配置文件，或触发对抗性红队演练脚本，利用 ASCII 走私者和 Base64 转换等越狱手段对系统提示进行压力测试。

当处理循环暴露出执行漏洞时（例如通过 AI 驱动的诊断聚类发现的任务完成度得分较低），Foundry 通过智能体游乐场提供了直接的缓解路径。用户可以部署特定目标的防护栏来监控活跃的运行时工具调用，从而强制后端模型保持严格的任务合规性边界。

关键要点

Microsoft Foundry 将多智能体生命周期操作抽象到一个统一的企业级控制界面中。
对话步骤历史映射到标准的 OpenTelemetry 追踪图，以瞬间隔离工具故障。
合成数据生成器直接根据简单的结构化提示词模式创建广泛的测试数据集。
自动化红队智能体使用多维度测试策略，及早识别系统注入漏洞。
AI 驱动的诊断聚类模型解析失败的验证运行，以提供自动化的代码更改建议。
任务合规性防护栏检查活跃的工具执行载荷，以拦截被禁止的后台步骤。

构建者启发

在自主脚本循环中开放原生 OpenTelemetry 跟踪属性，以简化诊断仪表板的消耗。
在部署系统中引入自动化的合成文档循环，以便在没有手动数据输入的情况下对目标管道进行压力测试。
将自动对抗性模拟引擎集成到回归循环中，以验证提示词注入安全性指标。
利用聚类分类处理，跨分布式运行器集群隔离系统性的代码执行缺陷。
在数据库连接器上强制执行活跃的中间件检查点，以在运行时拦截异常的数据变更。

待验证事项

在跨异构模型结构记录深层递归工具调用时，验证追踪跟踪的持久性。
在评估高度定制的特定领域 API 脚本时，确定自动化红队测试的行为变异情况。
在全球生产智能体集群中集中部署缓解防护栏时，确认策略同步延迟。