阻止失控 AI：在 Agent Development Kit (ADK) 中强制执行策略并降低成本

如果 AI 智能体偏离主题（例如提供受限的财务建议），企业级 AI 应用将面临品牌损害和法律风险。Google Cloud 的 Agent Development Kit (ADK) 引入了一种强大的中间件模式，利用在智能体、模型或工具执行前后触发的回调函数。这允许工程师通过小型评判提示词拦截不安全意图、强制执行有条件的一次性免责声明，并通过缓存机制完全绕过模型调用，从而在最大化合规性的同时节省大量 Token 成本。

处理日期：2026 年 5 月 30 日

信息图描绘了 Google Cloud ADK 中间件模式，展示了传入的请求在到达核心模型之前，如何通过诸如免责声明验证和意图评判等自定义 beforeAgent 回调防护层。

执行摘要

部署用于业务工作流的 AI 聊天机器人存在提供错误的财务、法律或医疗建议的风险，这使公司上面临巨大的监管和品牌责任。

Agent Development Kit (ADK) 引入了自定义回调函数作为安全护栏，在智能体、模型或工具调用前后拦截查询。

通过在中间件中部署轻量级的评判提示词或字符串检查，可以立即捕获未经授权的用户意图，而无需将请求暴露给核心大语言模型（LLM）。

通过这些钩子实现有状态逻辑和缓存可以降低最终用户延迟，并防止开发人员为相同的 Token 重复付费。

关键要点

通用过滤提示词不足以进行深度的意图理解，这使得显式的架构护栏对于生产系统至关重要。
ADK 采用了传统的中间件模式，允许在多个生命周期阶段执行自定义代码钩子。
可以在回调函数内部将一个快速、小型的大语言模型设置为‘评判者’，以便在上游传递请求之前低成本地分析用户意图。
将免责声明硬编码到系统提示词中会导致智能体冗余地重复它们，从而降低用户体验。
回调检查可以利用应用程序状态标志，以确保免责声明在每个会话中仅准确交付一次。
字符串匹配回调提供了一种轻量级、确定性的机制，可以立即拦截加密货币等禁止的话题。
直接在 ADK 钩子中缓存重复的查询可以确保快速响应，并消除冗余的模型执行成本。

构建者启发

在您的专业顾问配置中注入 beforeAgent 函数，以便在路由到主链之前评估用户目标。
配置您的意图评判回调，使其立即返回 ‘blocked’ 状态字符串，从而完全截断下游智能体的运行。
利用回调的状态对象来检查和更新诸如 disclaimer_shown 之类的上下文变量，以实现持久的会话行为。
将简单的精确字符串数组与模型检查相结合，为高风险产品词汇构建多层验证逻辑。
在 ADK 回调中集成应用程序级别的缓存查找，以便针对高频的公司问题瞬间提供预先计算好的输出。

待验证事项

确认是否已针对 PII 脱敏和提示词注入防御配置了 Model Armor，以便将这些职责与基于自定义意图的 ADK 回调分离开来。
验证拦截器中所使用的小型评判模型是否具有足够低的延迟预算，以防止阻塞用户体验。
检查您的会话状态存储是否在多轮异步聊天架构中干净地持久化，以保持准确的标志评估。
评估您在钩子代码中的缓存失效策略，以确保用户不会针对动态查询收到过时的信息。