执行摘要
Google DeepMind 和 Cloud 负责人讨论 Gemini 3.5 Flash、多智能体 anti-gravity 系统,以及解决企业信息检索瓶颈如何改变软件开发生命周期。
Gemini 3.5 Flash 在复杂工具使用和扩展多步骤轨迹上超过旧模型,并跟踪每秒 200 个 token 以上的执行速度。
工程挑战已经从基础代码生成转向构建结构化多智能体系统,以异步方式委派任务。
企业部署边界更多由数据安全和信息检索能力决定,而不是由基础模型智能上限决定。
关键要点
- 现代开发基准正在转向真实产品执行模拟,例如为盈利而管理真实电商商店。
- 集成时,对模型行为的定性和主观开发者反馈,权重可能超过静态代码验证分数。
- 交互循环已经超越简单文本回合,转向模型编写、构建并递归调整软件任务。
- AI 交互范式可能围绕高度可信的主界面收敛,并由其原生生成专用 sub-agents。
- 企业验证流程要求模型知道何时暂停、评估信息缺口,并在继续执行前询问人类。
- 工程 agents 的核心瓶颈之一,是用实时框架输入处理庞大上下文流。
- anti-gravity 平台允许 root agent 为异步子任务显式选择不同底层模型配置。
构建者启发
- 停止围绕单轮聊天框设计工具,改为为连续后台工作流重新架构软件界面。
- 在所有从零到一的软件项目根目录中直接加入稳健的集成与 playground 测试脚本。
- 构建明确的 agent 打断规则,管理运行中 agent 可以多频繁提示或提醒人类监督者。
- 把产品策略聚焦在用户体验和问题发现上,因为基础功能构建正在商品化。
- 利用模型委派模式,让大模型编排并把狭窄任务分派给快速 Flash 层。
待验证事项
- 验证执行数千步异步模型循环时的 token 利用率和内存分配。
- 确认在活跃系统开发 harness 上运行实时强化循环时的延迟差异。
- 分析给后台 agents 授权访问生产关系数据湖时的数据外泄风险。
- 评估 Gemini 3.5 Flash 调试数十年遗留代码库与新结构化 Web 应用时的准确度差异。
