执行摘要
这段演示将 Codex 中的计算机使用描述为从前台屏幕控制走向后台本地自动化的转变。Codex 不再接管用户的主光标,而是可以运行独立的按应用光标,在人继续使用电脑时同步工作。
关键架构变化是混合感知。Codex 仍可在需要时使用截图和视觉坐标,但视频强调 OS accessibility tree 是更丰富的结构化来源,可提供菜单、控件、文本,甚至当前屏幕上不可见的内容。它还将计算机使用呈现为正在进入主线 GPT 模型能力,而不是停留在独立的专用代理模型路径。
对构建者来说,实际启发是本地代理不只是模型问题。可靠性还取决于应用级权限边界、稳健的 accessibility 元数据、基于视觉和纯文本路径之间的模型选择,以及界面如何暴露清晰结构。
关键要点
- Codex 计算机使用被呈现为应用感知的本地自动化,而不是通用的全桌面截图流。
- 独立代理光标让 Codex 可以在已授权应用中行动,而不抢占人类用户的主光标或焦点。
- 设置流程被呈现为低摩擦,但仍建立在明确的 macOS 授权之上。
- 演示展示了多个应用工作流并行运行,包括不同应用中的独立代理动作。
- Accessibility tree 为模型提供结构化 UI 上下文,包括标签、层级、控件,以及可能在屏幕外的文本。
- 视觉理解仍然有用,但纯截图加坐标控制被视为更慢,且结构信息更少。
- 当 OS 提供足够语义结构时,Codex Spark 等纯文本模型也可以胜任清晰 UI 的自动化。
- OpenAI 将这一能力定位为主线 GPT 模型行为的一部分,而不是完全独立的专用代理模型。
- 权限模型按应用划分:Codex 应只查看和控制用户明确授权的应用。
构建者启发
- 把 accessibility 元数据视为代理基础设施。清晰的标签、角色、焦点行为和层级结构,会让软件更容易被代理操作。
- 围绕限定范围的应用权限设计本地自动化,而不是假设模型应该观察整个桌面。
- 使用混合路由:对模糊或大量 canvas 的任务使用视觉模型;当 accessibility tree 可靠时,使用更快的文本导向模型。
- 尽可能优先使用结构化目标而非屏幕坐标,因为 UI 缩放、滚动和窗口移动都会破坏仅靠坐标的动作。
- 预期后台执行需要与人的输入无缝并行运行,且不产生光标冲突。
待验证事项
- 当支持范围扩大后,这个以 macOS 为主的演示如何迁移到 Windows 和其他 accessibility 生态。
- Codex 处理旧应用、自定义 UI 框架、游戏、远程桌面或 accessibility 元数据较弱的 canvas 时有多可靠。
- 在长时间桌面任务中序列化大型 accessibility tree 的 token、延迟和成本表现。
- 是否存在从结构化 UI 控制到截图的平滑回退,以及这如何影响速度、可靠性和可审计性。
- 当多个代理并发运行时,按应用权限如何记录、撤销和强制执行。
