Codex 计算机使用：后台代理与可访问性树

OpenAI 展示了 Codex 计算机使用如何成为本地自动化层：它可以按应用在后台运行，结合视觉理解与 OS accessibility 数据，并将人的光标控制与代理动作分离。

处理日期：2026 年 5 月 27 日

Codex 计算机使用信息图，展示后台光标、OS accessibility 流水线和按应用权限隔离。

执行摘要

这段演示将 Codex 中的计算机使用描述为从前台屏幕控制走向后台本地自动化的转变。Codex 不再接管用户的主光标，而是可以运行独立的按应用光标，在人继续使用电脑时同步工作。

关键架构变化是混合感知。Codex 仍可在需要时使用截图和视觉坐标，但视频强调 OS accessibility tree 是更丰富的结构化来源，可提供菜单、控件、文本，甚至当前屏幕上不可见的内容。它还将计算机使用呈现为正在进入主线 GPT 模型能力，而不是停留在独立的专用代理模型路径。

对构建者来说，实际启发是本地代理不只是模型问题。可靠性还取决于应用级权限边界、稳健的 accessibility 元数据、基于视觉和纯文本路径之间的模型选择，以及界面如何暴露清晰结构。

关键要点

Codex 计算机使用被呈现为应用感知的本地自动化，而不是通用的全桌面截图流。
独立代理光标让 Codex 可以在已授权应用中行动，而不抢占人类用户的主光标或焦点。
设置流程被呈现为低摩擦，但仍建立在明确的 macOS 授权之上。
演示展示了多个应用工作流并行运行，包括不同应用中的独立代理动作。
Accessibility tree 为模型提供结构化 UI 上下文，包括标签、层级、控件，以及可能在屏幕外的文本。
视觉理解仍然有用，但纯截图加坐标控制被视为更慢，且结构信息更少。
当 OS 提供足够语义结构时，Codex Spark 等纯文本模型也可以胜任清晰 UI 的自动化。
OpenAI 将这一能力定位为主线 GPT 模型行为的一部分，而不是完全独立的专用代理模型。
权限模型按应用划分：Codex 应只查看和控制用户明确授权的应用。

构建者启发

把 accessibility 元数据视为代理基础设施。清晰的标签、角色、焦点行为和层级结构，会让软件更容易被代理操作。
围绕限定范围的应用权限设计本地自动化，而不是假设模型应该观察整个桌面。
使用混合路由：对模糊或大量 canvas 的任务使用视觉模型；当 accessibility tree 可靠时，使用更快的文本导向模型。
尽可能优先使用结构化目标而非屏幕坐标，因为 UI 缩放、滚动和窗口移动都会破坏仅靠坐标的动作。
预期后台执行需要与人的输入无缝并行运行，且不产生光标冲突。

待验证事项

当支持范围扩大后，这个以 macOS 为主的演示如何迁移到 Windows 和其他 accessibility 生态。
Codex 处理旧应用、自定义 UI 框架、游戏、远程桌面或 accessibility 元数据较弱的 canvas 时有多可靠。
在长时间桌面任务中序列化大型 accessibility tree 的 token、延迟和成本表现。
是否存在从结构化 UI 控制到截图的平滑回退，以及这如何影响速度、可靠性和可审计性。
当多个代理并发运行时，按应用权限如何记录、撤销和强制执行。