Claude 智能体对决 Minecraft 评估与词元效率

Anthropic 这场紧凑工作坊把 Minecraft 挖钻石挑战转化为一堂课，覆盖托管智能体、MCP 工具、提示词调优、快速评估循环和关注词元的计分方式。

处理日期：2026 年 5 月 29 日

Claude 智能体对决工作坊信息图，展示托管智能体设置、MCP 工具、快速评估和词元高效的挖钻石流程。

执行摘要

Anthropic Applied AI 团队将智能体对决设计成学习智能体优化的动手练习。参与者在类似 Minecraft 的挖钻石挑战中配置由 Claude 驱动的智能体，然后通过提示词、模型选择、技能和接入 MCP 的工具来改进行为，而不是依赖视觉游戏输入。

对构建者最有用的启发是评估循环。视频强调快速开发运行、受限的最终计分运行，以及同时看重挖到钻石数量和词元效率的排行榜。这把优化目标从“使用更大的模型”转变为“让智能体把上下文和工具调用花在能推进任务的动作上”。

技术运行框架使用 MineFlayer 和模型上下文协议服务器，将游戏动作暴露为可编程工具。可编辑表面被有意控制得很小：系统提示词、所选模型、my_agent.py 中的自定义技能，以及智能体的评估循环。Gemini 还提示视频标题和口头工作坊倒计时之间存在时间歧义，因此本简报把练习结构作为可靠要点，而不把精确工作坊时钟当作结论。

关键要点

智能体对决使用游戏环境让智能体行为可测量：可见结果是挖到多少钻石，但工程目标是可重复改进。
工作坊教授“基于评估攀升”：做一次改动，运行短评估，检查行为，然后继续迭代。
智能体通过可编程的 MineFlayer 和 MCP 工具交互，而不是通过原始视频感知。
主要调节项包括系统提示词、模型字符串、自定义技能和工具使用策略。
词元效率是分数的一部分，因此冗长或过度配置的智能体可能输给更小但更聚焦的配置。
短开发评估用于保持快速迭代，然后再投入时间进行完整计分运行。

构建者启发

在优化智能体之前，先定义同时捕捉任务产出和资源使用的评估指标。
开发阶段优先使用小而快的评估子集，让提示词和技能改动能快速比较。
当环境已有可靠的可编程接口时，通过 MCP 暴露结构化工具。
把模型选择视为多个杠杆之一；提示词形状、技能代码和工具纪律往往更重要。
设计排行榜和验收测试时，应奖励高效成功，而不只是最大发电动作数量。

待验证事项

精确的工作坊倒计时和最终计分窗口，因为标题和口头设置似乎使用了不同的时间参照。
公开仓库结构，特别是 my_agent.py、技能、MCP 服务器和评估脚本如何连接在一起。
钻石到词元的排行榜指标如何计算，以及失败的工具调用是否计入智能体成本。
真实竞赛运行和本地练习运行分别允许哪些改动。