返回 Google 简报

Google AI Edge 与 Gemma:面向构建者的端侧 AI

Google 工程师讲解用于离线本地推理的 AI Edge 技术栈,包括 Gemma 模型、LiteRT 后端、NPU 加速、MediaPipe tasks 和设备机群基准测试。

处理日期:2026 年 5 月 30 日
信息图展示文本、音频和视觉输入如何在本地设备中通过 LiteRT 与 NPU 加速运行。

执行摘要

Google 工程师介绍 AI Edge 技术栈,演示 Gemma 模型、LiteRT 后端和预置 MediaPipe 视觉方案如何在完全离线状态下进行高速本地推理。

Google AI Edge 技术栈通过直接在设备芯片上执行完整文本和视觉模型,减少云 API 成本和网络依赖。

硬件优化引擎结合 ARM 架构和专用 NPU,让执行速度超过每秒 200 个 token。

物理设备内存与处理芯片之间的内存传输速率,已经取代纯计算能力成为主要系统瓶颈。

关键要点

  • 最新紧凑 Gemma 模型经常超过此前大数倍的前沿模型。
  • LiteRT 是底层执行引擎,LiteRT LM 则提供简化的文本输入到文本输出接口。
  • 生产级 NPU 支持已经扩展到 Google Tensor、Intel、Qualcomm 和 MediaTek 等芯片框架。
  • 完整 AI Edge Gallery 应用代码在 GitHub 开源,可作为开发者架构基础。
  • 端侧库提供原生方法来管理内存配置,并在本地持久化多轮用户对话线程。
  • MediaPipe 提供可直接插拔的本地任务,包括高速姿态关键点、图像分类和手势匹配。
  • AI Edge Portal 允许开发者在云管理的真实手机机群上直接测试微调模型基准。

构建者启发

  • 把高频交互功能从云端点迁移到端侧硬件模型,减少持续服务器费用。
  • 使用 AI Edge Torch 包,把自定义 PyTorch 权重编译成可移植、硬件加速的 .tflight 结构。
  • 通过 MLKit 利用 Gemini Nano 和 AI Core 等移动 OS 层,原生访问硬件加速。
  • 实现深度内存映射和自定义 OpenCL 规则,避免后台 agent 循环造成 UI 卡顿。
  • 在连续感知管线中部署经典机器学习架构到边缘硬件,以最大化电池寿命。

待验证事项

  • 测试边缘设备连续数小时处理音频分类循环时的电量消耗曲线。
  • 验证把大型自定义开放模型量化到 LiteRT 格式时的性能和准确率变化。
  • 测量在移动设备内存中保持大上下文窗口活跃时的 RAM 和执行占用增加。
  • 确认跨混合 GPU 与 CPU 硬件生态部署自定义视觉资产时的芯片路由兼容性。