⚡

Gemini浏览器自动化智能体Skill gemini-computer-use

Gemini 浏览器自动化智能体是一个基于 Google Gemini 2.5 大语言模型的网页浏览器自动化工具。它通过 Playwright 框架，结合智能体循环（截图、函数调用、操作执行、响应反馈），实现根据自然语言指令自动化执行网页浏览、数据抓取、表单填写等任务。该技能集成了安全确认机制，适用于网页自动化测试、数据采集、RPA流程自动化等场景。关键词：Gemini 2.5, 浏览器自动化, Playwright, AI智能体, 网页控制, RPA, 自动化测试, 数据抓取。

AI智能体 0 次安装 30 次浏览更新于 3/5/2026

name: gemini-computer-use description: 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。当用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环（截图 → 函数调用 → 操作 → 函数响应），或要求为有风险的 UI 操作集成安全确认时使用。

Gemini 计算机使用

快速开始

加载环境变量文件并设置您的 API 密钥：
```
cp env.example env.sh
$EDITOR env.sh
source env.sh
```

创建虚拟环境并安装依赖：

python -m venv .venv
source .venv/bin/activate
pip install google-genai playwright
playwright install chromium

使用提示词运行智能体脚本：

python scripts/computer_use_agent.py \
  --prompt "在 example.com 上查找最新的博客文章标题" \
  --start-url "https://example.com" \
  --turn-limit 6

浏览器选择

默认：Playwright 捆绑的 Chromium（无需设置环境变量）。
使用 COMPUTER_USE_BROWSER_CHANNEL 选择特定渠道（Chrome/Edge）。
使用 COMPUTER_USE_BROWSER_EXECUTABLE 指定自定义的基于 Chromium 的可执行文件（例如，Brave）。

如果两者都设置了，COMPUTER_USE_BROWSER_EXECUTABLE 优先级更高。

核心工作流（智能体循环）

捕获屏幕截图，并将用户目标 + 截图发送给模型。
解析响应中的 function_call 操作。
在 Playwright 中执行每个操作。
如果 safety_decision 为 require_confirmation，则在执行前提示用户确认。
发送包含最新 URL 和截图的 function_response 对象。
重复此过程，直到模型仅返回文本（无操作）或达到回合限制。

操作指南

在沙盒化的浏览器配置文件或容器中运行。
使用 --exclude 参数来阻止您不希望模型执行的风险操作。
除非有特殊原因，否则请将视口保持在 1440x900。

资源

脚本：scripts/computer_use_agent.py
参考笔记：references/google-computer-use.md
环境变量模板：env.example