name: gemini-computer-use description: 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。当用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环(截图 → 函数调用 → 操作 → 函数响应),或要求为有风险的 UI 操作集成安全确认时使用。
Gemini 计算机使用
快速开始
-
加载环境变量文件并设置您的 API 密钥:
cp env.example env.sh $EDITOR env.sh source env.sh -
创建虚拟环境并安装依赖:
python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium -
使用提示词运行智能体脚本:
python scripts/computer_use_agent.py \ --prompt "在 example.com 上查找最新的博客文章标题" \ --start-url "https://example.com" \ --turn-limit 6
浏览器选择
- 默认:Playwright 捆绑的 Chromium(无需设置环境变量)。
- 使用
COMPUTER_USE_BROWSER_CHANNEL选择特定渠道(Chrome/Edge)。 - 使用
COMPUTER_USE_BROWSER_EXECUTABLE指定自定义的基于 Chromium 的可执行文件(例如,Brave)。
如果两者都设置了,COMPUTER_USE_BROWSER_EXECUTABLE 优先级更高。
核心工作流(智能体循环)
- 捕获屏幕截图,并将用户目标 + 截图发送给模型。
- 解析响应中的
function_call操作。 - 在 Playwright 中执行每个操作。
- 如果
safety_decision为require_confirmation,则在执行前提示用户确认。 - 发送包含最新 URL 和截图的
function_response对象。 - 重复此过程,直到模型仅返回文本(无操作)或达到回合限制。
操作指南
- 在沙盒化的浏览器配置文件或容器中运行。
- 使用
--exclude参数来阻止您不希望模型执行的风险操作。 - 除非有特殊原因,否则请将视口保持在 1440x900。
资源
- 脚本:
scripts/computer_use_agent.py - 参考笔记:
references/google-computer-use.md - 环境变量模板:
env.example