Gemini浏览器自动化智能体 gemini-computer-use

Gemini 浏览器自动化智能体是一个基于 Google Gemini 2.5 大语言模型的网页浏览器自动化工具。它通过 Playwright 框架,结合智能体循环(截图、函数调用、操作执行、响应反馈),实现根据自然语言指令自动化执行网页浏览、数据抓取、表单填写等任务。该技能集成了安全确认机制,适用于网页自动化测试、数据采集、RPA流程自动化等场景。关键词:Gemini 2.5, 浏览器自动化, Playwright, AI智能体, 网页控制, RPA, 自动化测试, 数据抓取。

AI智能体 0 次安装 0 次浏览 更新于 3/5/2026

name: gemini-computer-use description: 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。当用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环(截图 → 函数调用 → 操作 → 函数响应),或要求为有风险的 UI 操作集成安全确认时使用。

Gemini 计算机使用

快速开始

  1. 加载环境变量文件并设置您的 API 密钥:

    cp env.example env.sh
    $EDITOR env.sh
    source env.sh
    
  2. 创建虚拟环境并安装依赖:

    python -m venv .venv
    source .venv/bin/activate
    pip install google-genai playwright
    playwright install chromium
    
  3. 使用提示词运行智能体脚本:

    python scripts/computer_use_agent.py \
      --prompt "在 example.com 上查找最新的博客文章标题" \
      --start-url "https://example.com" \
      --turn-limit 6
    

浏览器选择

  • 默认:Playwright 捆绑的 Chromium(无需设置环境变量)。
  • 使用 COMPUTER_USE_BROWSER_CHANNEL 选择特定渠道(Chrome/Edge)。
  • 使用 COMPUTER_USE_BROWSER_EXECUTABLE 指定自定义的基于 Chromium 的可执行文件(例如,Brave)。

如果两者都设置了,COMPUTER_USE_BROWSER_EXECUTABLE 优先级更高。

核心工作流(智能体循环)

  1. 捕获屏幕截图,并将用户目标 + 截图发送给模型。
  2. 解析响应中的 function_call 操作。
  3. 在 Playwright 中执行每个操作。
  4. 如果 safety_decisionrequire_confirmation,则在执行前提示用户确认。
  5. 发送包含最新 URL 和截图的 function_response 对象。
  6. 重复此过程,直到模型仅返回文本(无操作)或达到回合限制。

操作指南

  • 在沙盒化的浏览器配置文件或容器中运行。
  • 使用 --exclude 参数来阻止您不希望模型执行的风险操作。
  • 除非有特殊原因,否则请将视口保持在 1440x900。

资源

  • 脚本:scripts/computer_use_agent.py
  • 参考笔记:references/google-computer-use.md
  • 环境变量模板:env.example