智能体浏览器自动化CLI工具Skill agent-browser

agent-browser是一个专为AI代理设计的命令行界面(CLI)工具,用于自动化浏览器交互。它支持网页导航、表单填充、元素点击和内容提取,使用refs选择器确保确定性操作,并集成代理模式以JSON输出,方便AI集成。关键词:agent-browser, CLI浏览器自动化, AI代理, refs, snapshot, agent模式, 语义定位器, 浏览器自动化工具。

AI智能体 0 次安装 0 次浏览 更新于 3/22/2026

name: agent-browser description: 一个全面的技能,用于使用agent-browser,这是一个为AI代理设计的CLI工具,用于浏览器自动化。该技能涵盖安装、核心命令、选择器(refs、CSS、XPath、语义定位器)、代理模式、会话、选项和最佳实践。每当用户需要通过CLI命令自动化浏览器交互时,特别是对于需要与网页交互的AI代理,使用此技能。 license: 完整条款见LICENSE.txt

何时使用此技能

每当用户想要时使用此技能:

  • 通过CLI命令自动化浏览器交互
  • 为AI代理使用浏览器自动化
  • 使用命令行工具导航网站并与页面交互
  • 使用基于refs的元素选择进行确定性自动化
  • 将浏览器自动化集成到AI代理工作流中
  • 捕获带有无障碍树网页的快照
  • 通过CLI填充表单、点击元素和提取内容
  • 使用语义定位器进行更可靠的元素选择
  • 在代理模式下使用浏览器自动化并输出JSON
  • 管理多个浏览器会话
  • 使用headed模式调试浏览器自动化
  • 使用自定义头部的认证会话
  • 通过CDP连接到现有浏览器
  • 流式传输浏览器视口以进行实时预览

如何使用此技能

此技能组织为匹配agent-browser官方文档结构(https://github.com/vercel-labs/agent-browser/blob/main/README.md)。使用agent-browser时:

  1. 安装agent-browser

    • 加载examples/getting-started/installation.md获取安装说明
  2. 快速开始

    • 加载examples/quick-start/quick-start.md获取基本工作流示例
  3. 学习核心命令

    • 加载examples/commands/basic-commands.md获取基本命令(打开、点击、填充等)
    • 加载examples/commands/advanced-commands.md获取高级命令(快照、评估等)
    • 加载examples/commands/get-info/获取信息检索命令
    • 加载examples/commands/check-state/获取状态检查命令
    • 加载examples/commands/find-elements/获取语义定位器命令
    • 加载examples/commands/wait/获取等待命令
    • 加载examples/commands/mouse-control/获取鼠标控制命令
    • 加载examples/commands/browser-settings/获取浏览器配置
    • 加载examples/commands/cookies-storage/获取cookies和存储管理
    • 加载examples/commands/network/获取网络拦截
    • 加载examples/commands/tabs-windows/获取标签页和窗口管理
    • 加载examples/commands/frames/获取iframe处理
    • 加载examples/commands/dialogs/获取对话框处理
    • 加载examples/commands/debug/获取调试命令
    • 加载examples/commands/navigation/获取导航命令
    • 加载examples/commands/setup/获取设置命令
  4. 理解选择器

    • 加载examples/selectors/refs.md获取基于refs的选择(@e1、@e2等)
    • 加载examples/selectors/traditional-selectors.md获取CSS、XPath和语义定位器
  5. 使用代理模式

    • 加载examples/agent-mode/introduction.md获取代理模式概述
    • 加载examples/agent-mode/optimal-workflow.md获取最优AI工作流
    • 加载examples/agent-mode/integration.md获取与AI代理的集成
  6. 高级功能

    • 加载examples/advanced/sessions.md获取会话管理
    • 加载examples/advanced/headed-mode.md获取使用可见浏览器调试
    • 加载examples/advanced/authenticated-sessions.md获取通过头部认证
    • 加载examples/advanced/custom-executable.md获取自定义浏览器可执行文件
    • 加载examples/advanced/cdp-mode.md获取Chrome DevTools Protocol集成
    • 加载examples/advanced/streaming.md获取浏览器视口流式传输
    • 加载examples/advanced/architecture.md获取架构概述
    • 加载examples/advanced/platforms.md获取平台支持
    • 加载examples/advanced/usage-with-agents.md获取AI代理集成模式
  7. 配置选项

    • 加载examples/options/global-options.md获取全局CLI选项
    • 加载examples/options/snapshot-options.md获取快照特定选项
    • 加载examples/options/session-options.md获取会话管理选项
  8. 参考API文档当需要时:

    • api/commands.md - 完整命令参考
    • api/selectors.md - 选择器参考
    • api/options.md - 选项参考
  9. 使用模板快速开始:

    • templates/basic-automation.md - 基本自动化工作流
    • templates/ai-agent-workflow.md - AI代理工作流模板

文档映射(与官方文档一一对应)

示例和模板

此技能包括详细示例,组织为匹配官方文档结构。所有示例在examples/目录中(参见上述映射)。

使用示例:

  • 从用户请求中识别主题
  • 从上述映射加载适当的示例文件
  • 遵循该文件中的说明、语法和最佳实践
  • 将代码示例适应到您的特定用例

使用模板:

  • 参考templates/目录中的模板以获取常见脚手架
  • 将模板适应到您的特定需求和编码风格

API参考

  • 命令APIapi/commands.md - 完整命令参考,包括语法和示例
  • 选择器APIapi/selectors.md - 选择器类型和使用参考
  • 选项APIapi/options.md - 所有选项参考

最佳实践

  1. 使用Refs:优先使用refs(@e1、@e2)而不是传统选择器以进行确定性自动化
  2. 先快照:在与元素交互前始终快照以获取refs
  3. 代理模式:在代理模式下使用--json标志以获取机器可读输出
  4. 会话管理:使用--session以在命令间维护状态
  5. 交互式快照:使用-i标志进行交互式快照选择
  6. 语义定位器:当refs不可用时,使用语义定位器(角色/名称)
  7. 错误处理:检查命令退出代码和错误消息
  8. 等待导航:命令自动等待导航完成
  9. Headed模式:使用--headed进行调试,headless用于生产
  10. CDP集成:使用--cdp进行Chrome DevTools Protocol集成
  11. 流式传输:使用AGENT_BROWSER_STREAM_PORT进行实时浏览器预览
  12. 认证会话:使用--headers进行无需登录流的认证
  13. 自定义可执行文件:使用--executable-path用于无服务器部署或自定义浏览器
  14. 快照选项:结合-i-c-d-s选项以优化快照输出

资源

关键词

agent-browser, CLI浏览器自动化, AI代理, 浏览器自动化CLI, refs, 快照, 代理模式, 语义定位器, 浏览器自动化工具, 命令行浏览器, AI代理浏览器, 确定性选择器, 无障碍树, 浏览器命令, 网络自动化CLI, 会话, headed模式, 认证会话, CDP模式, 流式传输, Chrome DevTools Protocol, Playwright, AI的浏览器自动化