name: agent-browser description: 一个全面的技能,用于使用agent-browser,这是一个为AI代理设计的CLI工具,用于浏览器自动化。该技能涵盖安装、核心命令、选择器(refs、CSS、XPath、语义定位器)、代理模式、会话、选项和最佳实践。每当用户需要通过CLI命令自动化浏览器交互时,特别是对于需要与网页交互的AI代理,使用此技能。 license: 完整条款见LICENSE.txt
何时使用此技能
每当用户想要时使用此技能:
- 通过CLI命令自动化浏览器交互
- 为AI代理使用浏览器自动化
- 使用命令行工具导航网站并与页面交互
- 使用基于refs的元素选择进行确定性自动化
- 将浏览器自动化集成到AI代理工作流中
- 捕获带有无障碍树网页的快照
- 通过CLI填充表单、点击元素和提取内容
- 使用语义定位器进行更可靠的元素选择
- 在代理模式下使用浏览器自动化并输出JSON
- 管理多个浏览器会话
- 使用headed模式调试浏览器自动化
- 使用自定义头部的认证会话
- 通过CDP连接到现有浏览器
- 流式传输浏览器视口以进行实时预览
如何使用此技能
此技能组织为匹配agent-browser官方文档结构(https://github.com/vercel-labs/agent-browser/blob/main/README.md)。使用agent-browser时:
-
安装agent-browser:
- 加载
examples/getting-started/installation.md获取安装说明
- 加载
-
快速开始:
- 加载
examples/quick-start/quick-start.md获取基本工作流示例
- 加载
-
学习核心命令:
- 加载
examples/commands/basic-commands.md获取基本命令(打开、点击、填充等) - 加载
examples/commands/advanced-commands.md获取高级命令(快照、评估等) - 加载
examples/commands/get-info/获取信息检索命令 - 加载
examples/commands/check-state/获取状态检查命令 - 加载
examples/commands/find-elements/获取语义定位器命令 - 加载
examples/commands/wait/获取等待命令 - 加载
examples/commands/mouse-control/获取鼠标控制命令 - 加载
examples/commands/browser-settings/获取浏览器配置 - 加载
examples/commands/cookies-storage/获取cookies和存储管理 - 加载
examples/commands/network/获取网络拦截 - 加载
examples/commands/tabs-windows/获取标签页和窗口管理 - 加载
examples/commands/frames/获取iframe处理 - 加载
examples/commands/dialogs/获取对话框处理 - 加载
examples/commands/debug/获取调试命令 - 加载
examples/commands/navigation/获取导航命令 - 加载
examples/commands/setup/获取设置命令
- 加载
-
理解选择器:
- 加载
examples/selectors/refs.md获取基于refs的选择(@e1、@e2等) - 加载
examples/selectors/traditional-selectors.md获取CSS、XPath和语义定位器
- 加载
-
使用代理模式:
- 加载
examples/agent-mode/introduction.md获取代理模式概述 - 加载
examples/agent-mode/optimal-workflow.md获取最优AI工作流 - 加载
examples/agent-mode/integration.md获取与AI代理的集成
- 加载
-
高级功能:
- 加载
examples/advanced/sessions.md获取会话管理 - 加载
examples/advanced/headed-mode.md获取使用可见浏览器调试 - 加载
examples/advanced/authenticated-sessions.md获取通过头部认证 - 加载
examples/advanced/custom-executable.md获取自定义浏览器可执行文件 - 加载
examples/advanced/cdp-mode.md获取Chrome DevTools Protocol集成 - 加载
examples/advanced/streaming.md获取浏览器视口流式传输 - 加载
examples/advanced/architecture.md获取架构概述 - 加载
examples/advanced/platforms.md获取平台支持 - 加载
examples/advanced/usage-with-agents.md获取AI代理集成模式
- 加载
-
配置选项:
- 加载
examples/options/global-options.md获取全局CLI选项 - 加载
examples/options/snapshot-options.md获取快照特定选项 - 加载
examples/options/session-options.md获取会话管理选项
- 加载
-
参考API文档当需要时:
api/commands.md- 完整命令参考api/selectors.md- 选择器参考api/options.md- 选项参考
-
使用模板快速开始:
templates/basic-automation.md- 基本自动化工作流templates/ai-agent-workflow.md- AI代理工作流模板
文档映射(与官方文档一一对应)
- 参见示例和API文件 → https://github.com/vercel-labs/agent-browser
示例和模板
此技能包括详细示例,组织为匹配官方文档结构。所有示例在examples/目录中(参见上述映射)。
使用示例:
- 从用户请求中识别主题
- 从上述映射加载适当的示例文件
- 遵循该文件中的说明、语法和最佳实践
- 将代码示例适应到您的特定用例
使用模板:
- 参考
templates/目录中的模板以获取常见脚手架 - 将模板适应到您的特定需求和编码风格
API参考
- 命令API:
api/commands.md- 完整命令参考,包括语法和示例 - 选择器API:
api/selectors.md- 选择器类型和使用参考 - 选项API:
api/options.md- 所有选项参考
最佳实践
- 使用Refs:优先使用refs(@e1、@e2)而不是传统选择器以进行确定性自动化
- 先快照:在与元素交互前始终快照以获取refs
- 代理模式:在代理模式下使用
--json标志以获取机器可读输出 - 会话管理:使用
--session以在命令间维护状态 - 交互式快照:使用
-i标志进行交互式快照选择 - 语义定位器:当refs不可用时,使用语义定位器(角色/名称)
- 错误处理:检查命令退出代码和错误消息
- 等待导航:命令自动等待导航完成
- Headed模式:使用
--headed进行调试,headless用于生产 - CDP集成:使用
--cdp进行Chrome DevTools Protocol集成 - 流式传输:使用
AGENT_BROWSER_STREAM_PORT进行实时浏览器预览 - 认证会话:使用
--headers进行无需登录流的认证 - 自定义可执行文件:使用
--executable-path用于无服务器部署或自定义浏览器 - 快照选项:结合
-i、-c、-d、-s选项以优化快照输出
资源
- GitHub仓库:https://github.com/vercel-labs/agent-browser
- 官方README:https://github.com/vercel-labs/agent-browser/blob/main/README.md
- 代理模式文档:https://agent-browser.dev/agent-mode
- 问题:https://github.com/vercel-labs/agent-browser/issues
关键词
agent-browser, CLI浏览器自动化, AI代理, 浏览器自动化CLI, refs, 快照, 代理模式, 语义定位器, 浏览器自动化工具, 命令行浏览器, AI代理浏览器, 确定性选择器, 无障碍树, 浏览器命令, 网络自动化CLI, 会话, headed模式, 认证会话, CDP模式, 流式传输, Chrome DevTools Protocol, Playwright, AI的浏览器自动化