name: web-scraper description: 使用CSS选择器从网页提取数据,支持分页、限速和多种输出格式。 metadata: short-description: 从网站爬取数据 source: repository: https://github.com/cheeriojs/cheerio license: MIT
网页数据抓取工具
描述
使用CSS选择器从网页提取结构化数据,支持速率限制和分页功能。
触发条件
/scrape命令- 用户请求提取网页数据
- 用户需要解析HTML
使用方法
# 抓取单个页面
python scripts/web_scraper.py --url "https://example.com" --selector ".item" --output data.json
# 使用多个选择器抓取
python scripts/web_scraper.py --url "https://example.com" --selectors "title:.title,price:.price,link:a@href"
# 抓取多个页面
python scripts/web_scraper.py --urls urls.txt --selector ".product" --output products.json --delay 2
标签
数据抓取, 网页, html, 数据提取, 自动化
兼容性
- Codex: ✅
- Claude Code: ✅