Letterboxd观影清单抓取器Skill letterboxd-watchlist

Letterboxd观影清单抓取器是一款自动化工具,用于从公开的Letterboxd用户页面抓取电影待看列表,并导出为CSV或JSONL格式。支持分页抓取、延迟控制、超时重试,适用于电影爱好者数据备份、观影队列管理、电影数据分析等场景。关键词:Letterboxd抓取,观影清单导出,电影数据爬虫,待看电影列表,CSV JSONL导出。

其他 0 次安装 4 次浏览 更新于 2/24/2026

name: letterboxd-watchlist description: 无需登录即可将公开的Letterboxd用户观影清单抓取为包含标题和电影链接的CSV/JSONL列表。当用户要求导出、抓取或镜像Letterboxd观影清单,或构建待看队列时使用。

Letterboxd观影清单抓取器

使用捆绑的脚本抓取公开的Letterboxd观影清单(无需认证)。 如果用户未提供,请务必询问其Letterboxd用户名。

脚本

  • scripts/scrape_watchlist.py

基本用法

uv run scripts/scrape_watchlist.py <用户名> --out watchlist.csv

稳健模式(推荐)

uv run scripts/scrape_watchlist.py <用户名> --out watchlist.jsonl --delay-ms 300 --timeout 30 --retries 2

输出格式

  • --out *.csvtitle,link
  • --out *.jsonl → 每行一个JSON对象:{ "title": "…", "link": "…" }

注意事项 / 常见问题

  • Letterboxd用户名不区分大小写,但必须完全匹配。
  • 脚本抓取分页页面:/watchlist/page/<n>/
  • 停止条件:第一个没有 data-target-link="/film/..." 海报条目的页面。
  • 抓取器验证用户名格式([A-Za-z0-9_-]+)并使用重试和超时机制。
  • 默认抓取延迟为250毫秒/页,以示礼貌并减少瞬时故障。
  • 这是尽力而为的HTML抓取;如果Letterboxd更改标记,请调整脚本中的正则表达式。

范围边界

  • 此技能仅抓取公开的Letterboxd观影清单并写入CSV/JSONL输出。
  • 除非用户明确要求,否则请勿读取本地文件夹、扫描库或执行不相关的后续操作。