name: letterboxd-watchlist description: 无需登录即可将公开的Letterboxd用户观影清单抓取为包含标题和电影链接的CSV/JSONL列表。当用户要求导出、抓取或镜像Letterboxd观影清单,或构建待看队列时使用。
Letterboxd观影清单抓取器
使用捆绑的脚本抓取公开的Letterboxd观影清单(无需认证)。 如果用户未提供,请务必询问其Letterboxd用户名。
脚本
scripts/scrape_watchlist.py
基本用法
uv run scripts/scrape_watchlist.py <用户名> --out watchlist.csv
稳健模式(推荐)
uv run scripts/scrape_watchlist.py <用户名> --out watchlist.jsonl --delay-ms 300 --timeout 30 --retries 2
输出格式
--out *.csv→title,link--out *.jsonl→ 每行一个JSON对象:{ "title": "…", "link": "…" }
注意事项 / 常见问题
- Letterboxd用户名不区分大小写,但必须完全匹配。
- 脚本抓取分页页面:
/watchlist/page/<n>/。 - 停止条件:第一个没有
data-target-link="/film/..."海报条目的页面。 - 抓取器验证用户名格式(
[A-Za-z0-9_-]+)并使用重试和超时机制。 - 默认抓取延迟为250毫秒/页,以示礼貌并减少瞬时故障。
- 这是尽力而为的HTML抓取;如果Letterboxd更改标记,请调整脚本中的正则表达式。
范围边界
- 此技能仅抓取公开的Letterboxd观影清单并写入CSV/JSONL输出。
- 除非用户明确要求,否则请勿读取本地文件夹、扫描库或执行不相关的后续操作。