名称: 电子书提取器 描述: 当用户需要从电子书(EPUB、MOBI、PDF)中提取文本时使用。用于将电子书转换为纯文本,以进行分析、处理或阅读。支持所有常见的电子书格式。
电子书文本提取器
概述
使用Python脚本从EPUB、MOBI和PDF文件中提取纯文本。无需调用LLM - 纯文本提取。
支持格式
| 格式 | 使用工具 | 备注 |
|---|---|---|
| EPUB | ebooklib + BeautifulSoup |
直接解析,保留结构 |
| MOBI | Calibre ebook-convert |
先转换为EPUB,然后提取 |
PyMuPDF (fitz) |
快速,处理大多数PDF良好 |
使用方法
统一提取器(自动检测格式):
python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.epub
python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.mobi
python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.pdf
输出选项:
# 输出到标准输出(默认)
python3 scripts/extract.py book.epub
# 输出到文件
python3 scripts/extract.py book.epub -o output.txt
python3 scripts/extract.py book.epub > output.txt
特定格式脚本:
python3 scripts/extract_epub.py book.epub
python3 scripts/extract_mobi.py book.mobi
python3 scripts/extract_pdf.py book.pdf
设置
# 一键设置(安装所有依赖)
~/.claude/skills/ebook-extractor/setup.sh
# 或手动:
pip install -r ~/.claude/skills/ebook-extractor/requirements.txt
brew install calibre # macOS,用于MOBI支持
脚本位置
~/.claude/skills/ebook-extractor/scripts/
常见问题
| 问题 | 解决方案 |
|---|---|
| 缺少包 | 运行 setup.sh 或 pip install -r requirements.txt |
| MOBI失败 | 确保安装Calibre: brew install calibre |
| PDF乱码 | 某些PDF基于图像;需要OCR(不支持) |