电子书文本提取器Skill ebook-extractor

电子书文本提取器是一个用于从EPUB、MOBI、PDF格式电子书中提取纯文本的工具。它支持常见电子书格式,使用Python脚本实现,无需大型语言模型调用,纯文本提取。适用于数据分析、文本处理、阅读转换等场景。关键词:电子书提取、文本转换、Python工具、EPUB、MOBI、PDF、数据提取。

数据工程 0 次安装 0 次浏览 更新于 3/9/2026

name: ebook-extractor description: 当用户想要从电子书(EPUB、MOBI、PDF)中提取文本时使用。用于将电子书转换为纯文本以进行分析、处理或阅读。支持所有常见电子书格式。

电子书文本提取器

概述

使用Python脚本从EPUB、MOBI和PDF文件中提取纯文本。无需LLM调用 - 纯文本提取。

支持格式

格式 使用工具 备注
EPUB ebooklib + BeautifulSoup 直接解析,保留结构
MOBI Calibre ebook-convert 先转换为EPUB,然后提取
PDF PyMuPDF (fitz) 快速,处理大多数PDF良好

使用方法

统一提取器(自动检测格式):

python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.epub
python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.mobi
python3 ~/.claude/skills/ebook-extractor/scripts/extract.py /path/to/book.pdf

输出选项:

# 输出到标准输出(默认)
python3 scripts/extract.py book.epub

# 输出到文件
python3 scripts/extract.py book.epub -o output.txt
python3 scripts/extract.py book.epub > output.txt

格式特定脚本:

python3 scripts/extract_epub.py book.epub
python3 scripts/extract_mobi.py book.mobi
python3 scripts/extract_pdf.py book.pdf

安装设置

# 一键设置(安装所有依赖)
~/.claude/skills/ebook-extractor/setup.sh

# 或手动:
pip install -r ~/.claude/skills/ebook-extractor/requirements.txt
brew install calibre  # macOS,用于MOBI支持

脚本位置

~/.claude/skills/ebook-extractor/scripts/

常见问题

问题 解决方案
缺少包 运行 setup.shpip install -r requirements.txt
MOBI失败 确保Calibre已安装:brew install calibre
PDF乱码 某些PDF是基于图像的;需要OCR(不支持)