Name: PDF处理Skill
Rating: 5 (10 reviews)
Author: skillcreatorai

名称: pdf处理描述: 全面的PDF处理工具包，用于提取文本和表格、创建新PDF、合并/分割文档和处理表单。当Claude需要填写PDF表单或大规模程序化处理、生成或分析PDF文档时使用。来源: anthropics/skills 许可证: Apache-2.0

PDF处理指南

快速开始

from pypdf import PdfReader, PdfWriter

# 读取PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

# 提取文本
text = ""
for page in reader.pages:
    text += page.extract_text()

Python库

pypdf - 基本操作

合并PDF

from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

分割PDF

reader = PdfReader("input.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

pdfplumber - 文本和表格提取

提取表格

import pdfplumber
import pandas as pd

with pdfplumber.open("document.pdf") as pdf:
    all_tables = []
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

reportlab - 创建PDF

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
c.drawString(100, height - 100, "Hello World!")
c.save()

命令行工具

# 提取文本 (poppler-utils)
pdftotext input.pdf output.txt

# 合并PDF (qpdf)
qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

# 分割页面
qpdf input.pdf --pages . 1-5 -- pages1-5.pdf

快速参考

任务	最佳工具	命令/代码
合并PDF	pypdf	`writer.add_page(page)`
分割PDF	pypdf	每页一个文件
提取文本	pdfplumber	`page.extract_text()`
提取表格	pdfplumber	`page.extract_tables()`
创建PDF	reportlab	Canvas或Platypus
OCR扫描PDF	pytesseract	先转换为图像

名称: pdf处理 描述: 全面的PDF处理工具包，用于提取文本和表格、创建新PDF、合并/分割文档和处理表单。当Claude需要填写PDF表单或大规模程序化处理、生成或分析PDF文档时使用。 来源: anthropics/skills 许可证: Apache-2.0

PDF处理指南

快速开始

Python库

pypdf - 基本操作

合并PDF

分割PDF

pdfplumber - 文本和表格提取

提取表格

reportlab - 创建PDF

命令行工具

快速参考

名称: pdf处理描述: 全面的PDF处理工具包，用于提取文本和表格、创建新PDF、合并/分割文档和处理表单。当Claude需要填写PDF表单或大规模程序化处理、生成或分析PDF文档时使用。来源: anthropics/skills 许可证: Apache-2.0