name: pdf-processing description: 从PDF文件中提取文本和表格,填写表单,合并文档。当处理PDF文件或用户提及PDF、表单或文档提取时使用。
PDF处理技能
此技能提供处理PDF文档的能力。
快速开始
使用pdfplumber从PDF中提取文本:
import pdfplumber
with pdfplumber.open("document.pdf") as pdf:
text = pdf.pages[0].extract_text()
功能
文本提取
- 从单个或多个页面提取文本
- 保留布局和格式
- 处理多栏文档
表格提取
- 识别并提取表格
- 转换为结构化数据(CSV、JSON)
- 处理复杂表格布局
表单操作
- 以编程方式填写PDF表单
- 提取表单字段值
- 创建可填写的表单
文档操作
- 合并多个PDF文件
- 按页面拆分PDF
- 旋转页面
- 添加水印
最佳实践
- 在处理前始终检查PDF是否加密
- 针对扫描文档处理OCR情况
- 验证提取数据的准确性
- 使用适当的库(pdfplumber用于提取,PyPDF2用于操作)