PDF文档处理Skill pdf-processing

PDF文档处理技能是一个专注于自动化处理PDF文件的工具集。它提供PDF文本提取、表格识别与提取、表单自动填写与生成、以及PDF文档的合并、拆分、旋转等高级操作功能。核心关键词包括：PDF处理、PDF文本提取、PDF表格提取、PDF表单填写、PDF文档合并、Python PDF库、pdfplumber、PyPDF2、文档自动化、OCR识别。

后端开发 0 次安装 0 次浏览更新于 2/28/2026

name: pdf-processing description: 从PDF文件中提取文本和表格，填写表单，合并文档。当处理PDF文件或用户提及PDF、表单或文档提取时使用。

PDF处理技能

此技能提供处理PDF文档的能力。

快速开始

使用pdfplumber从PDF中提取文本：

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    text = pdf.pages[0].extract_text()

功能

文本提取

从单个或多个页面提取文本
保留布局和格式
处理多栏文档

表格提取

识别并提取表格
转换为结构化数据（CSV、JSON）
处理复杂表格布局

表单操作

以编程方式填写PDF表单
提取表单字段值
创建可填写的表单

文档操作

合并多个PDF文件
按页面拆分PDF
旋转页面
添加水印

最佳实践

在处理前始终检查PDF是否加密
针对扫描文档处理OCR情况
验证提取数据的准确性
使用适当的库（pdfplumber用于提取，PyPDF2用于操作）