PDF分析器Skill pdf-analyzer

PDF 分析器是一个使用视觉模型分析 PDF、DOCX 和电子表格文档的技能,通过将文档渲染为图像以保留布局和格式,并提取关键见解。适用于文档自动化处理、数据提取和内容分析,关键词包括:文档分析、视觉模型、布局保留、PDF 处理、数据提取、自动化分析。

计算机视觉 0 次安装 0 次浏览 更新于 3/25/2026

name: pdf-analyzer version: 1.0.0 description: 使用视觉模型分析 PDF、DOCX 和电子表格文档。将文档转换为图像并提取见解,同时保留布局。使用 VT Code 的原生文档处理器(无需容器技能)。 author: VT Code Team tags: [文档, pdf, docx, excel, 视觉, vtcode-native] vtcode-native: true

PDF/DOCX/电子表格分析器

概述

此技能提供 OpenAI 风格的文档处理能力,将 PDF、Word 文档和电子表格转换为渲染图像,供视觉模型分析。这种方法保留了传统文本提取中会丢失的布局、格式、表格和视觉元素。

灵感来源: OpenAI 在 ChatGPT 的代码解释器中的实现(根据 Simon Willison 的博客文章,2025 年 12 月)

支持的格式

  • PDF:多页文档,逐页转换为 PNG
  • DOCX/DOC:Word 文档,完全保留格式
  • XLSX/XLS/CSV:电子表格渲染为视觉表格
  • 图像:直接分析(PNG、JPG、JPEG、GIF、BMP、TIFF)

在 VT Code 中的使用

基本文档分析

# 列出可用技能
vtcode list-skills

# 加载技能
vtcode skills load pdf-analyzer

# 在 VT Code 聊天中:
/skills load pdf-analyzer

分析文档

用户:分析此 PDF 报告并总结关键发现
助手:我将使用 PDF 分析器技能,通过视觉分析处理此文档。

[技能处理文档,转换为图像,使用视觉模型分析]

文档包含:
1. 第 1 页的执行摘要突出显示 Q3 收入增长
2. 第 3-4 页的详细财务表格显示 15% 年同比增长
3. 图表说明市场扩展机会
4. 第 7 页的风险评估部分

关键见解:
- 收入从 210 万美元增长至 240 万美元(14.3% 增长)
- 新客户获取增长 23%
- 供应链效率方面指出挑战

处理电子表格

用户:审查此 Excel 文件并识别销售数据中的任何异常
助手:让我使用基于视觉的处理分析电子表格,以保留表结构和格式。

[技能将电子表格渲染为图像,检测结构,分析值]

发现:
- 第 42 行:销售金额 5 万美元,无对应客户 ID(潜在数据输入错误)
- 第 E 列:几个负值可能表示退货或退款
- 2025 年 3 月 15 日那周:异常 300% 订单激增(与销售团队核实)
- 条件格式显示 12 个逾期付款以红色高亮

文档比较

用户:比较这两个合同版本并突出更改
助手:我将使用视觉分析处理两个文档以检测文本和格式更改。

[技能处理两个文档,比较渲染页面]

检测到的差异:
- 第 3.2 节:付款条件从“Net 30”更改为“Net 15”
- 第 7.1 条款:责任上限从 10 万美元增加至 25 万美元
- 第 5 页:新增保密条款
- 页眉格式:公司徽标位置调整

技术实现

架构

文档 → 渲染器 → PNG 图像 → 视觉模型 → 分析 → 见解
  1. 文档加载:支持 PDF、DOCX、XLSX、CSV 和图像格式
  2. 渲染:将页面/表格转换为高质量 PNG 图像(默认 150 DPI)
  3. 视觉处理:将图像发送到支持视觉的 LLM 进行分析
  4. 文本提取:可选运行 OCR 以获取可搜索文本层
  5. 见解生成:结合视觉分析和提取内容

关键特性

布局保留:

  • 表格保持行/列结构
  • 图表和图形保持视觉完整
  • 格式(粗体、斜体、颜色)得以保留
  • 页面结构和流程得以维持

多页处理:

  • 长文档自动分页
  • 跨页面上下文感知
  • 分析中引用页码

视觉模型集成:

  • 将渲染图像发送到 Gemini/Claude/GPT-4 视觉模型
  • 在分析中维护空间关系
  • 提取文本和视觉信息

令牌效率

  • 图像压缩至视觉模型的最佳大小
  • 长文档的智能页面选择
  • 渲染页面缓存
  • 可配置 DPI(75/150/300),基于详细需求

配置

环境变量

# 文档处理
export VT_CODE_DOC_DPI=150          # 渲染 DPI(默认:150)
export VT_CODE_DOC_MAX_PAGES=50     # 每个文档的最大页数(默认:50)
export VT_CODE_DOC_ENABLE_OCR=true  # 启用 OCR 后备(默认:true)

# 视觉模型选择
export VT_CODE_VISION_MODEL=gemini-2.5-pro  # 用于文档分析的模型

VTCode 配置

[skills.pdf-analyzer]
enabled = true
dpi = 150
max_pages = 50
enable_ocr = true
vision_model = "gemini-2.5-pro"

示例

示例 1:财务报告分析

用户:分析 Q3_Financial_Report.pdf 并给出关键指标

助手:使用基于视觉的分析处理财务报告...

提取的关键指标:
• 总收入:240 万美元(2025 年 Q3)
• 毛利率:68%
• 运营费用:120 万美元
• 净利润:43.2 万美元(18% 利润率)
• 现金流:经营产生 +15.6 万美元

趋势:
• 收入 vs Q2 增长 14.3%
• 利润率改善 2.1 个百分点
• 客户获取成本降低 8%

[按页码引用表格和图表]

示例 2:合同审查

用户:审查此 NDA 并突出任何不寻常条款

助手:分析非披露协议...

合同审查摘要:
✓ 标准保密条款
✓ 合理期限(2 年)
⚠️ 发现不寻常条款:第 5.3 节——“商业秘密的永久保密”
⚠️ 地理范围:全球(典型,但确认是否适当)
✓ 公共信息的标准排除

建议:永久商业秘密条款可执行,但考虑:
- 更具体定义“商业秘密”
- 添加可分割性条款

示例 3:研究论文分析

用户:总结此研究论文并提取方法论

助手:使用视觉分析处理研究论文...

论文摘要:
“机器学习优化的先进技术”
作者:Smith 等(2025)

摘要总结:
该论文提出了一种新颖的优化算法,与 Adam 优化器相比,收敛速度提高 40%...

方法论(来自第 3-5 页):
1. 数据集:CIFAR-10、ImageNet 和自定义基准
2. 架构:ResNet-50、ViT-B/16
3. 超参数:学习率 1e-3,批次大小 256
4. 新颖贡献:自适应动量调度

结果(第 6-7 页):
• 收敛速度 vs 基线快 40%
• ImageNet 上准确度提高 2.3%
• 对超参数变化稳健

[引用图形:图 2(收敛曲线),图 4(准确度比较)]

高级使用

批处理

# 处理多个文档
for doc in *.pdf; do
  vtcode ask "分析 $doc 并将摘要保存到 ${doc%.pdf}_summary.txt"
done

与 CLI 集成

# 处理文档并提取特定信息
vtcode skills load pdf-analyzer
vtcode ask "从 contract.pdf 提取所有电子邮件地址"

自定义视觉提示

用户:分析此文档,仅关注财务数据和风险

助手:我将使用自定义视觉提示,专门聚焦于财务信息和风险因素...

[自定义提示指导模型关注特定元素]

故障排除

常见问题

文档太大:

错误:文档超出最大页数限制(50 页)
解决方案:分割文档或增加 VT_CODE_DOC_MAX_PAGES

视觉模型不可用:

错误:视觉模型未配置
解决方案:设置 VT_CODE_VISION_MODEL 或使用默认 Gemini 视觉模型

渲染失败:

错误:无法渲染文档
解决方案:验证文件格式支持且未损坏

调试模式

export VT_CODE_DEBUG_DOCUMENTS=true
vtcode skills load pdf-analyzer
vtcode ask "分析 document.pdf"
# 将显示详细的渲染和处理日志

性能提示

  1. 使用适当 DPI:150 DPI 适用于大多数文档
  2. 限制页面范围:对于大文档,仅处理相关页面
  3. 批处理:并行处理多个文档
  4. 缓存结果:尽可能重用处理过的文档
  5. 选择高效的视觉模型:Gemini 2.5 Flash 用于速度,Pro 用于细节

安全考虑

  • 文档本地处理,不发送到外部服务
  • 视觉模型调用使用标准 LLM API 加密
  • 处理后清理临时文件
  • 不永久存储文档内容

许可证

MIT 许可证 - 详情见 VTCode 主仓库。