Nutrient文档处理技能 nutrient-document-processing

Nutrient 文档处理技能是一个基于 API 的自动化文档处理工具,提供文档格式转换、OCR 文字识别、敏感信息编辑、数字签名、表单填写等功能。支持 PDF、DOCX、XLSX、PPTX、HTML 及多种图像格式。关键词:文档处理 API,PDF 转换,OCR 识别,敏感信息编辑,数字签名,表单自动化,文档自动化,Nutrient DWS。

后端开发 0 次安装 0 次浏览 更新于 2/27/2026

name: nutrient-document-processing description: 使用 Nutrient DWS API 进行文档处理、转换、OCR、提取、编辑、签名和表单填写。支持 PDF、DOCX、XLSX、PPTX、HTML 和图像格式。

Nutrient 文档处理

使用 Nutrient DWS Processor API 处理文档。支持格式转换、文本和表格提取、扫描文档 OCR、PII 编辑、水印添加、数字签名和 PDF 表单填写。

设置

nutrient.io 获取免费 API 密钥

export NUTRIENT_API_KEY="pdf_live_..."

所有请求均以包含 instructions JSON 字段的多部分 POST 形式发送至 https://api.nutrient.io/build

操作

文档转换

# DOCX 转 PDF
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.docx=@document.docx" \
  -F 'instructions={"parts":[{"file":"document.docx"}]}' \
  -o output.pdf

# PDF 转 DOCX
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"docx"}}' \
  -o output.docx

# HTML 转 PDF
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "index.html=@index.html" \
  -F 'instructions={"parts":[{"html":"index.html"}]}' \
  -o output.pdf

支持的输入格式:PDF、DOCX、XLSX、PPTX、DOC、XLS、PPT、PPS、PPSX、ODT、RTF、HTML、JPG、PNG、TIFF、HEIC、GIF、WebP、SVG、TGA、EPS。

文本和数据提取

# 提取纯文本
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"text"}}' \
  -o output.txt

# 将表格提取为 Excel
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"xlsx"}}' \
  -o tables.xlsx

扫描文档 OCR

# OCR 至可搜索 PDF(支持 100 多种语言)
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "scanned.pdf=@scanned.pdf" \
  -F 'instructions={"parts":[{"file":"scanned.pdf"}],"actions":[{"type":"ocr","language":"english"}]}' \
  -o searchable.pdf

语言:通过 ISO 639-2 代码(例如 engdeufraspajpnkorchi_simchi_traarahinrus)支持 100 多种语言。完整的语言名称如 englishgerman 也适用。有关所有支持代码的完整列表,请参阅 完整 OCR 语言表

敏感信息编辑

# 基于模式(SSN、电子邮件)
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"redaction","strategy":"preset","strategyOptions":{"preset":"social-security-number"}},{"type":"redaction","strategy":"preset","strategyOptions":{"preset":"email-address"}}]}' \
  -o redacted.pdf

# 基于正则表达式
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"redaction","strategy":"regex","strategyOptions":{"regex":"\\b[A-Z]{2}\\d{6}\\b"}}]}' \
  -o redacted.pdf

预设:social-security-numberemail-addresscredit-card-numberinternational-phone-numbernorth-american-phone-numberdatetimeurlipv4ipv6mac-addressus-zip-codevin

添加水印

curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"watermark","text":"CONFIDENTIAL","fontSize":72,"opacity":0.3,"rotation":-45}]}' \
  -o watermarked.pdf

数字签名

# 自签名 CMS 签名
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"sign","signatureType":"cms"}]}' \
  -o signed.pdf

PDF 表单填写

curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "form.pdf=@form.pdf" \
  -F 'instructions={"parts":[{"file":"form.pdf"}],"actions":[{"type":"fillForm","formFields":{"name":"Jane Smith","email":"jane@example.com","date":"2026-02-06"}}]}' \
  -o filled.pdf

MCP 服务器(替代方案)

对于原生工具集成,使用 MCP 服务器替代 curl:

{
  "mcpServers": {
    "nutrient-dws": {
      "command": "npx",
      "args": ["-y", "@nutrient-sdk/dws-mcp-server"],
      "env": {
        "NUTRIENT_DWS_API_KEY": "YOUR_API_KEY",
        "SANDBOX_PATH": "/path/to/working/directory"
      }
    }
  }
}

使用时机

  • 文档格式间转换(PDF、DOCX、XLSX、PPTX、HTML、图像)
  • 从 PDF 提取文本、表格、键值对
  • 扫描文档或图像的 OCR
  • 共享文档前编辑 PII
  • 为草稿或机密文档添加水印
  • 合同或协议的数字签名
  • 以编程方式填写 PDF 表单

链接