样本文本处理器 sample-skill

样本文本处理器是一个基础级别的技能,用于展示文本处理的基本结构和功能,包括单词计数、字符分析和文本转换。关键词:文本处理、单词计数、字符分析、文本转换。

NLP 0 次安装 0 次浏览 更新于 3/5/2026

样本文本处理器


名称: sample-text-processor 级别: 基础 类别: 文本处理 依赖: 无(仅Python标准库) 作者: Claude Skills工程团队 版本: 1.0.0 最后更新: 2026-02-16


描述

样本文本处理器是一个简单的技能,旨在展示claude-skills生态系统中基础级别要求的基本结构和功能。这个技能提供了基本的文本处理能力,包括单词计数、字符分析和基本文本转换。

这个技能作为基础级别要求的参考实现,可以作为创建新技能的模板。它展示了适当的文件结构、文档标准和与生态系统最佳实践一致的实现模式。

该技能处理文本文件,并以人类可读和JSON格式提供统计和转换结果,展示了claude-skills存储库中技能的双重输出要求。

特性

核心功能

  • 单词计数分析: 统计总单词数、唯一单词数和单词频率
  • 字符统计: 分析字符数、行数和特殊字符
  • 文本转换: 将文本转换为大写、小写或标题大小写
  • 文件处理: 处理单个文本文件或批量处理目录
  • 双重输出格式: 生成JSON和人类可读格式的结果

技术特性

  • 命令行界面,具有全面的参数解析
  • 常见文件和处理问题的异常处理
  • 批量操作的进度报告
  • 可配置的输出格式化和详细程度
  • 仅依赖标准库的跨平台兼容性

使用方法

基本文本分析

python text_processor.py analyze document.txt
python text_processor.py analyze document.txt --output results.json

文本转换

python text_processor.py transform document.txt --mode uppercase
python text_processor.py transform document.txt --mode title --output transformed.txt

批量处理

python text_processor.py batch text_files/ --output results/
python text_processor.py batch text_files/ --format json --output batch_results.json

示例

示例1: 基本单词计数

$ python text_processor.py analyze sample.txt
=== 文本分析结果 ===
文件: sample.txt
总单词数: 150
唯一单词数: 85
总字符数: 750
行数: 12
最频繁单词: "the"(8次出现)

示例2: JSON输出

$ python text_processor.py analyze sample.txt --format json
{
  "file": "sample.txt",
  "statistics": {
    "total_words": 150,
    "unique_words": 85,
    "total_characters": 750,
    "lines": 12,
    "most_frequent": {
      "word": "the",
      "count": 8
    }
  }
}

示例3: 文本转换

$ python text_processor.py transform sample.txt --mode title
原始: "hello world from the text processor"
转换后: "Hello World From The Text Processor"

安装

这个技能只需要Python 3.7或更高版本,且仅使用标准库。不需要外部依赖。

  1. 克隆或下载技能目录
  2. 导航到脚本目录
  3. 直接用Python运行文本处理器
cd scripts/
python text_processor.py --help

配置

文本处理器通过命令行参数支持各种配置选项:

  • --format: 输出格式(json, text)
  • --verbose: 启用详细输出和进度报告
  • --output: 指定输出文件或目录
  • --encoding: 指定文本文件编码(默认: utf-8)

架构

技能遵循简单的模块化架构:

  • TextProcessor 类: 核心处理逻辑和统计计算
  • OutputFormatter 类: 处理双重输出格式生成
  • FileManager 类: 管理文件I/O操作和批量处理
  • CLI 界面: 命令行参数解析和用户交互

异常处理

技能包括全面的异常处理:

  • 文件未找到或权限错误
  • 无效编码或损坏的文本文件
  • 非常大的文件的内存限制
  • 输出目录创建和写入权限
  • 无效的命令行参数和参数

性能考虑

  • 通过流式传输高效使用内存处理大型文本文件
  • 使用字典查找优化单词计数
  • 批量处理具有进度报告的大型数据集
  • 可配置的编码检测用于国际文本

贡献

这个技能作为参考实现,欢迎贡献以展示最佳实践:

  1. 遵循PEP 8编码标准
  2. 包括全面的文档字符串
  3. 添加带有样本数据的测试用例
  4. 更新任何新功能的文档
  5. 确保向后兼容性

限制

作为一个基础级别技能,一些高级功能被故意省略:

  • 复杂文本分析(情感、语言检测)
  • 高级文件格式支持(PDF、Word文档)
  • 数据库集成或外部API调用
  • 非常大的数据集的并行处理

这个技能展示了claude-skills生态系统中基础级别技能所需的基本结构和质量标准,同时保持简单,专注于核心功能。