样本文本处理器

名称: sample-text-processor 级别: 基础类别: 文本处理依赖: 无（仅Python标准库）作者: Claude Skills工程团队版本: 1.0.0 最后更新: 2026-02-16

描述

样本文本处理器是一个简单的技能，旨在展示claude-skills生态系统中基础级别要求的基本结构和功能。这个技能提供了基本的文本处理能力，包括单词计数、字符分析和基本文本转换。

这个技能作为基础级别要求的参考实现，可以作为创建新技能的模板。它展示了适当的文件结构、文档标准和与生态系统最佳实践一致的实现模式。

该技能处理文本文件，并以人类可读和JSON格式提供统计和转换结果，展示了claude-skills存储库中技能的双重输出要求。

特性

核心功能

单词计数分析: 统计总单词数、唯一单词数和单词频率
字符统计: 分析字符数、行数和特殊字符
文本转换: 将文本转换为大写、小写或标题大小写
文件处理: 处理单个文本文件或批量处理目录
双重输出格式: 生成JSON和人类可读格式的结果

技术特性

命令行界面，具有全面的参数解析
常见文件和处理问题的异常处理
批量操作的进度报告
可配置的输出格式化和详细程度
仅依赖标准库的跨平台兼容性

使用方法

基本文本分析

python text_processor.py analyze document.txt
python text_processor.py analyze document.txt --output results.json

文本转换

python text_processor.py transform document.txt --mode uppercase
python text_processor.py transform document.txt --mode title --output transformed.txt

批量处理

python text_processor.py batch text_files/ --output results/
python text_processor.py batch text_files/ --format json --output batch_results.json

示例

示例1: 基本单词计数

$ python text_processor.py analyze sample.txt
=== 文本分析结果 ===
文件: sample.txt
总单词数: 150
唯一单词数: 85
总字符数: 750
行数: 12
最频繁单词: "the"（8次出现）

示例2: JSON输出

$ python text_processor.py analyze sample.txt --format json
{
  "file": "sample.txt",
  "statistics": {
    "total_words": 150,
    "unique_words": 85,
    "total_characters": 750,
    "lines": 12,
    "most_frequent": {
      "word": "the",
      "count": 8
    }
  }
}

示例3: 文本转换

$ python text_processor.py transform sample.txt --mode title
原始: "hello world from the text processor"
转换后: "Hello World From The Text Processor"

安装

这个技能只需要Python 3.7或更高版本，且仅使用标准库。不需要外部依赖。

克隆或下载技能目录
导航到脚本目录
直接用Python运行文本处理器

cd scripts/
python text_processor.py --help

配置

文本处理器通过命令行参数支持各种配置选项：

--format: 输出格式（json, text）
--verbose: 启用详细输出和进度报告
--output: 指定输出文件或目录
--encoding: 指定文本文件编码（默认: utf-8）

架构

技能遵循简单的模块化架构：

TextProcessor 类: 核心处理逻辑和统计计算
OutputFormatter 类: 处理双重输出格式生成
FileManager 类: 管理文件I/O操作和批量处理
CLI 界面: 命令行参数解析和用户交互

异常处理

技能包括全面的异常处理：

文件未找到或权限错误
无效编码或损坏的文本文件
非常大的文件的内存限制
输出目录创建和写入权限
无效的命令行参数和参数

性能考虑

通过流式传输高效使用内存处理大型文本文件
使用字典查找优化单词计数
批量处理具有进度报告的大型数据集
可配置的编码检测用于国际文本

贡献

这个技能作为参考实现，欢迎贡献以展示最佳实践：

遵循PEP 8编码标准
包括全面的文档字符串
添加带有样本数据的测试用例
更新任何新功能的文档
确保向后兼容性

限制

作为一个基础级别技能，一些高级功能被故意省略：

复杂文本分析（情感、语言检测）
高级文件格式支持（PDF、Word文档）
数据库集成或外部API调用
非常大的数据集的并行处理

这个技能展示了claude-skills生态系统中基础级别技能所需的基本结构和质量标准，同时保持简单，专注于核心功能。