样本文本处理器
名称: sample-text-processor 级别: 基础 类别: 文本处理 依赖: 无(仅Python标准库) 作者: Claude Skills工程团队 版本: 1.0.0 最后更新: 2026-02-16
描述
样本文本处理器是一个简单的技能,旨在展示claude-skills生态系统中基础级别要求的基本结构和功能。这个技能提供了基本的文本处理能力,包括单词计数、字符分析和基本文本转换。
这个技能作为基础级别要求的参考实现,可以作为创建新技能的模板。它展示了适当的文件结构、文档标准和与生态系统最佳实践一致的实现模式。
该技能处理文本文件,并以人类可读和JSON格式提供统计和转换结果,展示了claude-skills存储库中技能的双重输出要求。
特性
核心功能
- 单词计数分析: 统计总单词数、唯一单词数和单词频率
- 字符统计: 分析字符数、行数和特殊字符
- 文本转换: 将文本转换为大写、小写或标题大小写
- 文件处理: 处理单个文本文件或批量处理目录
- 双重输出格式: 生成JSON和人类可读格式的结果
技术特性
- 命令行界面,具有全面的参数解析
- 常见文件和处理问题的异常处理
- 批量操作的进度报告
- 可配置的输出格式化和详细程度
- 仅依赖标准库的跨平台兼容性
使用方法
基本文本分析
python text_processor.py analyze document.txt
python text_processor.py analyze document.txt --output results.json
文本转换
python text_processor.py transform document.txt --mode uppercase
python text_processor.py transform document.txt --mode title --output transformed.txt
批量处理
python text_processor.py batch text_files/ --output results/
python text_processor.py batch text_files/ --format json --output batch_results.json
示例
示例1: 基本单词计数
$ python text_processor.py analyze sample.txt
=== 文本分析结果 ===
文件: sample.txt
总单词数: 150
唯一单词数: 85
总字符数: 750
行数: 12
最频繁单词: "the"(8次出现)
示例2: JSON输出
$ python text_processor.py analyze sample.txt --format json
{
"file": "sample.txt",
"statistics": {
"total_words": 150,
"unique_words": 85,
"total_characters": 750,
"lines": 12,
"most_frequent": {
"word": "the",
"count": 8
}
}
}
示例3: 文本转换
$ python text_processor.py transform sample.txt --mode title
原始: "hello world from the text processor"
转换后: "Hello World From The Text Processor"
安装
这个技能只需要Python 3.7或更高版本,且仅使用标准库。不需要外部依赖。
- 克隆或下载技能目录
- 导航到脚本目录
- 直接用Python运行文本处理器
cd scripts/
python text_processor.py --help
配置
文本处理器通过命令行参数支持各种配置选项:
--format: 输出格式(json, text)--verbose: 启用详细输出和进度报告--output: 指定输出文件或目录--encoding: 指定文本文件编码(默认: utf-8)
架构
技能遵循简单的模块化架构:
- TextProcessor 类: 核心处理逻辑和统计计算
- OutputFormatter 类: 处理双重输出格式生成
- FileManager 类: 管理文件I/O操作和批量处理
- CLI 界面: 命令行参数解析和用户交互
异常处理
技能包括全面的异常处理:
- 文件未找到或权限错误
- 无效编码或损坏的文本文件
- 非常大的文件的内存限制
- 输出目录创建和写入权限
- 无效的命令行参数和参数
性能考虑
- 通过流式传输高效使用内存处理大型文本文件
- 使用字典查找优化单词计数
- 批量处理具有进度报告的大型数据集
- 可配置的编码检测用于国际文本
贡献
这个技能作为参考实现,欢迎贡献以展示最佳实践:
- 遵循PEP 8编码标准
- 包括全面的文档字符串
- 添加带有样本数据的测试用例
- 更新任何新功能的文档
- 确保向后兼容性
限制
作为一个基础级别技能,一些高级功能被故意省略:
- 复杂文本分析(情感、语言检测)
- 高级文件格式支持(PDF、Word文档)
- 数据库集成或外部API调用
- 非常大的数据集的并行处理
这个技能展示了claude-skills生态系统中基础级别技能所需的基本结构和质量标准,同时保持简单,专注于核心功能。