name: prompt-injection-detector description: 提示词注入检测与防护,保障LLM应用安全 allowed-tools:
- 读取
- 写入
- 编辑
- Bash
- Glob
- Grep
提示词注入检测器技能
能力
- 检测提示词注入攻击尝试
- 实现输入净化处理
- 配置检测分类器
- 设计防御层
- 实现金丝雀令牌检测
- 创建注入日志与告警系统
目标流程
- 提示词注入防御
- 工具安全性验证
实施细节
检测方法
- 模式匹配:已知注入模式识别
- 机器学习分类器:训练注入检测模型
- 金丝雀令牌:检测指令覆盖尝试
- 基于LLM的检测:利用大语言模型识别操纵行为
- 困惑度分析:异常输入模式识别
防御策略
- 输入预处理
- 提示词结构设计
- 输出验证
- 沙箱化执行
- 多层防御体系
配置选项
- 检测阈值
- 模式规则
- 分类器模型
- 行动策略
- 告警设置
最佳实践
- 深度防御原则
- 定期模式更新
- 监控误报率
- 红队测试验证
依赖项
- rebuff(可选)
- transformers
- 自定义分类器