提示词注入检测器 prompt-injection-detector

提示词注入检测器是一款专注于大语言模型应用安全防护的专业工具。该技能通过多层检测机制识别并防御恶意提示词注入攻击,保障AI系统安全稳定运行。核心功能包括:模式匹配检测、机器学习分类器、金丝雀令牌监控、LLM辅助分析和困惑度异常检测。适用于AI应用安全加固、提示工程防护、LLM系统安全验证等场景。关键词:提示词注入检测,LLM安全防护,AI应用安全,大语言模型防御,注入攻击预防,提示工程安全,机器学习分类器,多层防御体系。

AI应用 0 次安装 0 次浏览 更新于 2/23/2026

name: prompt-injection-detector description: 提示词注入检测与防护,保障LLM应用安全 allowed-tools:

  • 读取
  • 写入
  • 编辑
  • Bash
  • Glob
  • Grep

提示词注入检测器技能

能力

  • 检测提示词注入攻击尝试
  • 实现输入净化处理
  • 配置检测分类器
  • 设计防御层
  • 实现金丝雀令牌检测
  • 创建注入日志与告警系统

目标流程

  • 提示词注入防御
  • 工具安全性验证

实施细节

检测方法

  1. 模式匹配:已知注入模式识别
  2. 机器学习分类器:训练注入检测模型
  3. 金丝雀令牌:检测指令覆盖尝试
  4. 基于LLM的检测:利用大语言模型识别操纵行为
  5. 困惑度分析:异常输入模式识别

防御策略

  • 输入预处理
  • 提示词结构设计
  • 输出验证
  • 沙箱化执行
  • 多层防御体系

配置选项

  • 检测阈值
  • 模式规则
  • 分类器模型
  • 行动策略
  • 告警设置

最佳实践

  • 深度防御原则
  • 定期模式更新
  • 监控误报率
  • 红队测试验证

依赖项

  • rebuff(可选)
  • transformers
  • 自定义分类器