NeMo护栏配置Skill nemo-guardrails

NVIDIA NeMo Guardrails 技能,用于为大型语言模型(LLM)应用配置和实施对话安全、内容审核与流程控制的护栏系统。该技能支持设计Colang对话流,实现输入输出过滤、话题控制、越狱检测和事实核查等功能,确保AI对话的安全、合规与可控。关键词:NVIDIA NeMo Guardrails,AI安全,对话护栏,内容审核,大语言模型安全,Colang,越狱检测,事实核查,LLM应用安全。

AI智能体 0 次安装 0 次浏览 更新于 2/23/2026

name: nemo-guardrails description: NVIDIA NeMo Guardrails 用于对话安全与控制的配置 allowed-tools:

  • 读取
  • 写入
  • 编辑
  • Bash
  • Glob
  • Grep

NeMo Guardrails 技能

能力

  • 配置 NeMo Guardrails 护栏
  • 设计 Colang 对话流程
  • 实现输入/输出护栏
  • 设置话题控制
  • 配置越狱检测
  • 实现事实核查护栏

目标流程

  • 系统提示词护栏
  • 内容审核安全

实现细节

护栏类型

  1. 输入护栏: 过滤用户输入
  2. 输出护栏: 过滤大语言模型输出
  3. 对话护栏: 控制对话流程
  4. 检索护栏: 过滤检索到的内容
  5. 执行护栏: 控制操作执行

Colang 组件

  • 流程定义
  • 机器人消息模板
  • 用户消息模式
  • 操作和子流程

配置选项

  • 护栏配置
  • 大语言模型选择
  • 嵌入模型
  • 操作处理器
  • 自定义护栏实现

最佳实践

  • 从内置护栏开始
  • 设计清晰的流程
  • 使用对抗性输入进行测试
  • 监控护栏激活情况

依赖项

  • nemoguardrails