内容审核API技能Skill content-moderation-api

内容审核API技能是一个集成多种AI审核工具(如OpenAI Moderation、Perspective API、Azure Content Safety等)的技术解决方案,用于自动检测和过滤文本内容中的有害信息,包括仇恨言论、暴力内容、色情信息、毒性语言等。该技能提供可配置的审核阈值、多层级过滤管道、实时响应处理和完整的日志记录功能,适用于社交媒体平台、在线社区、聊天应用、内容发布系统等需要内容安全管理的场景。关键词:内容审核、AI审核、OpenAI Moderation、Perspective API、Azure内容安全、毒性检测、文本过滤、内容安全API、多语言审核、实时内容审核。

AI应用 0 次安装 0 次浏览 更新于 2/23/2026

名称: 内容审核API 描述: 使用OpenAI审核、Perspective API等工具集成的内容审核API 允许工具:

  • 读取
  • 写入
  • 编辑
  • Bash
  • Glob
  • Grep

内容审核API技能

能力

  • 集成OpenAI审核API
  • 设置Perspective API进行毒性检测
  • 配置审核阈值
  • 实现内容过滤管道
  • 设计审核响应处理
  • 创建审核日志和报告

目标流程

  • 内容审核安全
  • 系统提示护栏

实施细节

审核API

  1. OpenAI审核: 仇恨、暴力、自残、色情内容
  2. Perspective API: 毒性、侮辱、脏话、威胁
  3. Azure内容安全: 文本和图像审核
  4. LlamaGuard: 开源安全分类器

配置选项

  • API凭证和端点
  • 类别阈值
  • 操作策略(阻止、警告、标记)
  • 日志配置
  • 备用行为

最佳实践

  • 设置适当阈值
  • 优雅处理边缘情况
  • 记录审核决策
  • 定期阈值审查
  • 多层审核

依赖项

  • openai
  • google-cloud-language (Perspective)
  • azure-ai-contentsafety