GraphRAG评估Skill graphrag-evaluation

这个技能用于系统评估GraphRAG(图谱检索增强生成)系统的质量,提供结构化框架、指标选择和测试协议,涵盖知识图谱完整性、检索相关性、答案正确性、推理验证和幻觉预防,帮助优化AI应用性能。关键词:GraphRAG评估、知识图谱、检索增强生成、质量指标、AI系统测试、幻觉减少、多步推理、RAG性能测量。

RAG应用 0 次安装 0 次浏览 更新于 3/22/2026

name: GraphRAG评估 description: 当评估GraphRAG系统质量时使用,涵盖知识图谱完整性、检索相关性、答案正确性和推理验证。当用户提到评估GraphRAG、质量指标、基准测试、幻觉减少、答案正确性、多步推理评估、测试我的GraphRAG或测量RAG性能时调用。提供评估框架、指标选择和测试协议。

目录

GraphRAG评估

这是什么?

评估GraphRAG系统在多个维度上的性能——知识图谱质量、检索效果、答案正确性、推理深度和幻觉预防。本技能提供结构化评估框架、指标选择指导和测试协议,以系统测量和改进GraphRAG系统表现。

GraphRAG系统结合知识图谱与检索增强生成,引入了超越标准RAG的独特评估挑战。知识图谱本身需评估完整性和准确性,检索需测量多跳路径的召回率和精确度,答案需验证正确性和依据,推理链需逐步验证。本技能通过具体指标和测试协议指导每个维度。

工作流程

复制此清单并按步骤执行:

  • [ ] 步骤1. 确定评估范围
  • [ ] 步骤2. 选择指标
  • [ ] 步骤3. 设计测试协议
  • [ ] 步骤4. 测试推理能力
  • [ ] 步骤5. 测量幻觉率
  • [ ] 步骤6. 与基线比较
  • [ ] 步骤7. 生成评估报告

步骤1. 确定评估范围

定义需要评估GraphRAG系统的哪些方面及原因。确定是评估完整管道还是特定组件(知识图谱构建、检索、生成)。澄清使用案例上下文:领域、查询复杂性、预期推理深度。

详见方法文档获取完整评估维度框架。

步骤2. 选择指标

选择适合评估范围的指标。并非每个评估都需要所有指标。根据系统成熟度和需解答问题匹配指标。

参见下方指标选择指南方法文档获取详细指标定义。

步骤3. 设计测试协议

构建涵盖评估维度的测试集。包括单跳事实查询、多跳推理查询、约束满足查询、时间推理查询、比较查询和负面查询(系统不应回答的问题)。

详见方法文档获取基线比较方法和统计显著性测试。

步骤4. 测试推理能力

评估系统处理多步推理的能力。验证每个推理步骤是否基于检索到的知识图谱证据。检查错误传播,即错误中间步骤导致错误结论的情况。

详见推理模式文档获取链验证、模式匹配、假设验证和因果推理评估。

步骤5. 测量幻觉率

量化内在幻觉(与检索证据矛盾)和外在幻觉(无任何检索来源支持的声称)。测量知识图谱依据率:生成声称可追溯到知识图谱实体和关系的百分比。

详见方法文档获取幻觉检测方法和比较协议。

步骤6. 与基线比较

对基线系统运行相同测试集:纯向量RAG、仅LLM(无检索)和替代图配置。使用受控消融研究隔离每个组件的贡献。

详见方法文档获取基线比较和消融研究设计。

步骤7. 生成评估报告

将发现编译到下方结构化输出模板中。包括指标值、基线比较、识别弱点及优先级建议。

详见评估评分准则获取评分准则(最低通过分数:3.0)。

评估维度

维度 测量内容 关键指标 优先级
知识图谱质量 知识图谱的完整性和准确性 实体覆盖率、关系完整性、模式一致性
检索质量 基于图的检索效果 上下文召回(C-Rec)、上下文精确度、多跳覆盖率
答案正确性 生成答案的准确性和完整性 事实准确性、答案完整性、引用准确性 关键
幻觉率 无支持或被矛盾声称的频率 内在幻觉率、外在幻觉率、知识图谱依据率 关键
推理深度 正确执行多步推理的能力 多跳准确性、逐步验证分数、错误传播率 中高

指标选择指南

根据评估目标选择指标:

快速健康检查(最小努力):

  • 在精选测试集上的答案正确性(20-50个问题)
  • 知识图谱依据率(采样20个响应)
  • 单一基线比较(纯向量RAG)

标准评估(推荐):

  • 所有五个维度的标准化测试集
  • 上下文召回和上下文精确度
  • 多跳推理测试
  • 幻觉率测量
  • 两个或更多基线比较

全面基准测试(生产就绪):

  • 所有维度的完整指标套件
  • 带置信区间的统计显著性测试
  • 受控消融研究
  • 过程导向推理评估(逐步正确性)
  • 自动化评估管道以确保可重复性

输出模板

# GraphRAG评估报告

## 1. 评估系统
- 系统名称和版本:
- 领域:
- 知识图谱大小(实体/关系):
- 评估日期:

## 2. 评估范围
- 评估维度:
- 测试集大小和组成:
- 基线系统:

## 3. 知识图谱质量结果
- 实体覆盖率:____%
- 关系完整性:____%
- 模式一致性分数:____
- 显著差距:

## 4. 检索质量结果
- 上下文召回(C-Rec):____
- 上下文精确度:____
- 多跳覆盖率:____%
- 延迟(p50/p95/p99):____

## 5. 答案正确性结果
- 事实准确性:____%
- 答案完整性:____%
- 引用准确性:____%

## 6. 幻觉分析
- 内在幻觉率:____%
- 外在幻觉率:____%
- 知识图谱依据率:____%
- 有/无图增强的比较:

## 7. 推理深度结果
- 单跳准确性:____%
- 多跳准确性:____%
- 逐步推理正确性:____%
- 错误传播事件:____

## 8. 基线比较
| 指标 | GraphRAG | 纯向量RAG | 仅LLM |
|--------|----------|-----------------|----------|
| 答案正确性 | | | |
| 幻觉率 | | | |
| 多跳准确性 | | | |

## 9. 统计显著性
- 使用测试:
- 置信水平:
- 显著改进:
- 非显著差异:

## 10. 识别弱点
1.
2.
3.

## 11. 建议
| 优先级 | 建议 | 预期影响 | 努力程度 |
|----------|---------------|-----------------|--------|
| | | | |

## 12. 评分准则分数
- 指标覆盖率:__ / 5
- 测量严谨性:__ / 5
- 基线比较:__ / 5
- 推理深度:__ / 5
- 可行动建议:__ / 5
- **加权总分:__ / 5.0**(最低通过:3.0)