name: GraphRAG评估 description: 当评估GraphRAG系统质量时使用，涵盖知识图谱完整性、检索相关性、答案正确性和推理验证。当用户提到评估GraphRAG、质量指标、基准测试、幻觉减少、答案正确性、多步推理评估、测试我的GraphRAG或测量RAG性能时调用。提供评估框架、指标选择和测试协议。

GraphRAG评估

这是什么？

评估GraphRAG系统在多个维度上的性能——知识图谱质量、检索效果、答案正确性、推理深度和幻觉预防。本技能提供结构化评估框架、指标选择指导和测试协议，以系统测量和改进GraphRAG系统表现。

GraphRAG系统结合知识图谱与检索增强生成，引入了超越标准RAG的独特评估挑战。知识图谱本身需评估完整性和准确性，检索需测量多跳路径的召回率和精确度，答案需验证正确性和依据，推理链需逐步验证。本技能通过具体指标和测试协议指导每个维度。

工作流程

复制此清单并按步骤执行：

[ ] 步骤1. 确定评估范围
[ ] 步骤2. 选择指标
[ ] 步骤3. 设计测试协议
[ ] 步骤4. 测试推理能力
[ ] 步骤5. 测量幻觉率
[ ] 步骤6. 与基线比较
[ ] 步骤7. 生成评估报告

步骤1. 确定评估范围

定义需要评估GraphRAG系统的哪些方面及原因。确定是评估完整管道还是特定组件（知识图谱构建、检索、生成）。澄清使用案例上下文：领域、查询复杂性、预期推理深度。

详见方法文档获取完整评估维度框架。

步骤2. 选择指标

选择适合评估范围的指标。并非每个评估都需要所有指标。根据系统成熟度和需解答问题匹配指标。

参见下方指标选择指南及方法文档获取详细指标定义。

步骤3. 设计测试协议

构建涵盖评估维度的测试集。包括单跳事实查询、多跳推理查询、约束满足查询、时间推理查询、比较查询和负面查询（系统不应回答的问题）。

详见方法文档获取基线比较方法和统计显著性测试。

步骤4. 测试推理能力

评估系统处理多步推理的能力。验证每个推理步骤是否基于检索到的知识图谱证据。检查错误传播，即错误中间步骤导致错误结论的情况。

详见推理模式文档获取链验证、模式匹配、假设验证和因果推理评估。

步骤5. 测量幻觉率

量化内在幻觉（与检索证据矛盾）和外在幻觉（无任何检索来源支持的声称）。测量知识图谱依据率：生成声称可追溯到知识图谱实体和关系的百分比。

详见方法文档获取幻觉检测方法和比较协议。

步骤6. 与基线比较

对基线系统运行相同测试集：纯向量RAG、仅LLM（无检索）和替代图配置。使用受控消融研究隔离每个组件的贡献。

详见方法文档获取基线比较和消融研究设计。

步骤7. 生成评估报告

将发现编译到下方结构化输出模板中。包括指标值、基线比较、识别弱点及优先级建议。

详见评估评分准则获取评分准则（最低通过分数：3.0）。

评估维度

维度	测量内容	关键指标	优先级
知识图谱质量	知识图谱的完整性和准确性	实体覆盖率、关系完整性、模式一致性	高
检索质量	基于图的检索效果	上下文召回（C-Rec）、上下文精确度、多跳覆盖率	高
答案正确性	生成答案的准确性和完整性	事实准确性、答案完整性、引用准确性	关键
幻觉率	无支持或被矛盾声称的频率	内在幻觉率、外在幻觉率、知识图谱依据率	关键
推理深度	正确执行多步推理的能力	多跳准确性、逐步验证分数、错误传播率	中高

指标选择指南

根据评估目标选择指标：

快速健康检查（最小努力）：

在精选测试集上的答案正确性（20-50个问题）
知识图谱依据率（采样20个响应）
单一基线比较（纯向量RAG）

标准评估（推荐）：

所有五个维度的标准化测试集
上下文召回和上下文精确度
多跳推理测试
幻觉率测量
两个或更多基线比较

全面基准测试（生产就绪）：

所有维度的完整指标套件
带置信区间的统计显著性测试
受控消融研究
过程导向推理评估（逐步正确性）
自动化评估管道以确保可重复性

输出模板

# GraphRAG评估报告

## 1. 评估系统
- 系统名称和版本：
- 领域：
- 知识图谱大小（实体/关系）：
- 评估日期：

## 2. 评估范围
- 评估维度：
- 测试集大小和组成：
- 基线系统：

## 3. 知识图谱质量结果
- 实体覆盖率：____%
- 关系完整性：____%
- 模式一致性分数：____
- 显著差距：

## 4. 检索质量结果
- 上下文召回（C-Rec）：____
- 上下文精确度：____
- 多跳覆盖率：____%
- 延迟（p50/p95/p99）：____

## 5. 答案正确性结果
- 事实准确性：____%
- 答案完整性：____%
- 引用准确性：____%

## 6. 幻觉分析
- 内在幻觉率：____%
- 外在幻觉率：____%
- 知识图谱依据率：____%
- 有/无图增强的比较：

## 7. 推理深度结果
- 单跳准确性：____%
- 多跳准确性：____%
- 逐步推理正确性：____%
- 错误传播事件：____

## 8. 基线比较
| 指标 | GraphRAG | 纯向量RAG | 仅LLM |
|--------|----------|-----------------|----------|
| 答案正确性 | | | |
| 幻觉率 | | | |
| 多跳准确性 | | | |

## 9. 统计显著性
- 使用测试：
- 置信水平：
- 显著改进：
- 非显著差异：

## 10. 识别弱点
1.
2.
3.

## 11. 建议
| 优先级 | 建议 | 预期影响 | 努力程度 |
|----------|---------------|-----------------|--------|
| | | | |

## 12. 评分准则分数
- 指标覆盖率：__ / 5
- 测量严谨性：__ / 5
- 基线比较：__ / 5
- 推理深度：__ / 5
- 可行动建议：__ / 5
- **加权总分：__ / 5.0**（最低通过：3.0）

GraphRAG评估Skill graphrag-evaluation

目录