name: GraphRAG评估 description: 当评估GraphRAG系统质量时使用,涵盖知识图谱完整性、检索相关性、答案正确性和推理验证。当用户提到评估GraphRAG、质量指标、基准测试、幻觉减少、答案正确性、多步推理评估、测试我的GraphRAG或测量RAG性能时调用。提供评估框架、指标选择和测试协议。
目录
GraphRAG评估
这是什么?
评估GraphRAG系统在多个维度上的性能——知识图谱质量、检索效果、答案正确性、推理深度和幻觉预防。本技能提供结构化评估框架、指标选择指导和测试协议,以系统测量和改进GraphRAG系统表现。
GraphRAG系统结合知识图谱与检索增强生成,引入了超越标准RAG的独特评估挑战。知识图谱本身需评估完整性和准确性,检索需测量多跳路径的召回率和精确度,答案需验证正确性和依据,推理链需逐步验证。本技能通过具体指标和测试协议指导每个维度。
工作流程
复制此清单并按步骤执行:
- [ ] 步骤1. 确定评估范围
- [ ] 步骤2. 选择指标
- [ ] 步骤3. 设计测试协议
- [ ] 步骤4. 测试推理能力
- [ ] 步骤5. 测量幻觉率
- [ ] 步骤6. 与基线比较
- [ ] 步骤7. 生成评估报告
步骤1. 确定评估范围
定义需要评估GraphRAG系统的哪些方面及原因。确定是评估完整管道还是特定组件(知识图谱构建、检索、生成)。澄清使用案例上下文:领域、查询复杂性、预期推理深度。
详见方法文档获取完整评估维度框架。
步骤2. 选择指标
选择适合评估范围的指标。并非每个评估都需要所有指标。根据系统成熟度和需解答问题匹配指标。
参见下方指标选择指南及方法文档获取详细指标定义。
步骤3. 设计测试协议
构建涵盖评估维度的测试集。包括单跳事实查询、多跳推理查询、约束满足查询、时间推理查询、比较查询和负面查询(系统不应回答的问题)。
详见方法文档获取基线比较方法和统计显著性测试。
步骤4. 测试推理能力
评估系统处理多步推理的能力。验证每个推理步骤是否基于检索到的知识图谱证据。检查错误传播,即错误中间步骤导致错误结论的情况。
详见推理模式文档获取链验证、模式匹配、假设验证和因果推理评估。
步骤5. 测量幻觉率
量化内在幻觉(与检索证据矛盾)和外在幻觉(无任何检索来源支持的声称)。测量知识图谱依据率:生成声称可追溯到知识图谱实体和关系的百分比。
详见方法文档获取幻觉检测方法和比较协议。
步骤6. 与基线比较
对基线系统运行相同测试集:纯向量RAG、仅LLM(无检索)和替代图配置。使用受控消融研究隔离每个组件的贡献。
详见方法文档获取基线比较和消融研究设计。
步骤7. 生成评估报告
将发现编译到下方结构化输出模板中。包括指标值、基线比较、识别弱点及优先级建议。
详见评估评分准则获取评分准则(最低通过分数:3.0)。
评估维度
| 维度 | 测量内容 | 关键指标 | 优先级 |
|---|---|---|---|
| 知识图谱质量 | 知识图谱的完整性和准确性 | 实体覆盖率、关系完整性、模式一致性 | 高 |
| 检索质量 | 基于图的检索效果 | 上下文召回(C-Rec)、上下文精确度、多跳覆盖率 | 高 |
| 答案正确性 | 生成答案的准确性和完整性 | 事实准确性、答案完整性、引用准确性 | 关键 |
| 幻觉率 | 无支持或被矛盾声称的频率 | 内在幻觉率、外在幻觉率、知识图谱依据率 | 关键 |
| 推理深度 | 正确执行多步推理的能力 | 多跳准确性、逐步验证分数、错误传播率 | 中高 |
指标选择指南
根据评估目标选择指标:
快速健康检查(最小努力):
- 在精选测试集上的答案正确性(20-50个问题)
- 知识图谱依据率(采样20个响应)
- 单一基线比较(纯向量RAG)
标准评估(推荐):
- 所有五个维度的标准化测试集
- 上下文召回和上下文精确度
- 多跳推理测试
- 幻觉率测量
- 两个或更多基线比较
全面基准测试(生产就绪):
- 所有维度的完整指标套件
- 带置信区间的统计显著性测试
- 受控消融研究
- 过程导向推理评估(逐步正确性)
- 自动化评估管道以确保可重复性
输出模板
# GraphRAG评估报告
## 1. 评估系统
- 系统名称和版本:
- 领域:
- 知识图谱大小(实体/关系):
- 评估日期:
## 2. 评估范围
- 评估维度:
- 测试集大小和组成:
- 基线系统:
## 3. 知识图谱质量结果
- 实体覆盖率:____%
- 关系完整性:____%
- 模式一致性分数:____
- 显著差距:
## 4. 检索质量结果
- 上下文召回(C-Rec):____
- 上下文精确度:____
- 多跳覆盖率:____%
- 延迟(p50/p95/p99):____
## 5. 答案正确性结果
- 事实准确性:____%
- 答案完整性:____%
- 引用准确性:____%
## 6. 幻觉分析
- 内在幻觉率:____%
- 外在幻觉率:____%
- 知识图谱依据率:____%
- 有/无图增强的比较:
## 7. 推理深度结果
- 单跳准确性:____%
- 多跳准确性:____%
- 逐步推理正确性:____%
- 错误传播事件:____
## 8. 基线比较
| 指标 | GraphRAG | 纯向量RAG | 仅LLM |
|--------|----------|-----------------|----------|
| 答案正确性 | | | |
| 幻觉率 | | | |
| 多跳准确性 | | | |
## 9. 统计显著性
- 使用测试:
- 置信水平:
- 显著改进:
- 非显著差异:
## 10. 识别弱点
1.
2.
3.
## 11. 建议
| 优先级 | 建议 | 预期影响 | 努力程度 |
|----------|---------------|-----------------|--------|
| | | | |
## 12. 评分准则分数
- 指标覆盖率:__ / 5
- 测量严谨性:__ / 5
- 基线比较:__ / 5
- 推理深度:__ / 5
- 可行动建议:__ / 5
- **加权总分:__ / 5.0**(最低通过:3.0)