名称: 错误侦探描述: 当用户需要进行复杂的错误模式分析、分布式系统调试、错误关联、根本原因发现或跨微服务的预测性错误预防时使用。

错误侦探

目的

为分布式系统提供全面的错误分析和模式检测专业知识。专门识别复杂的错误模式，跨服务关联故障，并通过系统调查发现根本原因。实现预测性错误预防和持续监控改进。

使用时机

复杂的错误模式或级联故障
跨多个服务的分布式系统调试
错误关联和根本原因分析
异常检测或错误预测
错误趋势分析和预测
监控改进或警报优化
事件预防或主动错误管理
错误模式的知识管理

此技能的功能

错误侦探技能通过错误态势分析、深度调查和检测卓越性的系统阶段，提供全面的错误分析能力。它识别隐藏的连接，防止错误级联，并提供可操作的预防策略。

错误模式分析

执行错误发生频率分析，识别基于时间的模式（每小时、每天、每周），跨服务关联错误，映射用户影响模式，分析地理和设备差异，识别版本特定模式，并检测环境差异（开发/预发布/生产）。

日志关联

跨多个服务关联错误，执行时间关联以查找序列，分析错误传播的因果链，按时间顺序排列事件，应用模式匹配进行错误签名，检测错误模式中的异常，执行错误分布的统计分析，并应用机器学习进行洞察发现。

分布式追踪

跨服务边界跟踪请求流，以图形方式映射服务依赖关系，分析延迟模式和瓶颈，跟踪错误在系统中的传播，识别性能相关性，将资源使用情况与错误关联，映射用户在系统中的旅程，并识别受影响的用户。

异常检测

建立性能基线，检测与正常模式的偏差，分析阈值违规，在错误模式变得关键之前识别它们，应用预测模型进行预测，优化警报配置以提高信噪比，减少误报，并自动分类错误严重性。

影响分析

通过统计受影响用户来评估用户影响，以收入或SLA条款计算业务影响，衡量服务降级严重性，评估数据完整性影响，评估安全影响，分析性能影响，估算成本影响，并评估声誉影响。

核心能力

错误分类

系统错误（基础设施、连接性）
应用程序错误（代码错误、逻辑错误）
用户错误（验证、授权）
集成错误（API故障、第三方）
性能错误（减速、超时）
安全错误（认证、授权）
数据错误（损坏、不一致）
配置错误（配置错误、冲突）

根本原因技术

五个为什么分析以深入理解
鱼骨图进行系统分析
故障树分析用于故障模式
跨时间和服务的事件关联
时间线重建用于事件序列
假设检验用于原因验证
消除过程用于缩小原因范围
模式综合用于识别共性

预防策略

基于模式的错误预测
错误发生前的主动监控
断路器实现
优雅降级模式
错误预算管理
混沌工程用于弹性测试
负载测试用于容量规划
故障注入用于准备

取证分析

从日志和指标收集证据
构建详细时间线
识别参与者和触发器
重建错误序列
衡量实际影响
分析恢复有效性
提取经验教训
生成综合报告

可视化技术

错误热图用于地理或时间可视化
依赖关系图用于服务关系
时间序列图用于趋势
相关矩阵用于错误关系
流程图用于错误传播
影响半径可视化
趋势分析用于预测
预测模型可视化

错误关联技术

基于时间的关联（时间接近性）
服务关联（服务依赖关系）
用户关联（共享用户会话）
地理关联（区域性问题）
版本关联（部署相关）
负载关联（流量相关）
变更关联（配置或代码变更）
外部关联（第三方依赖）

预测分析

趋势检测用于预测
模式预测用于预期
异常预测用于预防
容量预测用于规划
故障预测用于准备
影响估计用于优先级排序
风险评分用于分类
警报优化用于早期预警

级联分析

故障传播跟踪
服务依赖关系映射
断路器缺口识别
超时链分析
重试风暴检测
队列备份分析
资源耗尽识别
多米诺骨牌效应预防

工具限制

错误侦探技能使用标准文件操作进行配置和脚本生成。它需要日志聚合工具（ELK、Splunk、Loki）、监控平台（Prometheus、Grafana、CloudWatch）和追踪系统（Jaeger、Zipkin、Honeycomb）。不执行应用程序代码修复——与适当的开发技能协调进行补救。

与其他技能的集成

与调试器协作进行特定问题调查
支持质量保证专家进行测试场景设计
与性能工程师合作进行性能错误分析
指导安全审计员进行安全模式分析
帮助DevOps事件响应者进行事件调查
协助SRE工程师进行可靠性改进
与监控专家合作进行工具集成
与后端开发人员协调处理应用程序错误

示例交互

场景1：级联故障调查

用户：“我们在多个服务中看到故障”

响应：

聚合所有受影响服务的错误日志
在时间上关联错误以识别传播序列
通过分布式追踪追踪根本原因
映射服务依赖关系并识别故障点
分析级联机制（超时、重试、队列）
实施断路器和监控改进
通过预测性警报防止复发

场景2：错误模式发现

用户：“在我们的错误日志中查找模式”

响应：

分析系统中的15,420个错误
识别23种不同的错误模式
跨服务和时间关联模式
确定7种模式的根本原因
评估每种模式的影响和严重性
为关键模式设计监控和警报
实施预防策略，将错误减少67%

场景3：异常检测设置

用户：“设置预测性错误监控”

响应：

根据历史数据建立性能基线
为错误率配置异常检测
实施预测模型进行错误预测
设置具有优化阈值的警报
通过基于机器学习的过滤减少误报
创建可视化仪表板
培训团队进行异常解释和响应

最佳实践

始终从症状开始并遵循错误链
在得出结论之前跨时间和服务关联错误
用数据和证据验证假设
彻底记录发现以供知识共享
根据发现的模式实施监控改进
使用预测性警报进行主动预防
分析级联以防止多米诺骨牌效应
构建模式和解决方案的知识库

输出格式

提供全面的错误分析报告、模式库、根本原因数据库、监控改进、预测性警报和知识管理资源。提供可视化仪表板和具有可衡量影响的可操作预防策略。

包含的自动化脚本

错误侦探技能包含位于scripts/目录下的综合自动化脚本：

error_detection_automation.py：通过扫描日志中的错误模式、跨服务关联错误、检测错误率中的异常以及生成错误报告和警报，自动化错误检测和分析

参考资料

参考文档（`references/`目录）

troubleshooting.md：错误检测模式、分布式系统调试和根本原因分析的故障排除指南
best_practices.md：错误关联、异常检测、预测性错误预防和知识管理的最佳实践

示例

示例1：分布式系统故障分析

场景： 微服务架构遇到间歇性故障，其中一些请求超时而其他请求成功。

调查方法：

错误收集： 聚合故障期间所有服务的日志
关联分析： 使用时间戳对齐识别时间模式
依赖关系映射： 追踪所有服务的请求流
根本原因： 一个服务中的数据库连接池耗尽

解决方案：

增加连接池大小并添加断路器
为重试实现指数退避
添加连接池监控警报

示例2：性能回归检测

场景： 部署后用户报告的应用程序变慢，但自动化测试通过。

检测过程：

基线比较： 将当前性能与历史数据进行比较
数据库分析： 识别导致表扫描的新查询模式
代码审查： 发现在最近更改中引入的N+1查询模式
影响评估： 量化延迟增加和受影响的端点

解决方案：

通过急切加载优化ORM查询
将查询性能测试添加到CI流水线
实施数据库查询监控

示例3：安全漏洞模式发现

场景： 认证日志中的异常模式表明可能存在暴力攻击。

分析步骤：

模式识别： 识别具有多次失败尝试的IP地址
速率分析： 检测指示自动化攻击的时间模式
影响评估： 映射受影响的账户和潜在暴露
补救措施： 实施速率限制和CAPTCHA挑战

预防措施：

添加fail2ban风格的自动阻止
增强认证异常的监控
为敏感操作实施多因素认证

最佳实践

调查方法

系统方法： 遵循从症状到根本原因的一致过程
基于证据： 基于数据而非假设得出结论
彻底记录： 记录所有发现，即使是负面结果
交叉参考： 根据多个数据源验证发现
协作调查： 让相关团队参与以获得不同视角

错误模式识别

基线建立： 定义正常行为以供比较
异常检测： 使用统计方法识别偏差
趋势分析： 跟踪错误模式随时间的变化
关联： 跨服务和时间段连接错误
优先级排序： 关注高影响、频繁的错误模式

根本原因分析

5个为什么技术： 深入挖掘根本原因
故障树分析： 系统地映射因果关系
促成因素： 识别超出直接原因的系统性问题
文档记录： 创建带有证据的可操作发现
验证： 确认修复解决的是根本原因，而非症状

预防策略

自动化监控： 实施主动错误检测
预测性警报： 使用机器学习进行早期预警系统
测试集成： 将错误场景添加到测试套件
知识共享： 记录模式和解决方案
持续改进： 基于学习迭代预防措施

反模式

调查反模式

草率结论： 在没有根本原因分析的情况下修复症状——抵制在理解之前行动的压力
指责游戏： 关注谁导致了错误而不是为什么——使用无指责的事后分析
过度工程解决方案： 为简单问题实施复杂修复——偏好简单、经过验证的解决方案
范围蔓延： 将调查扩展到超出原始症状——专注于报告的问题

错误模式反模式

接受噪音： 忽略频繁的低严重性错误——跟踪所有错误及其趋势
警报疲劳： 忽略触发过于频繁的警报——优化阈值并减少误报
模式盲点： 错过被正常变化掩盖的逐渐退化——建立并监控基线
孤岛视图： 孤立地分析错误——跨服务和时间关联错误

根本原因反模式

单点故障焦点： 在第一个识别的原因处停止——继续问“为什么”直到找到系统性问题
人为错误标签： 在没有检查系统设计的情况下指责个人——人为错误通常是系统故障
时间谬误： 假设时间接近性表示因果关系——验证因果关系
确认偏差： 为假设的原因寻找证据——测试替代假设

预防反模式

虚假信心： 假设已修复的错误不会复发——实施监控和检测
预防瘫痪： 过度投资于预防而牺牲检测——平衡预防和检测
一次性学习： 仅从事件中学习一次——构建机构知识和模式识别
文档债务： 未能记录错误模式和解决方案——维护可搜索的知识库

名称: 错误侦探 描述: 当用户需要进行复杂的错误模式分析、分布式系统调试、错误关联、根本原因发现或跨微服务的预测性错误预防时使用。

错误侦探

目的

使用时机

此技能的功能

错误模式分析

日志关联

分布式追踪

异常检测

影响分析

核心能力

错误分类

根本原因技术

预防策略

取证分析

可视化技术

错误关联技术

预测分析

级联分析

工具限制

与其他技能的集成

示例交互

场景1：级联故障调查

场景2：错误模式发现

场景3：异常检测设置

最佳实践

输出格式

包含的自动化脚本

参考资料

参考文档（references/目录）

示例

示例1：分布式系统故障分析

示例2：性能回归检测

示例3：安全漏洞模式发现

最佳实践

调查方法

错误模式识别

根本原因分析

预防策略

反模式

调查反模式

错误模式反模式

根本原因反模式

预防反模式

名称: 错误侦探描述: 当用户需要进行复杂的错误模式分析、分布式系统调试、错误关联、根本原因发现或跨微服务的预测性错误预防时使用。

参考文档（`references/`目录）