name: statistics-verifier description: 通过方法论检查、显著性测试、声明验证和偏见检测来验证原始数据的统计。用于事实检查统计声明、验证研究发现或审计数据分析。

统计验证器

用于验证统计声明、验证研究方法和检测分析错误和偏见的结构化框架。

统计声明验证清单

快速声明评估

声明验证协议：

1. 来源检查
   - 谁做出了声明？
   - 他们的专业知识和动机是什么？
   - 在哪里发表（同行评审、预印本、新闻稿）？
   - 原始数据或研究是否可访问？

2. 方法论检查
   - 研究类型是什么（RCT、观察性研究、调查、荟萃分析）？
   - 样本量和人口是什么？
   - 测量方法是什么？
   - 统计测试是否适合数据类型？

3. 数字感检查
   - 声明是否通过基本合理性测试？
   - 单位和分母是否清晰说明？
   - 绝对数字与相对数字——使用哪种？
   - 是否为上下文提供了基准率？

4. 复制检查
   - 其他研究是否发现了类似结果？
   - 发现是否在不同人群中一致？
   - 是否有人尝试复制但失败？

5. 结论检查
   - 结论是否从数据中得出？
   - 是否处理了替代解释？
   - 声明的范围是否与证据成比例？

声明红旗

红旗	含义	行动
未提供样本量	无法评估可靠性	请求或估计 N
仅报告相对风险	可能隐藏小的绝对效应	计算绝对差异
“高达 X%” 表述	挑选最佳情况	询问中位数或均值
无置信区间	精度未知	持怀疑态度
相关性陈述为因果关系	可能忽略混杂因素	检查研究设计
自选样本	可能选择偏见	注意限制
复合终点	可能掩盖弱的个体结果	分解终点
突出子组分析	可能事后钓鱼	要求预注册

常见统计错误

错误检测框架

类别 1：设计错误
- 抽样偏见（便利性、自愿响应、幸存者）
- 未控制混杂变量
- 样本量不足（研究力量不足）
- 无对照组或不适当的比较器
- 测量仪器未验证

类别 2：分析错误
- 多重比较未校正（p-hacking）
- 将顺序数据视为间隔数据
- 未检查即假设正态性
- 忽略缺失数据模式（MCAR vs MNAR）
- 对非参数数据使用参数测试

类别 3：解释错误
- 混淆统计显著性与实际显著性
- 将非显著结果解释为“无效应”
- 生态谬误（群体层面应用于个体）
- 未检查辛普森悖论
- 忽略效应大小和置信区间

类别 4：报告错误
- 选择性报告有利结果
- 省略负面或空发现
- 可视化中的误导性轴刻度
- 未提供基数即呈现百分比
- 在绝对和相对指标间切换

错误严重性评估

错误类型	严重性	对结论的影响
P-hacking / HARKing	关键	使发现无效
选择偏见	关键	样本根本缺陷
未解决混杂	高	替代解释仍存在
错误统计测试	高	结果可能人为
多重比较未校正	高	增加假阳性率
小样本无力量分析	中等	可能错过真实效应
缺失置信区间	中等	无法判断精度
误导性可视化	中等	误报幅度
轻微舍入错误	低	影响最小

显著性测试框架

测试选择指南

选择正确的测试：

数据类型 → 比较 → 测试

连续 + 2 组 + 独立 → 独立 t 检验（或 Mann-Whitney）
连续 + 2 组 + 配对 → 配对 t 检验（或 Wilcoxon 符号秩）
连续 + 3+ 组 + 独立 → 单因素 ANOVA（或 Kruskal-Wallis）
连续 + 2+ 因素 → 双因素 ANOVA（或 Friedman）
连续 + 连续 → Pearson 相关（或 Spearman）

分类 + 2 组 → 卡方检验（或 Fisher 精确）
分类 + 有序 → Cochran-Armitage 趋势检验
二元结果 + 预测因子 → 逻辑回归

时间到事件 + 组 → 对数秩检验 / Cox 回归
计数数据 → Poisson 回归
比例 + 大样本 → 比例的 Z 检验

P 值解释指南

P 值上下文：

p 值 = P(数据如此极端 | 零假设为真)

常见误解：
  p = 0.03 并不意味着：
  - “结果有 3% 的几率是偶然的”
  - “假设为真的概率为 97%”
  - “效应大或重要”
  - “研究将复制”

  p = 0.03 确实意味着：
  - 如果零假设为真，如此极端的数据
    大约 3% 的时间会偶然发生。

阈值（常规，非绝对）：
  p < 0.001 — 强烈反对零假设的证据
  p < 0.01  — 中等反对零假设的证据
  p < 0.05  — 常规阈值（依赖上下文）
  p > 0.05  — 拒绝零假设的证据不足
                （不是无效应的证据）

始终补充：
  - 效应大小（Cohen's d、比值比等）
  - 置信区间（合理值范围）
  - 实际显著性（效应是否有意义？）
  - 研究力量（是否能检测到真实效应？）

多重比较校正

方法	何时使用	保守性
Bonferroni	少量比较，需要强控制	非常保守
Holm-Bonferroni	中等比较，逐步下降	较不保守
Benjamini-Hochberg	许多比较（FDR 控制）	宽松
Tukey’s HSD	ANOVA 后的所有成对比较	中等
Dunnett’s	多个处理与一个对照	中等

样本量验证

快速参考表

最小样本量指南：

调查（总体估计）：
  ±3% 边际，95% CI → n ≈ 1,067
  ±5% 边际，95% CI → n ≈ 385
  ±10% 边际，95% CI → n ≈ 97

A/B 测试（检测 5% 相对提升）：
  基线 10% 转化率 → n ≈ 3,200 每组
  基线 5% 转化率 → n ≈ 6,400 每组
  基线 2% 转化率 → n ≈ 16,000 每组

临床试验（中等效应 d=0.5）：
  两组比较，80% 力量 → n ≈ 64 每组
  两组比较，90% 力量 → n ≈ 86 每组

相关（检测 r=0.3）：
  80% 力量，alpha=0.05 → n ≈ 85
  90% 力量，alpha=0.05 → n ≈ 113

力量分析清单

参数	必须指定	来源
Alpha（类型 I 错误率）	是	常规（通常 0.05）
Power（1 - 类型 II 错误）	是	通常 0.80 或 0.90
效应大小	是	先前研究或 MCID
方差 / SD	是	试点数据或文献
样本量	计算	力量分析输出
流失率	推荐	按预期流失率增加 N

调查方法论审查

调查质量评估

调查方法论清单：

抽样：
- [ ] 描述概率抽样方法？
- [ ] 定义抽样框架并适当？
- [ ] 报告响应率（可接受：>60% 邮件，>80% 面对面）？
- [ ] 评估无响应偏见？

问卷：
- [ ] 问题已验证或改编自已验证工具？
- [ ] 无引导性或双重问题？
- [ ] 响应选项平衡且详尽？
- [ ] 与目标人群试点测试？

管理：
- [ ] 模式（在线、电话、面对面）适当？
- [ ] 确保匿名/保密？
- [ ] 获得知情同意？
- [ ] 减轻社会期望偏见？

分析：
- [ ] 为无响应或过度抽样应用加权？
- [ ] 报告边际误差和置信水平？
- [ ] 子组分析预指定（非探索性）？

数据可视化完整性检查

图表审计清单

检查	寻找什么	失败条件
Y 轴从零开始（条形图）	截断轴夸大差异	轴从零以上开始且无清晰标签
一致刻度	两轴有比例增量	非线性刻度无解释
面积与数据成比例	气泡/图标大小匹配值	面积误报幅度
时间轴均匀间隔	数据点间等间隔	不均匀间隔压缩/扩展趋势
适当图表类型	数据类型匹配可视化	20+ 类别的饼图
提供上下文	基准、比较、基线	单一数据点无参考
引用来源	数据来源可追溯	无来源归属
双轴使用负责任	两个 Y 轴可创造虚假关联	任意缩放暗示关系

误导性可视化模式

注意这些技巧：

1. 截断轴
   当基线移除时，小差异看起来戏剧化。
   修复：对于条形图，始终检查 Y 轴是否从零开始。

2. 挑选时间窗口
   选择开始/结束日期以显示所需趋势。
   修复：要求更长的时间序列和一致间隔。

3. 3D 效果
   透视变形使大小不等。
   修复：使用平面 2D 图表进行准确比较。

4. 双轴操纵
   两个 Y 轴缩放以创建明显关联。
   修复：归一化数据或使用单独面板。

5. 累积与每日
   累积图表总是上升 — 隐藏下降率。
   修复：显示变化率与累积。

偏见检测框架

数据分析中的认知偏见

偏见检测清单：

确认偏见
- 是否仅呈现支持其假设的数据？
- 是否报告负面结果？
- 分析计划是否预注册？

锚定偏见
- 呈现的第一个数字是否影响后续数据解释？
- 是否与适当基准比较？

幸存者偏见
- 是否仅包括成功案例（忽略失败）？
- 分母是否完整（不仅是幸存者）？

可用性偏见
- 戏剧性或最近事件是否被过度加权？
- 是否使用系统数据而非轶事证据？

发表偏见
- 是否有漏斗图不对称（荟萃分析）？
- 是否发表空结果或仅显著结果？

得克萨斯神枪手谬误
- 是否在查看数据后找到聚类或模式？
- 假设是在看到结果前还是后形成？

偏见严重性矩阵

偏见	检测方法	缓解
选择偏见	比较样本与人口统计	概率抽样、加权
测量偏见	检查仪器有效性和校准	已验证仪器、盲法
报告偏见	寻找不对称漏斗图	预注册、开放数据
回忆偏见	与客观记录比较	前瞻性数据收集
观察者偏见	检查评估者是否盲法	双盲设计
流失偏见	比较完成者与流失者	意向治疗分析

可重复性清单

研究可重复性评估

可重复性要求：

数据可用性：
- [ ] 原始数据可访问（存储库、补充材料、按请求）？
- [ ] 提供数据字典/代码簿？
- [ ] 记录数据收集协议？

代码/分析：
- [ ] 共享分析代码（GitHub、OSF、补充材料）？
- [ ] 指定软件版本和包？
- [ ] 为可重复计算设置随机种子？
- [ ] 记录端到端管道？

方法论：
- [ ] 研究预注册（OSF、ClinicalTrials.gov）？
- [ ] 记录与协议的偏差？
- [ ] 报告所有结果指标（不仅是显著的）？
- [ ] 包括敏感性分析？

报告：
- [ ] 遵循报告指南（CONSORT、STROBE、PRISMA）？
- [ ] 报告效应大小和置信区间？
- [ ] 提供力量分析或样本量理由？
- [ ] 限制部分全面且诚实？

按研究类型的报告标准

研究类型	指南	关键元素
随机试验	CONSORT	流程图、ITT 分析、盲法
观察性研究	STROBE	选择标准、混杂因素、缺失数据
系统评价	PRISMA	搜索策略、纳入标准、偏见风险
诊断准确性	STARD	索引测试、参考标准、流程图
定性研究	COREQ	研究团队、研究设计、数据分析
预测模型	TRIPOD	模型开发、验证、性能

快速验证工作流

快速验证（5 分钟）：

1. 仔细阅读声明 — 具体陈述什么？
2. 检查：来源、样本量、研究类型
3. 询问：绝对或相对？基准率是什么？
4. 检查：是否提供置信区间或边际误差？
5. 搜索：是否已独立复制？

裁决类别：
  已验证    — 多个强来源、稳健方法论
  合理     — 合理证据、一些限制
  不确定   — 混合证据、方法论担忧
  误导性   — 技术正确但呈现欺骗性
  假       — 被强证据反驳
  不可验证 — 无法用可用信息评估

观察到的关联	可能的混杂因素
冰淇淋销售与溺水	温暖天气（季节）
鞋码与阅读能力	年龄
医院访问与死亡率	疾病严重程度
有机食品与健康	社会经济地位
屏幕时间与抑郁	社会孤立、睡眠

统计验证器Skill statistics-verifier

name: statistics-verifier description: 通过方法论检查、显著性测试、声明验证和偏见检测来验证原始数据的统计。用于事实检查统计声明、验证研究发现或审计数据分析。

统计验证器

统计声明验证清单

快速声明评估

声明红旗

常见统计错误

错误检测框架

错误严重性评估

显著性测试框架

测试选择指南

P 值解释指南

多重比较校正

样本量验证

快速参考表

力量分析清单

相关性与因果关系清单

Bradford Hill 因果关系标准

常见第三变量混杂因素

调查方法论审查

调查质量评估

数据可视化完整性检查

图表审计清单

误导性可视化模式

偏见检测框架

数据分析中的认知偏见

偏见严重性矩阵

可重复性清单

研究可重复性评估

按研究类型的报告标准

快速验证工作流

另请参阅