统计验证器Skill statistics-verifier

统计验证器是一个用于验证统计声明、检查研究方法、进行显著性测试、声明验证和偏见检测的技能。它帮助事实检查统计主张、验证研究发现和审计数据分析,适用于数据科学、量化金融和科研学术等领域。关键词:统计验证、方法论检查、显著性测试、声明验证、偏见检测、数据分析、量化金融、SEO优化。

数据分析 0 次安装 2 次浏览 更新于 3/20/2026

name: statistics-verifier description: 通过方法论检查、显著性测试、声明验证和偏见检测来验证原始数据的统计。用于事实检查统计声明、验证研究发现或审计数据分析。

统计验证器

用于验证统计声明、验证研究方法和检测分析错误和偏见的结构化框架。

统计声明验证清单

快速声明评估

声明验证协议:

1. 来源检查
   - 谁做出了声明?
   - 他们的专业知识和动机是什么?
   - 在哪里发表(同行评审、预印本、新闻稿)?
   - 原始数据或研究是否可访问?

2. 方法论检查
   - 研究类型是什么(RCT、观察性研究、调查、荟萃分析)?
   - 样本量和人口是什么?
   - 测量方法是什么?
   - 统计测试是否适合数据类型?

3. 数字感检查
   - 声明是否通过基本合理性测试?
   - 单位和分母是否清晰说明?
   - 绝对数字与相对数字——使用哪种?
   - 是否为上下文提供了基准率?

4. 复制检查
   - 其他研究是否发现了类似结果?
   - 发现是否在不同人群中一致?
   - 是否有人尝试复制但失败?

5. 结论检查
   - 结论是否从数据中得出?
   - 是否处理了替代解释?
   - 声明的范围是否与证据成比例?

声明红旗

红旗 含义 行动
未提供样本量 无法评估可靠性 请求或估计 N
仅报告相对风险 可能隐藏小的绝对效应 计算绝对差异
“高达 X%” 表述 挑选最佳情况 询问中位数或均值
无置信区间 精度未知 持怀疑态度
相关性陈述为因果关系 可能忽略混杂因素 检查研究设计
自选样本 可能选择偏见 注意限制
复合终点 可能掩盖弱的个体结果 分解终点
突出子组分析 可能事后钓鱼 要求预注册

常见统计错误

错误检测框架

类别 1:设计错误
- 抽样偏见(便利性、自愿响应、幸存者)
- 未控制混杂变量
- 样本量不足(研究力量不足)
- 无对照组或不适当的比较器
- 测量仪器未验证

类别 2:分析错误
- 多重比较未校正(p-hacking)
- 将顺序数据视为间隔数据
- 未检查即假设正态性
- 忽略缺失数据模式(MCAR vs MNAR)
- 对非参数数据使用参数测试

类别 3:解释错误
- 混淆统计显著性与实际显著性
- 将非显著结果解释为“无效应”
- 生态谬误(群体层面应用于个体)
- 未检查辛普森悖论
- 忽略效应大小和置信区间

类别 4:报告错误
- 选择性报告有利结果
- 省略负面或空发现
- 可视化中的误导性轴刻度
- 未提供基数即呈现百分比
- 在绝对和相对指标间切换

错误严重性评估

错误类型 严重性 对结论的影响
P-hacking / HARKing 关键 使发现无效
选择偏见 关键 样本根本缺陷
未解决混杂 替代解释仍存在
错误统计测试 结果可能人为
多重比较未校正 增加假阳性率
小样本无力量分析 中等 可能错过真实效应
缺失置信区间 中等 无法判断精度
误导性可视化 中等 误报幅度
轻微舍入错误 影响最小

显著性测试框架

测试选择指南

选择正确的测试:

数据类型 → 比较 → 测试

连续 + 2 组 + 独立 → 独立 t 检验(或 Mann-Whitney)
连续 + 2 组 + 配对 → 配对 t 检验(或 Wilcoxon 符号秩)
连续 + 3+ 组 + 独立 → 单因素 ANOVA(或 Kruskal-Wallis)
连续 + 2+ 因素 → 双因素 ANOVA(或 Friedman)
连续 + 连续 → Pearson 相关(或 Spearman)

分类 + 2 组 → 卡方检验(或 Fisher 精确)
分类 + 有序 → Cochran-Armitage 趋势检验
二元结果 + 预测因子 → 逻辑回归

时间到事件 + 组 → 对数秩检验 / Cox 回归
计数数据 → Poisson 回归
比例 + 大样本 → 比例的 Z 检验

P 值解释指南

P 值上下文:

p 值 = P(数据如此极端 | 零假设为真)

常见误解:
  p = 0.03 并不意味着:
  - “结果有 3% 的几率是偶然的”
  - “假设为真的概率为 97%”
  - “效应大或重要”
  - “研究将复制”

  p = 0.03 确实意味着:
  - 如果零假设为真,如此极端的数据
    大约 3% 的时间会偶然发生。

阈值(常规,非绝对):
  p < 0.001 — 强烈反对零假设的证据
  p < 0.01  — 中等反对零假设的证据
  p < 0.05  — 常规阈值(依赖上下文)
  p > 0.05  — 拒绝零假设的证据不足
                (不是无效应的证据)

始终补充:
  - 效应大小(Cohen's d、比值比等)
  - 置信区间(合理值范围)
  - 实际显著性(效应是否有意义?)
  - 研究力量(是否能检测到真实效应?)

多重比较校正

方法 何时使用 保守性
Bonferroni 少量比较,需要强控制 非常保守
Holm-Bonferroni 中等比较,逐步下降 较不保守
Benjamini-Hochberg 许多比较(FDR 控制) 宽松
Tukey’s HSD ANOVA 后的所有成对比较 中等
Dunnett’s 多个处理与一个对照 中等

样本量验证

快速参考表

最小样本量指南:

调查(总体估计):
  ±3% 边际,95% CI → n ≈ 1,067
  ±5% 边际,95% CI → n ≈ 385
  ±10% 边际,95% CI → n ≈ 97

A/B 测试(检测 5% 相对提升):
  基线 10% 转化率 → n ≈ 3,200 每组
  基线 5% 转化率 → n ≈ 6,400 每组
  基线 2% 转化率 → n ≈ 16,000 每组

临床试验(中等效应 d=0.5):
  两组比较,80% 力量 → n ≈ 64 每组
  两组比较,90% 力量 → n ≈ 86 每组

相关(检测 r=0.3):
  80% 力量,alpha=0.05 → n ≈ 85
  90% 力量,alpha=0.05 → n ≈ 113

力量分析清单

参数 必须指定 来源
Alpha(类型 I 错误率) 常规(通常 0.05)
Power(1 - 类型 II 错误) 通常 0.80 或 0.90
效应大小 先前研究或 MCID
方差 / SD 试点数据或文献
样本量 计算 力量分析输出
流失率 推荐 按预期流失率增加 N

相关性与因果关系清单

Bradford Hill 因果关系标准

相关性是否意味着因果关系?检查:

1. 强度           关联是否大?
                  更大效应更难解释掉。

2. 一致性        在不同设置、人群中复制?
                  多项研究,相同发现。

3. 特异性        X 是否特别与 Y 相关(不是所有东西)?
                  对多因素疾病不太有用。

4. 时序性        X 是否在时间上先于 Y?
                  必需 — 原因必须在效果之前。

5. 生物学梯度    更多 X 是否产生更多 Y(剂量-响应)?
                  强烈支持因果关系。

6. 合理性        是否有可信机制?
                  基于当前知识。

7. 一致性        是否与已知生物学/理论一致?
                  不与既定事实冲突。

8. 实验          移除 X 是否减少 Y?
                  最强证据(RCT)。

9. 类比          类似暴露是否导致类似效果?
                  最弱标准,仅支持。

裁决:
  满足标准 1-3 + 时序性 → 暗示因果关系
  满足标准 1-6 + 实验  → 强烈因果关系证据
  仅观察到相关性      → 仅关联,无法推断原因

常见第三变量混杂因素

观察到的关联 可能的混杂因素
冰淇淋销售与溺水 温暖天气(季节)
鞋码与阅读能力 年龄
医院访问与死亡率 疾病严重程度
有机食品与健康 社会经济地位
屏幕时间与抑郁 社会孤立、睡眠

调查方法论审查

调查质量评估

调查方法论清单:

抽样:
- [ ] 描述概率抽样方法?
- [ ] 定义抽样框架并适当?
- [ ] 报告响应率(可接受:>60% 邮件,>80% 面对面)?
- [ ] 评估无响应偏见?

问卷:
- [ ] 问题已验证或改编自已验证工具?
- [ ] 无引导性或双重问题?
- [ ] 响应选项平衡且详尽?
- [ ] 与目标人群试点测试?

管理:
- [ ] 模式(在线、电话、面对面)适当?
- [ ] 确保匿名/保密?
- [ ] 获得知情同意?
- [ ] 减轻社会期望偏见?

分析:
- [ ] 为无响应或过度抽样应用加权?
- [ ] 报告边际误差和置信水平?
- [ ] 子组分析预指定(非探索性)?

数据可视化完整性检查

图表审计清单

检查 寻找什么 失败条件
Y 轴从零开始(条形图) 截断轴夸大差异 轴从零以上开始且无清晰标签
一致刻度 两轴有比例增量 非线性刻度无解释
面积与数据成比例 气泡/图标大小匹配值 面积误报幅度
时间轴均匀间隔 数据点间等间隔 不均匀间隔压缩/扩展趋势
适当图表类型 数据类型匹配可视化 20+ 类别的饼图
提供上下文 基准、比较、基线 单一数据点无参考
引用来源 数据来源可追溯 无来源归属
双轴使用负责任 两个 Y 轴可创造虚假关联 任意缩放暗示关系

误导性可视化模式

注意这些技巧:

1. 截断轴
   当基线移除时,小差异看起来戏剧化。
   修复:对于条形图,始终检查 Y 轴是否从零开始。

2. 挑选时间窗口
   选择开始/结束日期以显示所需趋势。
   修复:要求更长的时间序列和一致间隔。

3. 3D 效果
   透视变形使大小不等。
   修复:使用平面 2D 图表进行准确比较。

4. 双轴操纵
   两个 Y 轴缩放以创建明显关联。
   修复:归一化数据或使用单独面板。

5. 累积与每日
   累积图表总是上升 — 隐藏下降率。
   修复:显示变化率与累积。

偏见检测框架

数据分析中的认知偏见

偏见检测清单:

确认偏见
- 是否仅呈现支持其假设的数据?
- 是否报告负面结果?
- 分析计划是否预注册?

锚定偏见
- 呈现的第一个数字是否影响后续数据解释?
- 是否与适当基准比较?

幸存者偏见
- 是否仅包括成功案例(忽略失败)?
- 分母是否完整(不仅是幸存者)?

可用性偏见
- 戏剧性或最近事件是否被过度加权?
- 是否使用系统数据而非轶事证据?

发表偏见
- 是否有漏斗图不对称(荟萃分析)?
- 是否发表空结果或仅显著结果?

得克萨斯神枪手谬误
- 是否在查看数据后找到聚类或模式?
- 假设是在看到结果前还是后形成?

偏见严重性矩阵

偏见 检测方法 缓解
选择偏见 比较样本与人口统计 概率抽样、加权
测量偏见 检查仪器有效性和校准 已验证仪器、盲法
报告偏见 寻找不对称漏斗图 预注册、开放数据
回忆偏见 与客观记录比较 前瞻性数据收集
观察者偏见 检查评估者是否盲法 双盲设计
流失偏见 比较完成者与流失者 意向治疗分析

可重复性清单

研究可重复性评估

可重复性要求:

数据可用性:
- [ ] 原始数据可访问(存储库、补充材料、按请求)?
- [ ] 提供数据字典/代码簿?
- [ ] 记录数据收集协议?

代码/分析:
- [ ] 共享分析代码(GitHub、OSF、补充材料)?
- [ ] 指定软件版本和包?
- [ ] 为可重复计算设置随机种子?
- [ ] 记录端到端管道?

方法论:
- [ ] 研究预注册(OSF、ClinicalTrials.gov)?
- [ ] 记录与协议的偏差?
- [ ] 报告所有结果指标(不仅是显著的)?
- [ ] 包括敏感性分析?

报告:
- [ ] 遵循报告指南(CONSORT、STROBE、PRISMA)?
- [ ] 报告效应大小和置信区间?
- [ ] 提供力量分析或样本量理由?
- [ ] 限制部分全面且诚实?

按研究类型的报告标准

研究类型 指南 关键元素
随机试验 CONSORT 流程图、ITT 分析、盲法
观察性研究 STROBE 选择标准、混杂因素、缺失数据
系统评价 PRISMA 搜索策略、纳入标准、偏见风险
诊断准确性 STARD 索引测试、参考标准、流程图
定性研究 COREQ 研究团队、研究设计、数据分析
预测模型 TRIPOD 模型开发、验证、性能

快速验证工作流

快速验证(5 分钟):

1. 仔细阅读声明 — 具体陈述什么?
2. 检查:来源、样本量、研究类型
3. 询问:绝对或相对?基准率是什么?
4. 检查:是否提供置信区间或边际误差?
5. 搜索:是否已独立复制?

裁决类别:
  已验证    — 多个强来源、稳健方法论
  合理     — 合理证据、一些限制
  不确定   — 混合证据、方法论担忧
  误导性   — 技术正确但呈现欺骗性
  假       — 被强证据反驳
  不可验证 — 无法用可用信息评估

另请参阅