name: statistics-verifier
description: 通过方法论检查、显著性测试、声明验证和偏见检测来验证原始数据的统计。用于事实检查统计声明、验证研究发现或审计数据分析。
统计验证器
用于验证统计声明、验证研究方法和检测分析错误和偏见的结构化框架。
统计声明验证清单
快速声明评估
声明验证协议:
1. 来源检查
- 谁做出了声明?
- 他们的专业知识和动机是什么?
- 在哪里发表(同行评审、预印本、新闻稿)?
- 原始数据或研究是否可访问?
2. 方法论检查
- 研究类型是什么(RCT、观察性研究、调查、荟萃分析)?
- 样本量和人口是什么?
- 测量方法是什么?
- 统计测试是否适合数据类型?
3. 数字感检查
- 声明是否通过基本合理性测试?
- 单位和分母是否清晰说明?
- 绝对数字与相对数字——使用哪种?
- 是否为上下文提供了基准率?
4. 复制检查
- 其他研究是否发现了类似结果?
- 发现是否在不同人群中一致?
- 是否有人尝试复制但失败?
5. 结论检查
- 结论是否从数据中得出?
- 是否处理了替代解释?
- 声明的范围是否与证据成比例?
声明红旗
| 红旗 |
含义 |
行动 |
| 未提供样本量 |
无法评估可靠性 |
请求或估计 N |
| 仅报告相对风险 |
可能隐藏小的绝对效应 |
计算绝对差异 |
| “高达 X%” 表述 |
挑选最佳情况 |
询问中位数或均值 |
| 无置信区间 |
精度未知 |
持怀疑态度 |
| 相关性陈述为因果关系 |
可能忽略混杂因素 |
检查研究设计 |
| 自选样本 |
可能选择偏见 |
注意限制 |
| 复合终点 |
可能掩盖弱的个体结果 |
分解终点 |
| 突出子组分析 |
可能事后钓鱼 |
要求预注册 |
常见统计错误
错误检测框架
类别 1:设计错误
- 抽样偏见(便利性、自愿响应、幸存者)
- 未控制混杂变量
- 样本量不足(研究力量不足)
- 无对照组或不适当的比较器
- 测量仪器未验证
类别 2:分析错误
- 多重比较未校正(p-hacking)
- 将顺序数据视为间隔数据
- 未检查即假设正态性
- 忽略缺失数据模式(MCAR vs MNAR)
- 对非参数数据使用参数测试
类别 3:解释错误
- 混淆统计显著性与实际显著性
- 将非显著结果解释为“无效应”
- 生态谬误(群体层面应用于个体)
- 未检查辛普森悖论
- 忽略效应大小和置信区间
类别 4:报告错误
- 选择性报告有利结果
- 省略负面或空发现
- 可视化中的误导性轴刻度
- 未提供基数即呈现百分比
- 在绝对和相对指标间切换
错误严重性评估
| 错误类型 |
严重性 |
对结论的影响 |
| P-hacking / HARKing |
关键 |
使发现无效 |
| 选择偏见 |
关键 |
样本根本缺陷 |
| 未解决混杂 |
高 |
替代解释仍存在 |
| 错误统计测试 |
高 |
结果可能人为 |
| 多重比较未校正 |
高 |
增加假阳性率 |
| 小样本无力量分析 |
中等 |
可能错过真实效应 |
| 缺失置信区间 |
中等 |
无法判断精度 |
| 误导性可视化 |
中等 |
误报幅度 |
| 轻微舍入错误 |
低 |
影响最小 |
显著性测试框架
测试选择指南
选择正确的测试:
数据类型 → 比较 → 测试
连续 + 2 组 + 独立 → 独立 t 检验(或 Mann-Whitney)
连续 + 2 组 + 配对 → 配对 t 检验(或 Wilcoxon 符号秩)
连续 + 3+ 组 + 独立 → 单因素 ANOVA(或 Kruskal-Wallis)
连续 + 2+ 因素 → 双因素 ANOVA(或 Friedman)
连续 + 连续 → Pearson 相关(或 Spearman)
分类 + 2 组 → 卡方检验(或 Fisher 精确)
分类 + 有序 → Cochran-Armitage 趋势检验
二元结果 + 预测因子 → 逻辑回归
时间到事件 + 组 → 对数秩检验 / Cox 回归
计数数据 → Poisson 回归
比例 + 大样本 → 比例的 Z 检验
P 值解释指南
P 值上下文:
p 值 = P(数据如此极端 | 零假设为真)
常见误解:
p = 0.03 并不意味着:
- “结果有 3% 的几率是偶然的”
- “假设为真的概率为 97%”
- “效应大或重要”
- “研究将复制”
p = 0.03 确实意味着:
- 如果零假设为真,如此极端的数据
大约 3% 的时间会偶然发生。
阈值(常规,非绝对):
p < 0.001 — 强烈反对零假设的证据
p < 0.01 — 中等反对零假设的证据
p < 0.05 — 常规阈值(依赖上下文)
p > 0.05 — 拒绝零假设的证据不足
(不是无效应的证据)
始终补充:
- 效应大小(Cohen's d、比值比等)
- 置信区间(合理值范围)
- 实际显著性(效应是否有意义?)
- 研究力量(是否能检测到真实效应?)
多重比较校正
| 方法 |
何时使用 |
保守性 |
| Bonferroni |
少量比较,需要强控制 |
非常保守 |
| Holm-Bonferroni |
中等比较,逐步下降 |
较不保守 |
| Benjamini-Hochberg |
许多比较(FDR 控制) |
宽松 |
| Tukey’s HSD |
ANOVA 后的所有成对比较 |
中等 |
| Dunnett’s |
多个处理与一个对照 |
中等 |
样本量验证
快速参考表
最小样本量指南:
调查(总体估计):
±3% 边际,95% CI → n ≈ 1,067
±5% 边际,95% CI → n ≈ 385
±10% 边际,95% CI → n ≈ 97
A/B 测试(检测 5% 相对提升):
基线 10% 转化率 → n ≈ 3,200 每组
基线 5% 转化率 → n ≈ 6,400 每组
基线 2% 转化率 → n ≈ 16,000 每组
临床试验(中等效应 d=0.5):
两组比较,80% 力量 → n ≈ 64 每组
两组比较,90% 力量 → n ≈ 86 每组
相关(检测 r=0.3):
80% 力量,alpha=0.05 → n ≈ 85
90% 力量,alpha=0.05 → n ≈ 113
力量分析清单
| 参数 |
必须指定 |
来源 |
| Alpha(类型 I 错误率) |
是 |
常规(通常 0.05) |
| Power(1 - 类型 II 错误) |
是 |
通常 0.80 或 0.90 |
| 效应大小 |
是 |
先前研究或 MCID |
| 方差 / SD |
是 |
试点数据或文献 |
| 样本量 |
计算 |
力量分析输出 |
| 流失率 |
推荐 |
按预期流失率增加 N |
相关性与因果关系清单
Bradford Hill 因果关系标准
相关性是否意味着因果关系?检查:
1. 强度 关联是否大?
更大效应更难解释掉。
2. 一致性 在不同设置、人群中复制?
多项研究,相同发现。
3. 特异性 X 是否特别与 Y 相关(不是所有东西)?
对多因素疾病不太有用。
4. 时序性 X 是否在时间上先于 Y?
必需 — 原因必须在效果之前。
5. 生物学梯度 更多 X 是否产生更多 Y(剂量-响应)?
强烈支持因果关系。
6. 合理性 是否有可信机制?
基于当前知识。
7. 一致性 是否与已知生物学/理论一致?
不与既定事实冲突。
8. 实验 移除 X 是否减少 Y?
最强证据(RCT)。
9. 类比 类似暴露是否导致类似效果?
最弱标准,仅支持。
裁决:
满足标准 1-3 + 时序性 → 暗示因果关系
满足标准 1-6 + 实验 → 强烈因果关系证据
仅观察到相关性 → 仅关联,无法推断原因
常见第三变量混杂因素
| 观察到的关联 |
可能的混杂因素 |
| 冰淇淋销售与溺水 |
温暖天气(季节) |
| 鞋码与阅读能力 |
年龄 |
| 医院访问与死亡率 |
疾病严重程度 |
| 有机食品与健康 |
社会经济地位 |
| 屏幕时间与抑郁 |
社会孤立、睡眠 |
调查方法论审查
调查质量评估
调查方法论清单:
抽样:
- [ ] 描述概率抽样方法?
- [ ] 定义抽样框架并适当?
- [ ] 报告响应率(可接受:>60% 邮件,>80% 面对面)?
- [ ] 评估无响应偏见?
问卷:
- [ ] 问题已验证或改编自已验证工具?
- [ ] 无引导性或双重问题?
- [ ] 响应选项平衡且详尽?
- [ ] 与目标人群试点测试?
管理:
- [ ] 模式(在线、电话、面对面)适当?
- [ ] 确保匿名/保密?
- [ ] 获得知情同意?
- [ ] 减轻社会期望偏见?
分析:
- [ ] 为无响应或过度抽样应用加权?
- [ ] 报告边际误差和置信水平?
- [ ] 子组分析预指定(非探索性)?
数据可视化完整性检查
图表审计清单
| 检查 |
寻找什么 |
失败条件 |
| Y 轴从零开始(条形图) |
截断轴夸大差异 |
轴从零以上开始且无清晰标签 |
| 一致刻度 |
两轴有比例增量 |
非线性刻度无解释 |
| 面积与数据成比例 |
气泡/图标大小匹配值 |
面积误报幅度 |
| 时间轴均匀间隔 |
数据点间等间隔 |
不均匀间隔压缩/扩展趋势 |
| 适当图表类型 |
数据类型匹配可视化 |
20+ 类别的饼图 |
| 提供上下文 |
基准、比较、基线 |
单一数据点无参考 |
| 引用来源 |
数据来源可追溯 |
无来源归属 |
| 双轴使用负责任 |
两个 Y 轴可创造虚假关联 |
任意缩放暗示关系 |
误导性可视化模式
注意这些技巧:
1. 截断轴
当基线移除时,小差异看起来戏剧化。
修复:对于条形图,始终检查 Y 轴是否从零开始。
2. 挑选时间窗口
选择开始/结束日期以显示所需趋势。
修复:要求更长的时间序列和一致间隔。
3. 3D 效果
透视变形使大小不等。
修复:使用平面 2D 图表进行准确比较。
4. 双轴操纵
两个 Y 轴缩放以创建明显关联。
修复:归一化数据或使用单独面板。
5. 累积与每日
累积图表总是上升 — 隐藏下降率。
修复:显示变化率与累积。
偏见检测框架
数据分析中的认知偏见
偏见检测清单:
确认偏见
- 是否仅呈现支持其假设的数据?
- 是否报告负面结果?
- 分析计划是否预注册?
锚定偏见
- 呈现的第一个数字是否影响后续数据解释?
- 是否与适当基准比较?
幸存者偏见
- 是否仅包括成功案例(忽略失败)?
- 分母是否完整(不仅是幸存者)?
可用性偏见
- 戏剧性或最近事件是否被过度加权?
- 是否使用系统数据而非轶事证据?
发表偏见
- 是否有漏斗图不对称(荟萃分析)?
- 是否发表空结果或仅显著结果?
得克萨斯神枪手谬误
- 是否在查看数据后找到聚类或模式?
- 假设是在看到结果前还是后形成?
偏见严重性矩阵
| 偏见 |
检测方法 |
缓解 |
| 选择偏见 |
比较样本与人口统计 |
概率抽样、加权 |
| 测量偏见 |
检查仪器有效性和校准 |
已验证仪器、盲法 |
| 报告偏见 |
寻找不对称漏斗图 |
预注册、开放数据 |
| 回忆偏见 |
与客观记录比较 |
前瞻性数据收集 |
| 观察者偏见 |
检查评估者是否盲法 |
双盲设计 |
| 流失偏见 |
比较完成者与流失者 |
意向治疗分析 |
可重复性清单
研究可重复性评估
可重复性要求:
数据可用性:
- [ ] 原始数据可访问(存储库、补充材料、按请求)?
- [ ] 提供数据字典/代码簿?
- [ ] 记录数据收集协议?
代码/分析:
- [ ] 共享分析代码(GitHub、OSF、补充材料)?
- [ ] 指定软件版本和包?
- [ ] 为可重复计算设置随机种子?
- [ ] 记录端到端管道?
方法论:
- [ ] 研究预注册(OSF、ClinicalTrials.gov)?
- [ ] 记录与协议的偏差?
- [ ] 报告所有结果指标(不仅是显著的)?
- [ ] 包括敏感性分析?
报告:
- [ ] 遵循报告指南(CONSORT、STROBE、PRISMA)?
- [ ] 报告效应大小和置信区间?
- [ ] 提供力量分析或样本量理由?
- [ ] 限制部分全面且诚实?
按研究类型的报告标准
| 研究类型 |
指南 |
关键元素 |
| 随机试验 |
CONSORT |
流程图、ITT 分析、盲法 |
| 观察性研究 |
STROBE |
选择标准、混杂因素、缺失数据 |
| 系统评价 |
PRISMA |
搜索策略、纳入标准、偏见风险 |
| 诊断准确性 |
STARD |
索引测试、参考标准、流程图 |
| 定性研究 |
COREQ |
研究团队、研究设计、数据分析 |
| 预测模型 |
TRIPOD |
模型开发、验证、性能 |
快速验证工作流
快速验证(5 分钟):
1. 仔细阅读声明 — 具体陈述什么?
2. 检查:来源、样本量、研究类型
3. 询问:绝对或相对?基准率是什么?
4. 检查:是否提供置信区间或边际误差?
5. 搜索:是否已独立复制?
裁决类别:
已验证 — 多个强来源、稳健方法论
合理 — 合理证据、一些限制
不确定 — 混合证据、方法论担忧
误导性 — 技术正确但呈现欺骗性
假 — 被强证据反驳
不可验证 — 无法用可用信息评估
另请参阅