名称: scientific-critical-thinking 描述: “评估研究严谨性。评估方法论、实验设计、统计有效性、偏差、混杂因素、证据质量（GRADE、Cochrane ROB），用于科学主张的批判性分析。” 允许工具: [读取, 写入, 编辑, Bash]

科学批判性思维

概述

批判性思维是评估科学严谨性的系统过程。使用GRADE和Cochrane ROB框架评估方法论、实验设计、统计有效性、偏差、混杂因素和证据质量。应用此技能进行科学主张的批判性分析。

何时使用此技能

此技能应在以下情况下使用：

评估研究方法和实验设计
评估统计有效性和证据质量
识别研究中的偏差和混杂因素
审查科学主张和结论
进行系统综述或元分析
应用GRADE或Cochrane偏倚风险评估
提供研究论文的批判性分析

通过科学示意图增强视觉效果

在使用此技能创建文档时，始终考虑添加科学图表和示意图以增强视觉传达。

如果您的文档尚未包含示意图或图表：

使用科学示意图技能生成AI驱动的出版质量图表
只需用自然语言描述所需的图表
Nano Banana Pro将自动生成、审查和优化示意图

对于新文档： 应默认生成科学示意图，以可视化表示文本中描述的关键概念、工作流程、架构或关系。

如何生成示意图：

python scripts/generate_schematic.py "您的图表描述" -o figures/output.png

AI将自动：

创建具有适当格式的出版质量图像
通过多次迭代审查和优化
确保可访问性（色盲友好、高对比度）
将输出保存在figures/目录中

何时添加示意图：

批判性思维框架图
偏差识别决策树
证据质量评估流程图
GRADE评估方法图
偏倚风险评估框架
有效性评估可视化
任何从可视化中受益的复杂概念

有关创建示意图的详细指南，请参阅科学示意图技能文档。

核心能力

1. 方法论批判

评估研究方法的严谨性、有效性和潜在缺陷。

应用时：

审查研究论文
评估实验设计
评估研究方案
规划新研究

评估框架：

研究设计评估
- 设计是否适合研究问题？
- 设计是否能支持所做的因果主张？
- 比较组是否适当和充分？
- 考虑实验、准实验或观察设计是否合理
有效性分析
- 内部有效性： 我们是否信任因果推断？
  - 检查随机化质量
  - 评估混杂因素控制
  - 评估选择偏差
  - 审查损耗/辍学模式
- 外部有效性： 结果是否可推广？
  - 评估样本代表性
  - 考虑设置的生态有效性
  - 评估条件是否匹配目标应用
- 构造有效性： 测量是否捕捉了预期构造？
  - 审查测量验证
  - 检查操作定义
  - 评估测量是直接的还是代理的
- 统计结论有效性： 统计推断是否可靠？
  - 验证足够的功效/样本大小
  - 检查假设合规性
  - 评估测试适当性
控制和盲法
- 随机化是否适当实施（序列生成、分配隐藏）？
- 盲法是否可行并实施（参与者、提供者、评估者）？
- 控制条件是否适当（安慰剂、主动控制、无治疗）？
- 表现或检测偏差是否会影响结果？
测量质量
- 工具是否经过验证且可靠？
- 测量是否尽可能客观，或主观但承认局限性？
- 结果评估是否标准化？
- 是否使用多种测量来三角验证发现？

参考： 有关详细原则，请参阅references/scientific_method.md；有关综合设计检查表，请参阅references/experimental_design.md。

2. 偏差检测

识别和评估可能扭曲发现的潜在偏差来源。

应用时：

审查已发表研究
设计新研究
解释冲突证据
评估研究质量

系统偏差审查：

认知偏差（研究者）
- 确认偏差： 是否仅突出支持性发现？
- HARKing： 假设是先验陈述还是看到结果后形成？
- 发表偏差： 文献中是否缺失阴性结果？
- 挑选证据： 是否选择性报告证据？
- 检查预注册和分析计划透明度
选择偏差
- 抽样偏差： 样本是否代表目标人群？
- 志愿者偏差： 参与者是否以系统方式自我选择？
- 损耗偏差： 组间辍学是否有差异？
- 幸存者偏差： 样本中是否仅可见“幸存者”？
- 检查参与者流程图并比较基线特征
测量偏差
- 观察者偏差： 期望是否影响观察？
- 回忆偏差： 回顾性报告是否系统不准确？
- 社会期望性： 响应是否偏向可接受性？
- 仪器偏差： 测量工具是否系统错误？
- 评估盲法、验证和测量客观性
分析偏差
- P-hacking： 是否进行了多次分析直到出现显著性？
- 结果切换： 非显著结果是否被显著结果替换？
- 选择性报告： 是否报告了所有计划分析？
- 子组探索： 是否进行了子组分析而未校正？
- 检查研究注册并与已发表结果比较
混杂因素
- 哪些变量可能同时影响暴露和结果？
- 混杂因素是否测量和控制（统计或设计上）？
- 未测量的混杂因素是否能解释发现？
- 是否有合理的替代解释？

参考： 有关综合偏差分类及检测和缓解策略，请参阅references/common_biases.md。

3. 统计分析评估

批判性评估统计方法、解释和报告。

应用时：

审查定量研究
评估数据驱动主张
评估临床试验结果
审查元分析

统计审查检查表：

样本大小和功效
- 是否进行了先验功效分析？
- 样本是否足以检测有意义效应？
- 研究是否功效不足（常见问题）？
- 小样本的显著结果是否引起效应大小膨胀的警示？
统计检验
- 检验是否适合数据类型和分布？
- 检验假设是否检查并满足？
- 参数检验是否合理，或应使用非参数替代？
- 分析是否匹配研究设计（例如，配对 vs. 独立）？
多重比较
- 是否测试了多个假设？
- 是否应用了校正（Bonferroni、FDR、其他）？
- 主要结果是否与次要/探索性结果区分？
- 发现是否可能来自多重测试的假阳性？
P值解释
- P值是否正确定释（如果零假设为真，数据的概率）？
- 非显著性是否被错误解释为“无效应”？
- 统计显著性是否与实用重要性混淆？
- 是否报告了精确P值，或仅“p < .05”？
- 是否可疑地集中在.05以下？
效应大小和置信区间
- 是否报告效应大小以及显著性？
- 是否提供置信区间以显示精确度？
- 效应大小在实用方面是否有意义？
- 标准化效应大小是否在领域特定背景下解释？
缺失数据
- 缺失多少数据？
- 是否考虑了缺失数据机制（MCAR、MAR、MNAR）？
- 如何处理缺失数据（删除、插补、最大似然）？
- 缺失数据是否可能偏差结果？
回归和建模
- 模型是否过拟合（太多预测变量，无交叉验证）？
- 是否在数据范围外进行预测（外推）？
- 是否解决了多重共线性问题？
- 是否检查了模型假设？
常见陷阱
- 相关性被当作因果关系
- 忽略回归到均值
- 基础率忽视
- 德州神枪手谬误（在噪声中寻找模式）
- 辛普森悖论（子组混杂）

参考： 有关详细陷阱和正确实践，请参阅references/statistical_pitfalls.md。

4. 证据质量评估

系统评估证据的强度和品质。

应用时：

权衡证据以决策
进行文献综述
比较冲突发现
确定结论信心

证据评估框架：

研究设计层次
- 系统综述/元分析（干预效应最高）
- 随机对照试验
- 队列研究
- 病例对照研究
- 横断面研究
- 病例系列/报告
- 专家意见（最低）
重要： 更高级别设计并不总是更好质量。设计良好的观察性研究可能比执行差的RCT更强。
设计类型内的质量
- 偏倚风险评估（使用适当工具：Cochrane ROB、Newcastle-Ottawa等）
- 方法论严谨性
- 透明度和报告完整性
- 利益冲突
GRADE考虑（如果适用）
- 从设计类型开始（RCT = 高，观察性 = 低）
- 降级原因：
  - 偏倚风险
  - 研究间不一致
  - 间接性（错误人群/干预/结果）
  - 不精确性（宽置信区间，小样本）
  - 发表偏差
- 升级原因：
  - 大效应大小
  - 剂量-反应关系
  - 混杂因素会减少（而不是增加）效应
证据趋同
- 更强时：
  - 多个独立复制
  - 不同研究组和设置
  - 不同方法论趋同于相同结论
  - 机制和实证证据一致
- 更弱时：
  - 单一研究或研究组
  - 文献中矛盾发现
  - 发表偏差明显
  - 无复制尝试
上下文因素
- 生物学/理论合理性
- 与现有知识一致性
- 时序性（原因先于结果）
- 关系特异性
- 关联强度

参考： 有关详细层次、GRADE系统和质量评估工具，请参阅references/evidence_hierarchy.md。

5. 逻辑谬误识别

检测和命名科学论证和主张中的逻辑错误。

应用时：

评估科学主张
审查讨论/结论部分
评估科普传播
识别有缺陷的推理

科学中常见谬误：

因果关系谬误
- 后此谬误： “B跟随A，所以A导致B”
- 相关性等于因果关系： 混淆关联与因果关系
- 反向因果关系： 误将原因视为结果
- 单一原因谬误： 将复杂结果归因于一个因素
概括谬误
- 草率概括： 从小样本得出广泛结论
- 轶事谬误： 个人故事作为证明
- 挑选证据： 仅选择支持性证据
- 生态谬误： 将群体模式应用于个体
权威和来源谬误
- 诉诸权威： “专家说了，所以是真的”（无证据）
- 人身攻击： 攻击人，而非论证
- 起源谬误： 根据起源判断，而非优点
- 诉诸自然： “自然 = 好/安全”
统计谬误
- 基础率忽视： 忽略先验概率
- 德州神枪手谬误： 在随机数据中寻找模式
- 多重比较： 未校正多重测试
- 检察官谬误： 混淆P(E|H)与P(H|E)
结构谬误
- 错误二分法： “要么A要么B”，而更多选项存在
- 移动目标： 满足后改变证据标准
- 乞题谬误： 循环推理
- 稻草人谬误： 曲解论证以攻击
科学特定谬误
- 伽利略赌注： “他们嘲笑伽利略，所以我的边缘观点正确”
- 诉诸无知： “未证明假，所以真”
- 完美主义谬误： 拒绝不完美解决方案
- 不可证伪性： 提出不可测试的主张

识别谬误时：

命名特定谬误
解释推理为何有缺陷
识别有效推断所需的证据
注意谬误推理不证明结论假——只是此论证不支持它

参考： 有关综合谬误目录及示例和检测策略，请参阅references/logical_fallacies.md。

6. 研究设计指导

为规划严谨研究提供建设性指导。

应用时：

帮助设计新实验
规划研究项目
审查研究提案
改进研究方案

设计过程：

研究问题精炼
- 确保问题具体、可回答且可证伪
- 验证是否解决文献中的空白或矛盾
- 确认可行性（资源、伦理、时间）
- 操作定义变量
设计选择
- 匹配设计与问题（因果 → 实验；关联 → 观察）
- 考虑可行性和伦理约束
- 选择组间设计、组内设计或混合设计
- 如果测试多个因素，规划因子设计
偏差最小化策略
- 可能时实施随机化
- 在所有可行级别规划盲法（参与者、提供者、评估者）
- 识别并计划控制混杂因素（随机化、匹配、分层、统计调整）
- 标准化所有程序
- 计划最小化损耗
样本规划
- 进行先验功效分析（指定预期效应、所需功效、α）
- 在样本大小中考虑损耗
- 定义明确的纳入/排除标准
- 考虑招募策略和可行性
- 计划样本代表性
测量策略
- 选择经过验证、可靠的工具
- 可能时使用客观测量
- 计划关键构造的多种测量（三角验证）
- 确保测量对预期变化敏感
- 建立评分者间可靠性程序
分析规划
- 预先指定所有假设和分析
- 明确指定主要结果
- 规划统计检验及假设检查
- 指定如何处理缺失数据
- 计划报告效应大小和置信区间
- 考虑多重比较校正
透明度和严谨性
- 预注册研究和分析计划
- 使用报告指南（CONSORT、STROBE、PRISMA）
- 计划报告所有结果，不仅显著结果
- 区分验证性和探索性分析
- 承诺数据/代码共享

参考： 有关从问题到传播所有阶段的综合设计检查表，请参阅references/experimental_design.md。

7. 主张评估

系统评估科学主张的有效性和支持度。

应用时：

评估论文中的结论
评估媒体研究报告
审查摘要或引言主张
检查数据是否支持结论

主张评估过程：

识别主张
- 究竟在主张什么？
- 是因果主张、关联主张还是描述性主张？
- 主张有多强（已证明、可能、建议、可能）？
评估证据
- 提供了什么证据？
- 证据是直接还是间接？
- 证据是否足以支持主张强度？
- 是否排除了替代解释？
检查逻辑连接
- 结论是否从数据中得出？
- 是否有逻辑跳跃？
- 是否使用相关性数据支持因果主张？
- 是否承认局限性？
评估比例性
- 信心是否与证据强度成比例？
- 是否适当使用谨慎词语？
- 是否低估了局限性？
- 推测是否明确标记？
检查过度概括
- 主张是否超出研究样本？
- 是否承认人群限制？
- 是否认识到上下文依赖性？
- 是否包含关于概括的警告？
红色标志
- 从相关性研究中使用因果语言
- “证明”或绝对确定性
- 挑选引用
- 忽略矛盾证据
- 驳回局限性
- 超出数据的外推

提供具体反馈：

引用有问题的主张
解释支持它所需的证据
如果合理，建议适当的谨慎语言
区分数据（发现什么）和解释（意味着什么）

应用指南

一般方法

建设性
- 识别优点和弱点
- 建议改进，不仅批评
- 区分致命缺陷和次要局限性
- 认识到所有研究都有局限性
具体
- 指向具体实例（例如，“表2显示…”或“在方法部分…”）
- 引用有问题的陈述
- 提供问题的具体示例
- 引用违反的具体原则或标准
比例性
- 匹配批评严重性与问题重要性
- 区分主要有效性威胁和次要关注
- 考虑问题是否影响主要结论
- 承认自己评估中的不确定性
应用一致标准
- 对所有研究使用相同标准
- 不要对自己不喜欢的结果应用更严格标准
- 承认自己的潜在偏差
- 基于方法论而非结果判断
考虑上下文
- 承认实际和伦理约束
- 考虑领域特定的效应大小和方法规范
- 识别探索性与验证性上下文
- 评估研究时考虑资源限制

提供批评时

结构反馈为：

摘要： 简要概述评估内容
优点： 做得好什么（对信誉和学习很重要）
关注： 按严重性组织的问题
- 关键问题（威胁主要结论的有效性）
- 重要问题（影响解释但不致命）
- 次要问题（值得注意但不改变结论）
具体建议： 可操作的改进建议
整体评估： 关于证据质量和可得出结论的平衡结论

使用精确术语：

命名特定偏差、谬误和方法论问题
引用既定标准和指南
引用科学方法论原则
准确使用技术术语

不确定时

承认不确定性： “这可能是X或Y；需要额外信息Z”
询问澄清问题： “是否做了[方法论细节]？这影响解释。”
提供条件评估： “如果做了X，则Y；如果没有，则Z是关注”
注意什么额外信息能解决不确定性

参考材料

此技能包括综合参考材料，提供批判性评估的详细框架：

references/scientific_method.md - 科学方法论核心原则、科学过程、批判性评估标准、科学主张中的红色标志、因果推断标准、同行评审和开放科学原则
references/common_biases.md - 认知、实验、方法论、统计和分析偏差的综合分类及检测和缓解策略
references/statistical_pitfalls.md - 常见统计错误和误解，包括P值误解、多重比较问题、样本大小问题、效应大小错误、相关性/因果关系混淆、回归陷阱和元分析问题
references/evidence_hierarchy.md - 传统证据层次、GRADE系统、研究质量评估标准、领域特定考虑、证据综合原则和实用决策框架
references/logical_fallacies.md - 科学论述中常见的逻辑谬误，按类型组织（因果、概括、权威、相关性、结构、统计）及示例和检测策略
references/experimental_design.md - 综合实验设计检查表，涵盖研究问题、假设、研究设计选择、变量、抽样、盲法、随机化、控制组、程序、测量、偏差最小化、数据管理、统计规划、伦理考虑、有效性威胁和报告标准

何时咨询参考：

需要详细框架时将参考加载到上下文中
使用grep搜索参考中的特定主题：grep -r "模式" references/
参考提供深度；SKILL.md提供程序性指导
咨询参考以获取综合列表、详细标准和具体示例

记住

科学批判性思维是关于：

使用既定原则进行系统评估
改进科学的建设性批判
证据强度的比例性信心
关于不确定性和局限性的透明度
标准的一致应用
认识到所有研究都有局限性
怀疑主义和开放证据之间的平衡

始终区分：

数据（观察到什么）和解释（意味着什么）
相关性和因果关系
统计显著性和实用重要性
探索性和验证性发现
已知和不确定
反对主张的证据和零假设的证据

批判性思维的目标：

准确识别优点和弱点
确定支持什么结论
认识局限性和不确定性
建议未来工作改进
推进科学理解