科学批判性思维评估Skill scientific-critical-thinking

这个技能用于系统评估科学研究的严谨性,包括方法论批判、偏差检测、统计分析评估和证据质量分析。它帮助用户进行学术评审、研究设计和科学传播中的批判性思考,适用于提高研究质量和减少逻辑谬误。关键词:科学批判性思维、研究方法评估、统计有效性、偏差检测、证据质量、GRADE框架、Cochrane ROB、逻辑谬误识别、研究设计指导。

同行评审 0 次安装 0 次浏览 更新于 3/22/2026

名称: scientific-critical-thinking 描述: “评估研究严谨性。评估方法论、实验设计、统计有效性、偏差、混杂因素、证据质量(GRADE、Cochrane ROB),用于科学主张的批判性分析。” 允许工具: [读取, 写入, 编辑, Bash]

科学批判性思维

概述

批判性思维是评估科学严谨性的系统过程。使用GRADE和Cochrane ROB框架评估方法论、实验设计、统计有效性、偏差、混杂因素和证据质量。应用此技能进行科学主张的批判性分析。

何时使用此技能

此技能应在以下情况下使用:

  • 评估研究方法和实验设计
  • 评估统计有效性和证据质量
  • 识别研究中的偏差和混杂因素
  • 审查科学主张和结论
  • 进行系统综述或元分析
  • 应用GRADE或Cochrane偏倚风险评估
  • 提供研究论文的批判性分析

通过科学示意图增强视觉效果

在使用此技能创建文档时,始终考虑添加科学图表和示意图以增强视觉传达。

如果您的文档尚未包含示意图或图表:

  • 使用科学示意图技能生成AI驱动的出版质量图表
  • 只需用自然语言描述所需的图表
  • Nano Banana Pro将自动生成、审查和优化示意图

对于新文档: 应默认生成科学示意图,以可视化表示文本中描述的关键概念、工作流程、架构或关系。

如何生成示意图:

python scripts/generate_schematic.py "您的图表描述" -o figures/output.png

AI将自动:

  • 创建具有适当格式的出版质量图像
  • 通过多次迭代审查和优化
  • 确保可访问性(色盲友好、高对比度)
  • 将输出保存在figures/目录中

何时添加示意图:

  • 批判性思维框架图
  • 偏差识别决策树
  • 证据质量评估流程图
  • GRADE评估方法图
  • 偏倚风险评估框架
  • 有效性评估可视化
  • 任何从可视化中受益的复杂概念

有关创建示意图的详细指南,请参阅科学示意图技能文档。


核心能力

1. 方法论批判

评估研究方法的严谨性、有效性和潜在缺陷。

应用时:

  • 审查研究论文
  • 评估实验设计
  • 评估研究方案
  • 规划新研究

评估框架:

  1. 研究设计评估

    • 设计是否适合研究问题?
    • 设计是否能支持所做的因果主张?
    • 比较组是否适当和充分?
    • 考虑实验、准实验或观察设计是否合理
  2. 有效性分析

    • 内部有效性: 我们是否信任因果推断?
      • 检查随机化质量
      • 评估混杂因素控制
      • 评估选择偏差
      • 审查损耗/辍学模式
    • 外部有效性: 结果是否可推广?
      • 评估样本代表性
      • 考虑设置的生态有效性
      • 评估条件是否匹配目标应用
    • 构造有效性: 测量是否捕捉了预期构造?
      • 审查测量验证
      • 检查操作定义
      • 评估测量是直接的还是代理的
    • 统计结论有效性: 统计推断是否可靠?
      • 验证足够的功效/样本大小
      • 检查假设合规性
      • 评估测试适当性
  3. 控制和盲法

    • 随机化是否适当实施(序列生成、分配隐藏)?
    • 盲法是否可行并实施(参与者、提供者、评估者)?
    • 控制条件是否适当(安慰剂、主动控制、无治疗)?
    • 表现或检测偏差是否会影响结果?
  4. 测量质量

    • 工具是否经过验证且可靠?
    • 测量是否尽可能客观,或主观但承认局限性?
    • 结果评估是否标准化?
    • 是否使用多种测量来三角验证发现?

参考: 有关详细原则,请参阅references/scientific_method.md;有关综合设计检查表,请参阅references/experimental_design.md

2. 偏差检测

识别和评估可能扭曲发现的潜在偏差来源。

应用时:

  • 审查已发表研究
  • 设计新研究
  • 解释冲突证据
  • 评估研究质量

系统偏差审查:

  1. 认知偏差(研究者)

    • 确认偏差: 是否仅突出支持性发现?
    • HARKing: 假设是先验陈述还是看到结果后形成?
    • 发表偏差: 文献中是否缺失阴性结果?
    • 挑选证据: 是否选择性报告证据?
    • 检查预注册和分析计划透明度
  2. 选择偏差

    • 抽样偏差: 样本是否代表目标人群?
    • 志愿者偏差: 参与者是否以系统方式自我选择?
    • 损耗偏差: 组间辍学是否有差异?
    • 幸存者偏差: 样本中是否仅可见“幸存者”?
    • 检查参与者流程图并比较基线特征
  3. 测量偏差

    • 观察者偏差: 期望是否影响观察?
    • 回忆偏差: 回顾性报告是否系统不准确?
    • 社会期望性: 响应是否偏向可接受性?
    • 仪器偏差: 测量工具是否系统错误?
    • 评估盲法、验证和测量客观性
  4. 分析偏差

    • P-hacking: 是否进行了多次分析直到出现显著性?
    • 结果切换: 非显著结果是否被显著结果替换?
    • 选择性报告: 是否报告了所有计划分析?
    • 子组探索: 是否进行了子组分析而未校正?
    • 检查研究注册并与已发表结果比较
  5. 混杂因素

    • 哪些变量可能同时影响暴露和结果?
    • 混杂因素是否测量和控制(统计或设计上)?
    • 未测量的混杂因素是否能解释发现?
    • 是否有合理的替代解释?

参考: 有关综合偏差分类及检测和缓解策略,请参阅references/common_biases.md

3. 统计分析评估

批判性评估统计方法、解释和报告。

应用时:

  • 审查定量研究
  • 评估数据驱动主张
  • 评估临床试验结果
  • 审查元分析

统计审查检查表:

  1. 样本大小和功效

    • 是否进行了先验功效分析?
    • 样本是否足以检测有意义效应?
    • 研究是否功效不足(常见问题)?
    • 小样本的显著结果是否引起效应大小膨胀的警示?
  2. 统计检验

    • 检验是否适合数据类型和分布?
    • 检验假设是否检查并满足?
    • 参数检验是否合理,或应使用非参数替代?
    • 分析是否匹配研究设计(例如,配对 vs. 独立)?
  3. 多重比较

    • 是否测试了多个假设?
    • 是否应用了校正(Bonferroni、FDR、其他)?
    • 主要结果是否与次要/探索性结果区分?
    • 发现是否可能来自多重测试的假阳性?
  4. P值解释

    • P值是否正确定释(如果零假设为真,数据的概率)?
    • 非显著性是否被错误解释为“无效应”?
    • 统计显著性是否与实用重要性混淆?
    • 是否报告了精确P值,或仅“p < .05”?
    • 是否可疑地集中在.05以下?
  5. 效应大小和置信区间

    • 是否报告效应大小以及显著性?
    • 是否提供置信区间以显示精确度?
    • 效应大小在实用方面是否有意义?
    • 标准化效应大小是否在领域特定背景下解释?
  6. 缺失数据

    • 缺失多少数据?
    • 是否考虑了缺失数据机制(MCAR、MAR、MNAR)?
    • 如何处理缺失数据(删除、插补、最大似然)?
    • 缺失数据是否可能偏差结果?
  7. 回归和建模

    • 模型是否过拟合(太多预测变量,无交叉验证)?
    • 是否在数据范围外进行预测(外推)?
    • 是否解决了多重共线性问题?
    • 是否检查了模型假设?
  8. 常见陷阱

    • 相关性被当作因果关系
    • 忽略回归到均值
    • 基础率忽视
    • 德州神枪手谬误(在噪声中寻找模式)
    • 辛普森悖论(子组混杂)

参考: 有关详细陷阱和正确实践,请参阅references/statistical_pitfalls.md

4. 证据质量评估

系统评估证据的强度和品质。

应用时:

  • 权衡证据以决策
  • 进行文献综述
  • 比较冲突发现
  • 确定结论信心

证据评估框架:

  1. 研究设计层次

    • 系统综述/元分析(干预效应最高)
    • 随机对照试验
    • 队列研究
    • 病例对照研究
    • 横断面研究
    • 病例系列/报告
    • 专家意见(最低)

    重要: 更高级别设计并不总是更好质量。设计良好的观察性研究可能比执行差的RCT更强。

  2. 设计类型内的质量

    • 偏倚风险评估(使用适当工具:Cochrane ROB、Newcastle-Ottawa等)
    • 方法论严谨性
    • 透明度和报告完整性
    • 利益冲突
  3. GRADE考虑(如果适用)

    • 从设计类型开始(RCT = 高,观察性 = 低)
    • 降级原因:
      • 偏倚风险
      • 研究间不一致
      • 间接性(错误人群/干预/结果)
      • 不精确性(宽置信区间,小样本)
      • 发表偏差
    • 升级原因:
      • 大效应大小
      • 剂量-反应关系
      • 混杂因素会减少(而不是增加)效应
  4. 证据趋同

    • 更强时:
      • 多个独立复制
      • 不同研究组和设置
      • 不同方法论趋同于相同结论
      • 机制和实证证据一致
    • 更弱时:
      • 单一研究或研究组
      • 文献中矛盾发现
      • 发表偏差明显
      • 无复制尝试
  5. 上下文因素

    • 生物学/理论合理性
    • 与现有知识一致性
    • 时序性(原因先于结果)
    • 关系特异性
    • 关联强度

参考: 有关详细层次、GRADE系统和质量评估工具,请参阅references/evidence_hierarchy.md

5. 逻辑谬误识别

检测和命名科学论证和主张中的逻辑错误。

应用时:

  • 评估科学主张
  • 审查讨论/结论部分
  • 评估科普传播
  • 识别有缺陷的推理

科学中常见谬误:

  1. 因果关系谬误

    • 后此谬误: “B跟随A,所以A导致B”
    • 相关性等于因果关系: 混淆关联与因果关系
    • 反向因果关系: 误将原因视为结果
    • 单一原因谬误: 将复杂结果归因于一个因素
  2. 概括谬误

    • 草率概括: 从小样本得出广泛结论
    • 轶事谬误: 个人故事作为证明
    • 挑选证据: 仅选择支持性证据
    • 生态谬误: 将群体模式应用于个体
  3. 权威和来源谬误

    • 诉诸权威: “专家说了,所以是真的”(无证据)
    • 人身攻击: 攻击人,而非论证
    • 起源谬误: 根据起源判断,而非优点
    • 诉诸自然: “自然 = 好/安全”
  4. 统计谬误

    • 基础率忽视: 忽略先验概率
    • 德州神枪手谬误: 在随机数据中寻找模式
    • 多重比较: 未校正多重测试
    • 检察官谬误: 混淆P(E|H)与P(H|E)
  5. 结构谬误

    • 错误二分法: “要么A要么B”,而更多选项存在
    • 移动目标: 满足后改变证据标准
    • 乞题谬误: 循环推理
    • 稻草人谬误: 曲解论证以攻击
  6. 科学特定谬误

    • 伽利略赌注: “他们嘲笑伽利略,所以我的边缘观点正确”
    • 诉诸无知: “未证明假,所以真”
    • 完美主义谬误: 拒绝不完美解决方案
    • 不可证伪性: 提出不可测试的主张

识别谬误时:

  • 命名特定谬误
  • 解释推理为何有缺陷
  • 识别有效推断所需的证据
  • 注意谬误推理不证明结论假——只是此论证不支持它

参考: 有关综合谬误目录及示例和检测策略,请参阅references/logical_fallacies.md

6. 研究设计指导

为规划严谨研究提供建设性指导。

应用时:

  • 帮助设计新实验
  • 规划研究项目
  • 审查研究提案
  • 改进研究方案

设计过程:

  1. 研究问题精炼

    • 确保问题具体、可回答且可证伪
    • 验证是否解决文献中的空白或矛盾
    • 确认可行性(资源、伦理、时间)
    • 操作定义变量
  2. 设计选择

    • 匹配设计与问题(因果 → 实验;关联 → 观察)
    • 考虑可行性和伦理约束
    • 选择组间设计、组内设计或混合设计
    • 如果测试多个因素,规划因子设计
  3. 偏差最小化策略

    • 可能时实施随机化
    • 在所有可行级别规划盲法(参与者、提供者、评估者)
    • 识别并计划控制混杂因素(随机化、匹配、分层、统计调整)
    • 标准化所有程序
    • 计划最小化损耗
  4. 样本规划

    • 进行先验功效分析(指定预期效应、所需功效、α)
    • 在样本大小中考虑损耗
    • 定义明确的纳入/排除标准
    • 考虑招募策略和可行性
    • 计划样本代表性
  5. 测量策略

    • 选择经过验证、可靠的工具
    • 可能时使用客观测量
    • 计划关键构造的多种测量(三角验证)
    • 确保测量对预期变化敏感
    • 建立评分者间可靠性程序
  6. 分析规划

    • 预先指定所有假设和分析
    • 明确指定主要结果
    • 规划统计检验及假设检查
    • 指定如何处理缺失数据
    • 计划报告效应大小和置信区间
    • 考虑多重比较校正
  7. 透明度和严谨性

    • 预注册研究和分析计划
    • 使用报告指南(CONSORT、STROBE、PRISMA)
    • 计划报告所有结果,不仅显著结果
    • 区分验证性和探索性分析
    • 承诺数据/代码共享

参考: 有关从问题到传播所有阶段的综合设计检查表,请参阅references/experimental_design.md

7. 主张评估

系统评估科学主张的有效性和支持度。

应用时:

  • 评估论文中的结论
  • 评估媒体研究报告
  • 审查摘要或引言主张
  • 检查数据是否支持结论

主张评估过程:

  1. 识别主张

    • 究竟在主张什么?
    • 是因果主张、关联主张还是描述性主张?
    • 主张有多强(已证明、可能、建议、可能)?
  2. 评估证据

    • 提供了什么证据?
    • 证据是直接还是间接?
    • 证据是否足以支持主张强度?
    • 是否排除了替代解释?
  3. 检查逻辑连接

    • 结论是否从数据中得出?
    • 是否有逻辑跳跃?
    • 是否使用相关性数据支持因果主张?
    • 是否承认局限性?
  4. 评估比例性

    • 信心是否与证据强度成比例?
    • 是否适当使用谨慎词语?
    • 是否低估了局限性?
    • 推测是否明确标记?
  5. 检查过度概括

    • 主张是否超出研究样本?
    • 是否承认人群限制?
    • 是否认识到上下文依赖性?
    • 是否包含关于概括的警告?
  6. 红色标志

    • 从相关性研究中使用因果语言
    • “证明”或绝对确定性
    • 挑选引用
    • 忽略矛盾证据
    • 驳回局限性
    • 超出数据的外推

提供具体反馈:

  • 引用有问题的主张
  • 解释支持它所需的证据
  • 如果合理,建议适当的谨慎语言
  • 区分数据(发现什么)和解释(意味着什么)

应用指南

一般方法

  1. 建设性

    • 识别优点和弱点
    • 建议改进,不仅批评
    • 区分致命缺陷和次要局限性
    • 认识到所有研究都有局限性
  2. 具体

    • 指向具体实例(例如,“表2显示…”或“在方法部分…”)
    • 引用有问题的陈述
    • 提供问题的具体示例
    • 引用违反的具体原则或标准
  3. 比例性

    • 匹配批评严重性与问题重要性
    • 区分主要有效性威胁和次要关注
    • 考虑问题是否影响主要结论
    • 承认自己评估中的不确定性
  4. 应用一致标准

    • 对所有研究使用相同标准
    • 不要对自己不喜欢的结果应用更严格标准
    • 承认自己的潜在偏差
    • 基于方法论而非结果判断
  5. 考虑上下文

    • 承认实际和伦理约束
    • 考虑领域特定的效应大小和方法规范
    • 识别探索性与验证性上下文
    • 评估研究时考虑资源限制

提供批评时

结构反馈为:

  1. 摘要: 简要概述评估内容
  2. 优点: 做得好什么(对信誉和学习很重要)
  3. 关注: 按严重性组织的问题
    • 关键问题(威胁主要结论的有效性)
    • 重要问题(影响解释但不致命)
    • 次要问题(值得注意但不改变结论)
  4. 具体建议: 可操作的改进建议
  5. 整体评估: 关于证据质量和可得出结论的平衡结论

使用精确术语:

  • 命名特定偏差、谬误和方法论问题
  • 引用既定标准和指南
  • 引用科学方法论原则
  • 准确使用技术术语

不确定时

  • 承认不确定性: “这可能是X或Y;需要额外信息Z”
  • 询问澄清问题: “是否做了[方法论细节]?这影响解释。”
  • 提供条件评估: “如果做了X,则Y;如果没有,则Z是关注”
  • 注意什么额外信息能解决不确定性

参考材料

此技能包括综合参考材料,提供批判性评估的详细框架:

  • references/scientific_method.md - 科学方法论核心原则、科学过程、批判性评估标准、科学主张中的红色标志、因果推断标准、同行评审和开放科学原则

  • references/common_biases.md - 认知、实验、方法论、统计和分析偏差的综合分类及检测和缓解策略

  • references/statistical_pitfalls.md - 常见统计错误和误解,包括P值误解、多重比较问题、样本大小问题、效应大小错误、相关性/因果关系混淆、回归陷阱和元分析问题

  • references/evidence_hierarchy.md - 传统证据层次、GRADE系统、研究质量评估标准、领域特定考虑、证据综合原则和实用决策框架

  • references/logical_fallacies.md - 科学论述中常见的逻辑谬误,按类型组织(因果、概括、权威、相关性、结构、统计)及示例和检测策略

  • references/experimental_design.md - 综合实验设计检查表,涵盖研究问题、假设、研究设计选择、变量、抽样、盲法、随机化、控制组、程序、测量、偏差最小化、数据管理、统计规划、伦理考虑、有效性威胁和报告标准

何时咨询参考:

  • 需要详细框架时将参考加载到上下文中
  • 使用grep搜索参考中的特定主题:grep -r "模式" references/
  • 参考提供深度;SKILL.md提供程序性指导
  • 咨询参考以获取综合列表、详细标准和具体示例

记住

科学批判性思维是关于:

  • 使用既定原则进行系统评估
  • 改进科学的建设性批判
  • 证据强度的比例性信心
  • 关于不确定性和局限性的透明度
  • 标准的一致应用
  • 认识到所有研究都有局限性
  • 怀疑主义和开放证据之间的平衡

始终区分:

  • 数据(观察到什么)和解释(意味着什么)
  • 相关性和因果关系
  • 统计显著性和实用重要性
  • 探索性和验证性发现
  • 已知和不确定
  • 反对主张的证据和零假设的证据

批判性思维的目标:

  1. 准确识别优点和弱点
  2. 确定支持什么结论
  3. 认识局限性和不确定性
  4. 建议未来工作改进
  5. 推进科学理解