贝叶斯推理与校准Skill bayesian-reasoning-calibration

这个技能应用贝叶斯推理来系统更新概率估计,帮助在不确定性下进行预测、评估风险和测试假设,避免过度自信偏差。通过贝叶斯定理校准信念,提高决策质量,适用于概率更新、预测建模和不确定性管理。关键词:贝叶斯推理、校准、概率更新、预测、风险评估、假设测试、不确定性分析。

预测建模 0 次安装 0 次浏览 更新于 3/22/2026

name: 贝叶斯推理与校准 description: 在不确定性下进行预测或判断时使用,需要明确用新证据更新信念。在预测结果、评估概率、测试假设、校准置信度、用不确定数据评估风险或避免过度自信偏见时调用。当用户提到先验、似然、贝叶斯定理、概率更新、预测、校准或信念修订时使用。

贝叶斯推理与校准

目录

目的

应用贝叶斯推理来系统更新概率估计,当新证据出现时。这有助于做出更好的预测、避免过度自信,并明确展示信念如何随数据变化。

何时使用此技能

  • 在不确定性下进行预测或预测
  • 当新证据出现时更新信念
  • 校准估计中的置信度
  • 用不完美数据测试假设
  • 用不完整信息评估风险
  • 避免锚定和过度自信偏见
  • 在不确定性下做决策
  • 比较多个竞争解释
  • 评估诊断测试结果
  • 用新数据预测项目结果

触发短语: “概率是多少”、“更新我的信念”、“有多自信”、“预测”、“先验概率”、“似然”、“贝叶斯”、“校准”、“基础率”、“后验概率”

什么是贝叶斯推理?

一种使用贝叶斯定理系统更新概率估计的方法:

P(H|E) = P(E|H) × P(H) / P(E)

其中:

  • P(H) = 先验:在看到证据前假设的概率
  • P(E|H) = 似然:如果假设为真时证据的概率
  • P(E|¬H) = 如果假设为假时证据的概率
  • P(H|E) = 后验:在看到证据后更新的概率

快速示例:

# 我们应该启动功能X吗?

## 先验信念
在Beta测试前:采用率>20%的概率为60%
- 基础率:类似功能的采用率为15-25%
- 我们的功能似乎比平均更强
- 先验:60%

## 新证据
Beta测试:35%的用户采用(200用户中的70)

## 似然
如果真实采用率>20%:
- P(在Beta中看到35% | 采用率>20%) = 75%(如果真实为高,很可能在Beta中看到高值)

如果真实采用率≤20%:
- P(在Beta中看到35% | 采用率≤20%) = 15%(如果真实为低,不太可能在Beta中看到高值)

## 贝叶斯更新
后验 = (75% × 60%) / [(75% × 60%) + (15% × 40%)]
后验 = 45% / (45% + 6%) = 88%

## 结论
更新的信念:88%确信采用率将超过20%
证据强烈支持启动,但不完全确定。

工作流程

复制此清单并跟踪进度:

贝叶斯推理进度:
- [ ] 步骤1:定义问题
- [ ] 步骤2:建立先验信念
- [ ] 步骤3:识别证据和似然
- [ ] 步骤4:计算后验
- [ ] 步骤5:校准和文档化

步骤1:定义问题

澄清假设(具体、可测试的主张)、要估计的概率、时间范围(何时知道结果)、成功标准,以及为什么重要(依赖于什么决策)。示例:“产品功能将在3个月内实现>20%的采用率” – 对启动决策重要。

步骤2:建立先验信念

使用基础率(一般频率)、参考类(类似情况)、具体差异、明确的概率分配和理由来设定初始概率。好的先验基于基础率,考虑差异,诚实地对待不确定性,如果不确定则包括范围(例如40-60%)。避免纯直觉先验、忽略基础率或没有理由的极端值。

步骤3:识别证据与似然

评估证据(具体观察/数据)、诊断能力(是否区分假设?)、P(E|H)(如果假设为真的概率)、P(E|¬H)(如果假设为假的概率),并计算似然比 = P(E|H) / P(E|¬H)。LR > 10 = 非常强的证据,3-10 = 中等,1-3 = 弱,≈1 = 不诊断,<1 = 反对证据。

步骤4:计算后验

应用贝叶斯定理:P(H|E) = [P(E|H) × P(H)] / P(E),或使用比值形式:后验比值 = 先验比值 × 似然比。计算 P(E) = P(E|H)×P(H) + P(E|¬H)×P(¬H),得到后验概率,并解释变化。对于简单情况 → 使用resources/template.md计算器。对于复杂情况(多个假设) → 学习resources/methodology.md

步骤5:校准与文档化

检查校准(过度/欠自信?)、验证假设(似然合理吗?)、执行敏感性分析、创建bayesian-reasoning-calibration.md,并注意限制。使用resources/evaluators/rubric_bayesian_reasoning_calibration.json自检:验证先验基于基础率、似然有理由、证据有诊断能力(LR ≠ 1)、计算正确、后验校准、假设已陈述、敏感性已注意。最低标准:得分 ≥ 3.5。

常见模式

对于预测:

  • 使用基础率作为起点
  • 随着证据出现逐步更新
  • 随时间跟踪预测准确性
  • 通过比较预测和结果来校准

对于假设测试:

  • 明确陈述竞争假设
  • 为证据计算似然比
  • 按证据强度比例更新信念
  • 除非LR极端,否则不要声称确定性

对于风险评估:

  • 考虑多种场景(不只是二元)
  • 随着新数据到来更新风险
  • 当不确定似然时使用范围
  • 执行敏感性分析

对于避免偏见:

  • 强制明确先验(防止锚定证据)
  • 使用参考类(防止忽略基础率)
  • 数学计算(防止动机推理)
  • 在看到结果前文档化(允许校准)

防护栏

做:

  • 在看到所有证据前明确陈述先验
  • 使用基础率和参考类
  • 估计似然并给出理由
  • 随着证据出现逐步更新
  • 诚实地对待不确定性
  • 执行敏感性分析
  • 跟踪预测以校准
  • 承认模型的限制

不做:

  • 没有特殊理由使用极端先验(1%,99%)
  • 忽略基础率(常见偏见)
  • 将所有证据视为同等诊断
  • 更新到100%确定性(几乎从不合理)
  • 挑选证据
  • 跳过文档化推理
  • 忘记校准(比较预测和结果)
  • 应用于概率无意义的问题

快速参考

  • 标准模板: resources/template.md
  • 多个假设: resources/methodology.md
  • 示例: resources/examples/product-launch.md, resources/examples/medical-diagnosis.md
  • 质量评估准则: resources/evaluators/rubric_bayesian_reasoning_calibration.json

贝叶斯公式(比值形式):

后验比值 = 先验比值 × 似然比

似然比:

LR = P(证据 | 假设为真) / P(证据 | 假设为假)

输出命名: bayesian-reasoning-calibration.md{topic}-forecast.md