name: 贝叶斯推理与校准 description: 在不确定性下进行预测或判断时使用,需要明确用新证据更新信念。在预测结果、评估概率、测试假设、校准置信度、用不确定数据评估风险或避免过度自信偏见时调用。当用户提到先验、似然、贝叶斯定理、概率更新、预测、校准或信念修订时使用。
贝叶斯推理与校准
目录
目的
应用贝叶斯推理来系统更新概率估计,当新证据出现时。这有助于做出更好的预测、避免过度自信,并明确展示信念如何随数据变化。
何时使用此技能
- 在不确定性下进行预测或预测
- 当新证据出现时更新信念
- 校准估计中的置信度
- 用不完美数据测试假设
- 用不完整信息评估风险
- 避免锚定和过度自信偏见
- 在不确定性下做决策
- 比较多个竞争解释
- 评估诊断测试结果
- 用新数据预测项目结果
触发短语: “概率是多少”、“更新我的信念”、“有多自信”、“预测”、“先验概率”、“似然”、“贝叶斯”、“校准”、“基础率”、“后验概率”
什么是贝叶斯推理?
一种使用贝叶斯定理系统更新概率估计的方法:
P(H|E) = P(E|H) × P(H) / P(E)
其中:
- P(H) = 先验:在看到证据前假设的概率
- P(E|H) = 似然:如果假设为真时证据的概率
- P(E|¬H) = 如果假设为假时证据的概率
- P(H|E) = 后验:在看到证据后更新的概率
快速示例:
# 我们应该启动功能X吗?
## 先验信念
在Beta测试前:采用率>20%的概率为60%
- 基础率:类似功能的采用率为15-25%
- 我们的功能似乎比平均更强
- 先验:60%
## 新证据
Beta测试:35%的用户采用(200用户中的70)
## 似然
如果真实采用率>20%:
- P(在Beta中看到35% | 采用率>20%) = 75%(如果真实为高,很可能在Beta中看到高值)
如果真实采用率≤20%:
- P(在Beta中看到35% | 采用率≤20%) = 15%(如果真实为低,不太可能在Beta中看到高值)
## 贝叶斯更新
后验 = (75% × 60%) / [(75% × 60%) + (15% × 40%)]
后验 = 45% / (45% + 6%) = 88%
## 结论
更新的信念:88%确信采用率将超过20%
证据强烈支持启动,但不完全确定。
工作流程
复制此清单并跟踪进度:
贝叶斯推理进度:
- [ ] 步骤1:定义问题
- [ ] 步骤2:建立先验信念
- [ ] 步骤3:识别证据和似然
- [ ] 步骤4:计算后验
- [ ] 步骤5:校准和文档化
步骤1:定义问题
澄清假设(具体、可测试的主张)、要估计的概率、时间范围(何时知道结果)、成功标准,以及为什么重要(依赖于什么决策)。示例:“产品功能将在3个月内实现>20%的采用率” – 对启动决策重要。
步骤2:建立先验信念
使用基础率(一般频率)、参考类(类似情况)、具体差异、明确的概率分配和理由来设定初始概率。好的先验基于基础率,考虑差异,诚实地对待不确定性,如果不确定则包括范围(例如40-60%)。避免纯直觉先验、忽略基础率或没有理由的极端值。
步骤3:识别证据与似然
评估证据(具体观察/数据)、诊断能力(是否区分假设?)、P(E|H)(如果假设为真的概率)、P(E|¬H)(如果假设为假的概率),并计算似然比 = P(E|H) / P(E|¬H)。LR > 10 = 非常强的证据,3-10 = 中等,1-3 = 弱,≈1 = 不诊断,<1 = 反对证据。
步骤4:计算后验
应用贝叶斯定理:P(H|E) = [P(E|H) × P(H)] / P(E),或使用比值形式:后验比值 = 先验比值 × 似然比。计算 P(E) = P(E|H)×P(H) + P(E|¬H)×P(¬H),得到后验概率,并解释变化。对于简单情况 → 使用resources/template.md计算器。对于复杂情况(多个假设) → 学习resources/methodology.md。
步骤5:校准与文档化
检查校准(过度/欠自信?)、验证假设(似然合理吗?)、执行敏感性分析、创建bayesian-reasoning-calibration.md,并注意限制。使用resources/evaluators/rubric_bayesian_reasoning_calibration.json自检:验证先验基于基础率、似然有理由、证据有诊断能力(LR ≠ 1)、计算正确、后验校准、假设已陈述、敏感性已注意。最低标准:得分 ≥ 3.5。
常见模式
对于预测:
- 使用基础率作为起点
- 随着证据出现逐步更新
- 随时间跟踪预测准确性
- 通过比较预测和结果来校准
对于假设测试:
- 明确陈述竞争假设
- 为证据计算似然比
- 按证据强度比例更新信念
- 除非LR极端,否则不要声称确定性
对于风险评估:
- 考虑多种场景(不只是二元)
- 随着新数据到来更新风险
- 当不确定似然时使用范围
- 执行敏感性分析
对于避免偏见:
- 强制明确先验(防止锚定证据)
- 使用参考类(防止忽略基础率)
- 数学计算(防止动机推理)
- 在看到结果前文档化(允许校准)
防护栏
做:
- 在看到所有证据前明确陈述先验
- 使用基础率和参考类
- 估计似然并给出理由
- 随着证据出现逐步更新
- 诚实地对待不确定性
- 执行敏感性分析
- 跟踪预测以校准
- 承认模型的限制
不做:
- 没有特殊理由使用极端先验(1%,99%)
- 忽略基础率(常见偏见)
- 将所有证据视为同等诊断
- 更新到100%确定性(几乎从不合理)
- 挑选证据
- 跳过文档化推理
- 忘记校准(比较预测和结果)
- 应用于概率无意义的问题
快速参考
- 标准模板:
resources/template.md - 多个假设:
resources/methodology.md - 示例:
resources/examples/product-launch.md,resources/examples/medical-diagnosis.md - 质量评估准则:
resources/evaluators/rubric_bayesian_reasoning_calibration.json
贝叶斯公式(比值形式):
后验比值 = 先验比值 × 似然比
似然比:
LR = P(证据 | 假设为真) / P(证据 | 假设为假)
输出命名: bayesian-reasoning-calibration.md 或 {topic}-forecast.md