证明挑战 prove-it

这个技能是一种系统性的论证验证工具,专门用于压力测试绝对性声称(如“总是”、“从不”、“保证”等)。通过多轮挑战回合(如反例寻找、逻辑陷阱分析、边界情况测试等),它帮助识别声称中的漏洞、隐藏假设和边界条件,最终精炼出更准确和可靠的表述。适用于需要严格逻辑分析和风险识别的场景,如AI系统验证、数据科学模型评估或一般性论证审查。关键词:压力测试、论证验证、绝对声称、魔鬼代言人、边界分析、逻辑挑战。

论证验证 0 次安装 0 次浏览 更新于 3/8/2026

名称: 证明挑战 描述: 绝对性声称的严酷测试(总是/从不/保证/最优);压力测试,然后用明确边界精炼。当用户要求证明或反证强肯定声称、请求魔鬼代言人挑战回合,或想要默认自动循环/全自动模式运行$证明挑战严酷测试时使用。

证明挑战

何时使用

  • 用户断言确定性:“总是”、“从不”、“保证”、“最优”、“不能失败”、“无缺点”、“100%”。
  • 用户请求魔鬼代言人或证明。
  • 声称在领域中感觉太完美。

回合节奏(强制)

  • 定义:一个“回合”意味着一个助手回复。
  • 默认:自动循环(无需批准)。每个助手回合恰好运行一个严酷测试回合,发布结果,然后继续下一回合直到Oracle合成。
  • 在默认模式下,每回合后发布:
    • 回合账本
    • 知识增量
  • 如果在Oracle合成后置信度仍然低,继续额外回合(11+)并发布更新的Oracle合成。
  • 不要请求继续许可。在默认模式下,回合之间不要等待“下一步”。仅当必须询问用户或用户说“停止”时才暂停。
  • 步骤模式(显式):如果用户要求“暂停”/“步骤”/“每回合一次”,运行一回合然后等待“下一步”。
  • 全自动模式(显式):如果用户要求“全自动”/“快速模式”,在一个助手回合中运行回合1-10 + Oracle合成,同时按顺序报告每个回合。

模式调用

模式 默认? 如何调用 节奏
自动循环 (无短语) 1回合/回合;自动继续直到Oracle
步骤模式 “步骤模式” / “每回合暂停” / “暂停” / “步骤” / “每回合一次” 1回合/回合;等待“下一步”
全自动 “全自动” / “快速模式” 回合1-10 + Oracle在一回合;每回合后发布回合账本 + 知识增量

快速开始

  1. 重述声称及其范围。
  2. 默认为自动循环。如果用户显式请求“步骤模式”或“全自动”,则使用该模式。
  3. 运行回合1并发布回合账本 + 知识增量。
  4. 自动继续,每回合一回合直到回合10(Oracle合成)。
  5. 如果置信度仍然低,运行额外回合(11+)并发布更新的Oracle合成。

十回合严酷测试

  1. 反例:最小具体破坏。
  2. 逻辑陷阱:缺失量词/前提。
  3. 边界情况:零/一/最大/空/极端规模。
  4. 对抗性输入:最坏情况分布/滥用。
  5. 替代范式:不同模型翻转结论。
  6. 操作约束:延迟/成本/合规/可用性。
  7. 概率不确定性:方差、尾部风险、采样偏差。
  8. 比较基线:“比什么好?”,哪个指标?
  9. 元测试:最快反证实验。
  10. Oracle合成:具有边界的最终幸存声称。如果置信度仍然低,根据需要重复回合1-9,然后重新运行Oracle合成。

回合自提示库(精确选择1)

内部自提示用于选择回合焦点。除非受阻,否则不要询问用户。

  • 反例:什么是最小输入破坏这个?
  • 逻辑陷阱:什么未陈述假设必须成立?
  • 边界情况:哪个边界在真实使用中最可能?
  • 对抗性:最坏情况输入是什么样子?
  • 替代范式:什么目标使相反为真?
  • 操作:哪个依赖/政策是硬停止?
  • 不确定性:什么分布转移翻转结果?
  • 基线:比什么好,在哪个指标上?
  • 元测试:什么实验最快改变你的想法?
  • Oracle:什么明确边界保持这个诚实?

核心工件

论证图

声称:
前提:
- P1:
- P2:
隐藏假设:
- A1:
弱链接:
- W1:
反证测试:
- T1:
精炼声称:

回合账本(每回合更新)

回合:<1-10(或11+)>
焦点:
声称范围:
新证据:
新反例:
剩余差距:
下一回合:

知识增量(每回合发布)

- 新:
- 更新:
- 无效:

声称边界表

| 边界类型 | 有效时 | 无效时 | 假设 | 压力源 |
|---------------|-----------|--------------|-------------|-----------|
| 规模         |           |              |             |           |
| 数据质量     |           |              |             |           |
| 环境         |           |              |             |           |
| 对抗者       |           |              |             |           |

下一测试计划

| 测试 | 所需数据 | 成功阈值 | 停止条件 |
|------|-------------|-------------------|----------------|

领域包

性能

当声称关于速度、延迟、吞吐量或资源时使用。

  • 澄清:中位数 vs 尾部延迟 vs 吞吐量。
  • 识别工作负载形状(峰值 vs 稳定)和瓶颈资源。

产品

当声称关于用户影响、采用或行为时使用。

  • 澄清用户细分和成功指标。
  • 陈述基线/反事实。
  • 命名可能 unintended 行为/权衡。

Oracle合成模板(回合10 / 根据需要)

原始声称:
精炼声称:
边界:
- 有效时:
- 无效时:
置信度轨迹:
- 证据:
- 差距:
下一测试:
- ...

交付格式(每回合)

  • 回合编号 + 焦点。
  • 回合账本 + 知识增量。
  • 最多一个用户问题(仅当受阻时)。
  • 在默认自动循环中,在该回合运行一回合并继续到下一回合在下一回合。
  • 在步骤模式中,运行一回合并等待“下一步”。
  • 在全自动(或“快速模式”)中,在一个回合中运行回合1-10 + Oracle合成(每重复上述每回合)。

激活线索

  • “总是” / “从不” / “保证” / “最优” / “不能失败” / “无缺点” / “100%”
  • “证明它” / “魔鬼代言人” / “压力测试” / “严格”