名称: 证明挑战描述: 绝对性声称的严酷测试（总是/从不/保证/最优）；压力测试，然后用明确边界精炼。当用户要求证明或反证强肯定声称、请求魔鬼代言人挑战回合，或想要默认自动循环/全自动模式运行$证明挑战严酷测试时使用。

证明挑战

何时使用

用户断言确定性：“总是”、“从不”、“保证”、“最优”、“不能失败”、“无缺点”、“100%”。
用户请求魔鬼代言人或证明。
声称在领域中感觉太完美。

回合节奏（强制）

定义：一个“回合”意味着一个助手回复。
默认：自动循环（无需批准）。每个助手回合恰好运行一个严酷测试回合，发布结果，然后继续下一回合直到Oracle合成。
在默认模式下，每回合后发布：
- 回合账本
- 知识增量
如果在Oracle合成后置信度仍然低，继续额外回合（11+）并发布更新的Oracle合成。
不要请求继续许可。在默认模式下，回合之间不要等待“下一步”。仅当必须询问用户或用户说“停止”时才暂停。
步骤模式（显式）：如果用户要求“暂停”/“步骤”/“每回合一次”，运行一回合然后等待“下一步”。
全自动模式（显式）：如果用户要求“全自动”/“快速模式”，在一个助手回合中运行回合1-10 + Oracle合成，同时按顺序报告每个回合。

模式调用

模式	默认？	如何调用	节奏
自动循环	是	（无短语）	1回合/回合；自动继续直到Oracle
步骤模式	否	“步骤模式” / “每回合暂停” / “暂停” / “步骤” / “每回合一次”	1回合/回合；等待“下一步”
全自动	否	“全自动” / “快速模式”	回合1-10 + Oracle在一回合；每回合后发布回合账本 + 知识增量

快速开始

重述声称及其范围。
默认为自动循环。如果用户显式请求“步骤模式”或“全自动”，则使用该模式。
运行回合1并发布回合账本 + 知识增量。
自动继续，每回合一回合直到回合10（Oracle合成）。
如果置信度仍然低，运行额外回合（11+）并发布更新的Oracle合成。

十回合严酷测试

反例：最小具体破坏。
逻辑陷阱：缺失量词/前提。
边界情况：零/一/最大/空/极端规模。
对抗性输入：最坏情况分布/滥用。
替代范式：不同模型翻转结论。
操作约束：延迟/成本/合规/可用性。
概率不确定性：方差、尾部风险、采样偏差。
比较基线：“比什么好？”，哪个指标？
元测试：最快反证实验。
Oracle合成：具有边界的最终幸存声称。如果置信度仍然低，根据需要重复回合1-9，然后重新运行Oracle合成。

回合自提示库（精确选择1）

内部自提示用于选择回合焦点。除非受阻，否则不要询问用户。

反例：什么是最小输入破坏这个？
逻辑陷阱：什么未陈述假设必须成立？
边界情况：哪个边界在真实使用中最可能？
对抗性：最坏情况输入是什么样子？
替代范式：什么目标使相反为真？
操作：哪个依赖/政策是硬停止？
不确定性：什么分布转移翻转结果？
基线：比什么好，在哪个指标上？
元测试：什么实验最快改变你的想法？
Oracle：什么明确边界保持这个诚实？

核心工件

论证图

声称：
前提：
- P1：
- P2：
隐藏假设：
- A1：
弱链接：
- W1：
反证测试：
- T1：
精炼声称：

回合账本（每回合更新）

回合：<1-10（或11+）>
焦点：
声称范围：
新证据：
新反例：
剩余差距：
下一回合：

知识增量（每回合发布）

- 新：
- 更新：
- 无效：

声称边界表

| 边界类型 | 有效时 | 无效时 | 假设 | 压力源 |
|---------------|-----------|--------------|-------------|-----------|
| 规模         |           |              |             |           |
| 数据质量     |           |              |             |           |
| 环境         |           |              |             |           |
| 对抗者       |           |              |             |           |

下一测试计划

| 测试 | 所需数据 | 成功阈值 | 停止条件 |
|------|-------------|-------------------|----------------|

领域包

性能

当声称关于速度、延迟、吞吐量或资源时使用。

澄清：中位数 vs 尾部延迟 vs 吞吐量。
识别工作负载形状（峰值 vs 稳定）和瓶颈资源。

产品

当声称关于用户影响、采用或行为时使用。

澄清用户细分和成功指标。
陈述基线/反事实。
命名可能 unintended 行为/权衡。

Oracle合成模板（回合10 / 根据需要）

原始声称：
精炼声称：
边界：
- 有效时：
- 无效时：
置信度轨迹：
- 证据：
- 差距：
下一测试：
- ...

交付格式（每回合）

回合编号 + 焦点。
回合账本 + 知识增量。
最多一个用户问题（仅当受阻时）。
在默认自动循环中，在该回合运行一回合并继续到下一回合在下一回合。
在步骤模式中，运行一回合并等待“下一步”。
在全自动（或“快速模式”）中，在一个回合中运行回合1-10 + Oracle合成（每重复上述每回合）。

激活线索

“总是” / “从不” / “保证” / “最优” / “不能失败” / “无缺点” / “100%”
“证明它” / “魔鬼代言人” / “压力测试” / “严格”