名称: 证明挑战 描述: 绝对性声称的严酷测试(总是/从不/保证/最优);压力测试,然后用明确边界精炼。当用户要求证明或反证强肯定声称、请求魔鬼代言人挑战回合,或想要默认自动循环/全自动模式运行$证明挑战严酷测试时使用。
证明挑战
何时使用
- 用户断言确定性:“总是”、“从不”、“保证”、“最优”、“不能失败”、“无缺点”、“100%”。
- 用户请求魔鬼代言人或证明。
- 声称在领域中感觉太完美。
回合节奏(强制)
- 定义:一个“回合”意味着一个助手回复。
- 默认:自动循环(无需批准)。每个助手回合恰好运行一个严酷测试回合,发布结果,然后继续下一回合直到Oracle合成。
- 在默认模式下,每回合后发布:
- 回合账本
- 知识增量
- 如果在Oracle合成后置信度仍然低,继续额外回合(11+)并发布更新的Oracle合成。
- 不要请求继续许可。在默认模式下,回合之间不要等待“下一步”。仅当必须询问用户或用户说“停止”时才暂停。
- 步骤模式(显式):如果用户要求“暂停”/“步骤”/“每回合一次”,运行一回合然后等待“下一步”。
- 全自动模式(显式):如果用户要求“全自动”/“快速模式”,在一个助手回合中运行回合1-10 + Oracle合成,同时按顺序报告每个回合。
模式调用
| 模式 | 默认? | 如何调用 | 节奏 |
|---|---|---|---|
| 自动循环 | 是 | (无短语) | 1回合/回合;自动继续直到Oracle |
| 步骤模式 | 否 | “步骤模式” / “每回合暂停” / “暂停” / “步骤” / “每回合一次” | 1回合/回合;等待“下一步” |
| 全自动 | 否 | “全自动” / “快速模式” | 回合1-10 + Oracle在一回合;每回合后发布回合账本 + 知识增量 |
快速开始
- 重述声称及其范围。
- 默认为自动循环。如果用户显式请求“步骤模式”或“全自动”,则使用该模式。
- 运行回合1并发布回合账本 + 知识增量。
- 自动继续,每回合一回合直到回合10(Oracle合成)。
- 如果置信度仍然低,运行额外回合(11+)并发布更新的Oracle合成。
十回合严酷测试
- 反例:最小具体破坏。
- 逻辑陷阱:缺失量词/前提。
- 边界情况:零/一/最大/空/极端规模。
- 对抗性输入:最坏情况分布/滥用。
- 替代范式:不同模型翻转结论。
- 操作约束:延迟/成本/合规/可用性。
- 概率不确定性:方差、尾部风险、采样偏差。
- 比较基线:“比什么好?”,哪个指标?
- 元测试:最快反证实验。
- Oracle合成:具有边界的最终幸存声称。如果置信度仍然低,根据需要重复回合1-9,然后重新运行Oracle合成。
回合自提示库(精确选择1)
内部自提示用于选择回合焦点。除非受阻,否则不要询问用户。
- 反例:什么是最小输入破坏这个?
- 逻辑陷阱:什么未陈述假设必须成立?
- 边界情况:哪个边界在真实使用中最可能?
- 对抗性:最坏情况输入是什么样子?
- 替代范式:什么目标使相反为真?
- 操作:哪个依赖/政策是硬停止?
- 不确定性:什么分布转移翻转结果?
- 基线:比什么好,在哪个指标上?
- 元测试:什么实验最快改变你的想法?
- Oracle:什么明确边界保持这个诚实?
核心工件
论证图
声称:
前提:
- P1:
- P2:
隐藏假设:
- A1:
弱链接:
- W1:
反证测试:
- T1:
精炼声称:
回合账本(每回合更新)
回合:<1-10(或11+)>
焦点:
声称范围:
新证据:
新反例:
剩余差距:
下一回合:
知识增量(每回合发布)
- 新:
- 更新:
- 无效:
声称边界表
| 边界类型 | 有效时 | 无效时 | 假设 | 压力源 |
|---------------|-----------|--------------|-------------|-----------|
| 规模 | | | | |
| 数据质量 | | | | |
| 环境 | | | | |
| 对抗者 | | | | |
下一测试计划
| 测试 | 所需数据 | 成功阈值 | 停止条件 |
|------|-------------|-------------------|----------------|
领域包
性能
当声称关于速度、延迟、吞吐量或资源时使用。
- 澄清:中位数 vs 尾部延迟 vs 吞吐量。
- 识别工作负载形状(峰值 vs 稳定)和瓶颈资源。
产品
当声称关于用户影响、采用或行为时使用。
- 澄清用户细分和成功指标。
- 陈述基线/反事实。
- 命名可能 unintended 行为/权衡。
Oracle合成模板(回合10 / 根据需要)
原始声称:
精炼声称:
边界:
- 有效时:
- 无效时:
置信度轨迹:
- 证据:
- 差距:
下一测试:
- ...
交付格式(每回合)
- 回合编号 + 焦点。
- 回合账本 + 知识增量。
- 最多一个用户问题(仅当受阻时)。
- 在默认自动循环中,在该回合运行一回合并继续到下一回合在下一回合。
- 在步骤模式中,运行一回合并等待“下一步”。
- 在全自动(或“快速模式”)中,在一个回合中运行回合1-10 + Oracle合成(每重复上述每回合)。
激活线索
- “总是” / “从不” / “保证” / “最优” / “不能失败” / “无缺点” / “100%”
- “证明它” / “魔鬼代言人” / “压力测试” / “严格”