名称: 实验设计描述: 当优化多因素系统且实验预算有限时使用，通过筛选许多变量找到关键少数，发现参数间的交互作用，映射响应面以实现峰值性能，验证对噪声因素的稳健性，或当用户提到因子设计、A/B/n测试、参数调优、过程优化或实验效率时。

实验设计

目的

实验设计（DOE）帮助您系统地发现多个因素如何影响结果，同时最小化实验运行次数。而不是一次测试一个变量（效率低）或随机猜测（不可靠），DOE使用结构化实验设计来：

筛选许多因素以找到关键少数
优化因素设置以最大化/最小化响应
发现交互 其中因素相互影响
映射响应面 以理解整个因素空间
验证稳健性 应对噪声和环境变化

何时使用

使用此技能当：

有限的实验预算：您在测试时间、成本或资源上有限制
多个因素：3+可控变量可能影响结果
交互怀疑：因素可能交互（A的效果取决于B的水平）
需要优化：找到最佳设置，不仅仅是“比基线更好”
需要筛选：许多候选因素（10+），需要识别关键少数
响应面：需要映射曲率、找到峰值/谷值、理解权衡
稳健设计：必须在噪声因素或环境变化下表现良好
过程改进：制造、化学过程、软件性能调优
产品开发：配方、配方、配置与多个参数
A/B/n测试：具有多个变体和组合的Web/应用功能
机器学习：具有许多参数的模型的超参数调优

触发短语：“优化”、“调参数”、“因子测试”、“交互效应”、“响应面”、“高效实验”、“最小化运行”、“稳健性”、“敏感性分析”

它是什么？

实验设计是一个统计框架，用于规划、执行和分析实验，其中您故意改变多个输入因素以观察对输出响应的影响。

快速示例：

您正在优化一个有3个因素的Web注册流程：

因素A：表单布局（单页 vs 多步）
因素B：CTA按钮颜色（蓝色 vs 绿色）
因素C：社会证明（推荐 vs 用户计数）

天真方法：一次测试一个因素 = 6次运行（每个因素2个水平 × 3个因素）

但您错过了交互！也许蓝色在单页上更好，绿色在多步上更好。

DOE方法：2³因子设计 = 8次运行

测试所有组合：（单页/蓝色/推荐）、（单页/蓝色/计数）、（单页/绿色/推荐）、等。
揭示主要效应和交互
统计功效以检测差异

结果：您发现布局和CTA颜色强烈交互—多步 + 绿色表现最佳，但单页 + 蓝色是第二。社会证明影响最小。自信地做出数据驱动决策。

工作流程

复制此清单并跟踪进度：

实验设计进度：
- [ ] 步骤1：定义目标和约束
- [ ] 步骤2：识别因素、水平和响应
- [ ] 步骤3：选择实验设计
- [ ] 步骤4：规划执行细节
- [ ] 步骤5：创建实验计划文档
- [ ] 步骤6：验证质量

步骤1：定义目标和约束

澄清实验目标（筛选 vs 优化）、响应指标、实验预算（最大运行次数）、时间/成本约束和成功标准。参见常见模式了解典型目标。

步骤2：识别因素、水平和响应

列出所有候选因素（可控输入）、为每个因素指定水平（低/高或离散值）、分类因素（控制 vs 噪声）和定义响应变量（可测量输出）。对于筛选许多因素（8+），参见资源/方法论.md了解Plackett-Burman和部分因子方法。

步骤3：选择实验设计

基于目标和约束：

对于筛选5+因素且运行有限 → 使用资源/方法论.md进行部分因子或Plackett-Burman
对于优化2-5因素 → 使用资源/模板.md进行完整或部分因子
对于响应面映射 → 使用资源/方法论.md进行中心复合或Box-Behnken
对于针对噪声的稳健设计 → 使用资源/方法论.md进行参数 vs 噪声因子数组

步骤4：规划执行细节

指定随机化顺序（消除时间趋势）、阻塞策略（控制干扰变量）、复制计划（估计误差）、样本量理由（功效分析）和测量协议。参见护栏了解关键要求。

步骤5：创建实验计划文档

创建设计-实验.md，包含部分：目标、因素表、设计矩阵（运行顺序与因素设置）、响应变量、执行协议和分析计划。使用资源/模板.md作为结构。

步骤6：验证质量

使用资源/评估器/实验设计_rubric.json进行自我评估。检查：目标清晰度、因素完整性、设计适当性、随机化计划、测量协议、统计功效、分析计划和可交付质量。最低标准：平均得分 ≥ 3.5 之前交付。

常见模式

模式1：筛选（许多因素 → 关键少数）

上下文：10-30候选因素，预算有限，希望识别3-5关键因素
方法：Plackett-Burman 或部分因子（Resolution III/IV）
输出：效应大小帕累托图，后续优化的候选列表
示例：具有15个配置参数的软件性能调优

模式2：优化（找到最佳设置）

上下文：2-5因素已识别为重要，希望找到最佳水平
方法：完整因子（2^k）或部分因子 + 最速上升
输出：主要效应图、交互图、推荐设置
示例：具有温度、压力、时间因素的制造过程

模式3：响应面（映射景观）

上下文：需要理解曲率、找到最大/最小值、量化权衡
方法：中心复合设计（CCD）或 Box-Behnken
输出：响应面方程、等高线图、最优区域
示例：具有成分比例的化学配方

模式4：稳健设计（尽管有噪声也能工作）

上下文：产品/过程必须在不可控变化下表现良好
方法：Taguchi 内-外数组（控制 × 噪声因素）
输出：最小化对噪声因素敏感性的设置
示例：必须在温度/湿度范围内工作的消费产品

模式5：顺序实验（学习然后细化）

上下文：高度不确定性，希望迭代学习，浪费最小
方法：筛选 → 最速上升 → 响应面 → 确认
输出：逐步细化的理解和设置
示例：具有未知因素关系的新产品开发

护栏

关键要求：

随机化运行顺序：消除时间顺序偏见和与潜伏变量的混淆。使用随机数生成器，不是“方便”的顺序。
复制中心点：对于具有连续因素的实验设计，复制中心点运行（3-5次）以估计纯误差和检测曲率。
避免混淆关键交互：在部分因子中，不要将重要的二向交互与主要效应混淆。如果交互重要，选择 Resolution ≥ IV。
检查设计平衡：确保正交性（因素在设计矩阵中不相关）。相关性 > 0.3 会降低精度和可解释性。
精确定义响应：使用客观、定量、可重复的测量。避免主观评分，除非通过多个评分者校准。
证明样本量合理性：运行功效分析以确保设计能够以可接受的Type II错误风险（β ≤ 0.20）检测有意义的效应大小。
记录假设：陈述预期效应大小、交互假设、噪声方差估计。设计有效性取决于这些。
在运行前规划分析：指定统计检验、显著性水平（α）、效应大小指标，在数据收集前。防止p-hacking。

常见陷阱：

❌ 一次一个因素（OFAT）：错过交互，比因子设计需要更多运行
❌ 忽略阻塞：如果运行跨越天/批次/操作员，相应阻塞或混淆结果与时间趋势
❌ 太多水平：初始使用2-3个水平。更多水平指数增加运行次数。
❌ 未测量因素：如果一个重要因素未控制/测量，它变成噪声
❌ 实验中更改协议：破坏设计结构。如有必要，重新启动或单独分析。

快速参考

关键资源：

资源/模板.md：常见设计的快速启动模板（因子、筛选、响应面）
资源/方法论.md：高级技术（最优设计、Taguchi、混合实验、顺序策略）
资源/评估器/实验设计_rubric.json：实验计划的质量标准

典型工作流程时间：

简单因子（2-4因素）：15-30分钟
筛选设计（8+因素）：30-45分钟
响应面设计：45-60分钟
稳健设计（Taguchi）：60-90分钟

何时升级：

用户需要混合实验（因素必须总和为100%）
需要分割绘图设计（难以更改的因素）
不规则约束的最优设计
贝叶斯自适应设计 → 使用资源/方法论.md处理这些高级案例

所需输入：

过程/系统：您正在实验的对象
因素：可控输入列表与候选水平
响应：可测量输出（KPI、指标）
约束：预算（最大运行次数）、时间、资源
目标：筛选、优化、响应面或稳健设计

产出：

设计-实验.md：完整的实验计划，包含设计矩阵、随机化、协议、分析方法

实验设计Skill design-of-experiments