名称: 实验设计 描述: 当优化多因素系统且实验预算有限时使用,通过筛选许多变量找到关键少数,发现参数间的交互作用,映射响应面以实现峰值性能,验证对噪声因素的稳健性,或当用户提到因子设计、A/B/n测试、参数调优、过程优化或实验效率时。
实验设计
目录
目的
实验设计(DOE)帮助您系统地发现多个因素如何影响结果,同时最小化实验运行次数。而不是一次测试一个变量(效率低)或随机猜测(不可靠),DOE使用结构化实验设计来:
- 筛选 许多因素以找到关键少数
- 优化 因素设置以最大化/最小化响应
- 发现交互 其中因素相互影响
- 映射响应面 以理解整个因素空间
- 验证稳健性 应对噪声和环境变化
何时使用
使用此技能当:
- 有限的实验预算:您在测试时间、成本或资源上有限制
- 多个因素:3+可控变量可能影响结果
- 交互怀疑:因素可能交互(A的效果取决于B的水平)
- 需要优化:找到最佳设置,不仅仅是“比基线更好”
- 需要筛选:许多候选因素(10+),需要识别关键少数
- 响应面:需要映射曲率、找到峰值/谷值、理解权衡
- 稳健设计:必须在噪声因素或环境变化下表现良好
- 过程改进:制造、化学过程、软件性能调优
- 产品开发:配方、配方、配置与多个参数
- A/B/n测试:具有多个变体和组合的Web/应用功能
- 机器学习:具有许多参数的模型的超参数调优
触发短语:“优化”、“调参数”、“因子测试”、“交互效应”、“响应面”、“高效实验”、“最小化运行”、“稳健性”、“敏感性分析”
它是什么?
实验设计是一个统计框架,用于规划、执行和分析实验,其中您故意改变多个输入因素以观察对输出响应的影响。
快速示例:
您正在优化一个有3个因素的Web注册流程:
- 因素A:表单布局(单页 vs 多步)
- 因素B:CTA按钮颜色(蓝色 vs 绿色)
- 因素C:社会证明(推荐 vs 用户计数)
天真方法:一次测试一个因素 = 6次运行(每个因素2个水平 × 3个因素)
- 但您错过了交互!也许蓝色在单页上更好,绿色在多步上更好。
DOE方法:2³因子设计 = 8次运行
- 测试所有组合:(单页/蓝色/推荐)、(单页/蓝色/计数)、(单页/绿色/推荐)、等。
- 揭示主要效应和交互
- 统计功效以检测差异
结果:您发现布局和CTA颜色强烈交互—多步 + 绿色表现最佳,但单页 + 蓝色是第二。社会证明影响最小。自信地做出数据驱动决策。
工作流程
复制此清单并跟踪进度:
实验设计进度:
- [ ] 步骤1:定义目标和约束
- [ ] 步骤2:识别因素、水平和响应
- [ ] 步骤3:选择实验设计
- [ ] 步骤4:规划执行细节
- [ ] 步骤5:创建实验计划文档
- [ ] 步骤6:验证质量
步骤1:定义目标和约束
澄清实验目标(筛选 vs 优化)、响应指标、实验预算(最大运行次数)、时间/成本约束和成功标准。参见常见模式了解典型目标。
步骤2:识别因素、水平和响应
列出所有候选因素(可控输入)、为每个因素指定水平(低/高或离散值)、分类因素(控制 vs 噪声)和定义响应变量(可测量输出)。对于筛选许多因素(8+),参见资源/方法论.md了解Plackett-Burman和部分因子方法。
步骤3:选择实验设计
基于目标和约束:
- 对于筛选5+因素且运行有限 → 使用资源/方法论.md进行部分因子或Plackett-Burman
- 对于优化2-5因素 → 使用资源/模板.md进行完整或部分因子
- 对于响应面映射 → 使用资源/方法论.md进行中心复合或Box-Behnken
- 对于针对噪声的稳健设计 → 使用资源/方法论.md进行参数 vs 噪声因子数组
步骤4:规划执行细节
指定随机化顺序(消除时间趋势)、阻塞策略(控制干扰变量)、复制计划(估计误差)、样本量理由(功效分析)和测量协议。参见护栏了解关键要求。
步骤5:创建实验计划文档
创建设计-实验.md,包含部分:目标、因素表、设计矩阵(运行顺序与因素设置)、响应变量、执行协议和分析计划。使用资源/模板.md作为结构。
步骤6:验证质量
使用资源/评估器/实验设计_rubric.json进行自我评估。检查:目标清晰度、因素完整性、设计适当性、随机化计划、测量协议、统计功效、分析计划和可交付质量。最低标准:平均得分 ≥ 3.5 之前交付。
常见模式
模式1:筛选(许多因素 → 关键少数)
- 上下文:10-30候选因素,预算有限,希望识别3-5关键因素
- 方法:Plackett-Burman 或部分因子(Resolution III/IV)
- 输出:效应大小帕累托图,后续优化的候选列表
- 示例:具有15个配置参数的软件性能调优
模式2:优化(找到最佳设置)
- 上下文:2-5因素已识别为重要,希望找到最佳水平
- 方法:完整因子(2^k)或部分因子 + 最速上升
- 输出:主要效应图、交互图、推荐设置
- 示例:具有温度、压力、时间因素的制造过程
模式3:响应面(映射景观)
- 上下文:需要理解曲率、找到最大/最小值、量化权衡
- 方法:中心复合设计(CCD)或 Box-Behnken
- 输出:响应面方程、等高线图、最优区域
- 示例:具有成分比例的化学配方
模式4:稳健设计(尽管有噪声也能工作)
- 上下文:产品/过程必须在不可控变化下表现良好
- 方法:Taguchi 内-外数组(控制 × 噪声因素)
- 输出:最小化对噪声因素敏感性的设置
- 示例:必须在温度/湿度范围内工作的消费产品
模式5:顺序实验(学习然后细化)
- 上下文:高度不确定性,希望迭代学习,浪费最小
- 方法:筛选 → 最速上升 → 响应面 → 确认
- 输出:逐步细化的理解和设置
- 示例:具有未知因素关系的新产品开发
护栏
关键要求:
-
随机化运行顺序:消除时间顺序偏见和与潜伏变量的混淆。使用随机数生成器,不是“方便”的顺序。
-
复制中心点:对于具有连续因素的实验设计,复制中心点运行(3-5次)以估计纯误差和检测曲率。
-
避免混淆关键交互:在部分因子中,不要将重要的二向交互与主要效应混淆。如果交互重要,选择 Resolution ≥ IV。
-
检查设计平衡:确保正交性(因素在设计矩阵中不相关)。相关性 > 0.3 会降低精度和可解释性。
-
精确定义响应:使用客观、定量、可重复的测量。避免主观评分,除非通过多个评分者校准。
-
证明样本量合理性:运行功效分析以确保设计能够以可接受的Type II错误风险(β ≤ 0.20)检测有意义的效应大小。
-
记录假设:陈述预期效应大小、交互假设、噪声方差估计。设计有效性取决于这些。
-
在运行前规划分析:指定统计检验、显著性水平(α)、效应大小指标,在数据收集前。防止p-hacking。
常见陷阱:
- ❌ 一次一个因素(OFAT):错过交互,比因子设计需要更多运行
- ❌ 忽略阻塞:如果运行跨越天/批次/操作员,相应阻塞或混淆结果与时间趋势
- ❌ 太多水平:初始使用2-3个水平。更多水平指数增加运行次数。
- ❌ 未测量因素:如果一个重要因素未控制/测量,它变成噪声
- ❌ 实验中更改协议:破坏设计结构。如有必要,重新启动或单独分析。
快速参考
关键资源:
- 资源/模板.md:常见设计的快速启动模板(因子、筛选、响应面)
- 资源/方法论.md:高级技术(最优设计、Taguchi、混合实验、顺序策略)
- 资源/评估器/实验设计_rubric.json:实验计划的质量标准
典型工作流程时间:
- 简单因子(2-4因素):15-30分钟
- 筛选设计(8+因素):30-45分钟
- 响应面设计:45-60分钟
- 稳健设计(Taguchi):60-90分钟
何时升级:
- 用户需要混合实验(因素必须总和为100%)
- 需要分割绘图设计(难以更改的因素)
- 不规则约束的最优设计
- 贝叶斯自适应设计 → 使用资源/方法论.md处理这些高级案例
所需输入:
- 过程/系统:您正在实验的对象
- 因素:可控输入列表与候选水平
- 响应:可测量输出(KPI、指标)
- 约束:预算(最大运行次数)、时间、资源
- 目标:筛选、优化、响应面或稳健设计
产出:
设计-实验.md:完整的实验计划,包含设计矩阵、随机化、协议、分析方法