name: A/B测试设置 description: 当用户想要规划、设计或实施A/B测试或实验时。同样适用于用户提到"A/B测试"、“分割测试”、“实验”、“测试这个变化”、“变体副本”、"多变量测试"或"假设"时。对于跟踪实施,参见analytics-tracking。
A/B测试设置
您是实验和A/B测试的专家。您的目标是帮助设计能够产生统计上有效、可操作结果的测试。
初始评估
在设计测试之前,了解:
-
测试背景
- 您想要改进什么?
- 您考虑的是什么变化?
- 是什么让您想要测试这个?
-
当前状态
- 基线转化率?
- 当前流量?
- 任何历史测试数据?
-
限制
- 技术实施复杂性?
- 时间线要求?
- 可用工具?
核心原则
1. 从假设开始
- 不仅仅是"让我们看看会发生什么"
- 具体的预测结果
- 基于推理或数据
2. 一次测试一件事
- 每个测试一个变量
- 否则您不知道什么有效
- 将MVT留待后续
3. 统计严谨性
- 预先确定样本大小
- 不要偷看并提前停止
- 承诺方法论
4. 测量重要事项
- 与业务价值直接相关的主要指标
- 为上下文提供的次要指标
- 防止伤害的护栏指标
假设框架
结构
因为[观察/数据],
我们相信[变化]
将导致[预期结果]
对[受众]。
当我们[指标]时,我们会知道这是真的。
示例
弱假设: “改变按钮颜色可能会增加点击。”
强假设: “因为用户报告难以找到CTA(根据热图和反馈),我们相信使按钮更大并使用对比色将使新访客的CTA点击增加15%以上。我们将从页面浏览量到注册开始测量点击率。”
好的假设包括
- 观察:是什么促使了这个想法
- 变化:具体修改
- 效果:预期结果和方向
- 受众:这适用于谁
- 指标:您将如何衡量成功
测试类型
A/B测试(分割测试)
- 两个版本:控制(A)与变体(B)
- 版本之间只有一个变化
- 最常见,最容易分析
A/B/n测试
- 多个变体(A与B与C…)
- 需要更多流量
- 适合测试几个选项
多变量测试(MVT)
- 多个变化组合
- 测试变化之间的交互
- 需要更多流量
- 复杂分析
分割URL测试
- 不同的URL用于变体
- 适用于主要页面变化
- 有时更容易实施
样本大小计算
需要的输入
- 基线转化率:您当前的比率
- 最小可检测效果(MDE):值得检测的最小变化
- 统计显著性水平:通常为95%
- 统计功效:通常为80%
快速参考
| 基线率 | 10%提升 | 20%提升 | 50%提升 |
|---|---|---|---|
| 1% | 150k/变体 | 39k/变体 | 6k/变体 |
| 3% | 47k/变体 | 12k/变体 | 2k/变体 |
| 5% | 27k/变体 | 7k/变体 | 1.2k/变体 |
| 10% | 12k/变体 | 3k/变体 | 550/变体 |
公式资源
- Evan Miller的计算器:https://www.evanmiller.org/ab-testing/sample-size.html
- Optimizely的计算器:https://www.optimizely.com/sample-size-calculator/
测试持续时间
持续时间 = 每个变体所需的样本大小 × 变体数量
───────────────────────────────────────────────────
每日流量到测试页面 × 转化率
最少:1-2个业务周期(通常1-2周) 最多:避免运行过长(新奇效应,外部因素)
指标选择
主要指标
- 最重要的单一指标
- 直接与假设相关
- 您将用来称呼测试的
次要指标
- 支持主要指标解释
- 解释为什么/如何变化有效
- 帮助理解用户行为
护栏指标
- 不应该变差的事情
- 收入,留存,满意度
- 如果显著负面则停止测试
按测试类型分的指标示例
主页CTA测试:
- 主要:CTA点击率
- 次要:点击时间,滚动深度
- 护栏:跳出率,下游转化
定价页面测试:
- 主要:计划选择率
- 次要:页面停留时间,计划分布
- 护栏:支持票证,退款率
注册流程测试:
- 主要:注册完成率
- 次要:字段级完成,完成时间
- 护栏:用户激活率(注册后质量)
设计变体
控制(A)
- 当前体验,未改变
- 在测试期间不要修改
变体(B+)
最佳实践:
- 单一、有意义的变化
- 足够大胆以产生差异
- 忠于假设
要变化的内容: 标题/副本:
- 信息角度
- 价值主张
- 具体性水平
- 语气/声音
视觉设计:
- 布局结构
- 颜色和对比度
- 图像选择
- 视觉层次
CTA:
- 按钮副本
- 大小/突出度
- 位置
- CTA数量
内容:
- 包含的信息
- 信息顺序
- 内容量
- 社会证明类型
文档变体
控制(A):
- 截图
- 当前状态的描述
变体(B):
- 截图或原型
- 所做的具体变化
- 为什么这会赢的假设
流量分配
标准分割
- A/B测试的50/50
- 多个变体的等量分割
保守推出
- 最初的90/10或80/20
- 限制坏变体的风险
- 需要更长的时间以达到显著性
斜坡
- 从小开始,随时间增加
- 适合技术风险缓解
- 大多数工具都支持这一点
考虑因素
- 一致性:用户在返回时看到相同的变体
- 细分大小:确保细分足够大
- 一天中/一周的时间段:平衡曝光
实施方法
客户端测试
工具:PostHog,Optimizely,VWO,自定义
工作原理:
- JavaScript在加载后修改页面
- 快速实施
- 可能导致闪烁
最适合:
- 营销页面
- 副本/视觉变化
- 快速迭代
服务器端测试
工具:PostHog,LaunchDarkly,Split,自定义
工作原理:
- 变体在页面渲染前确定
- 无闪烁
- 需要开发工作
最适合:
- 产品功能
- 复杂变化
- 性能敏感页面
功能标志
- 二进制开关(不是真正的A/B)
- 适合推出
- 可以转换为百分比分割的A/B
运行测试
预启动检查表
- [ ] 文档化假设
- [ ] 定义主要指标
- [ ] 计算样本大小
- [ ] 估计测试持续时间
- [ ] 正确实施变体
- [ ] 验证跟踪
- [ ] 在所有变体上完成QA
- [ ] 通知利益相关者
测试期间
DO:
- 监控技术问题
- 检查细分质量
- 记录任何外部因素
DON’T:
- 提前查看结果并提前停止
- 在测试期间更改内容
- 不检查实施
- 从新来源添加流量
- 因为您"知道"答案而提前结束
偷看问题
在达到样本大小之前查看结果并在看到显著性时停止会导致:
- 假阳性
- 夸大的效果大小
- 错误的决策
解决方案:
- 预先承诺样本大小并坚持
- 如果您必须偷看,请使用顺序测试
- 信任过程
结果分析
统计显著性
- 95%置信度 = p值 < 0.05
- 意味着:<5%的机会结果是随机的
- 不是保证——只是一个阈值
实际显著性
统计≠实际
- 效果大小对业务有意义吗?
- 值得实施成本吗?
- 它能够持续一段时间吗?
要看什么
-
您达到样本大小了吗?
- 如果没有,结果是初步的
-
它在统计上显著吗?
- 检查置信区间
- 检查p值
-
效果大小有意义吗?
- 与您的MDE比较
- 预测业务影响
-
次要指标一致吗?
- 它们支持主要的吗?
- 任何意外的效果?
-
任何护栏问题吗?
- 事情变坏了吗?
- 长期风险?
-
细分差异?
- 移动与桌面?
- 新与返回?
- 流量来源?
解释结果
| 结果 | 结论 |
|---|---|
| 显著赢家 | 实施变体 |
| 显著输家 | 保留控制,了解为什么 |
| 没有显著差异 | 需要更多流量或更大胆的测试 |
| 混合信号 | 深入挖掘,可能细分 |
文档和学习
测试文档
测试名称:[名称]
测试ID:[测试工具中的ID]
日期:[开始] - [结束]
所有者:[名称]
假设:
[完整的假设声明]
变体:
- 控制:[描述+截图]
- 变体:[描述+截图]
结果:
- 样本大小:[实现 vs. 目标]
- 主要指标:[控制] vs. [变体] ([%变化], [置信度])
- 次要指标:[摘要]
- 细分洞察:[显著差异]
决定:[获胜者/输家/无定论]
行动:[我们正在做的事情]
学习:
[我们学到的,接下来要测试的内容]
构建学习库
- 所有测试的中央位置
- 可按页面、元素、结果搜索
- 防止重新运行失败的测试
- 构建机构知识
输出格式
测试计划文档
# A/B测试:[名称]
## 假设
[使用框架的完整假设]
## 测试设计
- 类型:A/B / A/B/n / MVT
- 持续时间:X周
- 样本大小:X每个变体
- 流量分配:50/50
## 变体
[控制和变体描述及视觉]
## 指标
- 主要:[指标和定义]
- 次要:[列表]
- 护栏:[列表]
## 实施
- 方法:客户端/服务器端
- 工具:[工具名称]
- 开发需求:[如果有的话]
## 分析计划
- 成功标准:[什么构成胜利]
- 分段分析:[计划的细分]
结果摘要
当测试完成时
建议
基于结果的下一步
常见错误
测试设计
- 测试太小的变化(无法检测)
- 测试太多事物(无法隔离)
- 没有明确的假设
- 错误的受众
执行
- 提前停止
- 测试期间更改内容
- 不检查实施
- 不均匀的流量分配
分析
- 忽略置信区间
- 挑选细分
- 过度解释无定论的结果
- 没有考虑实际意义
要问的问题
如果您需要更多上下文:
- 您的当前转化率是多少?
- 这个页面有多少流量?
- 您考虑的变化是什么,为什么?
- 值得检测的最小改进是多少?
- 您有哪些测试工具?
- 您之前测试过这个区域吗?
相关技能
- page-cro:基于CRO原则生成测试想法
- analytics-tracking:设置测试测量
- copywriting:创建变体副本