名称: software-ux-research 描述: 用于进行用户研究(访谈、可用性测试、调查、A/B测试)或设计研究。覆盖软件体验的发现、验证、评估方法,研究运营、治理和测量。
软件用户体验研究技能 — 快速参考
使用此技能来识别问题/机会并降低决策风险。使用 software-ui-ux-design 来实施UI模式、组件变更和设计系统更新。
2025年12月基准(核心)
- 以人为中心的设计: 基于证据的迭代设计与评估(ISO 9241-210:2019)https://www.iso.org/standard/77520.html
- 可用性定义: 在上下文中的有效性、效率和满意度(ISO 9241-11:2018)https://www.iso.org/standard/63500.html
- 可访问性基准: WCAG 2.2是W3C推荐标准(2024年12月12日)https://www.w3.org/TR/WCAG22/
- WCAG 3.0预览: 工作草案于2025年9月发布;引入青铜/白银/黄金一致性层级和增强的认知可访问性;预计不早于2028-2030年 https://www.w3.org/WAI/standards-guidelines/wcag/wcag3-intro/
- 欧盟运输说明: 欧洲可访问性法案适用于2025年6月28日后的覆盖产品/服务(指令 (EU) 2019/882)https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32019L0882
何时使用此技能
- 发现: 用户需求、工作任务完成、机会规模、心智模型。
- 验证: 概念、原型、首次使用/运行成功。
- 评估: 可用性测试、启发式评估、认知走查。
- 量化/行为: 漏斗、队列、仪器化缺口、护栏。
- 研究运营: 接收、优先级排序、存储库/分类法、同意/个人身份信息处理。
- 人口统计研究: 年龄多样化、文化、可访问性参与者招募。
- A/B测试: 实验设计、样本大小、分析、陷阱。
何时不使用此技能
- UI实施 → 使用 software-ui-ux-design 用于组件、模式、代码
- 分析仪器化 → 使用 marketing-product-analytics 用于跟踪计划和 qa-observability 用于实施模式
- 可访问性合规性审核 → 使用可访问性特定检查表(WCAG一致性)
- 市场研究 → 使用 marketing-social-media 或相关市场技能
- A/B测试平台设置 → 使用实验平台(Statsig, GrowthBook, LaunchDarkly)
操作模式(核心)
如果输入缺失,请询问:
- 解锁的决策(基于此研究将改变什么)。
- 目标角色/细分市场和顶级任务。
- 平台和上下文(网页/移动/桌面;远程/现场;辅助技术)。
- 现有证据(分析、票务、评论、录音、先前研究)。
- 约束(时间线、招募访问、合规性、预算)。
默认输出(选择用户要求的):
- 研究计划 + 输出合同(首选 …/software-clean-code-standard/assets/checklists/ux-research-plan-template.md;使用 assets/research-plan-template.md 用于技能特定细节)
- 研究协议(任务/脚本 + 成功指标 + 招募计划)
- 发现报告(问题 + 严重性 + 证据 + 建议 + 置信度)
- 决策简报(选项 + 权衡 + 建议 + 测量计划)
方法选择器(核心)
研究类型(保持明确)
| 类型 | 目标 | 主要输出 |
|---|---|---|
| 发现 | 理解需求和上下文 | 工作任务完成、机会领域、约束 |
| 验证 | 降低解决方案风险 | 进行/不进行、优先级信号 |
| 评估 | 提高可用性/可访问性 | 严重性评级问题 + 修复 |
决策树(快速)
你需要什么?
├─ 为什么 / 需求 / 上下文 → 访谈、上下文查询、日记
├─ 如何 / 可用性 → 主持可用性测试、认知走查、启发式评估
├─ 什么 / 规模 → 分析/日志 + 针对性定性跟进
└─ 哪个 / 因果 → 实验(如果可行)或偏好测试
方法选择表(实用)
| 问题 | 最佳方法 | 避免时 | 输出 |
|---|---|---|---|
| 什么问题最重要? | 访谈、上下文查询、日记 | 仅调查/分析 | 问题框架 + 证据 |
| 用户能否完成关键任务? | 主持可用性测试、任务分析 | 利益相关者评审 | 任务成功 + 问题列表 |
| 导航可找到吗? | 树测试、首次点击、卡片排序 | 极小受众 [推断] | 信息架构变更 + 标签 |
| 大规模发生了什么? | 漏斗、队列、日志、支持分类法 | 仪器化缺失 | 基准 + 细分 + 流失 |
| 哪个变体表现更好? | A/B、切换回、保留组 | 功率不足或高风险 | 决策置信度 + 护栏 |
按产品阶段研究
阶段框架(何时做什么)
| 阶段 | 决策 | 主要方法 | 次要方法 | 输出 |
|---|---|---|---|---|
| 发现 | 构建什么和为谁 | 访谈、现场/日记、旅程映射 | 竞争分析、反馈挖掘 | 机会简报 + 工作任务完成 |
| 概念/最小可行产品 | 概念是否有效? | 概念测试、原型可用性 | 首次点击/树测试 | 最小可行产品范围 + 首次使用计划 |
| 发布 | 是否可用 + 可访问? | 可用性测试、可访问性评审 | 启发式评估、会话回放 | 发布阻塞 + 修复 |
| 增长 | 什么驱动采用/价值? | 细分分析 + 定性跟进 | 流失访谈、调查 | 保留驱动因素 + 摩擦 |
| 成熟 | 优化/弃用什么? | 实验、纵向跟踪 | 非主持测试 | 增量路线图 |
发布后测量(跟踪什么)
| 指标类别 | 回答什么 | 配对 |
|---|---|---|
| 采用 | 人们在使用吗? | 结果/价值指标 |
| 价值 | 它帮助用户成功吗? | 采用 + 定性原因 |
| 可靠性 | 用户注意到的失败方式? | 错误率 + 恢复成功 |
| 可访问性 | 多样化用户能否完成流程? | 辅助技术覆盖 + 缺陷趋势 |
复杂系统研究(工作流、管理、受监管)
复杂性指标
| 指标 | 示例 | 研究含义 |
|---|---|---|
| 多步骤工作流 | 草稿 → 批准 → 发布 | 任务分析 + 状态映射 |
| 多角色权限 | 管理员 vs 编辑 vs 查看者 | 测试每个角色 + 转换 |
| 数据依赖 | 需要集成/同步 | 错误路径 + 恢复测试 |
| 高风险 | 金融、医疗保健 | 安全检查 + 确认 |
| 专家用户 | 开发工具、分析 | 招募真实专家(非代理) |
评估方法(核心)
- 上下文查询: 观察实际工作和约束。
- 任务分析: 映射目标 → 步骤 → 失败点。
- 认知走查: 评估可学习性和指示器。
- 错误路径测试: 超时、离线、部分数据、权限丢失、重试。
- 多角色走查: 模拟交接(创建者 → 评审者 → 管理员)。
多角色覆盖检查表
- [ ] 角色-权限矩阵记录。
- [ ] “无访问”用户体验定义(请求路径、最低权限默认)。
- [ ] 跨角色交接测试(通知、状态变更、审计历史)。
- [ ] 每个角色错误恢复测试(重试、撤销、升级)。
研究运营与治理(核心)
接收(使请求可比较)
最小必填字段:
- 解锁的决策和截止日期。
- 研究问题(主要 + 次要)。
- 目标用户/细分市场和招募约束。
- 现有证据和链接。
- 可交付格式 + 受众。
优先级排序(简单评分)
使用轻量级评分避免积压瘫痪:
- 决策影响
- 知识缺口
- 时间紧迫性
- 可行性(招募 + 时间)
存储库与分类法
- 存储每项研究:方法、日期、产品领域、角色、任务、关键发现、原始证据链接。
- 标签重用:问题类型(导航/表单/性能)、组件/模式、漏斗步骤。
- 偏好“原子”发现(每卡一个洞察)以支持重组 [推断]。
同意、个人身份信息和访问控制
遵循适用的隐私法律;GDPR是欧盟处理的主要参考 https://eur-lex.europa.eu/eli/reg/2016/679/oj
个人身份信息处理检查表:
- [ ] 收集最小个人身份信息用于安排和激励。
- [ ] 存储身份/联系信息与研究数据分开。
- [ ] 在广泛共享前从转录中编辑姓名/电子邮件。
- [ ] 限制原始录音为需知访问。
- [ ] 记录同意、目的、保留和选择退出路径。
研究民主化(2026年趋势)
研究民主化是2026年反复趋势:非研究人员越来越多地进行研究。谨慎启用并设置护栏。
| 方法 | 护栏 | 风险级别 |
|---|---|---|
| 模板化可用性测试 | 提供脚本 + 任务模板 | 低 |
| 产品经理进行客户访谈 | 需要培训 + 评审 | 中 |
| 任何人设计调查 | 中央评审 + 标准问题 | 中 |
| 无监督研究 | 不推荐 | 高 |
非研究人员护栏:
- [ ] 仅预批准研究模板
- [ ] 行动前中央评审发现
- [ ] 无运营批准不直接参与者招募
- [ ] 强制性偏见意识培训
- [ ] 意外发现清晰升级路径
测量与决策质量(核心)
研究投资回报率快速参考
| 研究活动 | 代理指标 | 计算 |
|---|---|---|
| 可用性测试发现 | 防止开发返工 | 节省小时 × $150/小时 |
| 发现访谈 | 防止构建错误事物 | 冲刺成本 × 风险降低 % |
| A/B测试决定性结果 | 改进转化 | (Δ转化 × 流量 × 生命周期价值) - 测试成本 |
| 启发式评估 | 早期缺陷检测 | 发现缺陷 × 后期修复成本 |
经验法则:
- 1个可用性发现防止40小时返工 = $6,000价值
- 1个发现洞察防止1个浪费冲刺 = $50,000-100,000价值
- 研究改进100k访客 × $50生命周期价值上0.5%转化 = $25,000/月
三角测量评估表
| 置信度 | 证据要求 | 用于 |
|---|---|---|
| 高 | 多种方法或来源一致 | 高影响决策 |
| 中 | 一种方法强信号 + 支持指标 | 优先级排序 |
| 低 | 单一来源 / 小样本 | 探索性假设 |
采用 vs 价值(避免虚荣指标)
| 指标类型 | 示例 | 常见陷阱 |
|---|---|---|
| 采用 | 功能使用率 | “使用” ≠ “有帮助” |
| 价值/结果 | 任务成功、目标完成 | 更难以仪器化 |
何时不运行A/B测试
| 情况 | 为何失败 | 更好方法 |
|---|---|---|
| 低功率/流量 | 结果不确定 | 可用性测试 + 趋势 |
| 多变量变更 | 归因不可能 | 原型测试 → 分阶段推出 |
| 需要“为什么” | 实验不解释 | 访谈 + 观察 |
| 伦理约束 | 有害拒绝 | 分阶段推出 + 保留组 |
| 长期效应 | 短期测试错过延迟影响 | 纵向 + 保留分析 |
常见混淆因素(早期指出)
- 选择偏差(仅高价值用户响应)。
- 幸存者偏差(错过流失用户)。
- 新颖性效应(短期提升)。
- 仪器化变更中测试(指标漂移)。
可选:AI/自动化研究考虑
仅当研究自动化/AI驱动功能时使用。传统软件用户体验跳过。
2026基准: 趋势报告持续强调AI辅助分析。使用AI加速,同时保持人类负责策略和解释。示例参考:https://www.lyssna.com/blog/ux-research-trends/
关键问题
| 维度 | 问题 | 方法 |
|---|---|---|
| 心智模型 | 用户认为系统能/不能做什么? | 访谈、概念测试 |
| 信任校准 | 用户何时过度/不足依赖? | 场景测试、日志评审 |
| 解释有用性 | “为什么”帮助决策? | A/B解释变体、访谈 |
| 失败恢复 | 用户恢复并完成任务? | 失败路径可用性测试 |
错误分类法(用户可见)
| 失败类型 | 典型影响 | 测量什么 |
|---|---|---|
| 错误输出 | 返工、失去信任 | 验证 + 覆盖率 |
| 缺失输出 | 手动备用 | 备用完成率 |
| 不清输出 | 混淆 | 澄清请求 |
| 不可恢复失败 | 阻塞流程 | 恢复时间、支持联系 |
可选:AI辅助研究运营(护栏)
- 仅个人身份信息编辑后使用自动化进行转录/标记。
- 维护审计跟踪:每个主题链接回原始引用/剪辑。
合成用户:何时适当(2026)
趋势报告频繁提到合成/AI参与者。使用明确边界。示例参考:https://www.lyssna.com/blog/ux-research-trends/
| 用例 | 适当? | 原因 |
|---|---|---|
| 早期概念头脑风暴 | 警告:仅补充 | 生成边缘案例,非验证 |
| 场景/边缘案例扩展 | 通过是 | 真实测试前扩大覆盖 |
| 主持人培训/练习 | 通过是 | 练习无参与者负担 |
| 假设生成 | 通过是 | 探索方向以真实用户测试 |
| 验证/进行-不进行决策 | 失败从不 | 无法替代真实经验 |
| 可用性发现作为证据 | 失败从不 | 需要真实行为 |
| 报告中的引用 | 失败从不 | 伪造引用损害可信度 |
关键规则: 合成输出是假设,非证据。发货前始终用真实用户验证。
导航
资源
核心研究方法:
- references/research-frameworks.md — 工作任务完成、Kano、双钻石、服务蓝图、机会映射
- references/ux-audit-framework.md — 启发式评估、认知走查、严重性评级
- references/usability-testing-guide.md — 任务设计、促进、分析
- references/ux-metrics-framework.md — 任务指标、SUS/HEART、测量指南
- references/customer-journey-mapping.md — 旅程映射和服务蓝图
- references/pain-point-extraction.md — 反馈到主题方法
- references/review-mining-playbook.md — B2B/B2C评论挖掘
人口统计与量化研究(新):
- references/demographic-research-methods.md — 包容性研究,针对老年人、儿童、文化、残疾
- references/ab-testing-implementation.md — A/B测试深入(样本大小、分析、陷阱)
竞争用户体验分析与流程模式:
- references/competitive-ux-analysis.md — 逐步流程模式来自行业领导者(Wise, Revolut, Shopify, Notion, Linear, Stripe) + 基准方法
数据与来源:
- data/sources.json — 策划外部参考
领域特定用户体验基准
重要: 当设计特定领域的用户体验流程时,必须使用网络搜索查找并建议行业领导者的最佳实践模式。
触发条件
- “我们正在为[领域]设计[流程类型]”
- “[行业]中[功能]的最佳用户体验是什么?”
- “[公司A, 公司B]如何处理[流程]?”
- “将我们的[功能]与竞争对手基准”
- 任何具有可识别领域上下文的用户体验设计任务
领域 → 领导者查找表
| 领域 | 检查的行业领导者 | 关键流程 |
|---|---|---|
| 金融科技/银行 | Wise, Revolut, Monzo, N26, Chime, Mercury | 首次使用/KYC、转账、卡管理、支出分析 |
| 电子商务 | Shopify, Amazon, Stripe结账 | 结账、购物车、产品页面、退货 |
| SaaS/B2B | Linear, Notion, Figma, Slack, Airtable | 首次使用、设置、协作、权限 |
| 开发工具 | Stripe, Vercel, GitHub, Supabase | 文档、API探索器、仪表板、CLI |
| 消费应用 | Spotify, Airbnb, Uber, Instagram | 发现、预订、订阅、社交 |
| 医疗保健 | Oscar, One Medical, Calm, Headspace | 预约预订、记录、合规流程 |
| 教育科技 | Duolingo, Coursera, Khan Academy | 首次使用、进度、游戏化 |
必需搜索
当用户指定领域时,执行:
- 搜索:
"[领域] UX最佳实践 2026" - 搜索:
"[领导者公司] [流程类型] UX" - 搜索:
"[领导者公司] 应用评论 UX" site:mobbin.com OR site:pageflows.com - 搜索:
"[领域] 首次使用流程示例"
报告内容
搜索后,提供:
- 模式示例: 来自2-3个行业领导者的截图/流程
- 识别的关键模式: 他们做得好之处(具体)
- 适用于您的流程: 如何调整模式
- 差异化机会: 您可以在领导者基础上改进之处
示例输出格式
领域: 金融科技(转账)
基准: Wise, Revolut
WISE模式:
- 前期费用透明度(在收件人输入前显示确切费用)
- 中转账率锁定(显示倒计时计时器)
- 每种支付方式的交付时间估计
- 收件人验证(发送前银行账户检查)
REVOLUT模式:
- 即时发送给Revolut用户(P2P优先)
- 货币转换预览与汇率比较
- 安排/重复转账突出
应用于您的流程:
1. 在步骤1添加费用透明度(非步骤3)
2. 显示每种支付通道的交付估计
3. 考虑FX转账的率锁定功能
差异化机会:
- 都不显示历史率图表—添加“现在是好时机吗?”上下文
趋势意识协议
重要: 当用户询问用户体验研究的推荐问题时,必须使用网络搜索检查当前趋势后再回答。
工具/趋势触发器
- “什么是[用例]的最佳用户体验研究工具?”
- “我应该使用什么进行[可用性测试/调查/分析]?”
- “用户体验研究的最新动态是什么?”
- “[用户访谈/A/B测试/可访问性]的当前最佳实践?”
- “[研究方法]在2026年仍然相关吗?”
- “我应该使用什么研究工具?”
- “[远程研究/非主持测试]的最佳方法?”
工具/趋势搜索
- 搜索:
"用户体验研究趋势 2026" - 搜索:
"用户体验研究工具最佳实践 2026" - 搜索:
"[Maze/Hotjar/UserTesting] 比较 2026" - 搜索:
"AI在用户体验研究 2026"
工具/趋势报告格式
搜索后,提供:
- 当前格局: 现在流行的研究方法/工具
- 新兴趋势: 获得关注的新技术或工具
- 已弃用/下降: 失去有效性的方法
- 推荐: 基于新鲜数据和当前实践
示例主题(用新鲜搜索验证)
- AI驱动研究工具(Maze AI, Looppanel)
- 非主持测试平台演变
- 客户之声平台
- 分析和行为工具(Hotjar, FullStory)
- 可访问性测试工具和标准
- 研究存储库和洞察管理
模板
- 共享计划模板: …/software-clean-code-standard/assets/checklists/ux-research-plan-template.md — 产品无关研究计划模板(核心 + 可选AI)
- assets/research-plan-template.md — 用户体验研究计划模板
- assets/testing/usability-test-plan.md — 可用性测试计划
- assets/testing/usability-testing-checklist.md — 可用性测试检查表
- assets/audits/heuristic-evaluation-template.md — 启发式评估
- assets/audits/ux-audit-report-template.md — 审核报告