名称: software-ux-research 描述: 用于进行用户研究（访谈、可用性测试、调查、A/B测试）或设计研究。覆盖软件体验的发现、验证、评估方法，研究运营、治理和测量。

软件用户体验研究技能 — 快速参考

使用此技能来识别问题/机会并降低决策风险。使用 software-ui-ux-design 来实施UI模式、组件变更和设计系统更新。

2025年12月基准（核心）

以人为中心的设计: 基于证据的迭代设计与评估（ISO 9241-210:2019）https://www.iso.org/standard/77520.html
可用性定义: 在上下文中的有效性、效率和满意度（ISO 9241-11:2018）https://www.iso.org/standard/63500.html
可访问性基准: WCAG 2.2是W3C推荐标准（2024年12月12日）https://www.w3.org/TR/WCAG22/
WCAG 3.0预览: 工作草案于2025年9月发布；引入青铜/白银/黄金一致性层级和增强的认知可访问性；预计不早于2028-2030年 https://www.w3.org/WAI/standards-guidelines/wcag/wcag3-intro/
欧盟运输说明: 欧洲可访问性法案适用于2025年6月28日后的覆盖产品/服务（指令 (EU) 2019/882）https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32019L0882

何时使用此技能

发现: 用户需求、工作任务完成、机会规模、心智模型。
验证: 概念、原型、首次使用/运行成功。
评估: 可用性测试、启发式评估、认知走查。
量化/行为: 漏斗、队列、仪器化缺口、护栏。
研究运营: 接收、优先级排序、存储库/分类法、同意/个人身份信息处理。
人口统计研究: 年龄多样化、文化、可访问性参与者招募。
A/B测试: 实验设计、样本大小、分析、陷阱。

何时不使用此技能

UI实施 → 使用 software-ui-ux-design 用于组件、模式、代码
分析仪器化 → 使用 marketing-product-analytics 用于跟踪计划和 qa-observability 用于实施模式
可访问性合规性审核 → 使用可访问性特定检查表（WCAG一致性）
市场研究 → 使用 marketing-social-media 或相关市场技能
A/B测试平台设置 → 使用实验平台（Statsig, GrowthBook, LaunchDarkly）

操作模式（核心）

如果输入缺失，请询问：

解锁的决策（基于此研究将改变什么）。
目标角色/细分市场和顶级任务。
平台和上下文（网页/移动/桌面；远程/现场；辅助技术）。
现有证据（分析、票务、评论、录音、先前研究）。
约束（时间线、招募访问、合规性、预算）。

默认输出（选择用户要求的）：

研究计划 + 输出合同（首选 …/software-clean-code-standard/assets/checklists/ux-research-plan-template.md；使用 assets/research-plan-template.md 用于技能特定细节）
研究协议（任务/脚本 + 成功指标 + 招募计划）
发现报告（问题 + 严重性 + 证据 + 建议 + 置信度）
决策简报（选项 + 权衡 + 建议 + 测量计划）

方法选择器（核心）

研究类型（保持明确）

类型	目标	主要输出
发现	理解需求和上下文	工作任务完成、机会领域、约束
验证	降低解决方案风险	进行/不进行、优先级信号
评估	提高可用性/可访问性	严重性评级问题 + 修复

决策树（快速）

你需要什么？
  ├─ 为什么 / 需求 / 上下文 → 访谈、上下文查询、日记
  ├─ 如何 / 可用性 → 主持可用性测试、认知走查、启发式评估
  ├─ 什么 / 规模 → 分析/日志 + 针对性定性跟进
  └─ 哪个 / 因果 → 实验（如果可行）或偏好测试

方法选择表（实用）

问题	最佳方法	避免时	输出
什么问题最重要？	访谈、上下文查询、日记	仅调查/分析	问题框架 + 证据
用户能否完成关键任务？	主持可用性测试、任务分析	利益相关者评审	任务成功 + 问题列表
导航可找到吗？	树测试、首次点击、卡片排序	极小受众 [推断]	信息架构变更 + 标签
大规模发生了什么？	漏斗、队列、日志、支持分类法	仪器化缺失	基准 + 细分 + 流失
哪个变体表现更好？	A/B、切换回、保留组	功率不足或高风险	决策置信度 + 护栏

按产品阶段研究

阶段框架（何时做什么）

阶段	决策	主要方法	次要方法	输出
发现	构建什么和为谁	访谈、现场/日记、旅程映射	竞争分析、反馈挖掘	机会简报 + 工作任务完成
概念/最小可行产品	概念是否有效？	概念测试、原型可用性	首次点击/树测试	最小可行产品范围 + 首次使用计划
发布	是否可用 + 可访问？	可用性测试、可访问性评审	启发式评估、会话回放	发布阻塞 + 修复
增长	什么驱动采用/价值？	细分分析 + 定性跟进	流失访谈、调查	保留驱动因素 + 摩擦
成熟	优化/弃用什么？	实验、纵向跟踪	非主持测试	增量路线图

发布后测量（跟踪什么）

指标类别	回答什么	配对
采用	人们在使用吗？	结果/价值指标
价值	它帮助用户成功吗？	采用 + 定性原因
可靠性	用户注意到的失败方式？	错误率 + 恢复成功
可访问性	多样化用户能否完成流程？	辅助技术覆盖 + 缺陷趋势

复杂系统研究（工作流、管理、受监管）

复杂性指标

指标	示例	研究含义
多步骤工作流	草稿 → 批准 → 发布	任务分析 + 状态映射
多角色权限	管理员 vs 编辑 vs 查看者	测试每个角色 + 转换
数据依赖	需要集成/同步	错误路径 + 恢复测试
高风险	金融、医疗保健	安全检查 + 确认
专家用户	开发工具、分析	招募真实专家（非代理）

评估方法（核心）

上下文查询: 观察实际工作和约束。
任务分析: 映射目标 → 步骤 → 失败点。
认知走查: 评估可学习性和指示器。
错误路径测试: 超时、离线、部分数据、权限丢失、重试。
多角色走查: 模拟交接（创建者 → 评审者 → 管理员）。

多角色覆盖检查表

[ ] 角色-权限矩阵记录。
[ ] “无访问”用户体验定义（请求路径、最低权限默认）。
[ ] 跨角色交接测试（通知、状态变更、审计历史）。
[ ] 每个角色错误恢复测试（重试、撤销、升级）。

研究运营与治理（核心）

接收（使请求可比较）

最小必填字段：

解锁的决策和截止日期。
研究问题（主要 + 次要）。
目标用户/细分市场和招募约束。
现有证据和链接。
可交付格式 + 受众。

优先级排序（简单评分）

使用轻量级评分避免积压瘫痪：

决策影响
知识缺口
时间紧迫性
可行性（招募 + 时间）

存储库与分类法

存储每项研究：方法、日期、产品领域、角色、任务、关键发现、原始证据链接。
标签重用：问题类型（导航/表单/性能）、组件/模式、漏斗步骤。
偏好“原子”发现（每卡一个洞察）以支持重组 [推断]。

同意、个人身份信息和访问控制

遵循适用的隐私法律；GDPR是欧盟处理的主要参考 https://eur-lex.europa.eu/eli/reg/2016/679/oj

个人身份信息处理检查表：

[ ] 收集最小个人身份信息用于安排和激励。
[ ] 存储身份/联系信息与研究数据分开。
[ ] 在广泛共享前从转录中编辑姓名/电子邮件。
[ ] 限制原始录音为需知访问。
[ ] 记录同意、目的、保留和选择退出路径。

研究民主化（2026年趋势）

研究民主化是2026年反复趋势：非研究人员越来越多地进行研究。谨慎启用并设置护栏。

方法	护栏	风险级别
模板化可用性测试	提供脚本 + 任务模板	低
产品经理进行客户访谈	需要培训 + 评审	中
任何人设计调查	中央评审 + 标准问题	中
无监督研究	不推荐	高

非研究人员护栏：

[ ] 仅预批准研究模板
[ ] 行动前中央评审发现
[ ] 无运营批准不直接参与者招募
[ ] 强制性偏见意识培训
[ ] 意外发现清晰升级路径

测量与决策质量（核心）

研究投资回报率快速参考

研究活动	代理指标	计算
可用性测试发现	防止开发返工	节省小时 × $150/小时
发现访谈	防止构建错误事物	冲刺成本 × 风险降低 %
A/B测试决定性结果	改进转化	(Δ转化 × 流量 × 生命周期价值) - 测试成本
启发式评估	早期缺陷检测	发现缺陷 × 后期修复成本

经验法则：

1个可用性发现防止40小时返工 = $6,000价值
1个发现洞察防止1个浪费冲刺 = $50,000-100,000价值
研究改进100k访客 × $50生命周期价值上0.5%转化 = $25,000/月

三角测量评估表

置信度	证据要求	用于
高	多种方法或来源一致	高影响决策
中	一种方法强信号 + 支持指标	优先级排序
低	单一来源 / 小样本	探索性假设

采用 vs 价值（避免虚荣指标）

指标类型	示例	常见陷阱
采用	功能使用率	“使用” ≠ “有帮助”
价值/结果	任务成功、目标完成	更难以仪器化

何时不运行A/B测试

情况	为何失败	更好方法
低功率/流量	结果不确定	可用性测试 + 趋势
多变量变更	归因不可能	原型测试 → 分阶段推出
需要“为什么”	实验不解释	访谈 + 观察
伦理约束	有害拒绝	分阶段推出 + 保留组
长期效应	短期测试错过延迟影响	纵向 + 保留分析

常见混淆因素（早期指出）

选择偏差（仅高价值用户响应）。
幸存者偏差（错过流失用户）。
新颖性效应（短期提升）。
仪器化变更中测试（指标漂移）。

可选：AI/自动化研究考虑

仅当研究自动化/AI驱动功能时使用。传统软件用户体验跳过。

2026基准: 趋势报告持续强调AI辅助分析。使用AI加速，同时保持人类负责策略和解释。示例参考：https://www.lyssna.com/blog/ux-research-trends/

关键问题

维度	问题	方法
心智模型	用户认为系统能/不能做什么？	访谈、概念测试
信任校准	用户何时过度/不足依赖？	场景测试、日志评审
解释有用性	“为什么”帮助决策？	A/B解释变体、访谈
失败恢复	用户恢复并完成任务？	失败路径可用性测试

错误分类法（用户可见）

失败类型	典型影响	测量什么
错误输出	返工、失去信任	验证 + 覆盖率
缺失输出	手动备用	备用完成率
不清输出	混淆	澄清请求
不可恢复失败	阻塞流程	恢复时间、支持联系

可选：AI辅助研究运营（护栏）

仅个人身份信息编辑后使用自动化进行转录/标记。
维护审计跟踪：每个主题链接回原始引用/剪辑。

合成用户：何时适当（2026）

趋势报告频繁提到合成/AI参与者。使用明确边界。示例参考：https://www.lyssna.com/blog/ux-research-trends/

用例	适当？	原因
早期概念头脑风暴	警告：仅补充	生成边缘案例，非验证
场景/边缘案例扩展	通过是	真实测试前扩大覆盖
主持人培训/练习	通过是	练习无参与者负担
假设生成	通过是	探索方向以真实用户测试
验证/进行-不进行决策	失败从不	无法替代真实经验
可用性发现作为证据	失败从不	需要真实行为
报告中的引用	失败从不	伪造引用损害可信度

关键规则: 合成输出是假设，非证据。发货前始终用真实用户验证。

references/research-frameworks.md — 工作任务完成、Kano、双钻石、服务蓝图、机会映射
references/ux-audit-framework.md — 启发式评估、认知走查、严重性评级
references/usability-testing-guide.md — 任务设计、促进、分析
references/ux-metrics-framework.md — 任务指标、SUS/HEART、测量指南
references/customer-journey-mapping.md — 旅程映射和服务蓝图
references/pain-point-extraction.md — 反馈到主题方法
references/review-mining-playbook.md — B2B/B2C评论挖掘

人口统计与量化研究（新）：

references/demographic-research-methods.md — 包容性研究，针对老年人、儿童、文化、残疾
references/ab-testing-implementation.md — A/B测试深入（样本大小、分析、陷阱）

竞争用户体验分析与流程模式：

references/competitive-ux-analysis.md — 逐步流程模式来自行业领导者（Wise, Revolut, Shopify, Notion, Linear, Stripe） + 基准方法

数据与来源：

data/sources.json — 策划外部参考

领域特定用户体验基准

重要: 当设计特定领域的用户体验流程时，必须使用网络搜索查找并建议行业领导者的最佳实践模式。

触发条件

“我们正在为[领域]设计[流程类型]”
“[行业]中[功能]的最佳用户体验是什么？”
“[公司A, 公司B]如何处理[流程]？”
“将我们的[功能]与竞争对手基准”
任何具有可识别领域上下文的用户体验设计任务

领域 → 领导者查找表

领域	检查的行业领导者	关键流程
金融科技/银行	Wise, Revolut, Monzo, N26, Chime, Mercury	首次使用/KYC、转账、卡管理、支出分析
电子商务	Shopify, Amazon, Stripe结账	结账、购物车、产品页面、退货
SaaS/B2B	Linear, Notion, Figma, Slack, Airtable	首次使用、设置、协作、权限
开发工具	Stripe, Vercel, GitHub, Supabase	文档、API探索器、仪表板、CLI
消费应用	Spotify, Airbnb, Uber, Instagram	发现、预订、订阅、社交
医疗保健	Oscar, One Medical, Calm, Headspace	预约预订、记录、合规流程
教育科技	Duolingo, Coursera, Khan Academy	首次使用、进度、游戏化

必需搜索

当用户指定领域时，执行：

搜索: "[领域] UX最佳实践 2026"
搜索: "[领导者公司] [流程类型] UX"
搜索: "[领导者公司] 应用评论 UX" site:mobbin.com OR site:pageflows.com
搜索: "[领域] 首次使用流程示例"

报告内容

搜索后，提供：

模式示例: 来自2-3个行业领导者的截图/流程
识别的关键模式: 他们做得好之处（具体）
适用于您的流程: 如何调整模式
差异化机会: 您可以在领导者基础上改进之处

示例输出格式

领域: 金融科技（转账）
基准: Wise, Revolut

WISE模式:
- 前期费用透明度（在收件人输入前显示确切费用）
- 中转账率锁定（显示倒计时计时器）
- 每种支付方式的交付时间估计
- 收件人验证（发送前银行账户检查）

REVOLUT模式:
- 即时发送给Revolut用户（P2P优先）
- 货币转换预览与汇率比较
- 安排/重复转账突出

应用于您的流程:
1. 在步骤1添加费用透明度（非步骤3）
2. 显示每种支付通道的交付估计
3. 考虑FX转账的率锁定功能

差异化机会:
- 都不显示历史率图表—添加“现在是好时机吗？”上下文

趋势意识协议

重要: 当用户询问用户体验研究的推荐问题时，必须使用网络搜索检查当前趋势后再回答。

工具/趋势触发器

“什么是[用例]的最佳用户体验研究工具？”
“我应该使用什么进行[可用性测试/调查/分析]？”
“用户体验研究的最新动态是什么？”
“[用户访谈/A/B测试/可访问性]的当前最佳实践？”
“[研究方法]在2026年仍然相关吗？”
“我应该使用什么研究工具？”
“[远程研究/非主持测试]的最佳方法？”

工具/趋势搜索

搜索: "用户体验研究趋势 2026"
搜索: "用户体验研究工具最佳实践 2026"
搜索: "[Maze/Hotjar/UserTesting] 比较 2026"
搜索: "AI在用户体验研究 2026"

工具/趋势报告格式