PoL探针选择顾问Skill pol-probe-advisor

本技能是一个交互式工具,用于指导产品经理基于假设、风险和资源选择正确的Proof of Life (PoL)探针类型,以有效验证学习目标,避免方法-假设不匹配。关键词:PoL探针、验证方法、产品管理、假设测试、快速验证、风险消除、原型测试。

原型设计 0 次安装 0 次浏览 更新于 3/18/2026

名称: pol-probe-advisor 描述: 基于假设、风险和资源选择正确的Proof of Life (PoL)探针。使用此技能将验证方法与真实学习目标匹配,而不是工具舒适度。 类型: 交互式

目的

引导产品经理选择正确的Proof of Life (PoL)探针类型(共5种风味),基于他们的假设、风险和可用资源。当您需要消除特定风险或测试狭窄假设,但不确定使用哪种验证方法时使用此技能。这个交互式技能确保您将最便宜的模型匹配到最严酷的真相——而不是您最舒适构建的模型。

不是一个决定是否应该验证的工具(您应该验证)。它是一个选择如何最有效验证的决策框架。

关键概念

核心问题:方法-假设不匹配

常见失败模式: 产品经理基于工具舒适度(“我会Figma,所以我会设计一个原型”)选择验证方法,而不是学习目标。结果:验证错误的东西,错过实际风险。

解决方案: 从假设反向工作。问:“我消除的具体风险是什么?通向严酷真相的最便宜路径是什么?”


5种PoL探针风味(快速参考)

类型 核心问题 最适合 时间线
可行性检查 “我们能构建这个吗?” 技术未知、API依赖、数据完整性 1-2天
任务聚焦测试 “用户能无摩擦地完成这项工作吗?” 关键UI时刻、字段标签、决策点 2-5天
叙事原型 “这个工作流程能获得利益相关者支持吗?” 讲故事、解释复杂流程、对齐 1-3天
合成数据模拟 “我们能否在不冒生产风险的情况下建模这个?” 边缘情况、未知的未知、统计建模 2-4天
氛围编码PoL探针 “这个解决方案能在真实用户接触中存活吗?” 工作流程/UX验证与真实交互 2-3天

黄金规则: “使用最便宜的模型,讲述最严酷的真相。”


反模式(这什么不是)

  • 不是"构建您最舒适的模型": 将方法匹配到假设,而不是技能集
  • 不是"基于利益相关者偏好选择": 优化学习,而不是内部政治
  • 不是"选择最令人印象深刻的选项": 令人印象深刻≠信息丰富
  • 不是"默认编码": 编写代码应该是您的最后手段,而不是首选

何时使用此技能

使用此时:

  • 您有清晰的假设但不知道使用哪种验证方法
  • 您不确定是否构建代码、创建视频或运行模拟
  • 您需要快速消除特定风险(几天内)
  • 您想避免原型剧场

不使用此时:

  • 您还没有假设(首先使用problem-statement.mdproblem-framing-canvas.md
  • 您试图打动高管(那不是验证)
  • 您已经知道答案(确认偏误)
  • 您需要发布MVP(这是预MVP侦察)

促进真相来源

使用workshop-facilitation作为此技能的默认交互协议。

它定义:

  • 会话提示+进入模式(引导式、上下文转储、最佳猜测)
  • 单问题轮次与简明语言提示
  • 进度标签(例如,上下文Qx/8和评分Qx/5)
  • 中断处理和暂停/恢复行为
  • 决策点的编号推荐
  • 常规问题的快速选择编号响应选项(当有用时包括其他(指定)

此文件定义特定领域评估内容。如有冲突,遵循此文件的领域逻辑。

应用

此交互式技能使用自适应提问基于您的上下文推荐正确的PoL探针类型。


步骤0:收集上下文

代理问:

让我们找出哪种PoL探针类型适合您的验证需求。首先,我需要一些上下文:

1. 您测试的假设是什么? (用一句话描述,或使用"如果[我们做X]为[人物],那么[结果]"格式)

2. 您试图消除的具体风险是什么? 示例:

  • 技术可行性(“我们的API能处理实时数据吗?”)
  • 用户任务完成(“用户能找到’导出’按钮吗?”)
  • 利益相关者对齐(“领导会批准这个方向吗?”)
  • 边缘情况行为(“系统如何处理重复条目?”)
  • 工作流程验证(“用户会完成3步入职吗?”)

3. 您的时间线是什么?

  • 小时(当天验证)
  • 1-2天(快速冲刺)
  • 3-5天(中等努力)
  • 1周+(太长—考虑分解成更小的探针)

4. 您有哪些可用资源? 示例:

  • 工程容量(1名开发人员1天)
  • 设计工具(Figma、Loom、Sora)
  • AI/无代码工具(ChatGPT Canvas、Replit、Airtable)
  • 用户访问(10名等待列表用户、5名beta客户等)
  • 预算(用于UsabilityHub、Optimal Workshop等)

步骤1:识别核心问题

代理综合用户输入并问:

基于您的假设和风险,您真正试图回答哪个核心问题?

提供5个选项(与探针类型对齐):

  1. “我们能构建这个吗?” — 您不确定技术可行性、API集成、数据可用性或第三方依赖
  2. “用户能无摩擦地完成这项工作吗?” — 您正在验证关键UI时刻、字段标签、导航或决策点
  3. “这个工作流程能获得利益相关者支持吗?” — 您需要解释复杂流程、对齐领导或"讲述vs.测试"故事
  4. “我们能否在不冒生产风险的情况下建模这个?” — 您需要探索边缘情况、模拟用户行为或安全测试提示逻辑
  5. “这个解决方案能在真实用户接触中存活吗?” — 您需要用户与半功能工作流程交互以捕获UX/工作流程问题

用户响应: [选择一个数字,或描述如果不适合]


步骤2:推荐PoL探针类型

基于用户选择,代理推荐匹配的探针类型:


选项1选择:“我们能构建这个吗?”

推荐探针:可行性检查

这是什么: 一个1-2天的冲刺-删除测试,以揭示技术风险。不是要打动任何人—是要快速揭示障碍。

方法:

  • GenAI提示链(测试AI能否处理您的用例)
  • API嗅探测试(验证第三方集成工作)
  • 数据完整性扫描(检查您的数据是否支持功能)
  • 第三方工具评估(测试Zapier/Stripe/Twilio是否如您所想)

时间线: 1-2天

工具:

  • ChatGPT/Claude(提示测试)
  • Postman/Insomnia(API测试)
  • Jupyter笔记本(数据探索)
  • 概念验证脚本(可丢弃代码)

成功标准示例:

  • 通过: API在<200毫秒内返回预期数据格式
  • 失败: API超时,或数据结构与我们模式不兼容
  • 学习: 识别具体技术障碍

处理计划: 在记录发现后删除所有冲刺代码。

下一步: 您希望我生成一个pol-probe工件记录此可行性检查吗?


选项2选择:“用户能无摩擦地完成这项工作吗?”

推荐探针:任务聚焦测试

这是什么: 使用专门测试工具验证关键时刻—字段标签、决策点、导航、流失区。聚焦于可观察的任务完成,而不是意见。

方法:

  • Optimal Workshop(树测试、卡片排序)
  • UsabilityHub(5秒测试、点击测试、偏好测试)
  • Maze(原型测试与热图)
  • Loom记录的任务演练(要求用户"大声思考")

时间线: 2-5天

工具:

  • Optimal Workshop(200美元/月)
  • UsabilityHub(100-300美元/月)
  • Maze(有免费层)
  • Loom(基础免费)

成功标准示例:

  • 通过: 80%+用户在<2分钟内完成任务
  • 失败: <60%完成,或3+用户在同一步骤卡住
  • 学习: 识别确切摩擦点(具体字段、按钮等)

处理计划: 存档会话记录,记录学习,删除测试原型。

下一步: 您希望我生成一个pol-probe工件记录此任务聚焦测试吗?


选项3选择:“这个工作流程能获得利益相关者支持吗?”

推荐探针:叙事原型

这是什么: 讲述故事,不要测试界面。使用视频演练或幻灯片故事板解释工作流程并衡量兴趣。这是"讲述vs.测试"—您正在验证叙事,而不是UI。

方法:

  • Loom演练(屏幕录制与语音解说)
  • Sora/Synthesia/Veo3(AI生成的解释视频)
  • 幻灯片故事板(PowerPoint/Keynote与插图)
  • 故事板草图(使用storyboard.md组件技能)

时间线: 1-3天

工具:

  • Loom(免费、快速)
  • Sora/Synthesia(文本到视频、付费)
  • PowerPoint/Keynote(幻灯片动画)
  • Figma(静态故事板帧)

成功标准示例:

  • 通过: 8/10利益相关者说"我会用这个"或"这解决了问题"
  • 失败: 利益相关者问"为什么我会用这个?"或建议替代方法
  • 学习: 识别叙事中哪部分引起共鸣(或不)

处理计划: 存档视频,记录反馈,删除支持文件。

下一步: 您希望我生成一个pol-probe工件记录此叙事原型吗?


选项4选择:“我们能否在不冒生产风险的情况下建模这个?”

推荐探针:合成数据模拟

这是什么: 使用模拟用户、合成数据或提示逻辑测试探索边缘情况和未知的未知,而不触及生产。想想"风洞测试,比事后分析更便宜。"

方法:

  • Synthea(合成患者数据生成)
  • DataStax LangFlow(测试提示逻辑而无真实用户)
  • 蒙特卡洛模拟(模型概率结果)
  • 合成用户行为脚本(模拟点击模式、负载测试)

时间线: 2-4天

工具:

  • Synthea(开源、医疗)
  • DataStax LangFlow(提示链测试)
  • Python + Faker库(生成合成数据)
  • Locust/k6(合成用户负载测试)

成功标准示例:

  • 通过: 系统处理10,000名合成用户,错误率<1%
  • 失败: 边缘情况导致崩溃或错误输出
  • 学习: 识别哪些边缘情况破坏系统

处理计划: 删除合成数据,存档发现,记录边缘情况。

下一步: 您希望我生成一个pol-probe工件记录此合成数据模拟吗?


选项5选择:“这个解决方案能在真实用户接触中存活吗?”

推荐探针:氛围编码PoL探针

这是什么: 一个弗兰肯软件堆栈(ChatGPT Canvas + Replit + Airtable),创建足够幻象让用户与半功能工作流程交互。不是生产级—只够在48小时内捕获UX/工作流程信号。

⚠️ 警告: 这是最冒险的探针类型。它看起来足够真实,可能混淆势头与成熟度。仅当您需要真实用户接触且其他方法不足时使用。

方法:

  • ChatGPT Canvas(快速UI生成)
  • Replit(托管可丢弃代码)
  • Airtable(假数据库)
  • Carrd/Webflow(落地页+工作流程模型)

时间线: 2-3天

堆栈示例:

  • ChatGPT Canvas:生成表单UI
  • Replit:托管简单Flask/Node应用
  • Airtable:捕获表单提交
  • Loom:记录用户会话用于事后分析

成功标准示例:

  • 通过: 8/10用户完成工作流程,0关键困惑时刻
  • 失败: 用户卡住、问"这个坏了吗?"、或中途放弃
  • 学习: 识别用户失去信心的确切步骤

处理计划: 用户会话后删除所有代码,存档Loom记录,记录学习。

下一步: 您希望我生成一个pol-probe工件记录此氛围编码探针吗?


步骤3:应用组件技能

代理提供:

我推荐使用**[选定探针类型]** 进行您的假设。您希望我:

  1. 生成一个完整的pol-probe工件(使用pol-probe.md模板)包含您的假设、成功标准、时间线和处理计划?
  2. 逐步执行此探针类型的执行步骤(工具、方法、用户招募)?
  3. 在继续之前优化假设(如果看起来太宽泛或模糊)?

用户选择选项,代理相应执行。


步骤4:优化或迭代(可选)

如果用户不确定或假设太宽泛:

代理问:

您的假设看起来宽泛或同时测试多个事物。PoL探针在狭窄和可证伪时效果最佳。让我问几个澄清问题:

澄清问题:

  1. 您能先测试的最小事情是什么?(隔离一个变量)
  2. "失败"会是什么样子?(如果您无法描述失败,就无法衡量成功)
  3. 这测试用户行为、技术可行性还是利益相关者对齐?(选择一个焦点)

代理然后基于优化假设重新推荐探针类型。


示例

示例1:选择任务聚焦测试

用户上下文:

  • 假设: “用户能在3分钟内完成我们的结账流程”
  • 风险: 移动端高购物车放弃率
  • 时间线: 3天
  • 资源: UsabilityHub账户,20名等待列表用户

代理推理:

  • 核心问题:“用户能无摩擦地完成这项工作吗?”
  • 风险是任务完成(可观察行为),而不是技术可行性
  • 时间线适合任务聚焦测试(2-5天)

推荐: 使用UsabilityHub的任务聚焦测试

  • 方法:与移动用户的Maze原型测试
  • 成功标准:80%+在<3分钟内完成结账
  • 处理:分析热图后删除原型

示例2:选择可行性检查

用户上下文:

  • 假设: “我们能使用GPT-4自动标记支持票,错误率<5%”
  • 风险: 未知AI是否能处理行业特定术语
  • 时间线: 1天
  • 资源: 100张历史支持票,ChatGPT API访问

代理推理:

  • 核心问题:“我们能构建这个吗?”
  • 风险是技术可行性(AI能力),而不是用户行为
  • 时间线短(1天=冲刺领域)

推荐: 使用提示工程冲刺的可行性检查

  • 方法:通过GPT-4提示链运行100张票,测量错误率
  • 成功标准:<5%错误分类票
  • 处理:记录发现后删除冲刺代码

结果: 错误率是18%。决定不构建功能。节省6周开发时间。


示例3:选择叙事原型(不是氛围编码)

用户上下文:

  • 假设: “企业买家会理解我们的多租户安全模型”
  • 风险: 复杂技术概念需要解释
  • 时间线: 2天
  • 资源: Loom,5名企业潜在客户

代理推理:

  • 核心问题:“这个工作流程能获得利益相关者支持吗?”
  • 风险是理解/对齐,而不是任务完成
  • 构建功能原型会过度投资(2天=只需解释它)

推荐: 使用Loom演练的叙事原型

  • 方法:5分钟Loom用图表解释安全模型
  • 成功标准:4/5潜在客户说"我理解这个"无后续问题
  • 处理:5次会话后存档视频

为什么不是氛围编码探针: 您不需要用户与安全设置交互—您需要他们理解概念。叙事更便宜、更快。


示例4:避免原型剧场

用户上下文:

  • 假设: “高管会批准预算,如果我们展示一个抛光演示”
  • 风险: 内部政治
  • 时间线: 3周
  • 资源: 完整设计团队

代理响应:

⚠️ 这是原型剧场,不是PoL探针。

您正在测试内部政治,而不是用户行为或技术可行性。PoL探针消除产品风险,而不是组织风险。

推荐: 完全跳过原型。相反:

  1. 使用叙事原型(1天Loom演练)解释概念
  2. 5名目标用户(不是高管)测试以验证假设
  3. 向高管展示用户反馈,而不是抛光演示

如果高管需要演示,在您用真实用户验证假设后构建它。


常见陷阱

1. 基于工具舒适度选择

失败模式: “我会Figma,所以我会设计UI原型”(即使设计不是风险)。

后果: 验证错误的东西;错过实际风险。

修复: 先回答核心问题,然后选择方法。如果您需要可行性检查但只懂设计工具,与工程师配对1天。


2. 默认编码

失败模式: “让我们构建它,看看发生什么。”

后果: 2周开发后才发现您测试了错误假设。

修复: 问:“最便宜的模型,讲述最严酷的真相是什么?” 通常不是代码。


3. 混淆氛围编码探针与MVP

失败模式: 氛围编码探针"看起来真实",所以团队将其视为生产代码。

后果: 范围蔓延、技术债务、抵制处理。

修复: 构建前设置处理日期。氛围编码探针设计为弗兰肯软件—庆祝杂乱,学习后删除。


4. 同时测试多个事物

失败模式: “让我们在一个探针中测试工作流程、定价和UI。”

后果: 模糊结果—您不会知道哪个变量导致失败。

修复: 一个探针,一个假设。如果您有3个假设,运行3个探针。


5. 跳过成功标准

失败模式: “我们看到了就知道了。”

后果: 没有严酷真相—只有意见和虚荣指标。

修复: 构建前编写成功标准。定义"通过"、"失败"和"学习"阈值。


参考

相关技能

外部框架

按探针类型的工具

  • 可行性: ChatGPT/Claude、Postman、Jupyter
  • 任务聚焦: Optimal Workshop、UsabilityHub、Maze
  • 叙事: Loom、Sora、Synthesia、PowerPoint
  • 合成数据: Synthea、DataStax LangFlow、Faker
  • 氛围编码: ChatGPT Canvas、Replit、Airtable、Carrd