名称: 研究合成工作流 描述: 从多个来源收集、分析和合成研究的系统化方法,形成连贯见解和可操作知识的方法论。 许可证: MIT
研究合成工作流
这个技能提供了一个系统化的方法,用于进行研究的收集、合成来自多个来源的发现,并生成可操作的知识艺术品。
核心能力
- 来源评估: 评估可信度、相关性和偏见
- 信息提取: 系统化的笔记记录和标注
- 合成方法: 主题分析、元分析、框架构建
- 知识艺术品: 报告、文献综述、决策框架
研究工作流概述
┌──────────────────────────────────────────────────────────────┐
│ 研究合成工作流 │
├──────────────────────────────────────────────────────────────┤
│ │
│ 1. 范围定义 2. 收集来源 3. 提取信息 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 定义 │─────▶│ 查找 │─────▶│ 捕获 │ │
│ │ 问题 │ │ 来源 │ │ 见解 │ │
│ └─────────┘ └─────────┘ └─────────┘ │
│ │ │ │
│ │ 5. 生成艺术品 4. 合成 │
│ │ ┌─────────┐ ┌─────────┐ │
│ └─────────▶│ 创建 │◀─────│ 连接 │ │
│ │ 艺术品 │ │ 主题 │ │
│ └─────────┘ └─────────┘ │
│ │
└──────────────────────────────────────────────────────────────┘
第一阶段: 范围定义
研究问题框架
将模糊话题转化为可回答的问题:
| 类型 | 模式 | 示例 |
|---|---|---|
| 探索性 | 什么是X? X如何工作? | 什么是向量搜索? |
| 比较性 | X与Y相比如何? | PostgreSQL与Neo4j在图数据库中的应用? |
| 评估性 | X对Y是否有效? | RAG对技术文档是否有效? |
| 因果性 | 什么导致X? X的影响是什么? | 什么导致LLM幻觉? |
| 指导性 | 我们如何实施X? | 如何设计RAG管道? |
范围边界
明确定义:
- 在范围内: 要涵盖的主题
- 不在范围内: 要排除的相邻主题
- 深度: 调查(广泛) vs 深度挖掘(狭窄)
- 时间界限: 来源的截止日期
- 来源类型: 学术、工业、原始数据
示例范围文档
## 研究范围: 向量数据库选择
### 研究问题
哪个向量数据库最适合我们要求<50ms延迟和1000万+向量的生产RAG系统?
### 在范围内
- Pinecone、Weaviate、Milvus、Qdrant、pgvector
- 大规模延迟基准测试
- 成本分析(云 vs 自托管)
- 操作复杂性
### 不在范围内
- 带向量扩展的通用数据库
- 少于100万向量的用例
- 仅限学术/研究的系统
### 成功标准
基于证据为2-3个顶级候选推荐
第二阶段: 来源收集
来源质量评估
评估每个来源:
| 标准 | 高质量 | 低质量 |
|---|---|---|
| 权威性 | 专家作者,同行评审 | 匿名,无凭据 |
| 时效性 | 近期,更新 | 过时,无日期 |
| 准确性 | 引用,可验证 | 未支持的主张 |
| 目的 | 信息,教育 | 销售,说服 |
| 覆盖范围 | 全面 | 肤浅 |
来源类型和用途
原始来源(原创)
├── 研究论文
├── 官方文档
├── 基准数据
└── 专家访谈
二手来源(分析)
├── 综述文章
├── 技术博客
├── 行业报告
└── 书籍章节
三手来源(摘要)
├── 维基百科
├── 教科书
└── 百科全书
搜索策略
关键词扩展:
- 起始: “向量数据库性能”
- 扩展: “近似最近邻”, “HNSW基准”, “嵌入搜索延迟”
引用链:
- 前向: 谁引用了这篇论文?
- 后向: 这篇论文引用了什么?
作者追踪:
- 找到关键研究人员,跟踪他们的工作
来源文档化
为每个来源捕获:
## 来源: [标题]
- **URL/DOI**:
- **作者**:
- **日期**:
- **类型**: [论文/博客/文档/报告]
- **质量分数**: [1-5]
- **相关性**: [高/中/低]
- **关键主题**:
- **笔记**:
第三阶段: 信息提取
结构化笔记记录
使用一致的模板进行提取:
## 主张: [具体断言]
- **来源**: [引用]
- **证据**: [支持数据/推理]
- **强度**: [强/中/弱]
- **我的评估**: [同意/不同意/不确定]
- **相关主张**: [链接到其他笔记]
证据分类
| 类型 | 描述 | 权重 |
|---|---|---|
| 经验性 | 测量数据,实验 | 高 |
| 分析性 | 逻辑推导 | 中-高 |
| 轶事性 | 案例研究,示例 | 中 |
| 专家意见 | 权威声明 | 中 |
| 理论性 | 模型预测 | 中-低 |
矛盾跟踪
当来源有分歧时:
## 冲突: [主题]
### 立场A: [主张]
- 来源: [列表]
- 证据: [摘要]
### 立场B: [主张]
- 来源: [列表]
- 证据: [摘要]
### 分析
- 方法论差异:
- 上下文差异:
- 可能的解决方案:
- 我的结论:
第四阶段: 合成
主题分析
- 编码 个别见解并标记
- 聚类 相关编码形成主题
- 审核 主题以确保连贯性
- 定义 每个主题清晰明确
- 关联 主题到研究问题
编码 主题 发现
├─ 快速查询 ─┐
├─ 低延迟 ─┼── 性能 ─┬── 主题1: 性能
├─ 高吞吐量 ─┘ │ 随工作负载类型
├─ 托管服务 ─┐ │ 显著变化
├─ 自托管 ─┼── 部署 ─┼── 主题2: 云与
├─ kubernetes ─┘ │ 自托管的权衡
├─ 定价层级 ─┐ │
├─ 计算成本 ─┼── 经济学 ─┴── 主题3: 总成本
├─ 隐藏成本 ─┘ 驱动最终选择
框架构建
从合成中创建决策框架:
## 向量数据库选择框架
### 决策树
1. 规模要求?
- <100万向量 → pgvector(简单性)
- 100万-1亿向量 → 继续到2
- >1亿向量 → Milvus/Weaviate(分布式)
2. 操作能力?
- 有限DevOps → Pinecone(托管)
- 强大DevOps → 继续到3
3. 成本敏感性?
- 预算有限 → Qdrant(开源)
- 预算灵活 → 评估所有选项
### 比较矩阵
| 标准 | 权重 | Pinecone | Milvus | Qdrant |
|-------------|------|----------|--------|--------|
| 延迟 | 30% | 4 | 5 | 4 |
| 可扩展性 | 25% | 5 | 5 | 4 |
| 操作 | 20% | 5 | 3 | 4 |
| 成本 | 15% | 2 | 4 | 5 |
| 功能 | 10% | 4 | 5 | 4 |
| **加权** | | **4.0** | **4.4**| **4.2**|
第五阶段: 知识艺术品生成
艺术品类型
| 格式 | 目的 | 受众 |
|---|---|---|
| 执行摘要 | 快速决策支持 | 领导层 |
| 技术报告 | 详细分析 | 工程师 |
| 文献综述 | 学术合成 | 研究人员 |
| 决策框架 | 结构化评估 | 决策者 |
| 参考指南 | 快速查找 | 实践者 |
结构模板
执行摘要 (1-2页):
- 背景和问题
- 关键发现 (3-5个要点)
- 推荐
- 风险和考虑
技术报告 (5-20页):
- 执行摘要
- 背景和范围
- 方法论
- 按主题的发现
- 分析和讨论
- 推荐
- 附录 (数据、来源)
质量检查清单
完成前检查:
- [ ] 研究问题是否已回答?
- [ ] 所有主张是否有证据支持?
- [ ] 矛盾是否已解决?
- [ ] 局限性是否已承认?
- [ ] 是否有可操作的推荐?
- [ ] 来源是否正确引用?
- [ ] 是否适合受众?
最佳实践
避免偏见
- 主动寻求反驳证据
- 包含多种观点
- 注意你的先验并更新它们
- 分离观察和解释
- 透明记录方法论
管理范围蔓延
- 频繁回顾研究问题
- 将有趣但无关的放入"未来研究"
- 为每个阶段设定时间限制
- 事先定义"足够好"的标准
迭代
研究很少是线性的:
- 新来源可能需要范围调整
- 合成可能揭示需要更多收集的空白
- 艺术品可能需要多次草稿
参考
references/evaluation-rubrics.md- 来源质量评分指南references/synthesis-methods.md- 详细合成技术references/artifact-templates.md- 文档模板和示例