name: research-discovery-execution description: 为在学术资源中寻找研究论文而执行和监控发现会话。在运行发现搜索时使用。

研究论文发现执行

系统地执行发现搜索并监控其进度，以找到相关的研究论文。

快速开始：运行发现

最常见用途：用户需要从学术资源中查找特定主题的论文。

标准执行流程

用户请求："查找2024年关于量子纠错的论文"

步骤1：验证研究问题是否存在
- 使用 list_research_questions
- 如果不存在，告知协调器先创建一个

步骤2：运行发现
- 使用 run_discovery_for_question
- 指定问题ID或名称
- 设置参数（日期范围、来源）

步骤3：监控进度
- 用状态更新 workflow_state
- 检查错误或超时
- 提供进度更新

步骤4：返回结果
- 每个来源找到的论文数量
- 顶级论文摘要
- 质量指标（相关性分数）

发现工作流

阶段1：验证

运行发现前，验证：

研究问题存在
来源可用
参数有效
没有重复的近期搜索

检查现有研究问题：
questions = list_research_questions()

如果问题未找到：
"该研究问题尚未创建。协调器应首先使用 research-question-creation 技能创建它。"

如果问题存在但最近运行过：
"此发现已在2小时前运行。找到了45篇论文。
您想再次运行还是使用现有结果？"

阶段2：执行

使用适当的参数运行发现：

run_discovery_for_question(
    question_id="...",
    force_refresh=False,  # 设置为 True 以忽略缓存
    max_results=100,      # 每个来源的限制
    min_relevance=0.7     # 质量阈值
)

检查的来源（按顺序）：

arXiv（快速，高质量）
Semantic Scholar（全面）
PubMed（生物医学重点）
CrossRef（广泛覆盖）
bioRxiv（预印本）

阶段3：监控

执行期间更新 workflow_state：

初始：
"发现状态：正在启动
来源：arXiv, Semantic Scholar, PubMed
预计时间：1-2分钟"

期间：
"发现状态：进行中
arXiv：找到23篇论文（完成）
Semantic Scholar：找到15篇论文（进行中）
PubMed：待处理
已用时间：45秒"

完成：
"发现状态：完成
总论文数：52
来源：arXiv (23), Semantic Scholar (18), PubMed (11)
持续时间：118秒
质量：38篇论文高于相关性阈值"

阶段4：结果处理

分析和总结结果：

对于每个来源：
- 找到的论文数量
- 质量分布（高/中/低相关性）
- 覆盖的日期范围
- 按相关性分数排序的顶级论文

总体：
- 总唯一论文数（跨来源去重）
- 达到质量阈值的论文
- 建议的后续步骤

错误处理

常见错误及解决方案

错误：“来源超时”

问题：arXiv 耗时 >60 秒
解决方案：继续其他来源
操作："arXiv 超时，但从 Semantic Scholar 和 PubMed 找到了33篇论文。
         您想重试 arXiv 还是继续处理这些？"

错误：“未找到论文”

问题：搜索范围太窄或没有匹配的论文
解决方案：建议扩大搜索范围
操作："未找到符合这些标准的论文。建议：
         - 扩大日期范围（尝试最近2年而不是6个月）
         - 添加相关关键词
         - 尝试不同的来源"

错误：“超出速率限制”

问题：对来源的请求过多
解决方案：等待并重试，或跳过来源
操作："在 Semantic Scholar 上达到速率限制。等待30秒...
         同时，从 arXiv 找到了20篇论文。"

错误：“无效的研究问题”

问题：研究问题格式错误或缺失
解决方案：告知协调器修复/创建问题
操作："需要创建或修复研究问题。正在委托回协调器..."

质量阈值

过滤策略

默认：返回所有 >0.6 相关性的论文
严格模式：仅 >0.8 相关性
探索模式：所有 >0.4 相关性的论文

示例：
总共找到80篇论文：
- 25篇高质量 (>0.8)
- 35篇中等质量 (0.6-0.8)
- 20篇低质量 (<0.6)

推荐：呈现高质量 + 中等质量（60篇论文）

来源特定说明

arXiv

最适合：计算机科学、物理学、数学
速度：快速（10-30秒）
质量：高（同行评审的预印本）
限制：无生物医学论文

Semantic Scholar

最适合：跨领域的全面覆盖
速度：中等（30-60秒）
质量：可变（包括预印本和期刊）
优势：优秀的引用数据

PubMed

最适合：生物医学和生命科学
速度：中等（20-40秒）
质量：高（同行评审期刊）
限制：仅限生物医学主题

CrossRef

最适合：基于DOI的查找，广泛覆盖
速度：慢（60-120秒）
质量：可变
用例：其他来源的备用方案

bioRxiv

最适合：最新的生物医学预印本
速度：快速（15-30秒）
质量：中等（未经同行评审）
优势：前沿研究

高级模式

模式A：增量发现

对于大型搜索，分批运行：

批次1：最近6个月（快速）
→ 审查结果
→ 如果不足，扩展到1年
批次2：6-12个月前
→ 与批次1合并
→ 如果仍然不足，扩展到2年

模式B：多阶段发现

对于复杂主题：

阶段1：核心关键词（窄）
→ 获取基础论文

阶段2：相关关键词（宽）
→ 寻找联系和背景

阶段3：引用扩展
→ 阶段1论文引用的论文

模式C：来源优先级排序

基于主题：

计算机科学主题：
优先级：arXiv > Semantic Scholar > CrossRef

生物医学主题：
优先级：PubMed > bioRxiv > Semantic Scholar

跨学科：
优先级：Semantic Scholar > arXiv > PubMed

性能优化

并行来源查询

可以并行查询来源：

同时启动所有来源：
- arXiv 查询（异步）
- Semantic Scholar 查询（异步）
- PubMed 查询（异步）

在完成时返回结果：
"arXiv：找到23篇论文（15秒）"
"Semantic Scholar：仍在搜索中..."
"PubMed：找到11篇论文（22秒）"

缓存策略

缓存结果24小时：
- 相同的研究问题
- 相同的参数
- 24小时内

跳过缓存如果：
- force_refresh=True
- 用户明确要求新搜索
- 预期有重要新论文（会议刚结束）

结果格式化

始终提供结构化结果：

=== 发现结果 ===

**摘要：**
- 总论文数：52
- 高质量：25篇论文
- 日期范围：2024年1月 - 2025年1月
- 持续时间：118秒

**按来源：**
1. arXiv：23篇论文（10-30秒搜索时间）
2. Semantic Scholar：18篇论文（45秒搜索时间）
3. PubMed：11篇论文（25秒搜索时间）

**前5篇论文：**
1. "Quantum Error Correction with..."（相关性：0.95，150次引用）
2. "Surface Codes for Fault-Tolerant..."（相关性：0.92，120次引用）
3. ...

**质量分布：**
- 高 (>0.8)：25篇论文
- 中 (0.6-0.8)：20篇论文
- 低于阈值 (<0.6)：7篇论文（已过滤）

**后续步骤：**
您希望我：
- 为高质量论文下载PDF吗？
- 运行引用分析吗？
- 创建阅读清单吗？

与工作流状态集成

在发现期间始终更新 workflow_state：

开始：
workflow_state："已开始为量子纠错进行发现"

进度：
workflow_state："发现完成50%，目前找到30篇论文"

完成：
workflow_state："发现完成：在118秒内找到52篇论文"

更新 active_papers 内存：
"待下载的论文：[论文ID列表]"

更新 research_context：
"当前研究：量子纠错
最新发现：2025年1月，52篇论文"

快速参考

发现清单

[ ] 研究问题存在
[ ] 来源对主题有效
[ ] 参数已设置（日期范围，最大结果）
[ ] workflow_state 已更新（开始）
[ ] 运行发现
[ ] 监控进度
[ ] 优雅处理错误
[ ] workflow_state 已更新（进度）
[ ] 处理和过滤结果
[ ] 更新内存块
[ ] workflow_state 已更新（完成）
[ ] 格式化和返回结果

常见参数

标准搜索：
- 日期范围：最近2年
- 最大结果：每个来源100
- 最小相关性：0.7

快速搜索：
- 日期范围：最近6个月
- 最大结果：每个来源50
- 最小相关性：0.8

全面搜索：
- 日期范围：最近5年
- 最大结果：每个来源200
- 最小相关性：0.6

总结

您作为发现侦察员的工作：

验证研究问题是否存在
跨相关来源运行发现
监控进度并处理错误
按质量阈值过滤结果
更新 workflow_state 和内存块
格式化和返回结构化结果
建议后续步骤

关键原则：

始终首先检查问题是否存在
在整个过程中更新 workflow_state
优雅处理来源失败
按质量阈值过滤
提供结构化、可操作的结果

成功指标：用户快速获得高质量、相关的论文，并具有清晰的后续步骤选项。

研究论文发现执行Skill research-discovery-execution