研究论文发现执行 research-discovery-execution

本技能用于在学术数据库中自动执行和监控研究论文的发现搜索。它通过验证研究问题、并行查询多个学术来源(如arXiv、Semantic Scholar、PubMed)、监控搜索进度、处理错误、按相关性阈值过滤结果,并提供结构化的论文摘要和后续步骤建议,帮助研究人员高效获取高质量、最新的学术文献。关键词:学术论文搜索,文献检索,研究助手,AI学术发现,论文查找,文献综述,科研工具,学术资源整合。

文献检索 0 次安装 0 次浏览 更新于 2/26/2026

name: research-discovery-execution description: 为在学术资源中寻找研究论文而执行和监控发现会话。在运行发现搜索时使用。

研究论文发现执行

系统地执行发现搜索并监控其进度,以找到相关的研究论文。

快速开始:运行发现

最常见用途:用户需要从学术资源中查找特定主题的论文。

标准执行流程

用户请求:"查找2024年关于量子纠错的论文"

步骤1:验证研究问题是否存在
- 使用 list_research_questions
- 如果不存在,告知协调器先创建一个

步骤2:运行发现
- 使用 run_discovery_for_question
- 指定问题ID或名称
- 设置参数(日期范围、来源)

步骤3:监控进度
- 用状态更新 workflow_state
- 检查错误或超时
- 提供进度更新

步骤4:返回结果
- 每个来源找到的论文数量
- 顶级论文摘要
- 质量指标(相关性分数)

发现工作流

阶段1:验证

运行发现前,验证:

  1. 研究问题存在
  2. 来源可用
  3. 参数有效
  4. 没有重复的近期搜索
检查现有研究问题:
questions = list_research_questions()

如果问题未找到:
"该研究问题尚未创建。协调器应首先使用 research-question-creation 技能创建它。"

如果问题存在但最近运行过:
"此发现已在2小时前运行。找到了45篇论文。
您想再次运行还是使用现有结果?"

阶段2:执行

使用适当的参数运行发现:

run_discovery_for_question(
    question_id="...",
    force_refresh=False,  # 设置为 True 以忽略缓存
    max_results=100,      # 每个来源的限制
    min_relevance=0.7     # 质量阈值
)

检查的来源(按顺序):

  1. arXiv(快速,高质量)
  2. Semantic Scholar(全面)
  3. PubMed(生物医学重点)
  4. CrossRef(广泛覆盖)
  5. bioRxiv(预印本)

阶段3:监控

执行期间更新 workflow_state:

初始:
"发现状态:正在启动
来源:arXiv, Semantic Scholar, PubMed
预计时间:1-2分钟"

期间:
"发现状态:进行中
arXiv:找到23篇论文(完成)
Semantic Scholar:找到15篇论文(进行中)
PubMed:待处理
已用时间:45秒"

完成:
"发现状态:完成
总论文数:52
来源:arXiv (23), Semantic Scholar (18), PubMed (11)
持续时间:118秒
质量:38篇论文高于相关性阈值"

阶段4:结果处理

分析和总结结果:

对于每个来源:
- 找到的论文数量
- 质量分布(高/中/低相关性)
- 覆盖的日期范围
- 按相关性分数排序的顶级论文

总体:
- 总唯一论文数(跨来源去重)
- 达到质量阈值的论文
- 建议的后续步骤

错误处理

常见错误及解决方案

错误:“来源超时”

问题:arXiv 耗时 >60 秒
解决方案:继续其他来源
操作:"arXiv 超时,但从 Semantic Scholar 和 PubMed 找到了33篇论文。
         您想重试 arXiv 还是继续处理这些?"

错误:“未找到论文”

问题:搜索范围太窄或没有匹配的论文
解决方案:建议扩大搜索范围
操作:"未找到符合这些标准的论文。建议:
         - 扩大日期范围(尝试最近2年而不是6个月)
         - 添加相关关键词
         - 尝试不同的来源"

错误:“超出速率限制”

问题:对来源的请求过多
解决方案:等待并重试,或跳过来源
操作:"在 Semantic Scholar 上达到速率限制。等待30秒...
         同时,从 arXiv 找到了20篇论文。"

错误:“无效的研究问题”

问题:研究问题格式错误或缺失
解决方案:告知协调器修复/创建问题
操作:"需要创建或修复研究问题。正在委托回协调器..."

质量阈值

相关性评分

论文根据以下因素评分 0.0-1.0:

  • 标题/摘要关键词匹配(40%)
  • 语义相似性(30%)
  • 引用次数(20%)
  • 出版场所(10%)

阈值:

  • 高质量:>0.8 - 高度相关,引用良好
  • 中等质量:0.6-0.8 - 相关,引用尚可
  • 低质量:<0.6 - 略微相关

过滤策略

默认:返回所有 >0.6 相关性的论文
严格模式:仅 >0.8 相关性
探索模式:所有 >0.4 相关性的论文

示例:
总共找到80篇论文:
- 25篇高质量 (>0.8)
- 35篇中等质量 (0.6-0.8)
- 20篇低质量 (<0.6)

推荐:呈现高质量 + 中等质量(60篇论文)

来源特定说明

arXiv

  • 最适合:计算机科学、物理学、数学
  • 速度:快速(10-30秒)
  • 质量:高(同行评审的预印本)
  • 限制:无生物医学论文

Semantic Scholar

  • 最适合:跨领域的全面覆盖
  • 速度:中等(30-60秒)
  • 质量:可变(包括预印本和期刊)
  • 优势:优秀的引用数据

PubMed

  • 最适合:生物医学和生命科学
  • 速度:中等(20-40秒)
  • 质量:高(同行评审期刊)
  • 限制:仅限生物医学主题

CrossRef

  • 最适合:基于DOI的查找,广泛覆盖
  • 速度:慢(60-120秒)
  • 质量:可变
  • 用例:其他来源的备用方案

bioRxiv

  • 最适合:最新的生物医学预印本
  • 速度:快速(15-30秒)
  • 质量:中等(未经同行评审)
  • 优势:前沿研究

高级模式

模式A:增量发现

对于大型搜索,分批运行:

批次1:最近6个月(快速)
→ 审查结果
→ 如果不足,扩展到1年
批次2:6-12个月前
→ 与批次1合并
→ 如果仍然不足,扩展到2年

模式B:多阶段发现

对于复杂主题:

阶段1:核心关键词(窄)
→ 获取基础论文

阶段2:相关关键词(宽)
→ 寻找联系和背景

阶段3:引用扩展
→ 阶段1论文引用的论文

模式C:来源优先级排序

基于主题:

计算机科学主题:
优先级:arXiv > Semantic Scholar > CrossRef

生物医学主题:
优先级:PubMed > bioRxiv > Semantic Scholar

跨学科:
优先级:Semantic Scholar > arXiv > PubMed

性能优化

并行来源查询

可以并行查询来源:

同时启动所有来源:
- arXiv 查询(异步)
- Semantic Scholar 查询(异步)
- PubMed 查询(异步)

在完成时返回结果:
"arXiv:找到23篇论文(15秒)"
"Semantic Scholar:仍在搜索中..."
"PubMed:找到11篇论文(22秒)"

缓存策略

缓存结果24小时:
- 相同的研究问题
- 相同的参数
- 24小时内

跳过缓存如果:
- force_refresh=True
- 用户明确要求新搜索
- 预期有重要新论文(会议刚结束)

结果格式化

始终提供结构化结果:

=== 发现结果 ===

**摘要:**
- 总论文数:52
- 高质量:25篇论文
- 日期范围:2024年1月 - 2025年1月
- 持续时间:118秒

**按来源:**
1. arXiv:23篇论文(10-30秒搜索时间)
2. Semantic Scholar:18篇论文(45秒搜索时间)
3. PubMed:11篇论文(25秒搜索时间)

**前5篇论文:**
1. "Quantum Error Correction with..."(相关性:0.95,150次引用)
2. "Surface Codes for Fault-Tolerant..."(相关性:0.92,120次引用)
3. ...

**质量分布:**
- 高 (>0.8):25篇论文
- 中 (0.6-0.8):20篇论文
- 低于阈值 (<0.6):7篇论文(已过滤)

**后续步骤:**
您希望我:
- 为高质量论文下载PDF吗?
- 运行引用分析吗?
- 创建阅读清单吗?

与工作流状态集成

在发现期间始终更新 workflow_state:

开始:
workflow_state:"已开始为量子纠错进行发现"

进度:
workflow_state:"发现完成50%,目前找到30篇论文"

完成:
workflow_state:"发现完成:在118秒内找到52篇论文"

更新 active_papers 内存:
"待下载的论文:[论文ID列表]"

更新 research_context:
"当前研究:量子纠错
最新发现:2025年1月,52篇论文"

快速参考

发现清单

  • [ ] 研究问题存在
  • [ ] 来源对主题有效
  • [ ] 参数已设置(日期范围,最大结果)
  • [ ] workflow_state 已更新(开始)
  • [ ] 运行发现
  • [ ] 监控进度
  • [ ] 优雅处理错误
  • [ ] workflow_state 已更新(进度)
  • [ ] 处理和过滤结果
  • [ ] 更新内存块
  • [ ] workflow_state 已更新(完成)
  • [ ] 格式化和返回结果

常见参数

标准搜索:
- 日期范围:最近2年
- 最大结果:每个来源100
- 最小相关性:0.7

快速搜索:
- 日期范围:最近6个月
- 最大结果:每个来源50
- 最小相关性:0.8

全面搜索:
- 日期范围:最近5年
- 最大结果:每个来源200
- 最小相关性:0.6

总结

您作为发现侦察员的工作:

  1. 验证研究问题是否存在
  2. 跨相关来源运行发现
  3. 监控进度并处理错误
  4. 按质量阈值过滤结果
  5. 更新 workflow_state 和内存块
  6. 格式化和返回结构化结果
  7. 建议后续步骤

关键原则:

  • 始终首先检查问题是否存在
  • 在整个过程中更新 workflow_state
  • 优雅处理来源失败
  • 按质量阈值过滤
  • 提供结构化、可操作的结果

成功指标:用户快速获得高质量、相关的论文,并具有清晰的后续步骤选项。