论文发现 paper-discovery

论文发现技能是一个智能学术文献检索与整理工具,用于从arXiv、PubMed、Semantic Scholar、OpenAlex等多个权威学术数据库中自动查找、筛选和整理研究论文。它通过创建研究问题、设定关键词和相关性阈值,帮助用户高效探索新主题、跟踪研究前沿、进行文献调研。核心功能包括跨库搜索、结果过滤、文章列表管理和收藏统计,适用于科研人员、学生和任何需要进行系统性文献检索的用户。关键词:学术论文检索,文献搜索,研究论文发现,学术数据库,文献整理,科研工具,跨库搜索,文献调研。

文献检索 0 次安装 0 次浏览 更新于 2/26/2026

名称: 论文发现 描述: 从学术来源查找和整理研究论文。当用户要求查找论文、搜索研究、发现文章或探索新主题时使用。 工具:

  • 列出可用来源
  • 创建研究问题
  • 为问题运行发现
  • 列出文章
  • 搜索文章
  • 收藏统计

论文发现

在学术来源(arXiv、PubMed、Semantic Scholar、OpenAlex 等)中查找和整理研究论文。

使用的工具

对于发现任务,仅使用以下工具:

工具 用途
list_available_sources 查看可用的搜索来源
create_research_question 创建新的搜索查询
run_discovery_for_question 执行搜索
list_articles 浏览结果
search_articles 在结果中过滤/搜索
collection_stats 检查收藏大小

快速发现(5分钟)

针对某个主题进行快速搜索:

步骤 1:创建查询
create_research_question(
  title="用户主题(1-2句话)",
  keywords=["关键词1", "关键词2", "关键词3"],
  sources=["semantic_scholar", "openalex"],
  max_papers=25,
  relevance_threshold=0.7
)

步骤 2:运行发现
run_discovery_for_question(question_id="[来自步骤1]")

步骤 3:查看结果
list_articles(limit=20, sort_by="relevance")

来源选择指南

研究领域 推荐来源
计算机科学/机器学习/人工智能 arxiv, semantic_scholar
医学/生物 pubmed, biorxiv
通用科学 openalex, crossref
跨学科 semantic_scholar, openalex

默认:使用 semantic_scholar + openalex 以获得广泛覆盖。

需要未列出的来源?

如果用户希望从内置来源列表中未包含的网站/期刊获取论文:

加载 custom-source-setup 技能 来为任何网站设置自动检测的爬虫。这允许添加以下来源:

  • 特定期刊网站(Nature、Science、PLOS ONE 等)
  • 会议论文集页面(ACL Anthology、NeurIPS 等)
  • 机构知识库(NBER、SSRN、arXiv 镜像等)
  • 任何包含文章列表的网站

示例触发短语:

  • “你能从 NBER 获取论文吗?”
  • “将 Nature Neuroscience 添加为来源”
  • “从这个 URL 抓取文章:https://…”

关键词提取

从用户请求中提取关键词:

  1. 核心名词:主要概念(例如,“transformers”、“attention”)
  2. 技术术语:领域特定语言(例如,“multi-head”、“self-attention”)
  3. 修饰语:范围限定词(例如,“efficient”、“sparse”、“2024”)

示例

  • 用户:“查找关于视觉变换器中高效注意力机制的论文”
  • 关键词:["vision transformer", "efficient attention", "ViT", "sparse attention"]

相关性阈值指南

阈值 使用场景
0.8+ 用户只想要高度相关的论文
0.7 默认 - 良好平衡
0.6 全面搜索,覆盖更广
0.5 探索性搜索,广泛撒网

何时委托给研究分析师

当用户需要以下内容时,使用 send_message_to_agent 进行委托:

  • 对已发现论文的深入分析
  • 结果质量评估
  • 跨论文的文献综述
  • 引用网络探索

委托示例

send_message_to_agent(
  agent_name="Research Analyst",
  message="分析这10篇关于稀疏注意力的论文并总结关键方法:[paper IDs]"
)

工作流程示例

示例 1:特定主题搜索

用户:“查找关于LLMs中专家混合的最新论文”

1. create_research_question(
     title="大型语言模型中的专家混合",
     keywords=["mixture of experts", "MoE", "sparse MoE", "LLM"],
     sources=["arxiv", "semantic_scholar"],
     max_papers=30,
     relevance_threshold=0.75
   )

2. run_discovery_for_question(question_id="...")

3. list_articles(limit=15, sort_by="date")

4. 报告:“找到了X篇关于LLMs中MoE的论文。前5名:[列表]。
   您希望我深入分析其中的任何一篇吗?”

示例 2:广泛探索

用户:“我想探索蛋白质折叠研究领域的最新进展”

1. list_available_sources()  # 向用户展示选项

2. create_research_question(
     title="蛋白质结构预测的最新进展",
     keywords=["protein folding", "AlphaFold", "protein structure prediction"],
     sources=["biorxiv", "pubmed", "semantic_scholar"],
     max_papers=50,
     relevance_threshold=0.65
   )

3. run_discovery_for_question(question_id="...")

4. collection_stats()  # 显示找到了什么

5. 按子主题报告结果摘要

错误处理

错误 解决方案
无结果 降低阈值,拓宽关键词,添加来源
结果太多 提高阈值,添加特定关键词
领域错误的论文 添加否定关键词,更改来源
超时 减少来源,降低 max_papers

响应模板

发现后,报告:

## 发现结果:[主题]

**搜索的来源**:[列表]
**找到的论文**:[数量]
**相关性阈值**:[值]

### 顶级论文:
1. [标题] - [作者] - [年份]
   简介:[1句话描述]

2. ...

### 后续步骤:
- 您希望我深入分析这些论文中的任何一篇吗?
- 我应该将此设置为定期搜索吗?
- 您希望我调整搜索参数吗?