名称: 论文发现 描述: 从学术来源查找和整理研究论文。当用户要求查找论文、搜索研究、发现文章或探索新主题时使用。 工具:
- 列出可用来源
- 创建研究问题
- 为问题运行发现
- 列出文章
- 搜索文章
- 收藏统计
论文发现
在学术来源(arXiv、PubMed、Semantic Scholar、OpenAlex 等)中查找和整理研究论文。
使用的工具
对于发现任务,仅使用以下工具:
| 工具 | 用途 |
|---|---|
list_available_sources |
查看可用的搜索来源 |
create_research_question |
创建新的搜索查询 |
run_discovery_for_question |
执行搜索 |
list_articles |
浏览结果 |
search_articles |
在结果中过滤/搜索 |
collection_stats |
检查收藏大小 |
快速发现(5分钟)
针对某个主题进行快速搜索:
步骤 1:创建查询
create_research_question(
title="用户主题(1-2句话)",
keywords=["关键词1", "关键词2", "关键词3"],
sources=["semantic_scholar", "openalex"],
max_papers=25,
relevance_threshold=0.7
)
步骤 2:运行发现
run_discovery_for_question(question_id="[来自步骤1]")
步骤 3:查看结果
list_articles(limit=20, sort_by="relevance")
来源选择指南
| 研究领域 | 推荐来源 |
|---|---|
| 计算机科学/机器学习/人工智能 | arxiv, semantic_scholar |
| 医学/生物 | pubmed, biorxiv |
| 通用科学 | openalex, crossref |
| 跨学科 | semantic_scholar, openalex |
默认:使用 semantic_scholar + openalex 以获得广泛覆盖。
需要未列出的来源?
如果用户希望从内置来源列表中未包含的网站/期刊获取论文:
加载 custom-source-setup 技能 来为任何网站设置自动检测的爬虫。这允许添加以下来源:
- 特定期刊网站(Nature、Science、PLOS ONE 等)
- 会议论文集页面(ACL Anthology、NeurIPS 等)
- 机构知识库(NBER、SSRN、arXiv 镜像等)
- 任何包含文章列表的网站
示例触发短语:
- “你能从 NBER 获取论文吗?”
- “将 Nature Neuroscience 添加为来源”
- “从这个 URL 抓取文章:https://…”
关键词提取
从用户请求中提取关键词:
- 核心名词:主要概念(例如,“transformers”、“attention”)
- 技术术语:领域特定语言(例如,“multi-head”、“self-attention”)
- 修饰语:范围限定词(例如,“efficient”、“sparse”、“2024”)
示例:
- 用户:“查找关于视觉变换器中高效注意力机制的论文”
- 关键词:
["vision transformer", "efficient attention", "ViT", "sparse attention"]
相关性阈值指南
| 阈值 | 使用场景 |
|---|---|
| 0.8+ | 用户只想要高度相关的论文 |
| 0.7 | 默认 - 良好平衡 |
| 0.6 | 全面搜索,覆盖更广 |
| 0.5 | 探索性搜索,广泛撒网 |
何时委托给研究分析师
当用户需要以下内容时,使用 send_message_to_agent 进行委托:
- 对已发现论文的深入分析
- 结果质量评估
- 跨论文的文献综述
- 引用网络探索
委托示例:
send_message_to_agent(
agent_name="Research Analyst",
message="分析这10篇关于稀疏注意力的论文并总结关键方法:[paper IDs]"
)
工作流程示例
示例 1:特定主题搜索
用户:“查找关于LLMs中专家混合的最新论文”
1. create_research_question(
title="大型语言模型中的专家混合",
keywords=["mixture of experts", "MoE", "sparse MoE", "LLM"],
sources=["arxiv", "semantic_scholar"],
max_papers=30,
relevance_threshold=0.75
)
2. run_discovery_for_question(question_id="...")
3. list_articles(limit=15, sort_by="date")
4. 报告:“找到了X篇关于LLMs中MoE的论文。前5名:[列表]。
您希望我深入分析其中的任何一篇吗?”
示例 2:广泛探索
用户:“我想探索蛋白质折叠研究领域的最新进展”
1. list_available_sources() # 向用户展示选项
2. create_research_question(
title="蛋白质结构预测的最新进展",
keywords=["protein folding", "AlphaFold", "protein structure prediction"],
sources=["biorxiv", "pubmed", "semantic_scholar"],
max_papers=50,
relevance_threshold=0.65
)
3. run_discovery_for_question(question_id="...")
4. collection_stats() # 显示找到了什么
5. 按子主题报告结果摘要
错误处理
| 错误 | 解决方案 |
|---|---|
| 无结果 | 降低阈值,拓宽关键词,添加来源 |
| 结果太多 | 提高阈值,添加特定关键词 |
| 领域错误的论文 | 添加否定关键词,更改来源 |
| 超时 | 减少来源,降低 max_papers |
响应模板
发现后,报告:
## 发现结果:[主题]
**搜索的来源**:[列表]
**找到的论文**:[数量]
**相关性阈值**:[值]
### 顶级论文:
1. [标题] - [作者] - [年份]
简介:[1句话描述]
2. ...
### 后续步骤:
- 您希望我深入分析这些论文中的任何一篇吗?
- 我应该将此设置为定期搜索吗?
- 您希望我调整搜索参数吗?