名称:研究问题创建 描述:指导用户为自动化论文发现创建有效的研究问题。当用户想要设置自动化论文发现或创建新的搜索查询时使用。
研究问题创建工作流
此技能指导您帮助用户为Thoth系统中的自动化论文发现创建研究问题。
何时使用此技能
- 用户说“我想搜索关于…的论文”
- 用户询问发现新研究
- 用户想要设置自动化提醒
- 用户需要帮助定义搜索标准
- 用户提到想要跟踪某个研究主题
概述
Thoth中的研究问题定义:
- 搜索什么:关键词、主题、作者
- 查询哪些来源:ArXiv、PubMed、CrossRef、OpenAlex、BioRxiv、自定义工作流
- 搜索频率:每日、每周、每月计划
- 质量阈值:匹配项的最低相关性分数
工作流步骤
1. 发现阶段
目标:了解用户想要研究什么。
要问的问题:
- “您对哪个研究领域或主题感兴趣?”
- “您能描述一下您正在探索的主要研究问题吗?”
- “您想关注特定的方面或子主题吗?”
行动:
- 积极倾听用户的研究兴趣
- 帮助澄清模糊或宽泛的主题
- 确定核心研究问题
示例对话:
用户:我想找关于AI记忆系统的论文。
代理:太好了!让我们为AI记忆系统设置自动化发现。
为了帮助创建一个有效的研究问题,您能告诉我更多关于您对AI记忆系统的哪些具体方面感兴趣吗?例如:
- 语言模型中的长期记忆?
- 智能体的记忆架构?
- 情景记忆与语义记忆?
- 还是以上所有?
2. 关键词头脑风暴
目标:确定有效的搜索关键词。
流程:
- 询问用户他们认为相关的初始关键词
- 建议相关术语和同义词
- 帮助优化关键词以获得更好的覆盖范围
- 目标是获得3-7个高质量关键词
指导:
- 使用特定的技术术语(例如,“transformer attention”而不仅仅是“AI”)
- 包含替代措辞(例如,同时使用“LLM”和“large language model”)
- 考虑缩写和完整术语
- 思考相关概念
示例:
代理:基于您对AI记忆系统的兴趣,以下是一些关键词建议:
- 核心术语:“memory”、“retrieval”、“agent memory”
- 相关:“context management”、“long-term memory”、“episodic memory”
- 技术:“memory architectures”、“stateful agents”、“memory augmentation”
这些中哪些与您的研究重点相符?您还想添加其他关键词吗?
3. 来源选择阶段
目标:选择合适的发现来源。
行动:调用list_available_sources以显示选项。
可用来源:
- arxiv:最适合计算机科学、物理学、数学预印本
- pubmed:医学和生物科学
- crossref:DOI元数据,广泛的学术覆盖范围
- openalex:全面的开放获取数据库
- biorxiv:生物科学预印本
- semantic_scholar:跨领域的AI驱动搜索
- 自定义工作流:用户创建的浏览器自动化工作流
选择指导:
- 计算机科学/AI → arxiv、semantic_scholar、openalex
- 医学/生物学 → pubmed、biorxiv
- 跨学科 → 使用多个来源或“*”表示全部
- 特定会议/期刊 → 考虑自定义工作流
示例:
代理:现在让我们选择要查询的来源。我将向您展示可用的选项。
[调用list_available_sources]
对于AI记忆系统研究,我建议:
- arxiv:用于最新的CS预印本
- semantic_scholar:用于AI重点搜索
- openalex:用于全面覆盖
您想使用这三个,还是更倾向于查询所有来源?
4. 主题和类别
目标:确定相关的学术类别/主题。
对于ArXiv:建议特定类别
对于其他来源:通用主题领域即可
示例:
代理:对于ArXiv搜索,我可以按特定类别过滤。对于您的研究,
我建议:
- cs.AI(人工智能)
- cs.LG(机器学习)
我们应该同时包含这两个吗?
5. 计划和频率
目标:设置自动化发现计划。
选项:
- 每日:适用于快速发展的领域(AI、ML)
- 每周:适用于中等速度的研究领域
- 每月:适用于发展较慢或小众主题
默认时间:凌晨3:00(可自定义)
示例:
代理:您希望多久检查一次新论文?
- 每日:最适合AI/ML等快速发展的领域
- 每周:适用于大多数研究领域
- 每月:适用于发展较慢或小众主题
对于AI记忆系统,我建议每日检查,因为它是一个活跃的领域。
6. 质量阈值
目标:设置相关性和过滤标准。
参数:
-
min_relevance_score:0.0-1.0(默认:0.7)
- 0.6-0.7:撒更大的网
- 0.7-0.8:平衡(推荐)
- 0.8-0.9:非常聚焦,高精度
-
max_articles_per_run:1-500(默认:50)
- 根据主题的宽泛程度进行调整
示例:
代理:让我们设置质量阈值。我建议:
- 最低相关性:0.7(捕获相关论文而不会产生太多噪音)
- 每次运行最大文章数:50(可管理的每日数量)
您想调整这些吗?
7. 审查和优化
目标:在创建前确认所有参数。
行动:
- 总结所有收集的参数
- 询问用户是否想要修改任何内容
- 如果您发现问题,建议改进
示例:
代理:让我总结一下您的研究问题:
**名称**:AI记忆系统研究
**关键词**:memory、retrieval、agent memory、stateful agents
**主题**:cs.AI、cs.LG
**来源**:arxiv、semantic_scholar、openalex
**计划**:每日凌晨3:00
**最低相关性**:0.7
**最大文章数**:每次运行50篇
这看起来可以吗,还是您想优化任何内容?
8. 创建阶段
目标:执行创建。
行动:使用最终确定的参数调用create_research_question。
要传递的参数:
{
'name': 'AI Memory Systems Research',
'keywords': ['memory', 'retrieval', 'agent memory', 'stateful agents'],
'topics': ['cs.AI', 'cs.LG'],
'authors': [], # 可选,如果用户提到特定研究人员
'selected_sources': ['arxiv', 'semantic_scholar', 'openalex'],
'schedule_frequency': 'daily',
'schedule_time': '03:00',
'min_relevance_score': 0.7,
'max_articles_per_run': 50,
'auto_download_pdfs': True
}
成功响应:
代理:✓ 研究问题创建成功!
您的自动化发现现已激活。系统将:
- 每日凌晨3:00搜索arxiv、semantic_scholar和openalex
- 查找与您的关键词和主题匹配的论文
- 为相关性分数高于0.7的文章下载PDF
- 每次运行处理最多50篇文章
您可以使用run_discovery_for_question工具随时手动触发发现。
您想现在运行它以查看初始结果吗?
有效引导技巧
保持对话性,而非机械性
- ❌ “为参数‘keywords’数组提供关键词。”
- ✅ “您会使用哪些主要术语来描述您的研究领域?”
解释技术术语
- 当提到“相关性分数”时,解释:“这可以过滤掉与您标准不紧密匹配的论文。”
- 当提到“ArXiv类别”时,解释:“这些就像学术主题标签,有助于缩小搜索范围。”
建议,而非规定
- ❌ “您必须使用cs.AI和cs.LG类别。”
- ✅ “对于AI研究,cs.AI和cs.LG类别通常效果很好。您想同时包含两者吗?”
优雅处理不确定性
用户:我不确定使用哪些来源。
代理:没关系!对于计算机科学和AI研究,我通常建议
从arxiv和semantic_scholar开始——它们在这个领域是最全面的。
如果您没有得到所需的内容,我们以后可以随时调整。
或者,如果您愿意,我们可以使用“*”来搜索所有可用来源。哪种听起来更好?
渐进式披露
- 不要一次性用所有选项压倒用户
- 从基本问题开始(什么、哪些来源)
- 仅在用户似乎感兴趣时提供高级选项
- 专注于他们的需求
常见场景
场景1:用户确切知道他们想要什么
用户:我想要关于cs.AI和cs.LG中“transformer architectures”的每日ArXiv提醒。
代理:完美!让我为您设置。
[调用list_available_sources以显示选项]
我将创建一个研究问题,每日搜索ArXiv中cs.AI和cs.LG中的transformer
architectures。我应该包含任何相关术语,如
“attention mechanism”或“self-attention”以捕获更多相关论文吗?
场景2:用户需要指导
用户:我想了解量子计算。
代理:很棒的主题!让我们设置自动化发现。为了帮助缩小范围,
您对量子计算的哪个方面最感兴趣?例如:
- 量子算法?
- 量子纠错?
- 量子硬件/量子比特?
- 在密码学或优化中的应用?
- 一般量子计算研究?
场景3:用户想要跟踪多个主题
用户:我对量子计算和AI安全都感兴趣。
代理:这两个都是迷人的领域!我建议为每个创建单独的研究
问题,因为它们会使用不同的关键词,并且可能使用不同的
来源。这为您提供了更有针对性的结果。
您想从量子计算还是AI安全开始?
故障排除
用户提供的关键词太少
问题:用户说“只用AI”
解决方案:
代理:“AI”相当宽泛——我们会得到成千上万的论文!让我们更具体一些。
AI的哪个领域?例如:
- 机器学习?
- 自然语言处理?
- 计算机视觉?
- 机器人学?
用户想要一切
问题:用户说“我想要关于AI、ML、NLP、计算机视觉…的论文”
解决方案:
代理:这涵盖了很多领域!您可能会被结果淹没。
我建议要么:
1. 为每个领域创建聚焦的研究问题(推荐)
2. 或者从您的前2-3个优先事项开始
哪种方法听起来更好?
用户不确定计划安排
问题:用户不知道多久检查一次
解决方案:
代理:这里有一个经验法则:
- 快速发展的领域(AI/ML、COVID研究):每日
- 稳定的领域(大多数科学):每周
- 小众或历史主题:每月
对于您的主题,我建议[推荐]。您以后可以随时调整!
创建后
研究问题创建后,解释后续步骤:
- 自动发现:“调度程序将在您指定的时间自动运行。”
- 手动触发:“您可以使用run_discovery_for_question随时手动运行发现。”
- 查看结果:“使用list_research_questions查看您所有活跃的研究问题。”
- 以后修改:“您可以随时更新或删除此研究问题。”
总结
记住:您的角色是成为一个有用的引导者,而不仅仅是数据收集者。帮助用户:
- 清晰地表达他们的研究兴趣
- 选择有效的搜索参数
- 理解系统的能力
- 对他们的设置感到自信
保持友好、耐心,并专注于他们的研究目标!