名称：研究问题创建描述：指导用户为自动化论文发现创建有效的研究问题。当用户想要设置自动化论文发现或创建新的搜索查询时使用。

研究问题创建工作流

此技能指导您帮助用户为Thoth系统中的自动化论文发现创建研究问题。

何时使用此技能

用户说“我想搜索关于…的论文”
用户询问发现新研究
用户想要设置自动化提醒
用户需要帮助定义搜索标准
用户提到想要跟踪某个研究主题

概述

Thoth中的研究问题定义：

搜索什么：关键词、主题、作者
查询哪些来源：ArXiv、PubMed、CrossRef、OpenAlex、BioRxiv、自定义工作流
搜索频率：每日、每周、每月计划
质量阈值：匹配项的最低相关性分数

工作流步骤

1. 发现阶段

目标：了解用户想要研究什么。

要问的问题：

“您对哪个研究领域或主题感兴趣？”
“您能描述一下您正在探索的主要研究问题吗？”
“您想关注特定的方面或子主题吗？”

行动：

积极倾听用户的研究兴趣
帮助澄清模糊或宽泛的主题
确定核心研究问题

示例对话：

用户：我想找关于AI记忆系统的论文。

代理：太好了！让我们为AI记忆系统设置自动化发现。
为了帮助创建一个有效的研究问题，您能告诉我更多关于您对AI记忆系统的哪些具体方面感兴趣吗？例如：
- 语言模型中的长期记忆？
- 智能体的记忆架构？
- 情景记忆与语义记忆？
- 还是以上所有？

2. 关键词头脑风暴

目标：确定有效的搜索关键词。

流程：

询问用户他们认为相关的初始关键词
建议相关术语和同义词
帮助优化关键词以获得更好的覆盖范围
目标是获得3-7个高质量关键词

指导：

使用特定的技术术语（例如，“transformer attention”而不仅仅是“AI”）
包含替代措辞（例如，同时使用“LLM”和“large language model”）
考虑缩写和完整术语
思考相关概念

示例：

代理：基于您对AI记忆系统的兴趣，以下是一些关键词建议：
- 核心术语：“memory”、“retrieval”、“agent memory”
- 相关：“context management”、“long-term memory”、“episodic memory”
- 技术：“memory architectures”、“stateful agents”、“memory augmentation”

这些中哪些与您的研究重点相符？您还想添加其他关键词吗？

3. 来源选择阶段

目标：选择合适的发现来源。

行动：调用list_available_sources以显示选项。

可用来源：

arxiv：最适合计算机科学、物理学、数学预印本
pubmed：医学和生物科学
crossref：DOI元数据，广泛的学术覆盖范围
openalex：全面的开放获取数据库
biorxiv：生物科学预印本
semantic_scholar：跨领域的AI驱动搜索
自定义工作流：用户创建的浏览器自动化工作流

选择指导：

计算机科学/AI → arxiv、semantic_scholar、openalex
医学/生物学 → pubmed、biorxiv
跨学科 → 使用多个来源或“*”表示全部
特定会议/期刊 → 考虑自定义工作流

示例：

代理：现在让我们选择要查询的来源。我将向您展示可用的选项。
[调用list_available_sources]

对于AI记忆系统研究，我建议：
- arxiv：用于最新的CS预印本
- semantic_scholar：用于AI重点搜索
- openalex：用于全面覆盖

您想使用这三个，还是更倾向于查询所有来源？

4. 主题和类别

目标：确定相关的学术类别/主题。

对于ArXiv：建议特定类别

cs.AI（人工智能）
cs.LG（机器学习）
cs.CL（计算与语言）
cs.NE（神经与进化计算）

对于其他来源：通用主题领域即可

示例：

代理：对于ArXiv搜索，我可以按特定类别过滤。对于您的研究，
我建议：
- cs.AI（人工智能）
- cs.LG（机器学习）

我们应该同时包含这两个吗？

5. 计划和频率

目标：设置自动化发现计划。

选项：

每日：适用于快速发展的领域（AI、ML）
每周：适用于中等速度的研究领域
每月：适用于发展较慢或小众主题

默认时间：凌晨3:00（可自定义）

示例：

代理：您希望多久检查一次新论文？
- 每日：最适合AI/ML等快速发展的领域
- 每周：适用于大多数研究领域
- 每月：适用于发展较慢或小众主题

对于AI记忆系统，我建议每日检查，因为它是一个活跃的领域。

6. 质量阈值

目标：设置相关性和过滤标准。

参数：

min_relevance_score：0.0-1.0（默认：0.7）
- 0.6-0.7：撒更大的网
- 0.7-0.8：平衡（推荐）
- 0.8-0.9：非常聚焦，高精度
max_articles_per_run：1-500（默认：50）
- 根据主题的宽泛程度进行调整

示例：

代理：让我们设置质量阈值。我建议：
- 最低相关性：0.7（捕获相关论文而不会产生太多噪音）
- 每次运行最大文章数：50（可管理的每日数量）

您想调整这些吗？

7. 审查和优化

目标：在创建前确认所有参数。

行动：

总结所有收集的参数
询问用户是否想要修改任何内容
如果您发现问题，建议改进

示例：

代理：让我总结一下您的研究问题：

**名称**：AI记忆系统研究
**关键词**：memory、retrieval、agent memory、stateful agents
**主题**：cs.AI、cs.LG
**来源**：arxiv、semantic_scholar、openalex
**计划**：每日凌晨3:00
**最低相关性**：0.7
**最大文章数**：每次运行50篇

这看起来可以吗，还是您想优化任何内容？

8. 创建阶段

目标：执行创建。

行动：使用最终确定的参数调用create_research_question。

要传递的参数：

{
    'name': 'AI Memory Systems Research',
    'keywords': ['memory', 'retrieval', 'agent memory', 'stateful agents'],
    'topics': ['cs.AI', 'cs.LG'],
    'authors': [],  # 可选，如果用户提到特定研究人员
    'selected_sources': ['arxiv', 'semantic_scholar', 'openalex'],
    'schedule_frequency': 'daily',
    'schedule_time': '03:00',
    'min_relevance_score': 0.7,
    'max_articles_per_run': 50,
    'auto_download_pdfs': True
}

成功响应：

代理：✓ 研究问题创建成功！

您的自动化发现现已激活。系统将：
- 每日凌晨3:00搜索arxiv、semantic_scholar和openalex
- 查找与您的关键词和主题匹配的论文
- 为相关性分数高于0.7的文章下载PDF
- 每次运行处理最多50篇文章

您可以使用run_discovery_for_question工具随时手动触发发现。
您想现在运行它以查看初始结果吗？

有效引导技巧

保持对话性，而非机械性

❌ “为参数‘keywords’数组提供关键词。”
✅ “您会使用哪些主要术语来描述您的研究领域？”

解释技术术语

当提到“相关性分数”时，解释：“这可以过滤掉与您标准不紧密匹配的论文。”
当提到“ArXiv类别”时，解释：“这些就像学术主题标签，有助于缩小搜索范围。”

建议，而非规定

❌ “您必须使用cs.AI和cs.LG类别。”
✅ “对于AI研究，cs.AI和cs.LG类别通常效果很好。您想同时包含两者吗？”

优雅处理不确定性

用户：我不确定使用哪些来源。

代理：没关系！对于计算机科学和AI研究，我通常建议
从arxiv和semantic_scholar开始——它们在这个领域是最全面的。
如果您没有得到所需的内容，我们以后可以随时调整。

或者，如果您愿意，我们可以使用“*”来搜索所有可用来源。哪种听起来更好？

渐进式披露

不要一次性用所有选项压倒用户
从基本问题开始（什么、哪些来源）
仅在用户似乎感兴趣时提供高级选项
专注于他们的需求

常见场景

场景1：用户确切知道他们想要什么

用户：我想要关于cs.AI和cs.LG中“transformer architectures”的每日ArXiv提醒。

代理：完美！让我为您设置。
[调用list_available_sources以显示选项]
我将创建一个研究问题，每日搜索ArXiv中cs.AI和cs.LG中的transformer
architectures。我应该包含任何相关术语，如
“attention mechanism”或“self-attention”以捕获更多相关论文吗？

场景2：用户需要指导

用户：我想了解量子计算。

代理：很棒的主题！让我们设置自动化发现。为了帮助缩小范围，
您对量子计算的哪个方面最感兴趣？例如：
- 量子算法？
- 量子纠错？
- 量子硬件/量子比特？
- 在密码学或优化中的应用？
- 一般量子计算研究？

场景3：用户想要跟踪多个主题

用户：我对量子计算和AI安全都感兴趣。

代理：这两个都是迷人的领域！我建议为每个创建单独的研究
问题，因为它们会使用不同的关键词，并且可能使用不同的
来源。这为您提供了更有针对性的结果。

您想从量子计算还是AI安全开始？

故障排除

用户提供的关键词太少

问题：用户说“只用AI”

解决方案：

代理：“AI”相当宽泛——我们会得到成千上万的论文！让我们更具体一些。
AI的哪个领域？例如：
- 机器学习？
- 自然语言处理？
- 计算机视觉？
- 机器人学？

用户想要一切

问题：用户说“我想要关于AI、ML、NLP、计算机视觉…的论文”

解决方案：

代理：这涵盖了很多领域！您可能会被结果淹没。
我建议要么：
1. 为每个领域创建聚焦的研究问题（推荐）
2. 或者从您的前2-3个优先事项开始

哪种方法听起来更好？

用户不确定计划安排

问题：用户不知道多久检查一次

解决方案：

代理：这里有一个经验法则：
- 快速发展的领域（AI/ML、COVID研究）：每日
- 稳定的领域（大多数科学）：每周
- 小众或历史主题：每月

对于您的主题，我建议[推荐]。您以后可以随时调整！

创建后

研究问题创建后，解释后续步骤：

自动发现：“调度程序将在您指定的时间自动运行。”
手动触发：“您可以使用run_discovery_for_question随时手动运行发现。”
查看结果：“使用list_research_questions查看您所有活跃的研究问题。”
以后修改：“您可以随时更新或删除此研究问题。”

总结

记住：您的角色是成为一个有用的引导者，而不仅仅是数据收集者。帮助用户：

清晰地表达他们的研究兴趣
选择有效的搜索参数
理解系统的能力
对他们的设置感到自信

保持友好、耐心，并专注于他们的研究目标！

名称：研究问题创建 描述：指导用户为自动化论文发现创建有效的研究问题。当用户想要设置自动化论文发现或创建新的搜索查询时使用。

研究问题创建工作流

何时使用此技能

概述

工作流步骤

1. 发现阶段

2. 关键词头脑风暴

3. 来源选择阶段

4. 主题和类别

5. 计划和频率

6. 质量阈值

7. 审查和优化

8. 创建阶段

有效引导技巧

保持对话性，而非机械性

解释技术术语

建议，而非规定

优雅处理不确定性

渐进式披露

常见场景

场景1：用户确切知道他们想要什么

场景2：用户需要指导

场景3：用户想要跟踪多个主题

故障排除

用户提供的关键词太少

用户想要一切

用户不确定计划安排

创建后

总结

名称：研究问题创建描述：指导用户为自动化论文发现创建有效的研究问题。当用户想要设置自动化论文发现或创建新的搜索查询时使用。