名称:研究探索设置 描述:设置有效的自动化探索 - 从模糊想法到工作系统的流畅对话。
研究探索设置
帮助用户配置自动化探索,持续提供高质量论文。
快速开始:5分钟设置
最常见场景:用户有模糊的研究兴趣,需要帮助设置探索。
标准开场
助手:"让我们设置您的探索系统!三个快速问题:
1. 您对什么研究领域感兴趣?(即使模糊 - 我们会细化)
2. 每天花多少时间审阅论文?(5分钟?30分钟?)
3. 需要前沿研究还是学习基础知识?
我将根据您的答案配置一切。"
用户回答后
助手:"完美!根据您所说的,这是您的初始配置:
**研究重点**:[细化后的1句话版本]
**关键词**:[2-4个核心搜索词]
**来源**:[1-2个最相关API]
**计划**:[基于时间投入的频率]
**质量过滤器**:[基于数量需求的阈值]
这应该能让您每天/每周审阅约[X]篇论文。
现在要测试吗?"
运行测试探索后
助手:"测试结果:找到[X]篇论文
标题快速扫描:
✓ [Y]篇论文看起来高度相关
~ [Z]篇论文看起来有些相关
✗ [W]篇论文看起来不相关
这个组合对您有效吗?太多?太少?主题不对?"
然后:根据反馈进行细化(见下面的细化模式)
诊断:用户处于哪个阶段?
首先问这三个问题
Q1:他们知道自己想研究什么吗?
- ✓ 清晰想法 → 跳到关键词构建
- ✗ 模糊想法 → 需要问题细化
Q2:他们尝试过搜索吗?
- ✓ 是,结果不好 → 诊断问题所在(见故障排除)
- ✗ 还没有 → 运行初始测试
Q3:有多少审阅时间?
- 5-10分钟/天 → 每天最多约10-15篇论文
- 30分钟/周 → 每周约20-30篇论文批次
- 1+小时/周 → 每周约50+篇论文全面覆盖
对话模式
模式1:模糊想法 → 聚焦问题
用户:“我对AI和金融感兴趣”
助手:"让我们缩小范围。先选择一个方向开始:
- 使用AI预测股价?
- 使用AI分析金融新闻情绪?
- 使用AI检测欺诈?
- 其他方向?
我们以后可以随时扩展。"
用户选择一个
助手:"很好!现在确定范围:
- 什么具体数据?(新闻?社交媒体?财报电话会议?)
- 什么具体结果?(每日预测?风险评分?交易信号?)
- 什么时间框架?(实时?每日?每周?)
示例细化问题:‘Twitter情绪能预测每日股票回报吗?’
类似这样的问题能抓住您的兴趣吗?"
模式2:结果不好 → 诊断
助手:"让我们诊断问题。我需要:
- 您在使用什么关键词?
- 给我看2篇您想要的论文
- 给我看2篇您得到但不想要的论文"
[用户提供]
助手分析并识别问题:
- 关键词太宽泛 → 添加具体术语
- 关键词太狭窄 → 添加同义词,降低阈值
- 错误领域 → 添加否定关键词
- 错误时间框架 → 添加日期过滤器
助手:"问题是[具体问题]。这是修复方法:[具体更改]。
现在要测试这个吗?"
模式3:优化(已正常工作)
助手:"您已经运行了[X]天。让我们优化:
当前结果:
- 平均每天[Y]篇论文
- 您标记了[Z]%为相关
评估:[良好/太多/太少/错误组合]
建议:[1-2个具体调整]
要尝试这些调整吗?"
决策树
论文太多(>40篇/天)
检查相关性:
├─ >70%相关 → 只需将max_papers上限设为25
├─ 40-70%相关 → 将阈值提高+0.1
└─ <40%相关 → 关键词太宽泛,添加具体术语
论文太少(<5篇/天)
检查特异性:
├─ 关键词非常具体 → 扩大术语,添加同义词
├─ 关键词正常 → 将阈值降低-0.1
└─ 领域进展缓慢 → 将计划调整为每周
错误主题论文
检查不匹配:
├─ 不同领域(加密货币vs股票) → 添加否定关键词
├─ 不同时间段(旧论文) → 添加日期过滤器:最近2年
├─ 不同方法 → 添加方法特定术语
└─ 不同语言 → 添加语言过滤器
缺少关键论文
用户展示示例论文:
1. 查看该论文的标题/摘要
2. 提取其使用的关键术语
3. 将这些术语添加到搜索中
4. 再次测试
快速参考卡
卡1:问题细化(30秒)
问3个问题:
- “您最感兴趣的是什么方面?”
- “预测?分析?比较?”
- “任何限制:领域/时间/方法?”
结果:“[具体可搜索问题]”
卡2:关键词构建
问题 → 关键词(2步):
1. 从问题中提取核心名词
2. 如果他们使用通俗语言,添加1个技术同义词
示例:
问题:"Twitter能预测股票吗?"
关键词:"twitter sentiment stock prediction"
卡3:来源选择
默认推荐:
- CS/ML/AI → arxiv + semantic_scholar
- 医学/生物 → pubmed + biorxiv
- 通用科学 → openalex + crossref
- 经济学/社会科学 → openalex + ssrn
最多从2个来源开始,仅在缺少论文时添加更多。
卡4:阈值设置
默认:0.7(适用于80%的情况)
调整:
- 用户只想要最佳论文 → 0.8
- 用户想要全面覆盖 → 0.65
- 每天获取<5篇论文 → 降低0.05
- 每天获取>40篇论文 → 提高0.05
卡5:计划指南
基于用户可用时间:
- 10分钟/天 → 每日,10-15篇论文,阈值0.75
- 30分钟/3次每周 → 每隔一天,20-30篇论文,阈值0.7
- 1小时/周 → 每周,50篇论文,阈值0.65
细化模式
细化1:噪音太多
症状:<50%的论文相关
诊断:过滤器太宽松或关键词太宽泛
修复:
选项A:提高阈值(0.7 → 0.75或0.8)
选项B:向关键词添加具体术语
选项C:如果某个来源产生垃圾内容,则移除
建议:先尝试A(最快),然后如果需要再尝试B
细化2:覆盖太少
症状:活跃领域每天<10篇论文
诊断:过滤器太严格或关键词太狭窄
修复:
选项A:降低阈值(0.7 → 0.65)
选项B:向关键词添加同义词
选项C:添加另一个相关来源
建议:先尝试B(保持质量),然后尝试A
细化3:错误时间段
症状:获取2015-2019年的论文,用户想要最近的
修复:
添加日期过滤器:published_after="2022-01-01"
或对于前沿:published_after="2024-01-01"
细化4:领域不匹配
症状:研究股票时获取加密货币论文
修复:
添加否定关键词:
exclude_terms = ["cryptocurrency", "bitcoin", "crypto", "blockchain"]
故障排除快速参考
| 问题 | 即时修复 |
|---|---|
| 零结果 | 将阈值降至0.6,扩大关键词 |
| 每天100+结果 | 将阈值提高至0.8,添加具体术语 |
| 全是旧论文(>3年) | 添加日期过滤器:最近2年 |
| 错误语言的论文 | 添加语言过滤器:英语 |
| 错误科学领域 | 为该领域添加否定关键词 |
| 太多重复 | 正常 - Thoth通过DOI/标题自动去重 |
| 缺少最近论文 | 添加arxiv来源(最新) |
| 缺少已发表论文 | 添加openalex或crossref |
高级场景
场景:全面文献综述
用户:“我正在写综述论文,需要所有内容”
助手:"全面策略:
- 来源:所有可用(arxiv、semantic_scholar、openalex、crossref)
- 阈值:0.65(宽松)
- 计划:每天,持续2周
- 最大:50篇论文/天
您将总共获得400-700篇论文。这是’消防水带’方法。 2周后,我们将根据您的发现进行细化。
准备好应对高容量了吗?"
场景:保持最新(最少时间)
用户:“只想保持最新,非常忙”
助手:"时间高效策略:
- 来源:仅arxiv(您领域最新)
- 阈值:0.8(非常严格 - 仅最佳)
- 计划:每周一
- 最大:10篇论文/周
每周一次15分钟审阅会议。 您将抓住主要进展,无需每日投入。
听起来好吗?"
场景:学习新领域
用户:“我是这个领域的新手,需要基础论文”
助手:"学习策略:
- 来源:openalex + semantic_scholar(更广泛覆盖)
- 阈值:0.7(平衡)
- 日期过滤器:2019年至今(最近但不前沿)
- 最大:20篇论文/周
混合最近的综述和重要论文。 适合建立理解。
准备好开始了吗?"
来源特定说明
ArXiv
- 最适合:CS、物理、数学、统计预印本
- 新鲜度:提交后几天内的论文
- 同行评审:最少(发表前)
- 何时使用:需要前沿、活跃研究领域
Semantic Scholar
- 最适合:AI驱动的语义搜索
- 新鲜度:预印本和已发表混合
- 覆盖范围:广泛,能很好找到相关论文
- 何时使用:想要发现意外联系
PubMed
- 最适合:医学、生物医学科学
- 新鲜度:已发表论文(同行评审)
- 覆盖范围:医学全面
- 何时使用:仅医学/生物研究
OpenAlex
- 最适合:通用学术研究
- 新鲜度:一切混合
- 覆盖范围:最全面(2亿+论文)
- 何时使用:想要跨领域广泛覆盖
Crossref
- 最适合:DOI元数据
- 新鲜度:仅已发表论文
- 覆盖范围:期刊文章、会议
- 何时使用:需要已发表/可引用论文
测试和验证
初始设置后
助手:"我已配置您的探索。在安排之前,让我们测试:
[运行一次探索]
获得[X]篇论文。让我们一起审阅:
1. 查看前5个标题 - 相关吗?
2. 有任何明显遗漏或噪音吗?
3. [X]篇论文对您来说可管理吗?
根据您的反馈,我们将在上线前调整。"
每周检查模式
助手:"您已经运行了一周。快速回顾:
**容量**:平均每天[X]篇论文
**您的反馈**:[Y]%标记为相关
[如果>70%相关]:"这工作得很好!需要任何调整吗?"
[如果<50%相关]:"我们需要细化。问题可能是[诊断]"
总结:助手的心智模型
- 从简单开始:2个来源,0.7阈值,合理计划
- 立即测试:运行一次探索以验证
- 分析结果:与用户一起查看实际论文
- 基于证据细化:调整损坏的部分
- 迭代:更改后再次测试
- 良好时部署:设置计划并让其运行
目标:在一次对话中让用户从"模糊想法"到"工作探索",最后拥有工作系统。
成功指标:用户获得他们能够持续审阅的相关论文。