名称：研究探索设置描述：设置有效的自动化探索 - 从模糊想法到工作系统的流畅对话。

研究探索设置

帮助用户配置自动化探索，持续提供高质量论文。

快速开始：5分钟设置

最常见场景：用户有模糊的研究兴趣，需要帮助设置探索。

标准开场

助手："让我们设置您的探索系统！三个快速问题：

1. 您对什么研究领域感兴趣？（即使模糊 - 我们会细化）
2. 每天花多少时间审阅论文？（5分钟？30分钟？）
3. 需要前沿研究还是学习基础知识？

我将根据您的答案配置一切。"

用户回答后

助手："完美！根据您所说的，这是您的初始配置：

**研究重点**：[细化后的1句话版本]
**关键词**：[2-4个核心搜索词]
**来源**：[1-2个最相关API]
**计划**：[基于时间投入的频率]
**质量过滤器**：[基于数量需求的阈值]

这应该能让您每天/每周审阅约[X]篇论文。

现在要测试吗？"

运行测试探索后

助手："测试结果：找到[X]篇论文

标题快速扫描：
✓ [Y]篇论文看起来高度相关
~ [Z]篇论文看起来有些相关
✗ [W]篇论文看起来不相关

这个组合对您有效吗？太多？太少？主题不对？"

然后：根据反馈进行细化（见下面的细化模式）

诊断：用户处于哪个阶段？

首先问这三个问题

Q1：他们知道自己想研究什么吗？

✓ 清晰想法 → 跳到关键词构建
✗ 模糊想法 → 需要问题细化

Q2：他们尝试过搜索吗？

✓ 是，结果不好 → 诊断问题所在（见故障排除）
✗ 还没有 → 运行初始测试

Q3：有多少审阅时间？

5-10分钟/天 → 每天最多约10-15篇论文
30分钟/周 → 每周约20-30篇论文批次
1+小时/周 → 每周约50+篇论文全面覆盖

对话模式

模式1：模糊想法 → 聚焦问题

用户：“我对AI和金融感兴趣”

助手："让我们缩小范围。先选择一个方向开始：

使用AI预测股价？
使用AI分析金融新闻情绪？
使用AI检测欺诈？
其他方向？

我们以后可以随时扩展。"

用户选择一个

助手："很好！现在确定范围：

什么具体数据？（新闻？社交媒体？财报电话会议？）
什么具体结果？（每日预测？风险评分？交易信号？）
什么时间框架？（实时？每日？每周？）

示例细化问题：‘Twitter情绪能预测每日股票回报吗？’

类似这样的问题能抓住您的兴趣吗？"

模式2：结果不好 → 诊断

助手："让我们诊断问题。我需要：

您在使用什么关键词？
给我看2篇您想要的论文
给我看2篇您得到但不想要的论文"

[用户提供]

助手分析并识别问题：

关键词太宽泛 → 添加具体术语
关键词太狭窄 → 添加同义词，降低阈值
错误领域 → 添加否定关键词
错误时间框架 → 添加日期过滤器

助手："问题是[具体问题]。这是修复方法：[具体更改]。

现在要测试这个吗？"

模式3：优化（已正常工作）

助手："您已经运行了[X]天。让我们优化：

当前结果：

平均每天[Y]篇论文
您标记了[Z]%为相关

评估：[良好/太多/太少/错误组合]

建议：[1-2个具体调整]

要尝试这些调整吗？"

决策树

论文太多（>40篇/天）

检查相关性：
├─ >70%相关 → 只需将max_papers上限设为25
├─ 40-70%相关 → 将阈值提高+0.1
└─ <40%相关 → 关键词太宽泛，添加具体术语

论文太少（<5篇/天）

检查特异性：
├─ 关键词非常具体 → 扩大术语，添加同义词
├─ 关键词正常 → 将阈值降低-0.1
└─ 领域进展缓慢 → 将计划调整为每周

错误主题论文

检查不匹配：
├─ 不同领域（加密货币vs股票） → 添加否定关键词
├─ 不同时间段（旧论文） → 添加日期过滤器：最近2年
├─ 不同方法 → 添加方法特定术语
└─ 不同语言 → 添加语言过滤器

缺少关键论文

用户展示示例论文：
1. 查看该论文的标题/摘要
2. 提取其使用的关键术语
3. 将这些术语添加到搜索中
4. 再次测试

快速参考卡

卡1：问题细化（30秒）

问3个问题：

“您最感兴趣的是什么方面？”
“预测？分析？比较？”
“任何限制：领域/时间/方法？”

结果：“[具体可搜索问题]”

卡2：关键词构建

问题 → 关键词（2步）：
1. 从问题中提取核心名词
2. 如果他们使用通俗语言，添加1个技术同义词

示例：
问题："Twitter能预测股票吗？"
关键词："twitter sentiment stock prediction"

卡3：来源选择

默认推荐：

CS/ML/AI → arxiv + semantic_scholar
医学/生物 → pubmed + biorxiv
通用科学 → openalex + crossref
经济学/社会科学 → openalex + ssrn

最多从2个来源开始，仅在缺少论文时添加更多。

卡4：阈值设置

默认：0.7（适用于80%的情况）

调整：
- 用户只想要最佳论文 → 0.8
- 用户想要全面覆盖 → 0.65
- 每天获取<5篇论文 → 降低0.05
- 每天获取>40篇论文 → 提高0.05

卡5：计划指南

基于用户可用时间：
- 10分钟/天 → 每日，10-15篇论文，阈值0.75
- 30分钟/3次每周 → 每隔一天，20-30篇论文，阈值0.7
- 1小时/周 → 每周，50篇论文，阈值0.65

细化模式

细化1：噪音太多

症状：<50%的论文相关

诊断：过滤器太宽松或关键词太宽泛

修复：

选项A：提高阈值（0.7 → 0.75或0.8）
选项B：向关键词添加具体术语
选项C：如果某个来源产生垃圾内容，则移除

建议：先尝试A（最快），然后如果需要再尝试B

细化2：覆盖太少

症状：活跃领域每天<10篇论文

诊断：过滤器太严格或关键词太狭窄

修复：

选项A：降低阈值（0.7 → 0.65）
选项B：向关键词添加同义词
选项C：添加另一个相关来源

建议：先尝试B（保持质量），然后尝试A

细化3：错误时间段

症状：获取2015-2019年的论文，用户想要最近的

修复：

添加日期过滤器：published_after="2022-01-01"

或对于前沿：published_after="2024-01-01"

细化4：领域不匹配

症状：研究股票时获取加密货币论文

修复：

添加否定关键词：
exclude_terms = ["cryptocurrency", "bitcoin", "crypto", "blockchain"]

故障排除快速参考

问题	即时修复
零结果	将阈值降至0.6，扩大关键词
每天100+结果	将阈值提高至0.8，添加具体术语
全是旧论文（>3年）	添加日期过滤器：最近2年
错误语言的论文	添加语言过滤器：英语
错误科学领域	为该领域添加否定关键词
太多重复	正常 - Thoth通过DOI/标题自动去重
缺少最近论文	添加arxiv来源（最新）
缺少已发表论文	添加openalex或crossref

高级场景

场景：全面文献综述

用户：“我正在写综述论文，需要所有内容”

助手："全面策略：

来源：所有可用（arxiv、semantic_scholar、openalex、crossref）
阈值：0.65（宽松）
计划：每天，持续2周
最大：50篇论文/天

您将总共获得400-700篇论文。这是’消防水带’方法。 2周后，我们将根据您的发现进行细化。

准备好应对高容量了吗？"

场景：保持最新（最少时间）

用户：“只想保持最新，非常忙”

助手："时间高效策略：

来源：仅arxiv（您领域最新）
阈值：0.8（非常严格 - 仅最佳）
计划：每周一
最大：10篇论文/周

每周一次15分钟审阅会议。您将抓住主要进展，无需每日投入。

听起来好吗？"

场景：学习新领域

用户：“我是这个领域的新手，需要基础论文”

助手："学习策略：

来源：openalex + semantic_scholar（更广泛覆盖）
阈值：0.7（平衡）
日期过滤器：2019年至今（最近但不前沿）
最大：20篇论文/周

混合最近的综述和重要论文。适合建立理解。

准备好开始了吗？"

来源特定说明

ArXiv

最适合：CS、物理、数学、统计预印本
新鲜度：提交后几天内的论文
同行评审：最少（发表前）
何时使用：需要前沿、活跃研究领域

Semantic Scholar

最适合：AI驱动的语义搜索
新鲜度：预印本和已发表混合
覆盖范围：广泛，能很好找到相关论文
何时使用：想要发现意外联系

PubMed

最适合：医学、生物医学科学
新鲜度：已发表论文（同行评审）
覆盖范围：医学全面
何时使用：仅医学/生物研究

OpenAlex

最适合：通用学术研究
新鲜度：一切混合
覆盖范围：最全面（2亿+论文）
何时使用：想要跨领域广泛覆盖

Crossref

最适合：DOI元数据
新鲜度：仅已发表论文
覆盖范围：期刊文章、会议
何时使用：需要已发表/可引用论文

测试和验证

初始设置后

助手："我已配置您的探索。在安排之前，让我们测试：

[运行一次探索]

获得[X]篇论文。让我们一起审阅：
1. 查看前5个标题 - 相关吗？
2. 有任何明显遗漏或噪音吗？
3. [X]篇论文对您来说可管理吗？

根据您的反馈，我们将在上线前调整。"

每周检查模式

助手："您已经运行了一周。快速回顾：

**容量**：平均每天[X]篇论文
**您的反馈**：[Y]%标记为相关

[如果>70%相关]："这工作得很好！需要任何调整吗？"
[如果<50%相关]："我们需要细化。问题可能是[诊断]"

总结：助手的心智模型

从简单开始：2个来源，0.7阈值，合理计划
立即测试：运行一次探索以验证
分析结果：与用户一起查看实际论文
基于证据细化：调整损坏的部分
迭代：更改后再次测试
良好时部署：设置计划并让其运行

目标：在一次对话中让用户从"模糊想法"到"工作探索"，最后拥有工作系统。

成功指标：用户获得他们能够持续审阅的相关论文。

名称：研究探索设置 描述：设置有效的自动化探索 - 从模糊想法到工作系统的流畅对话。