学术文献智能发现系统Skill ResearchDiscoverySetup

学术文献智能发现系统是一个自动化研究探索工具,帮助研究人员从模糊的研究想法快速建立高效的文献发现流程。该系统通过智能对话引导用户明确研究问题、构建精准关键词、配置学术数据库来源、设置个性化筛选阈值和推送计划,实现持续获取高质量学术论文。适用于文献综述、前沿追踪、领域学习等科研场景,显著提升文献调研效率。 关键词:学术文献发现,自动化研究工具,文献检索系统,论文推送,学术数据库,研究探索,文献综述,前沿追踪,科研助手,智能搜索

文献检索 3 次安装 10 次浏览 更新于 2/27/2026

名称:研究探索设置 描述:设置有效的自动化探索 - 从模糊想法到工作系统的流畅对话。

研究探索设置

帮助用户配置自动化探索,持续提供高质量论文。

快速开始:5分钟设置

最常见场景:用户有模糊的研究兴趣,需要帮助设置探索。

标准开场

助手:"让我们设置您的探索系统!三个快速问题:

1. 您对什么研究领域感兴趣?(即使模糊 - 我们会细化)
2. 每天花多少时间审阅论文?(5分钟?30分钟?)
3. 需要前沿研究还是学习基础知识?

我将根据您的答案配置一切。"

用户回答后

助手:"完美!根据您所说的,这是您的初始配置:

**研究重点**:[细化后的1句话版本]
**关键词**:[2-4个核心搜索词]
**来源**:[1-2个最相关API]
**计划**:[基于时间投入的频率]
**质量过滤器**:[基于数量需求的阈值]

这应该能让您每天/每周审阅约[X]篇论文。

现在要测试吗?"

运行测试探索后

助手:"测试结果:找到[X]篇论文

标题快速扫描:
✓ [Y]篇论文看起来高度相关
~ [Z]篇论文看起来有些相关
✗ [W]篇论文看起来不相关

这个组合对您有效吗?太多?太少?主题不对?"

然后:根据反馈进行细化(见下面的细化模式)


诊断:用户处于哪个阶段?

首先问这三个问题

Q1:他们知道自己想研究什么吗?

  • ✓ 清晰想法 → 跳到关键词构建
  • ✗ 模糊想法 → 需要问题细化

Q2:他们尝试过搜索吗?

  • ✓ 是,结果不好 → 诊断问题所在(见故障排除)
  • ✗ 还没有 → 运行初始测试

Q3:有多少审阅时间?

  • 5-10分钟/天 → 每天最多约10-15篇论文
  • 30分钟/周 → 每周约20-30篇论文批次
  • 1+小时/周 → 每周约50+篇论文全面覆盖

对话模式

模式1:模糊想法 → 聚焦问题

用户:“我对AI和金融感兴趣”

助手:"让我们缩小范围。先选择一个方向开始:

  • 使用AI预测股价?
  • 使用AI分析金融新闻情绪?
  • 使用AI检测欺诈?
  • 其他方向?

我们以后可以随时扩展。"

用户选择一个

助手:"很好!现在确定范围:

  • 什么具体数据?(新闻?社交媒体?财报电话会议?)
  • 什么具体结果?(每日预测?风险评分?交易信号?)
  • 什么时间框架?(实时?每日?每周?)

示例细化问题:‘Twitter情绪能预测每日股票回报吗?’

类似这样的问题能抓住您的兴趣吗?"

模式2:结果不好 → 诊断

助手:"让我们诊断问题。我需要:

  1. 您在使用什么关键词?
  2. 给我看2篇您想要的论文
  3. 给我看2篇您得到但不想要的论文"

[用户提供]

助手分析并识别问题

  • 关键词太宽泛 → 添加具体术语
  • 关键词太狭窄 → 添加同义词,降低阈值
  • 错误领域 → 添加否定关键词
  • 错误时间框架 → 添加日期过滤器

助手:"问题是[具体问题]。这是修复方法:[具体更改]。

现在要测试这个吗?"

模式3:优化(已正常工作)

助手:"您已经运行了[X]天。让我们优化:

当前结果

  • 平均每天[Y]篇论文
  • 您标记了[Z]%为相关

评估:[良好/太多/太少/错误组合]

建议:[1-2个具体调整]

要尝试这些调整吗?"


决策树

论文太多(>40篇/天)

检查相关性:
├─ >70%相关 → 只需将max_papers上限设为25
├─ 40-70%相关 → 将阈值提高+0.1
└─ <40%相关 → 关键词太宽泛,添加具体术语

论文太少(<5篇/天)

检查特异性:
├─ 关键词非常具体 → 扩大术语,添加同义词
├─ 关键词正常 → 将阈值降低-0.1
└─ 领域进展缓慢 → 将计划调整为每周

错误主题论文

检查不匹配:
├─ 不同领域(加密货币vs股票) → 添加否定关键词
├─ 不同时间段(旧论文) → 添加日期过滤器:最近2年
├─ 不同方法 → 添加方法特定术语
└─ 不同语言 → 添加语言过滤器

缺少关键论文

用户展示示例论文:
1. 查看该论文的标题/摘要
2. 提取其使用的关键术语
3. 将这些术语添加到搜索中
4. 再次测试

快速参考卡

卡1:问题细化(30秒)

问3个问题:

  1. “您最感兴趣的是什么方面?”
  2. “预测?分析?比较?”
  3. “任何限制:领域/时间/方法?”

结果:“[具体可搜索问题]”

卡2:关键词构建

问题 → 关键词(2步):
1. 从问题中提取核心名词
2. 如果他们使用通俗语言,添加1个技术同义词

示例:
问题:"Twitter能预测股票吗?"
关键词:"twitter sentiment stock prediction"

卡3:来源选择

默认推荐

  • CS/ML/AI → arxiv + semantic_scholar
  • 医学/生物 → pubmed + biorxiv
  • 通用科学 → openalex + crossref
  • 经济学/社会科学 → openalex + ssrn

最多从2个来源开始,仅在缺少论文时添加更多。

卡4:阈值设置

默认:0.7(适用于80%的情况)

调整:
- 用户只想要最佳论文 → 0.8
- 用户想要全面覆盖 → 0.65
- 每天获取<5篇论文 → 降低0.05
- 每天获取>40篇论文 → 提高0.05

卡5:计划指南

基于用户可用时间:
- 10分钟/天 → 每日,10-15篇论文,阈值0.75
- 30分钟/3次每周 → 每隔一天,20-30篇论文,阈值0.7
- 1小时/周 → 每周,50篇论文,阈值0.65

细化模式

细化1:噪音太多

症状:<50%的论文相关

诊断:过滤器太宽松或关键词太宽泛

修复

选项A:提高阈值(0.7 → 0.75或0.8)
选项B:向关键词添加具体术语
选项C:如果某个来源产生垃圾内容,则移除

建议:先尝试A(最快),然后如果需要再尝试B

细化2:覆盖太少

症状:活跃领域每天<10篇论文

诊断:过滤器太严格或关键词太狭窄

修复

选项A:降低阈值(0.7 → 0.65)
选项B:向关键词添加同义词
选项C:添加另一个相关来源

建议:先尝试B(保持质量),然后尝试A

细化3:错误时间段

症状:获取2015-2019年的论文,用户想要最近的

修复

添加日期过滤器:published_after="2022-01-01"

或对于前沿:published_after="2024-01-01"

细化4:领域不匹配

症状:研究股票时获取加密货币论文

修复

添加否定关键词:
exclude_terms = ["cryptocurrency", "bitcoin", "crypto", "blockchain"]

故障排除快速参考

问题 即时修复
零结果 将阈值降至0.6,扩大关键词
每天100+结果 将阈值提高至0.8,添加具体术语
全是旧论文(>3年) 添加日期过滤器:最近2年
错误语言的论文 添加语言过滤器:英语
错误科学领域 为该领域添加否定关键词
太多重复 正常 - Thoth通过DOI/标题自动去重
缺少最近论文 添加arxiv来源(最新)
缺少已发表论文 添加openalex或crossref

高级场景

场景:全面文献综述

用户:“我正在写综述论文,需要所有内容”

助手:"全面策略:

  • 来源:所有可用(arxiv、semantic_scholar、openalex、crossref)
  • 阈值:0.65(宽松)
  • 计划:每天,持续2周
  • 最大:50篇论文/天

您将总共获得400-700篇论文。这是’消防水带’方法。 2周后,我们将根据您的发现进行细化。

准备好应对高容量了吗?"

场景:保持最新(最少时间)

用户:“只想保持最新,非常忙”

助手:"时间高效策略:

  • 来源:仅arxiv(您领域最新)
  • 阈值:0.8(非常严格 - 仅最佳)
  • 计划:每周一
  • 最大:10篇论文/周

每周一次15分钟审阅会议。 您将抓住主要进展,无需每日投入。

听起来好吗?"

场景:学习新领域

用户:“我是这个领域的新手,需要基础论文”

助手:"学习策略:

  • 来源:openalex + semantic_scholar(更广泛覆盖)
  • 阈值:0.7(平衡)
  • 日期过滤器:2019年至今(最近但不前沿)
  • 最大:20篇论文/周

混合最近的综述和重要论文。 适合建立理解。

准备好开始了吗?"


来源特定说明

ArXiv

  • 最适合:CS、物理、数学、统计预印本
  • 新鲜度:提交后几天内的论文
  • 同行评审:最少(发表前)
  • 何时使用:需要前沿、活跃研究领域

Semantic Scholar

  • 最适合:AI驱动的语义搜索
  • 新鲜度:预印本和已发表混合
  • 覆盖范围:广泛,能很好找到相关论文
  • 何时使用:想要发现意外联系

PubMed

  • 最适合:医学、生物医学科学
  • 新鲜度:已发表论文(同行评审)
  • 覆盖范围:医学全面
  • 何时使用:仅医学/生物研究

OpenAlex

  • 最适合:通用学术研究
  • 新鲜度:一切混合
  • 覆盖范围:最全面(2亿+论文)
  • 何时使用:想要跨领域广泛覆盖

Crossref

  • 最适合:DOI元数据
  • 新鲜度:仅已发表论文
  • 覆盖范围:期刊文章、会议
  • 何时使用:需要已发表/可引用论文

测试和验证

初始设置后

助手:"我已配置您的探索。在安排之前,让我们测试:

[运行一次探索]

获得[X]篇论文。让我们一起审阅:
1. 查看前5个标题 - 相关吗?
2. 有任何明显遗漏或噪音吗?
3. [X]篇论文对您来说可管理吗?

根据您的反馈,我们将在上线前调整。"

每周检查模式

助手:"您已经运行了一周。快速回顾:

**容量**:平均每天[X]篇论文
**您的反馈**:[Y]%标记为相关

[如果>70%相关]:"这工作得很好!需要任何调整吗?"
[如果<50%相关]:"我们需要细化。问题可能是[诊断]"

总结:助手的心智模型

  1. 从简单开始:2个来源,0.7阈值,合理计划
  2. 立即测试:运行一次探索以验证
  3. 分析结果:与用户一起查看实际论文
  4. 基于证据细化:调整损坏的部分
  5. 迭代:更改后再次测试
  6. 良好时部署:设置计划并让其运行

目标:在一次对话中让用户从"模糊想法"到"工作探索",最后拥有工作系统。

成功指标:用户获得他们能够持续审阅的相关论文。