文献综述Skill literature-review

该技能用于进行系统性文献综述,包括搜索多个学术数据库(如PubMed、arXiv、bioRxiv)、合成研究发现、验证引用准确性,并生成专业的Markdown和PDF文档。适用于学术研究、荟萃分析、论文写作等场景,提供全面、可靠的文献支持。关键词:文献综述、学术研究、数据库搜索、引用验证、PDF生成、系统综述、科研写作、文献检索、学术搜索。

文献检索 0 次安装 0 次浏览 更新于 3/22/2026

name: literature-review description: 使用多个学术数据库(PubMed、arXiv、bioRxiv、Semantic Scholar等)进行全面的、系统的文献综述。该技能应用于进行系统性文献综述、荟萃分析、研究合成或跨生物医学、科学和技术领域的全面文献搜索。创建专业格式的Markdown文档和PDF,带有多种引用样式(APA、Nature、Vancouver等)的已验证引用。 allowed-tools: [Read, Write, Edit, Bash]

文献综述

概述

遵循严格的学术方法进行系统性、全面的文献综述。搜索多个文献数据库,按主题合成发现,验证所有引用的准确性,并生成专业的Markdown和PDF格式输出文档。

该技能与多个科学技能集成用于数据库访问(gget、bioservices、datacommons-client),并提供专门的工具用于引用验证、结果聚合和文档生成。

何时使用此技能

使用此技能当:

  • 为研究或发表进行系统性文献综述
  • 跨多个来源合成特定主题的当前知识
  • 进行荟萃分析或范围综述
  • 撰写研究论文或学位论文的文献综述部分
  • 调查研究领域的最新进展
  • 识别研究空白和未来方向
  • 需要已验证引用和专业格式

通过科学示意图增强视觉化

⚠️ 强制要求:每篇文献综述必须包括至少1-2个使用科学示意图技能生成的AI生成图。

这不是可选的。没有视觉元素的文献综述是不完整的。在最终化任何文档之前:

  1. 生成至少一个示意图或图表(例如,系统综述的PRISMA流程图)
  2. 对于全面综述,建议2-3个图(搜索策略流程图、主题合成图、概念框架图)

如何生成图:

  • 使用科学示意图技能生成AI驱动的出版物质量图表
  • 只需用自然语言描述您想要的图表
  • Nano Banana Pro将自动生成、审查和优化示意图

如何生成示意图:

python scripts/generate_schematic.py "您的图表描述" -o figures/output.png

AI将自动:

  • 创建具有正确格式的出版物质量图像
  • 通过多次迭代审查和优化
  • 确保可访问性(色盲友好、高对比度)
  • 将输出保存在figures/目录中

何时添加示意图:

  • 系统综述的PRISMA流程图
  • 文献搜索策略流程图
  • 主题合成图
  • 研究空白可视化地图
  • 引用网络图
  • 概念框架插图
  • 任何受益于可视化的复杂概念

有关创建示意图的详细指南,请参阅科学示意图技能文档。


核心工作流程

文献综述遵循结构化、多阶段工作流程:

阶段1:规划和范围确定

  1. 定义研究问题:对于临床/生物医学综述,使用PICO框架(人群、干预、比较、结果)

    • 示例:“与标准护理(C)相比,CRISPR-Cas9(I)治疗镰状细胞病(P)的疗效是什么?”
  2. 建立范围和目标

    • 定义清晰、具体的研究问题
    • 确定综述类型(叙述性、系统性、范围性、荟萃分析)
    • 设定边界(时间段、地理范围、研究类型)
  3. 制定搜索策略

    • 从研究问题中识别2-4个主要概念
    • 列出每个概念的同义词、缩写和相关术语
    • 计划布尔运算符(AND、OR、NOT)来组合术语
    • 选择至少3个互补的数据库
  4. 设置纳入/排除标准

    • 日期范围(例如,过去10年:2015-2024)
    • 语言(通常是英语,或指定多语言)
    • 出版物类型(同行评审、预印本、综述)
    • 研究设计(RCT、观察性、体外等)
    • 清晰记录所有标准

阶段2:系统性文献搜索

  1. 多数据库搜索

    选择适合领域的数据库:

    生物医学和生命科学:

    • 使用gget技能:gget search pubmed "搜索术语"用于PubMed/PMC
    • 使用gget技能:gget search biorxiv "搜索术语"用于预印本
    • 使用bioservices技能用于ChEMBL、KEGG、UniProt等

    一般科学文献:

    • 通过直接API搜索arXiv(物理、数学、CS、q-bio中的预印本)
    • 通过API搜索Semantic Scholar(2亿+论文,跨学科)
    • 使用Google Scholar进行全面覆盖(手动或小心抓取)

    专业数据库:

    • 使用gget alphafold用于蛋白质结构
    • 使用gget cosmic用于癌症基因组学
    • 使用datacommons-client用于人口统计/统计数据
    • 根据领域使用适当的专业数据库
  2. 记录搜索参数

    ## 搜索策略
    
    ### 数据库:PubMed
    - **搜索日期**:2024-10-25
    - **日期范围**:2015-01-01至2024-10-25
    - **搜索字符串**:
    

    (“CRISPR”[Title] OR “Cas9”[Title]) AND (“sickle cell”[MeSH] OR “SCD”[Title/Abstract]) AND 2015:2024[Publication Date]

    - **结果**:247篇文章
    

    对每个搜索的数据库重复此过程。

  3. 导出和聚合结果

    • 从每个数据库以JSON格式导出结果
    • 将所有结果合并到一个文件中
    • 使用scripts/search_databases.py进行后处理:
      python search_databases.py combined_results.json \
        --deduplicate \
        --format markdown \
        --output aggregated_results.md
      

阶段3:筛选和选择

  1. 去重

    python search_databases.py results.json --deduplicate --output unique_results.json
    
    • 通过DOI(主要)或标题(备选)移除重复
    • 记录移除的重复数量
  2. 标题筛选

    • 根据纳入/排除标准审查所有标题
    • 排除明显不相关的研究
    • 记录此阶段排除的数量
  3. 摘要筛选

    • 阅读剩余研究的摘要
    • 严格应用纳入/排除标准
    • 记录排除原因
  4. 全文筛选

    • 获取剩余研究的全文
    • 根据所有标准进行详细审查
    • 记录具体排除原因
    • 记录最终纳入研究的数量
  5. 创建PRISMA流程图

    初始搜索:n = X
    ├─ 去重后:n = Y
    ├─ 标题筛选后:n = Z
    ├─ 摘要筛选后:n = A
    └─ 综述中纳入:n = B
    

阶段4:数据提取和质量评估

  1. 从每个纳入研究中提取关键数据

    • 研究元数据(作者、年份、期刊、DOI)
    • 研究设计和方法
    • 样本量和人群特征
    • 关键发现和结果
    • 作者指出的局限性
    • 资金来源和利益冲突
  2. 评估研究质量

    • 对于RCT:使用Cochrane偏倚风险工具
    • 对于观察性研究:使用纽卡斯尔-渥太华量表
    • 对于系统综述:使用AMSTAR 2
    • 对每个研究评级:高、中、低或非常低质量
    • 考虑排除非常低质量的研究
  3. 按主题组织

    • 识别研究中的3-5个主要主题
    • 按主题分组研究(研究可能出现在多个主题中)
    • 注意模式、共识和争议

阶段5:合成和分析

  1. 从模板创建综述文档

    cp assets/review_template.md my_literature_review.md
    
  2. 撰写主题合成(NOT 逐个研究总结):

    • 按主题或研究问题组织结果部分
    • 在每个主题内合成多个研究的发现
    • 比较和对比不同方法和结果
    • 识别共识领域和争议点
    • 突出最有力的证据

    示例结构:

    #### 3.3.1 主题:CRISPR递送方法
    
    已研究多种递送方法用于治疗性基因编辑。病毒载体(AAV)在15项研究^1-15^中使用,显示出高转导效率(65-85%),但引发免疫原性担忧^3,7,12^。相比之下,脂质纳米颗粒表现出较低效率(40-60%),但安全性更好^16-23^。
    
  3. 批判性分析

    • 评估研究中的方法学优势和局限性
    • 评估证据的质量和一致性
    • 识别知识空白和方法学空白
    • 指出需要未来研究的领域
  4. 撰写讨论

    • 在更广泛背景下解释发现
    • 讨论临床、实践或研究意义
    • 承认综述本身的局限性
    • 如果适用,与先前综述比较
    • 提出具体的未来研究方向

阶段6:引用验证

关键:所有引用在最终提交前必须验证准确性。

  1. 验证所有DOI

    python scripts/verify_citations.py my_literature_review.md
    

    此脚本:

    • 从文档中提取所有DOI
    • 验证每个DOI是否正确解析
    • 从CrossRef检索元数据
    • 生成验证报告
    • 输出正确格式的引用
  2. 审查验证报告

    • 检查任何失败的DOI
    • 验证作者姓名、标题和出版物详情匹配
    • 纠正原始文档中的任何错误
    • 重新运行验证直到所有引用通过
  3. 一致格式化引用

    • 选择一个引用样式并始终使用(见references/citation_styles.md
    • 常见样式:APA、Nature、Vancouver、Chicago、IEEE
    • 使用验证脚本输出来正确格式化引用
    • 确保文中引用与参考文献列表格式匹配

阶段7:文档生成

  1. 生成PDF

    python scripts/generate_pdf.py my_literature_review.md \
      --citation-style apa \
      --output my_review.pdf
    

    选项:

    • --citation-style:apa、nature、chicago、vancouver、ieee
    • --no-toc:禁用目录
    • --no-numbers:禁用节编号
    • --check-deps:检查是否安装pandoc/xelatex
  2. 审查最终输出

    • 检查PDF格式和布局
    • 验证所有部分都存在
    • 确保引用正确渲染
    • 检查图表/表格是否正确显示
    • 验证目录准确
  3. 质量检查清单

    • [ ] 所有DOI通过verify_citations.py验证
    • [ ] 引用格式一致
    • [ ] 包括PRISMA流程图(对于系统综述)
    • [ ] 搜索方法完全记录
    • [ ] 纳入/排除标准清晰说明
    • [ ] 结果按主题组织(NOT 逐个研究)
    • [ ] 质量评估完成
    • [ ] 局限性承认
    • [ ] 参考文献完整准确
    • [ ] PDF生成无错误

数据库特定搜索指南

PubMed / PubMed Central

通过gget技能访问:

# 搜索PubMed
gget search pubmed "CRISPR基因编辑" -l 100

# 带过滤器搜索
# 使用PubMed高级搜索构建器构建复杂查询
# 然后通过gget或直接Entrez API执行

搜索提示

  • 使用MeSH术语:"sickle cell disease"[MeSH]
  • 字段标签:[Title][Title/Abstract][Author]
  • 日期过滤器:2020:2024[Publication Date]
  • 布尔运算符:AND、OR、NOT
  • 见MeSH浏览器:https://meshb.nlm.nih.gov/search

bioRxiv / medRxiv

通过gget技能访问:

gget search biorxiv "CRISPR sickle cell" -l 50

重要考虑

  • 预印本未经同行评审
  • 谨慎验证发现
  • 检查预印本是否已发表(CrossRef)
  • 注意预印本版本和日期

arXiv

通过直接API或WebFetch访问:

# 示例搜索类别:
# q-bio.QM(定量方法)
# q-bio.GN(基因组学)
# q-bio.MN(分子网络)
# cs.LG(机器学习)
# stat.ML(机器学习统计)

# 搜索格式:类别 AND 术语
search_query = "cat:q-bio.QM AND ti:\"single cell sequencing\""

Semantic Scholar

通过直接API访问(需要API密钥,或使用免费层):

  • 2亿+论文跨所有领域
  • 跨学科搜索出色
  • 提供引用图和论文推荐
  • 用于找到高影响力论文

专业生物医学数据库

使用适当技能:

  • ChEMBLbioservices技能用于化学生物活性
  • UniProtggetbioservices技能用于蛋白质信息
  • KEGGbioservices技能用于通路和基因
  • COSMICgget技能用于癌症突变
  • AlphaFoldgget alphafold用于蛋白质结构
  • PDBgget或直接API用于实验结构

引用链式搜索

通过引用网络扩展搜索:

  1. 前向引用(引用关键论文的论文):

    • 使用Google Scholar“被引用次数”
    • 使用Semantic Scholar或OpenAlex APIs
    • 识别基于开创性工作的新研究
  2. 后向引用(来自关键论文的参考文献):

    • 从纳入论文中提取参考文献
    • 识别高被引基础工作
    • 找到多个纳入研究中引用的论文

引用样式指南

详细格式指南在references/citation_styles.md中。快速参考:

APA(第7版)

  • 文中:(Smith et al., 2023)
  • 参考文献:Smith, J. D., Johnson, M. L., & Williams, K. R. (2023). Title. Journal, 22(4), 301-318. https://doi.org/10.xxx/yyy

Nature

  • 文中:上标数字^1,2^
  • 参考文献:Smith, J. D., Johnson, M. L. & Williams, K. R. Title. Nat. Rev. Drug Discov. 22, 301-318 (2023).

Vancouver

  • 文中:上标数字^1,2^
  • 参考文献:Smith JD, Johnson ML, Williams KR. Title. Nat Rev Drug Discov. 2023;22(4):301-18.

始终验证引用,使用verify_citations.py在最终化前。

最佳实践

优先考虑高影响力论文(关键)

始终优先考虑来自知名作者和顶级场所的有影响力、高被引论文。 在文献综述中,质量比数量更重要。

引用计数阈值

使用引用计数识别最具影响力的论文:

论文年龄 引用阈值 分类
0-3年 20+ 引用 值得注意
0-3年 100+ 引用 高度有影响力
3-7年 100+ 引用 显著
3-7年 500+ 引用 里程碑论文
7+年 500+ 引用 开创性工作
7+年 1000+ 引用 基础性

期刊和场所层级

优先考虑来自高层级场所的论文:

  • 层级1(始终优先):Nature、Science、Cell、NEJM、Lancet、JAMA、PNAS、Nature Medicine、Nature Biotechnology
  • 层级2(强烈偏好):高影响力专业期刊(IF>10),顶级会议(NeurIPS、ICML用于ML/AI)
  • 层级3(相关时包括):受尊敬的专业期刊(IF 5-10)
  • 层级4(谨慎使用):低影响力同行评审场所

作者声誉评估

优先考虑论文来自:

  • 资深研究人员,h-指数高(>40在已建立领域)
  • 领先研究组在公认机构(哈佛、斯坦福、MIT、牛津等)
  • 作者在相关领域有多个层级1出版物
  • 具有公认专长的研究人员(奖项、编辑职位、学会会士)

识别开创性论文

对于任何主题,通过以下方式识别基础工作:

  1. 高引用计数(通常5+年论文500+)
  2. 经常被其他纳入研究引用(出现在许多参考文献列表中)
  3. 发表在层级1场所(Nature、Science、Cell家族)
  4. 由领域先驱撰写(常被引用为建立概念)

搜索策略

  1. 使用多个数据库(至少3个):确保全面覆盖
  2. 包括预印本服务器:捕捉最新未发表发现
  3. 记录所有内容:搜索字符串、日期、结果计数用于可重复性
  4. 测试和优化:运行试点搜索,审查结果,调整搜索术语
  5. 按引用排序:当可用时,按引用计数排序搜索结果以首先显示有影响力工作

筛选和选择

  1. 使用清晰标准:在筛选前记录纳入/排除标准
  2. 系统筛选:标题 → 摘要 → 全文
  3. 记录排除:记录排除研究的原因
  4. 考虑双重筛选:对于系统综述,让两个评审员独立筛选
  5. 优先考虑层级1场所:在考虑低层级来源前,包括所有来自顶级场所的相关论文

合成

  1. 按主题组织:按主题分组,NOT 逐个研究
  2. 跨研究合成:比较、对比、识别模式
  3. 批判性:评估证据的质量和一致性
  4. 识别空白:注意缺失或研究不足的内容
  5. 从高影响力工作开始:以每个主题中最具影响力/高被引论文开始

质量和可重复性

  1. 评估研究质量:使用适当的质量评估工具
  2. 验证所有引用:运行verify_citations.py脚本
  3. 记录方法学:提供足够细节供他人重复
  4. 遵循指南:使用PRISMA用于系统综述

写作

  1. 客观:公平呈现证据,承认局限性
  2. 系统化:遵循结构化模板
  3. 具体:在可用时包括数字、统计、效应大小
  4. 清晰:使用清晰标题、逻辑流程、主题组织
  5. 引用影响指标:当相关时,提及引用计数和场所声望

常见陷阱避免

  1. 单数据库搜索:错过相关论文;始终搜索多个数据库
  2. 无搜索文档:使综述不可重复;记录所有搜索
  3. 逐个研究总结:缺乏合成;改为按主题组织
  4. 未验证引用:导致错误;始终运行verify_citations.py
  5. 搜索太宽泛:产生数千个不相关结果;用具体术语优化
  6. 搜索太狭窄:错过相关论文;包括同义词和相关术语
  7. 忽略预印本:错过最新发现;包括bioRxiv、medRxiv、arXiv
  8. 无质量评估:平等对待所有证据;评估和报告质量
  9. 发表偏倚:仅发表阳性结果;注意潜在偏倚
  10. 过时搜索:领域快速发展;清晰说明搜索日期

示例工作流程

生物医学文献综述的完整工作流程:

# 1. 从模板创建综述文档
cp assets/review_template.md crispr_sickle_cell_review.md

# 2. 使用适当技能搜索多个数据库
# - 使用gget技能用于PubMed、bioRxiv
# - 使用直接API访问用于arXiv、Semantic Scholar
# - 以JSON格式导出结果

# 3. 聚合和处理结果
python scripts/search_databases.py combined_results.json \
  --deduplicate \
  --rank citations \
  --year-start 2015 \
  --year-end 2024 \
  --format markdown \
  --output search_results.md \
  --summary

# 4. 筛选结果并提取数据
# - 手动筛选标题、摘要、全文
# - 提取关键数据到综述文档中
# - 按主题组织

# 5. 遵循模板结构撰写综述
# - 带清晰目标的引言
# - 详细方法学部分
# - 按主题组织的结果
# - 批判性讨论
# - 清晰结论

# 6. 验证所有引用
python scripts/verify_citations.py crispr_sickle_cell_review.md

# 审查引用报告
cat crispr_sickle_cell_review_citation_report.json

# 修复任何失败引用并重新验证
python scripts/verify_citations.py crispr_sickle_cell_review.md

# 7. 生成专业PDF
python scripts/generate_pdf.py crispr_sickle_cell_review.md \
  --citation-style nature \
  --output crispr_sickle_cell_review.pdf

# 8. 审查最终PDF和Markdown输出

与其他技能集成

此技能与其他科学技能无缝协作:

数据库访问技能

  • gget:PubMed、bioRxiv、COSMIC、AlphaFold、Ensembl、UniProt
  • bioservices:ChEMBL、KEGG、Reactome、UniProt、PubChem
  • datacommons-client:人口统计、经济学、健康统计数据

分析技能

  • pydeseq2:RNA-seq差异表达(用于方法部分)
  • scanpy:单细胞分析(用于方法部分)
  • anndata:单细胞数据(用于方法部分)
  • biopython:序列分析(用于背景部分)

可视化技能

  • matplotlib:为综述生成图表和绘图
  • seaborn:统计可视化

写作技能

  • brand-guidelines:将机构品牌应用到PDF
  • internal-comms:为不同受众调整综述
  • venue-templates:准备发表综述时访问场所特定写作风格指南

场所特定写作风格

当为特定期刊准备文献综述时,咨询venue-templates技能获取写作风格指导:

  • venue_writing_styles.md:跨场所主风格比较
  • nature_science_style.md:Nature/Science流畅摘要风格,故事驱动结构
  • cell_press_style.md:Cell Press图形摘要,亮点格式
  • medical_journal_styles.md:NEJM/Lancet/JAMA结构化摘要,PRISMA合规性

这些指南帮助调整综述的语气、摘要格式和结构,以匹配目标场所的期望。

资源

捆绑资源

脚本:

  • scripts/verify_citations.py:验证DOI并生成格式化引用
  • scripts/generate_pdf.py:转换Markdown到专业PDF
  • scripts/search_databases.py:处理、去重和格式化搜索结果

参考文献:

  • references/citation_styles.md:详细引用格式指南(APA、Nature、Vancouver、Chicago、IEEE)
  • references/database_strategies.md:全面数据库搜索策略

资产:

  • assets/review_template.md:完整文献综述模板,带所有部分

外部资源

指南:

工具:

引用样式:

依赖项

所需Python包

pip install requests  # 用于引用验证

所需系统工具

# 用于PDF生成
brew install pandoc  # macOS
apt-get install pandoc  # Linux

# 用于LaTeX(PDF生成)
brew install --cask mactex  # macOS
apt-get install texlive-xetex  # Linux

检查依赖项:

python scripts/generate_pdf.py --check-deps

总结

此文献综述技能提供:

  1. 系统性方法学,遵循学术最佳实践
  2. 多数据库集成,通过现有科学技能
  3. 引用验证,确保准确性和可信度
  4. 专业输出,以Markdown和PDF格式
  5. 全面指导,覆盖整个综述过程
  6. 质量保证,带验证和验证工具
  7. 可重复性,通过详细文档要求

进行彻底、严格的文献综述,满足学术标准,并提供任何领域当前知识的全面合成。