名称: 文献综述 描述: 进行系统、全面的文献综述,使用多个学术数据库(如PubMed、arXiv、bioRxiv、Semantic Scholar等)。该技能适用于进行系统文献综述、元分析、研究合成或跨生物医学、科学和技术领域的全面文献搜索。创建专业格式的Markdown文档和PDF,包含多种引用样式(如APA、Nature、Vancouver等)的已验证引用。 允许的工具: [读取, 写入, 编辑, Bash]
文献综述
概述
遵循严格的学术方法进行系统、全面的文献综述。搜索多个文献数据库,按主题合成发现,验证所有引用的准确性,并生成Markdown和PDF格式的专业输出文档。
该技能集成了多个科学技能以访问数据库(如gget、bioservices、datacommons-client),并提供专门的工具进行引用验证、结果聚合和文档生成。
何时使用此技能
在以下情况下使用此技能:
- 为研究或出版物进行系统文献综述
- 跨多个来源合成特定主题的当前知识
- 进行元分析或范围综述
- 撰写研究论文或论文的文献综述部分
- 调查研究领域的最新进展
- 识别研究空白和未来方向
- 需要已验证引用和专业格式
使用科学示意图进行视觉增强
⚠️ 强制要求:每次文献综述必须至少包括1-2个使用科学示意图技能生成的AI生成图表。
这不是可选的。没有视觉元素的文献综述是不完整的。在最终确定任何文档之前:
- 生成至少一个示意图或图表(例如,系统综述的PRISMA流程图)
- 对于全面综述,建议使用2-3个图表(搜索策略流程图、主题合成图、概念框架图)
如何生成图表:
- 使用科学示意图技能生成AI驱动的出版物质量图表
- 只需用自然语言描述所需的图表
- Nano Banana Pro将自动生成、审查和精炼示意图
如何生成示意图:
python scripts/generate_schematic.py "您的图表描述" -o figures/output.png
AI将自动:
- 创建具有适当格式的出版物质量图像
- 通过多次迭代审查和精炼
- 确保可访问性(色盲友好、高对比度)
- 将输出保存在figures/目录中
何时添加示意图:
- 系统综述的PRISMA流程图
- 文献搜索策略流程图
- 主题合成图
- 研究空白可视化图
- 引用网络图
- 概念框架图
- 任何受益于可视化的复杂概念
有关创建示意图的详细指导,请参考科学示意图技能文档。
核心工作流程
文献综述遵循结构化、多阶段的工作流程:
阶段1: 规划和范围界定
-
定义研究问题:对于临床或生物医学综述,使用PICO框架(人群、干预、比较、结果)
- 示例:“对于治疗镰状细胞病(P),CRISPR-Cas9(I)相较于标准护理(C)的疗效如何?”
-
确定范围和目标:
- 定义清晰、具体的研究问题
- 确定综述类型(叙事、系统、范围、元分析)
- 设置边界(时间段、地理范围、研究类型)
-
开发搜索策略:
- 从研究问题中识别2-4个主要概念
- 列出每个概念的同义词、缩写和相关术语
- 规划布尔运算符(AND、OR、NOT)以组合术语
- 选择至少3个互补的数据库
-
设定纳入/排除标准:
- 日期范围(例如,最近10年:2015-2024)
- 语言(通常为英语,或指定多语言)
- 出版物类型(同行评审、预印本、综述)
- 研究设计(随机对照试验、观察性、体外等)
- 明确记录所有标准
阶段2: 系统文献搜索
-
多数据库搜索:
选择适合领域的数据库:
生物医学和生命科学:
- 使用
gget技能:gget search pubmed "搜索词"用于PubMed/PMC - 使用
gget技能:gget search biorxiv "搜索词"用于预印本 - 使用
bioservices技能用于ChEMBL、KEGG、UniProt等
通用科学文献:
- 通过直接API搜索arXiv(物理学、数学、计算机科学、q-bio的预印本)
- 通过API搜索Semantic Scholar(2亿+论文,跨学科)
- 使用Google Scholar进行全面覆盖(手动或小心抓取)
专业数据库:
- 使用
gget alphafold用于蛋白质结构 - 使用
gget cosmic用于癌症基因组学 - 使用
datacommons-client用于人口统计/统计数据 - 根据领域使用适当的专业数据库
- 使用
-
记录搜索参数:
## 搜索策略 ### 数据库:PubMed - **搜索日期**:2024-10-25 - **日期范围**:2015-01-01 至 2024-10-25 - **搜索字符串**:(“CRISPR”[标题] OR “Cas9”[标题]) AND (“镰状细胞”[MeSH] OR “SCD”[标题/摘要]) AND 2015:2024[出版日期]
- **结果**:247篇文章对每个搜索的数据库重复。
-
导出和聚合结果:
- 从每个数据库以JSON格式导出结果
- 将所有结果合并到单个文件
- 使用
scripts/search_databases.py进行后处理:python search_databases.py combined_results.json \ --deduplicate \ --format markdown \ --output aggregated_results.md
阶段3: 筛选和选择
-
去重:
python search_databases.py results.json --deduplicate --output unique_results.json- 通过DOI(主要)或标题(备用)移除重复项
- 记录移除的重复项数量
-
标题筛选:
- 根据纳入/排除标准审查所有标题
- 排除明显不相关的研究
- 记录此阶段排除的数量
-
摘要筛选:
- 阅读剩余研究的摘要
- 严格应用纳入/排除标准
- 记录排除原因
-
全文筛选:
- 获取剩余研究的全文
- 根据所有标准进行详细审查
- 记录排除的具体原因
- 记录最终纳入的研究数量
-
创建PRISMA流程图:
初始搜索:n = X ├─ 去重后:n = Y ├─ 标题筛选后:n = Z ├─ 摘要筛选后:n = A └─ 纳入综述:n = B
阶段4: 数据提取和质量评估
-
从每个纳入研究中提取关键数据:
- 研究元数据(作者、年份、期刊、DOI)
- 研究设计和方法
- 样本量和人群特征
- 关键发现和结果
- 作者指出的局限性
- 资金来源和利益冲突
-
评估研究质量:
- 对于随机对照试验:使用Cochrane偏倚风险工具
- 对于观察性研究:使用纽卡斯尔-渥太华量表
- 对于系统综述:使用AMSTAR 2
- 对每项研究评级:高、中、低或极低质量
- 考虑排除极低质量的研究
-
按主题组织:
- 识别研究中的3-5个主要主题
- 按主题分组研究(研究可能出现在多个主题中)
- 注意模式、共识和争议
阶段5: 合成和分析
-
从模板创建综述文档:
cp assets/review_template.md my_literature_review.md -
撰写主题合成(而非逐项研究总结):
- 按主题或研究问题组织结果部分
- 在每个主题内合成多项研究的发现
- 比较和对比不同的方法和结果
- 识别共识领域和争议点
- 突出最强证据
示例结构:
#### 3.3.1 主题:CRISPR递送方法 已经研究了多种递送方法用于治疗性基因编辑。病毒载体(AAV)在15项研究^1-15^中使用,显示高转导效率(65-85%)但引发免疫原性问题^3,7,12^。相比之下,脂质纳米颗粒展示了较低效率(40-60%)但改进了安全特性^16-23^。 -
批判性分析:
- 评估研究的方法学优势和局限性
- 评估证据的质量和一致性
- 识别知识空白和方法学空白
- 注意需要未来研究的领域
-
撰写讨论:
- 在更广泛的背景下解释发现
- 讨论临床、实践或研究意义
- 承认综述本身的局限性
- 如果适用,与先前综述比较
- 提出具体的未来研究方向
阶段6: 引用验证
关键:所有引用在最终提交前必须验证准确性。
-
验证所有DOI:
python scripts/verify_citations.py my_literature_review.md此脚本:
- 从文档中提取所有DOI
- 验证每个DOI是否正确解析
- 从CrossRef检索元数据
- 生成验证报告
- 输出正确格式的引用
-
审查验证报告:
- 检查是否有失败的DOI
- 验证作者姓名、标题和出版详情是否匹配
- 更正原始文档中的任何错误
- 重新运行验证直到所有引用通过
-
一致格式化引用:
- 选择一种引用样式并全程使用(见
references/citation_styles.md) - 常见样式:APA、Nature、Vancouver、Chicago、IEEE
- 使用验证脚本输出来正确格式化引用
- 确保文内引用匹配参考文献列表格式
- 选择一种引用样式并全程使用(见
阶段7: 文档生成
-
生成PDF:
python scripts/generate_pdf.py my_literature_review.md \ --citation-style apa \ --output my_review.pdf选项:
--citation-style:apa、nature、chicago、vancouver、ieee--no-toc:禁用目录--no-numbers:禁用章节编号--check-deps:检查是否安装了pandoc/xelatex
-
审查最终输出:
- 检查PDF格式和布局
- 验证所有部分都存在
- 确保引用正确呈现
- 检查图表/表格是否正常显示
- 验证目录是否准确
-
质量检查清单:
- [ ] 所有DOI已通过verify_citations.py验证
- [ ] 引用格式化一致
- [ ] 包括PRISMA流程图(针对系统综述)
- [ ] 搜索方法完全记录
- [ ] 纳入/排除标准明确说明
- [ ] 结果按主题组织(非逐项研究)
- [ ] 质量评估已完成
- [ ] 局限性已承认
- [ ] 参考文献完整且准确
- [ ] PDF生成无错误
数据库特定搜索指导
PubMed / PubMed Central
通过gget技能访问:
# 搜索PubMed
gget search pubmed "CRISPR基因编辑" -l 100
# 使用过滤器搜索
# 使用PubMed高级搜索构建器来构建复杂查询
# 然后通过gget或直接Entrez API执行
搜索提示:
- 使用MeSH术语:
"镰状细胞病"[MeSH] - 字段标签:
[标题]、[标题/摘要]、[作者] - 日期过滤器:
2020:2024[出版日期] - 布尔运算符:AND、OR、NOT
- 见MeSH浏览器:https://meshb.nlm.nih.gov/search
bioRxiv / medRxiv
通过gget技能访问:
gget search biorxiv "CRISPR镰状细胞" -l 50
重要考虑:
- 预印本未经同行评审
- 谨慎验证发现
- 检查预印本是否已发表(CrossRef)
- 注意预印本版本和日期
arXiv
通过直接API或WebFetch访问:
# 示例搜索类别:
# q-bio.QM(定量方法)
# q-bio.GN(基因组学)
# q-bio.MN(分子网络)
# cs.LG(机器学习)
# stat.ML(机器学习统计)
# 搜索格式:类别 AND 术语
search_query = "cat:q-bio.QM AND ti:\"单细胞测序\""
Semantic Scholar
通过直接API访问(需要API密钥,或使用免费层):
- 2亿+论文,覆盖所有领域
- 非常适合跨学科搜索
- 提供引用图和论文推荐
- 用于查找高影响力论文
专业生物医学数据库
使用适当的技能:
- ChEMBL:
bioservices技能用于化学生物活性 - UniProt:
gget或bioservices技能用于蛋白质信息 - KEGG:
bioservices技能用于通路和基因 - COSMIC:
gget技能用于癌症突变 - AlphaFold:
gget alphafold用于蛋白质结构 - PDB:
gget或直接API用于实验结构
引用链式扩展
通过引用网络扩展搜索:
-
前向引用(引用关键论文的论文):
- 使用Google Scholar“被引用次数”
- 使用Semantic Scholar或OpenAlex APIs
- 识别基于开创性工作的新研究
-
后向引用(关键论文的参考文献):
- 从纳入论文中提取参考文献
- 识别高引用的基础工作
- 查找被多项纳入研究引用的论文
引用样式指南
详细格式指导见references/citation_styles.md。快速参考:
APA(第7版)
- 文内:(Smith et al., 2023)
- 参考文献:Smith, J. D., Johnson, M. L., & Williams, K. R. (2023). 标题. 期刊, 22(4), 301-318. https://doi.org/10.xxx/yyy
Nature
- 文内:上标数字^1,2^
- 参考文献:Smith, J. D., Johnson, M. L. & Williams, K. R. 标题. Nat. Rev. Drug Discov. 22, 301-318 (2023).
Vancouver
- 文内:上标数字^1,2^
- 参考文献:Smith JD, Johnson ML, Williams KR. 标题. Nat Rev Drug Discov. 2023;22(4):301-18.
始终在最终确定前使用verify_citations.py验证引用。
最佳实践
优先考虑高影响力论文(关键)
**始终优先考虑来自知名作者和顶级出版物的有影响力、高引用的论文。**在文献综述中,质量比数量更重要。
引用次数阈值
使用引用次数来识别最有影响力的论文:
| 论文年龄 | 引用次数阈值 | 分类 |
|---|---|---|
| 0-3年 | 20+ 次引用 | 值得注意 |
| 0-3年 | 100+ 次引用 | 高影响力 |
| 3-7年 | 100+ 次引用 | 重要 |
| 3-7年 | 500+ 次引用 | 里程碑论文 |
| 7+年 | 500+ 次引用 | 开创性工作 |
| 7+年 | 1000+ 次引用 | 基础性 |
期刊和出版物层级
优先考虑来自更高层级出版物的论文:
- 层级1(始终优先):Nature、Science、Cell、NEJM、Lancet、JAMA、PNAS、Nature Medicine、Nature Biotechnology
- 层级2(强烈偏好):高影响力专业期刊(影响因子>10)、顶级会议(如NeurIPS、ICML用于ML/AI)
- 层级3(相关时包括):受尊重的专业期刊(影响因子5-10)
- 层级4(谨慎使用):低影响力同行评审出版物
作者声誉评估
优先考虑来自以下作者的论文:
- 资深研究员,具有高h指数(在成熟领域中>40)
- 知名机构的领先研究组(如哈佛、斯坦福、MIT、牛津等)
- 在相关领域有多篇层级1出版物的作者
- 具有公认专业知识的专家(获奖、编辑职位、学会会员)
识别开创性论文
对于任何主题,通过以下方式识别基础性工作:
- 高引用次数(通常对于5年以上论文为500+)
- 频繁被其他纳入研究引用(出现在许多参考文献列表中)
- 发表在层级1出版物中(Nature、Science、Cell家族)
- 由领域先驱撰写(通常被引用为建立概念)
搜索策略
- 使用多个数据库(至少3个):确保全面覆盖
- 包括预印本服务器:捕获最新未发表发现
- 记录所有内容:搜索字符串、日期、结果数量以便可重复性
- 测试和精炼:运行试点搜索,审查结果,调整搜索词
- 按引用次数排序:当可用时,按引用次数排序搜索结果以首先突出有影响力工作
筛选和选择
- 使用明确标准:筛选前记录纳入/排除标准
- 系统筛选:标题 → 摘要 → 全文
- 记录排除:记录排除研究的原因
- 考虑双人筛选:对于系统综述,让两名评审员独立筛选
- 优先考虑层级1出版物:在考虑低层级来源前,包括所有来自顶级出版物的相关论文
合成
- 按主题组织:按主题分组,而非按个体研究
- 跨研究合成:比较、对比、识别模式
- 批判性:评估证据的质量和一致性
- 识别空白:注意缺失或研究不足的领域
- 以高影响力工作开头:每个主题以最有影响力/引用的论文开头
质量和可重复性
- 评估研究质量:使用适当的质量评估工具
- 验证所有引用:运行verify_citations.py脚本
- 记录方法学:提供足够细节以便他人重复
- 遵循指导:对于系统综述使用PRISMA
写作
- 客观:公平呈现证据,承认局限性
- 系统化:遵循结构化模板
- 具体:在可用时包括数字、统计、效应大小
- 清晰:使用清晰标题、逻辑流程、主题组织
- 引用影响力指标:当相关时,提及引用次数和出版物声望
常见陷阱避免
- 单一数据库搜索:错过相关论文;始终搜索多个数据库
- 无搜索记录:使综述不可重复;记录所有搜索
- 逐项研究总结:缺乏合成;改为按主题组织
- 未验证引用:导致错误;始终运行verify_citations.py
- 搜索太宽泛:产生数千个不相关结果;使用具体术语精炼
- 搜索太狭窄:错过相关论文;包括同义词和相关术语
- 忽略预印本:错过最新发现;包括bioRxiv、medRxiv、arXiv
- 无质量评估:平等对待所有证据;评估并报告质量
- 发表偏倚:仅发表阳性结果;注意潜在偏倚
- 过时搜索:领域快速发展;明确说明搜索日期
示例工作流程
生物医学文献综述的完整工作流程:
# 1. 从模板创建综述文档
cp assets/review_template.md crispr_sickle_cell_review.md
# 2. 使用适当技能搜索多个数据库
# - 使用gget技能用于PubMed、bioRxiv
# - 使用直接API访问arXiv、Semantic Scholar
# - 以JSON格式导出结果
# 3. 聚合和处理结果
python scripts/search_databases.py combined_results.json \
--deduplicate \
--rank citations \
--year-start 2015 \
--year-end 2024 \
--format markdown \
--output search_results.md \
--summary
# 4. 筛选结果并提取数据
# - 手动筛选标题、摘要、全文
# - 将关键数据提取到综述文档中
# - 按主题组织
# 5. 遵循模板结构撰写综述
# - 引言有明确目标
# - 详细方法学部分
# - 按主题组织的结果
# - 批判性讨论
# - 清晰结论
# 6. 验证所有引用
python scripts/verify_citations.py crispr_sickle_cell_review.md
# 审查引用报告
cat crispr_sickle_cell_review_citation_report.json
# 修复任何失败引用并重新验证
python scripts/verify_citations.py crispr_sickle_cell_review.md
# 7. 生成专业PDF
python scripts/generate_pdf.py crispr_sickle_cell_review.md \
--citation-style nature \
--output crispr_sickle_cell_review.pdf
# 8. 审查最终PDF和Markdown输出
与其他技能集成
此技能与其他科学技能无缝协作:
数据库访问技能
- gget:PubMed、bioRxiv、COSMIC、AlphaFold、Ensembl、UniProt
- bioservices:ChEMBL、KEGG、Reactome、UniProt、PubChem
- datacommons-client:人口统计、经济学、健康统计
分析技能
- pydeseq2:RNA-seq差异表达(用于方法部分)
- scanpy:单细胞分析(用于方法部分)
- anndata:单细胞数据(用于方法部分)
- biopython:序列分析(用于背景部分)
可视化技能
- matplotlib:为综述生成图表和绘图
- seaborn:统计可视化
写作技能
- 品牌指南:将机构品牌应用于PDF
- 内部通讯:适应不同受众的综述
- 出版物模板:在准备出版综述时,访问特定出版物的写作风格指南
出版物特定写作风格
在为特定期刊准备文献综述时,咨询出版物模板技能以获取写作风格指导:
venue_writing_styles.md:跨出版物的主要风格比较nature_science_style.md:Nature/Science流动摘要风格,故事驱动结构cell_press_style.md:Cell Press图形摘要,亮点格式medical_journal_styles.md:NEJM/Lancet/JAMA结构化摘要,PRISMA合规性
这些指南帮助调整综述的语气、摘要格式和结构以匹配目标出版物的期望。
资源
捆绑资源
脚本:
scripts/verify_citations.py:验证DOI并生成格式化引用scripts/generate_pdf.py:将Markdown转换为专业PDFscripts/search_databases.py:处理、去重和格式化搜索结果
参考文献:
references/citation_styles.md:详细引用格式指南(APA、Nature、Vancouver、Chicago、IEEE)references/database_strategies.md:全面的数据库搜索策略
资产:
assets/review_template.md:完整的文献综述模板,包含所有部分
外部资源
指南:
- PRISMA(系统综述):http://www.prisma-statement.org/
- Cochrane手册:https://training.cochrane.org/handbook
- AMSTAR 2(综述质量):https://amstar.ca/
工具:
- MeSH浏览器:https://meshb.nlm.nih.gov/search
- PubMed高级搜索:https://pubmed.ncbi.nlm.nih.gov/advanced/
- 布尔搜索指南:https://www.ncbi.nlm.nih.gov/books/NBK3827/
引用样式:
- APA样式:https://apastyle.apa.org/
- Nature系列:https://www.nature.com/nature-portfolio/editorial-policies/reporting-standards
- NLM/Vancouver:https://www.nlm.nih.gov/bsd/uniform_requirements.html
依赖项
所需Python包
pip install requests # 用于引用验证
所需系统工具
# 用于PDF生成
brew install pandoc # macOS
apt-get install pandoc # Linux
# 用于LaTeX(PDF生成)
brew install --cask mactex # macOS
apt-get install texlive-xetex # Linux
检查依赖项:
python scripts/generate_pdf.py --check-deps
总结
此文献综述技能提供:
- 系统方法学,遵循学术最佳实践
- 多数据库集成,通过现有科学技能
- 引用验证,确保准确性和可信度
- 专业输出,以Markdown和PDF格式
- 全面指导,涵盖整个综述过程
- 质量保证,通过验证和确认工具
- 可重复性,通过详细记录要求
进行彻底、严格的文献综述,满足学术标准并提供任何领域当前知识的全面合成。