名称: 文献综述描述: 进行系统、全面的文献综述，使用多个学术数据库（如PubMed、arXiv、bioRxiv、Semantic Scholar等）。该技能适用于进行系统文献综述、元分析、研究合成或跨生物医学、科学和技术领域的全面文献搜索。创建专业格式的Markdown文档和PDF，包含多种引用样式（如APA、Nature、Vancouver等）的已验证引用。允许的工具: [读取, 写入, 编辑, Bash]

文献综述

概述

遵循严格的学术方法进行系统、全面的文献综述。搜索多个文献数据库，按主题合成发现，验证所有引用的准确性，并生成Markdown和PDF格式的专业输出文档。

该技能集成了多个科学技能以访问数据库（如gget、bioservices、datacommons-client），并提供专门的工具进行引用验证、结果聚合和文档生成。

何时使用此技能

在以下情况下使用此技能：

为研究或出版物进行系统文献综述
跨多个来源合成特定主题的当前知识
进行元分析或范围综述
撰写研究论文或论文的文献综述部分
调查研究领域的最新进展
识别研究空白和未来方向
需要已验证引用和专业格式

使用科学示意图进行视觉增强

⚠️ 强制要求：每次文献综述必须至少包括1-2个使用科学示意图技能生成的AI生成图表。

这不是可选的。没有视觉元素的文献综述是不完整的。在最终确定任何文档之前：

生成至少一个示意图或图表（例如，系统综述的PRISMA流程图）
对于全面综述，建议使用2-3个图表（搜索策略流程图、主题合成图、概念框架图）

如何生成图表：

使用科学示意图技能生成AI驱动的出版物质量图表
只需用自然语言描述所需的图表
Nano Banana Pro将自动生成、审查和精炼示意图

如何生成示意图：

python scripts/generate_schematic.py "您的图表描述" -o figures/output.png

AI将自动：

创建具有适当格式的出版物质量图像
通过多次迭代审查和精炼
确保可访问性（色盲友好、高对比度）
将输出保存在figures/目录中

何时添加示意图：

系统综述的PRISMA流程图
文献搜索策略流程图
主题合成图
研究空白可视化图
引用网络图
概念框架图
任何受益于可视化的复杂概念

有关创建示意图的详细指导，请参考科学示意图技能文档。

核心工作流程

文献综述遵循结构化、多阶段的工作流程：

阶段1: 规划和范围界定

定义研究问题：对于临床或生物医学综述，使用PICO框架（人群、干预、比较、结果）
- 示例：“对于治疗镰状细胞病（P），CRISPR-Cas9（I）相较于标准护理（C）的疗效如何？”
确定范围和目标：
- 定义清晰、具体的研究问题
- 确定综述类型（叙事、系统、范围、元分析）
- 设置边界（时间段、地理范围、研究类型）
开发搜索策略：
- 从研究问题中识别2-4个主要概念
- 列出每个概念的同义词、缩写和相关术语
- 规划布尔运算符（AND、OR、NOT）以组合术语
- 选择至少3个互补的数据库
设定纳入/排除标准：
- 日期范围（例如，最近10年：2015-2024）
- 语言（通常为英语，或指定多语言）
- 出版物类型（同行评审、预印本、综述）
- 研究设计（随机对照试验、观察性、体外等）
- 明确记录所有标准

阶段2: 系统文献搜索

多数据库搜索：

选择适合领域的数据库：

生物医学和生命科学：
- 使用gget技能：gget search pubmed "搜索词"用于PubMed/PMC
- 使用gget技能：gget search biorxiv "搜索词"用于预印本
- 使用bioservices技能用于ChEMBL、KEGG、UniProt等
通用科学文献：
- 通过直接API搜索arXiv（物理学、数学、计算机科学、q-bio的预印本）
- 通过API搜索Semantic Scholar（2亿+论文，跨学科）
- 使用Google Scholar进行全面覆盖（手动或小心抓取）
专业数据库：
- 使用gget alphafold用于蛋白质结构
- 使用gget cosmic用于癌症基因组学
- 使用datacommons-client用于人口统计/统计数据
- 根据领域使用适当的专业数据库
记录搜索参数：
```
## 搜索策略

### 数据库：PubMed
- **搜索日期**：2024-10-25
- **日期范围**：2015-01-01 至 2024-10-25
- **搜索字符串**：
```
(“CRISPR”[标题] OR “Cas9”[标题]) AND (“镰状细胞”[MeSH] OR “SCD”[标题/摘要]) AND 2015:2024[出版日期]
```
- **结果**：247篇文章
```
对每个搜索的数据库重复。
导出和聚合结果：
- 从每个数据库以JSON格式导出结果
- 将所有结果合并到单个文件
- 使用scripts/search_databases.py进行后处理：
```
python search_databases.py combined_results.json \
  --deduplicate \
  --format markdown \
  --output aggregated_results.md
```

阶段3: 筛选和选择

去重：
```
python search_databases.py results.json --deduplicate --output unique_results.json
```
- 通过DOI（主要）或标题（备用）移除重复项
- 记录移除的重复项数量
标题筛选：
- 根据纳入/排除标准审查所有标题
- 排除明显不相关的研究
- 记录此阶段排除的数量
摘要筛选：
- 阅读剩余研究的摘要
- 严格应用纳入/排除标准
- 记录排除原因
全文筛选：
- 获取剩余研究的全文
- 根据所有标准进行详细审查
- 记录排除的具体原因
- 记录最终纳入的研究数量

创建PRISMA流程图：

初始搜索：n = X
├─ 去重后：n = Y
├─ 标题筛选后：n = Z
├─ 摘要筛选后：n = A
└─ 纳入综述：n = B

阶段4: 数据提取和质量评估

从每个纳入研究中提取关键数据：
- 研究元数据（作者、年份、期刊、DOI）
- 研究设计和方法
- 样本量和人群特征
- 关键发现和结果
- 作者指出的局限性
- 资金来源和利益冲突
评估研究质量：
- 对于随机对照试验：使用Cochrane偏倚风险工具
- 对于观察性研究：使用纽卡斯尔-渥太华量表
- 对于系统综述：使用AMSTAR 2
- 对每项研究评级：高、中、低或极低质量
- 考虑排除极低质量的研究
按主题组织：
- 识别研究中的3-5个主要主题
- 按主题分组研究（研究可能出现在多个主题中）
- 注意模式、共识和争议

阶段5: 合成和分析

从模板创建综述文档：

cp assets/review_template.md my_literature_review.md

撰写主题合成（而非逐项研究总结）：

按主题或研究问题组织结果部分
在每个主题内合成多项研究的发现
比较和对比不同的方法和结果
识别共识领域和争议点
突出最强证据

示例结构：

#### 3.3.1 主题：CRISPR递送方法

已经研究了多种递送方法用于治疗性基因编辑。病毒载体（AAV）在15项研究^1-15^中使用，显示高转导效率（65-85%）但引发免疫原性问题^3,7,12^。相比之下，脂质纳米颗粒展示了较低效率（40-60%）但改进了安全特性^16-23^。

批判性分析：
- 评估研究的方法学优势和局限性
- 评估证据的质量和一致性
- 识别知识空白和方法学空白
- 注意需要未来研究的领域
撰写讨论：
- 在更广泛的背景下解释发现
- 讨论临床、实践或研究意义
- 承认综述本身的局限性
- 如果适用，与先前综述比较
- 提出具体的未来研究方向

阶段6: 引用验证

关键：所有引用在最终提交前必须验证准确性。

验证所有DOI：
```
python scripts/verify_citations.py my_literature_review.md
```
此脚本：
- 从文档中提取所有DOI
- 验证每个DOI是否正确解析
- 从CrossRef检索元数据
- 生成验证报告
- 输出正确格式的引用
审查验证报告：
- 检查是否有失败的DOI
- 验证作者姓名、标题和出版详情是否匹配
- 更正原始文档中的任何错误
- 重新运行验证直到所有引用通过
一致格式化引用：
- 选择一种引用样式并全程使用（见references/citation_styles.md）
- 常见样式：APA、Nature、Vancouver、Chicago、IEEE
- 使用验证脚本输出来正确格式化引用
- 确保文内引用匹配参考文献列表格式

阶段7: 文档生成

生成PDF：
```
python scripts/generate_pdf.py my_literature_review.md \
  --citation-style apa \
  --output my_review.pdf
```
选项：
- --citation-style：apa、nature、chicago、vancouver、ieee
- --no-toc：禁用目录
- --no-numbers：禁用章节编号
- --check-deps：检查是否安装了pandoc/xelatex
审查最终输出：
- 检查PDF格式和布局
- 验证所有部分都存在
- 确保引用正确呈现
- 检查图表/表格是否正常显示
- 验证目录是否准确
质量检查清单：
- [ ] 所有DOI已通过verify_citations.py验证
- [ ] 引用格式化一致
- [ ] 包括PRISMA流程图（针对系统综述）
- [ ] 搜索方法完全记录
- [ ] 纳入/排除标准明确说明
- [ ] 结果按主题组织（非逐项研究）
- [ ] 质量评估已完成
- [ ] 局限性已承认
- [ ] 参考文献完整且准确
- [ ] PDF生成无错误

数据库特定搜索指导

PubMed / PubMed Central

通过gget技能访问：

# 搜索PubMed
gget search pubmed "CRISPR基因编辑" -l 100

# 使用过滤器搜索
# 使用PubMed高级搜索构建器来构建复杂查询
# 然后通过gget或直接Entrez API执行

搜索提示：

使用MeSH术语："镰状细胞病"[MeSH]
字段标签：[标题]、[标题/摘要]、[作者]
日期过滤器：2020:2024[出版日期]
布尔运算符：AND、OR、NOT
见MeSH浏览器：https://meshb.nlm.nih.gov/search

bioRxiv / medRxiv

通过gget技能访问：

gget search biorxiv "CRISPR镰状细胞" -l 50

重要考虑：

预印本未经同行评审
谨慎验证发现
检查预印本是否已发表（CrossRef）
注意预印本版本和日期

arXiv

通过直接API或WebFetch访问：

# 示例搜索类别：
# q-bio.QM（定量方法）
# q-bio.GN（基因组学）
# q-bio.MN（分子网络）
# cs.LG（机器学习）
# stat.ML（机器学习统计）

# 搜索格式：类别 AND 术语
search_query = "cat:q-bio.QM AND ti:\"单细胞测序\""

Semantic Scholar

通过直接API访问（需要API密钥，或使用免费层）：

2亿+论文，覆盖所有领域
非常适合跨学科搜索
提供引用图和论文推荐
用于查找高影响力论文

专业生物医学数据库

使用适当的技能：

ChEMBL：bioservices技能用于化学生物活性
UniProt：gget或bioservices技能用于蛋白质信息
KEGG：bioservices技能用于通路和基因
COSMIC：gget技能用于癌症突变
AlphaFold：gget alphafold用于蛋白质结构
PDB：gget或直接API用于实验结构

引用链式扩展

通过引用网络扩展搜索：

前向引用（引用关键论文的论文）：
- 使用Google Scholar“被引用次数”
- 使用Semantic Scholar或OpenAlex APIs
- 识别基于开创性工作的新研究
后向引用（关键论文的参考文献）：
- 从纳入论文中提取参考文献
- 识别高引用的基础工作
- 查找被多项纳入研究引用的论文

引用样式指南

详细格式指导见references/citation_styles.md。快速参考：

APA（第7版）

文内：(Smith et al., 2023)
参考文献：Smith, J. D., Johnson, M. L., & Williams, K. R. (2023). 标题. 期刊, 22(4), 301-318. https://doi.org/10.xxx/yyy

Nature

文内：上标数字^1,2^
参考文献：Smith, J. D., Johnson, M. L. & Williams, K. R. 标题. Nat. Rev. Drug Discov. 22, 301-318 (2023).

Vancouver

文内：上标数字^1,2^
参考文献：Smith JD, Johnson ML, Williams KR. 标题. Nat Rev Drug Discov. 2023;22(4):301-18.

始终在最终确定前使用verify_citations.py验证引用。

最佳实践

优先考虑高影响力论文（关键）

**始终优先考虑来自知名作者和顶级出版物的有影响力、高引用的论文。**在文献综述中，质量比数量更重要。

引用次数阈值

使用引用次数来识别最有影响力的论文：

论文年龄	引用次数阈值	分类
0-3年	20+ 次引用	值得注意
0-3年	100+ 次引用	高影响力
3-7年	100+ 次引用	重要
3-7年	500+ 次引用	里程碑论文
7+年	500+ 次引用	开创性工作
7+年	1000+ 次引用	基础性

期刊和出版物层级

优先考虑来自更高层级出版物的论文：

层级1（始终优先）：Nature、Science、Cell、NEJM、Lancet、JAMA、PNAS、Nature Medicine、Nature Biotechnology
层级2（强烈偏好）：高影响力专业期刊（影响因子>10）、顶级会议（如NeurIPS、ICML用于ML/AI）
层级3（相关时包括）：受尊重的专业期刊（影响因子5-10）
层级4（谨慎使用）：低影响力同行评审出版物

作者声誉评估

优先考虑来自以下作者的论文：

资深研究员，具有高h指数（在成熟领域中>40）
知名机构的领先研究组（如哈佛、斯坦福、MIT、牛津等）
在相关领域有多篇层级1出版物的作者
具有公认专业知识的专家（获奖、编辑职位、学会会员）

识别开创性论文

对于任何主题，通过以下方式识别基础性工作：

高引用次数（通常对于5年以上论文为500+）
频繁被其他纳入研究引用（出现在许多参考文献列表中）
发表在层级1出版物中（Nature、Science、Cell家族）
由领域先驱撰写（通常被引用为建立概念）

搜索策略

使用多个数据库（至少3个）：确保全面覆盖
包括预印本服务器：捕获最新未发表发现
记录所有内容：搜索字符串、日期、结果数量以便可重复性
测试和精炼：运行试点搜索，审查结果，调整搜索词
按引用次数排序：当可用时，按引用次数排序搜索结果以首先突出有影响力工作

筛选和选择

使用明确标准：筛选前记录纳入/排除标准
系统筛选：标题 → 摘要 → 全文
记录排除：记录排除研究的原因
考虑双人筛选：对于系统综述，让两名评审员独立筛选
优先考虑层级1出版物：在考虑低层级来源前，包括所有来自顶级出版物的相关论文

合成

按主题组织：按主题分组，而非按个体研究
跨研究合成：比较、对比、识别模式
批判性：评估证据的质量和一致性
识别空白：注意缺失或研究不足的领域
以高影响力工作开头：每个主题以最有影响力/引用的论文开头

质量和可重复性

评估研究质量：使用适当的质量评估工具
验证所有引用：运行verify_citations.py脚本
记录方法学：提供足够细节以便他人重复
遵循指导：对于系统综述使用PRISMA

写作

客观：公平呈现证据，承认局限性
系统化：遵循结构化模板
具体：在可用时包括数字、统计、效应大小
清晰：使用清晰标题、逻辑流程、主题组织
引用影响力指标：当相关时，提及引用次数和出版物声望

常见陷阱避免

单一数据库搜索：错过相关论文；始终搜索多个数据库
无搜索记录：使综述不可重复；记录所有搜索
逐项研究总结：缺乏合成；改为按主题组织
未验证引用：导致错误；始终运行verify_citations.py
搜索太宽泛：产生数千个不相关结果；使用具体术语精炼
搜索太狭窄：错过相关论文；包括同义词和相关术语
忽略预印本：错过最新发现；包括bioRxiv、medRxiv、arXiv
无质量评估：平等对待所有证据；评估并报告质量
发表偏倚：仅发表阳性结果；注意潜在偏倚
过时搜索：领域快速发展；明确说明搜索日期

示例工作流程

生物医学文献综述的完整工作流程：

# 1. 从模板创建综述文档
cp assets/review_template.md crispr_sickle_cell_review.md

# 2. 使用适当技能搜索多个数据库
# - 使用gget技能用于PubMed、bioRxiv
# - 使用直接API访问arXiv、Semantic Scholar
# - 以JSON格式导出结果

# 3. 聚合和处理结果
python scripts/search_databases.py combined_results.json \
  --deduplicate \
  --rank citations \
  --year-start 2015 \
  --year-end 2024 \
  --format markdown \
  --output search_results.md \
  --summary

# 4. 筛选结果并提取数据
# - 手动筛选标题、摘要、全文
# - 将关键数据提取到综述文档中
# - 按主题组织

# 5. 遵循模板结构撰写综述
# - 引言有明确目标
# - 详细方法学部分
# - 按主题组织的结果
# - 批判性讨论
# - 清晰结论

# 6. 验证所有引用
python scripts/verify_citations.py crispr_sickle_cell_review.md

# 审查引用报告
cat crispr_sickle_cell_review_citation_report.json

# 修复任何失败引用并重新验证
python scripts/verify_citations.py crispr_sickle_cell_review.md

# 7. 生成专业PDF
python scripts/generate_pdf.py crispr_sickle_cell_review.md \
  --citation-style nature \
  --output crispr_sickle_cell_review.pdf

# 8. 审查最终PDF和Markdown输出

与其他技能集成

此技能与其他科学技能无缝协作：

数据库访问技能

gget：PubMed、bioRxiv、COSMIC、AlphaFold、Ensembl、UniProt
bioservices：ChEMBL、KEGG、Reactome、UniProt、PubChem
datacommons-client：人口统计、经济学、健康统计

分析技能

pydeseq2：RNA-seq差异表达（用于方法部分）
scanpy：单细胞分析（用于方法部分）
anndata：单细胞数据（用于方法部分）
biopython：序列分析（用于背景部分）

可视化技能

matplotlib：为综述生成图表和绘图
seaborn：统计可视化

写作技能

品牌指南：将机构品牌应用于PDF
内部通讯：适应不同受众的综述
出版物模板：在准备出版综述时，访问特定出版物的写作风格指南

出版物特定写作风格

在为特定期刊准备文献综述时，咨询出版物模板技能以获取写作风格指导：

venue_writing_styles.md：跨出版物的主要风格比较
nature_science_style.md：Nature/Science流动摘要风格，故事驱动结构
cell_press_style.md：Cell Press图形摘要，亮点格式
medical_journal_styles.md：NEJM/Lancet/JAMA结构化摘要，PRISMA合规性

这些指南帮助调整综述的语气、摘要格式和结构以匹配目标出版物的期望。

资源

捆绑资源

脚本：

scripts/verify_citations.py：验证DOI并生成格式化引用
scripts/generate_pdf.py：将Markdown转换为专业PDF
scripts/search_databases.py：处理、去重和格式化搜索结果

参考文献：

references/citation_styles.md：详细引用格式指南（APA、Nature、Vancouver、Chicago、IEEE）
references/database_strategies.md：全面的数据库搜索策略

资产：

assets/review_template.md：完整的文献综述模板，包含所有部分

外部资源

指南：

PRISMA（系统综述）：http://www.prisma-statement.org/
Cochrane手册：https://training.cochrane.org/handbook
AMSTAR 2（综述质量）：https://amstar.ca/

工具：

MeSH浏览器：https://meshb.nlm.nih.gov/search
PubMed高级搜索：https://pubmed.ncbi.nlm.nih.gov/advanced/
布尔搜索指南：https://www.ncbi.nlm.nih.gov/books/NBK3827/

引用样式：

APA样式：https://apastyle.apa.org/
Nature系列：https://www.nature.com/nature-portfolio/editorial-policies/reporting-standards
NLM/Vancouver：https://www.nlm.nih.gov/bsd/uniform_requirements.html

依赖项

所需Python包

pip install requests  # 用于引用验证

所需系统工具

# 用于PDF生成
brew install pandoc  # macOS
apt-get install pandoc  # Linux

# 用于LaTeX（PDF生成）
brew install --cask mactex  # macOS
apt-get install texlive-xetex  # Linux

检查依赖项：

python scripts/generate_pdf.py --check-deps

总结

此文献综述技能提供：

系统方法学，遵循学术最佳实践
多数据库集成，通过现有科学技能
引用验证，确保准确性和可信度
专业输出，以Markdown和PDF格式
全面指导，涵盖整个综述过程
质量保证，通过验证和确认工具
可重复性，通过详细记录要求

进行彻底、严格的文献综述，满足学术标准并提供任何领域当前知识的全面合成。