名称:deeptools 描述:“NGS分析工具包。BAM到bigWig转换,质量评估(相关性、PCA、指纹图谱)、热图/剖面图(TSS、峰值),用于ChIP-seq、RNA-seq、ATAC-seq可视化。”
deepTools:NGS数据分析工具包
概述
deepTools是一套全面的Python命令行工具,设计用于处理和分析高通量测序数据。使用deepTools进行质量评估、数据归一化、样本比较,并为ChIP-seq、RNA-seq、ATAC-seq、MNase-seq和其他NGS实验生成出版物级别的可视化。
核心能力:
- 将BAM比对转换为归一化覆盖轨道(bigWig/bedGraph)
- 质量评估(指纹图谱、相关性、覆盖度)
- 样本比较和相关性分析
- 围绕基因组特征生成热图和剖面图
- 富集分析和峰值区域可视化
何时使用此技能
此技能应在以下情况下使用:
- 文件转换:“将BAM转换为bigWig”、“生成覆盖轨道”、“归一化ChIP-seq数据”
- 质量评估:“检查ChIP质量”、“比较重复样本”、“评估测序深度”、“QC分析”
- 可视化:“创建围绕TSS的热图”、“绘制ChIP信号”、“可视化富集”、“生成剖面图”
- 样本比较:“比较处理与对照”、“关联样本”、“PCA分析”
- 分析工作流:“分析ChIP-seq数据”、“RNA-seq覆盖度”、“ATAC-seq分析”、“完整工作流”
- 处理特定文件类型:在基因组学背景下处理BAM文件、bigWig文件、BED区域文件
快速开始
对于新用户,从文件验证和常见工作流开始:
1. 验证输入文件
在运行任何分析之前,使用验证脚本验证BAM、bigWig和BED文件:
python scripts/validate_files.py --bam sample1.bam sample2.bam --bed regions.bed
这会检查文件存在性、BAM索引和格式正确性。
2. 生成工作流模板
对于标准分析,使用工作流生成器创建定制脚本:
# 列出可用工作流
python scripts/workflow_generator.py --list
# 生成ChIP-seq QC工作流
python scripts/workflow_generator.py chipseq_qc -o qc_workflow.sh \
--input-bam Input.bam --chip-bams "ChIP1.bam ChIP2.bam" \
--genome-size 2913022398
# 使其可执行并运行
chmod +x qc_workflow.sh
./qc_workflow.sh
3. 最常见操作
参见assets/quick_reference.md获取常用命令和参数。
安装
指导用户使用conda安装(推荐):
# 标准安装
conda install -c conda-forge -c bioconda deeptools
# 对于M1 Mac
CONDA_SUBDIR=osx-64 conda create -c conda-forge -c bioconda -n deeptools deeptools
或使用pip:
pip install deeptools
核心工作流
deepTools工作流通常遵循此模式:QC → 归一化 → 比较/可视化
ChIP-seq质量评估工作流
当用户请求ChIP-seq QC或质量评估时:
- 生成工作流脚本 使用
scripts/workflow_generator.py chipseq_qc - 关键QC步骤:
- 样本相关性(multiBamSummary + plotCorrelation)
- PCA分析(plotPCA)
- 覆盖度评估(plotCoverage)
- 片段大小验证(bamPEFragmentSize)
- ChIP富集强度(plotFingerprint)
解释结果:
- 相关性:重复样本应聚类在一起,相关性高(>0.9)
- 指纹图谱:强ChIP显示陡峭上升;平坦对角线表示富集差
- 覆盖度:评估测序深度是否足够分析
完整工作流详情见 references/workflows.md → “ChIP-seq质量评估工作流”
ChIP-seq完整分析工作流
对于从BAM到可视化的完整ChIP-seq分析:
- 生成覆盖轨道 带归一化(bamCoverage)
- 创建比较轨道(bamCompare用于log2比率)
- 计算围绕特征的信号矩阵(computeMatrix)
- 生成可视化(plotHeatmap, plotProfile)
- 富集分析 在峰值处(plotEnrichment)
使用 scripts/workflow_generator.py chipseq_analysis 生成模板。
完整命令序列见 references/workflows.md → “ChIP-seq分析工作流”
RNA-seq覆盖度工作流
对于链特异性RNA-seq覆盖轨道:
使用bamCoverage带 --filterRNAstrand 分离正向和反向链。
重要: 切勿对RNA-seq使用 --extendReads(会跨越剪接接头)。
使用归一化:CPM用于固定箱体,RPKM用于基因级别分析。
模板可用: scripts/workflow_generator.py rnaseq_coverage
详情见 references/workflows.md → “RNA-seq覆盖度工作流”
ATAC-seq分析工作流
ATAC-seq需要Tn5偏移校正:
- 移位读取 使用alignmentSieve带
--ATACshift - 生成覆盖 使用bamCoverage
- 分析片段大小(期望核小体阶梯模式)
- 在峰值处可视化 如果可用
模板: scripts/workflow_generator.py atacseq
完整工作流见 references/workflows.md → “ATAC-seq工作流”
工具类别和常见任务
BAM/bigWig处理
将BAM转换为归一化覆盖:
bamCoverage --bam input.bam --outFileName output.bw \
--normalizeUsing RPGC --effectiveGenomeSize 2913022398 \
--binSize 10 --numberOfProcessors 8
比较两个样本(log2比率):
bamCompare -b1 treatment.bam -b2 control.bam -o ratio.bw \
--operation log2 --scaleFactorsMethod readCount
关键工具: bamCoverage, bamCompare, multiBamSummary, multiBigwigSummary, correctGCBias, alignmentSieve
完整参考: references/tools_reference.md → “BAM和bigWig文件处理工具”
质量评估
检查ChIP富集:
plotFingerprint -b input.bam chip.bam -o fingerprint.png \
--extendReads 200 --ignoreDuplicates
样本相关性:
multiBamSummary bins --bamfiles *.bam -o counts.npz
plotCorrelation -in counts.npz --corMethod pearson \
--whatToShow heatmap -o correlation.png
关键工具: plotFingerprint, plotCoverage, plotCorrelation, plotPCA, bamPEFragmentSize
完整参考: references/tools_reference.md → “质量评估工具”
可视化
创建围绕TSS的热图:
# 计算矩阵
computeMatrix reference-point -S signal.bw -R genes.bed \
-b 3000 -a 3000 --referencePoint TSS -o matrix.gz
# 生成热图
plotHeatmap -m matrix.gz -o heatmap.png \
--colorMap RdBu --kmeans 3
创建剖面图:
plotProfile -m matrix.gz -o profile.png \
--plotType lines --colors blue red
关键工具: computeMatrix, plotHeatmap, plotProfile, plotEnrichment
完整参考: references/tools_reference.md → “可视化工具”
归一化方法
选择正确的归一化对于有效比较至关重要。查阅 references/normalization_methods.md 获取全面指导。
快速选择指南:
- ChIP-seq覆盖度: 使用RPGC或CPM
- ChIP-seq比较: 使用bamCompare带log2和readCount
- RNA-seq箱体: 使用CPM
- RNA-seq基因: 使用RPKM(考虑基因长度)
- ATAC-seq: 使用RPGC或CPM
归一化方法:
- RPGC: 1×基因组覆盖(需要 --effectiveGenomeSize)
- CPM: 每百万映射读取计数
- RPKM: 每kb每百万读取(考虑区域长度)
- BPM: 每百万箱体
- 无: 原始计数(不推荐用于比较)
完整解释: references/normalization_methods.md
有效基因组大小
RPGC归一化需要有效基因组大小。常见值:
| 生物体 | 组装 | 大小 | 用法 |
|---|---|---|---|
| 人类 | GRCh38/hg38 | 2,913,022,398 | --effectiveGenomeSize 2913022398 |
| 小鼠 | GRCm38/mm10 | 2,652,783,500 | --effectiveGenomeSize 2652783500 |
| 斑马鱼 | GRCz11 | 1,368,780,147 | --effectiveGenomeSize 1368780147 |
| 果蝇 | dm6 | 142,573,017 | --effectiveGenomeSize 142573017 |
| 秀丽隐杆线虫 | ce10/ce11 | 100,286,401 | --effectiveGenomeSize 100286401 |
完整表格带读取长度特定值: references/effective_genome_sizes.md
跨工具常见参数
许多deepTools命令共享这些选项:
性能:
--numberOfProcessors, -p:启用并行处理(始终使用可用核心)--region:为测试处理特定区域(例如,chr1:1-1000000)
读取过滤:
--ignoreDuplicates:移除PCR重复(推荐用于大多数分析)--minMappingQuality:按比对质量过滤(例如,--minMappingQuality 10)--minFragmentLength/--maxFragmentLength:片段长度界限--samFlagInclude/--samFlagExclude:SAM标志过滤
读取处理:
--extendReads:扩展到片段长度(ChIP-seq:是,RNA-seq:否)--centerReads:在片段中点居中,以获得更锐利的信号
最佳实践
文件验证
首先始终验证文件 使用 scripts/validate_files.py 检查:
- 文件存在性和可读性
- BAM索引存在(.bai文件)
- BED格式正确性
- 文件大小合理
分析策略
- 从QC开始:在进行详细分析前运行相关性、覆盖度和指纹图谱分析
- 在小区域测试:使用
--region chr1:1-10000000进行参数测试 - 记录命令:保存完整命令行以实现可重现性
- 使用一致的归一化:在比较中跨样本应用相同方法
- 验证基因组组装:确保BAM和BED文件使用匹配的基因组版本
ChIP-seq特定
- 始终扩展读取 用于ChIP-seq:
--extendReads 200 - 移除重复:在大多数情况下使用
--ignoreDuplicates - 首先检查富集:在详细分析前运行plotFingerprint
- GC校正:仅在检测到显著偏倚时应用;切勿在GC校正后使用
--ignoreDuplicates
RNA-seq特定
- 切勿扩展读取 用于RNA-seq(会跨越剪接接头)
- 链特异性:使用
--filterRNAstrand forward/reverse用于链特异性文库 - 归一化:CPM用于箱体,RPKM用于基因
ATAC-seq特定
- 应用Tn5校正:使用alignmentSieve带
--ATACshift - 片段过滤:设置适当的min/max片段长度
- 检查核小体模式:片段大小图应显示阶梯模式
性能优化
- 使用多个处理器:
--numberOfProcessors 8(或可用核心) - 增加箱体大小 以加快处理和减小文件
- 分别处理染色体 用于内存有限系统
- 预过滤BAM文件 使用alignmentSieve创建可重用过滤文件
- 使用bigWig而非bedGraph:压缩且处理更快
故障排除
常见问题
BAM索引缺失:
samtools index input.bam
内存不足:
使用 --region 单独处理染色体:
bamCoverage --bam input.bam -o chr1.bw --region chr1
处理慢:
增加 --numberOfProcessors 和/或增加 --binSize
bigWig文件太大:
增加箱体大小:--binSize 50 或更大
验证错误
运行验证脚本以识别问题:
python scripts/validate_files.py --bam *.bam --bed regions.bed
脚本输出中解释常见错误和解决方案。
参考文档
此技能包括全面的参考文档:
references/tools_reference.md
所有deepTools命令的完整文档,按类别组织:
- BAM和bigWig处理工具(9个工具)
- 质量评估工具(6个工具)
- 可视化工具(3个工具)
- 杂项工具(2个工具)
每个工具包括:
- 目的和概述
- 关键参数带解释
- 使用示例
- 重要说明和最佳实践
何时使用此参考: 用户询问特定工具、参数或详细用法时。
references/workflows.md
常见分析的完整工作流示例:
- ChIP-seq质量评估工作流
- ChIP-seq完整分析工作流
- RNA-seq覆盖度工作流
- ATAC-seq分析工作流
- 多样本比较工作流
- 峰值区域分析工作流
- 故障排除和性能提示
何时使用此参考: 用户需要完整分析管道或工作流示例时。
references/normalization_methods.md
归一化方法的全面指南:
- 每个方法的详细解释(RPGC、CPM、RPKM、BPM等)
- 何时使用每个方法
- 公式和解释
- 按实验类型的选择指南
- 常见陷阱和解决方案
- 快速参考表
何时使用此参考: 用户询问归一化、比较样本或使用哪种方法时。
references/effective_genome_sizes.md
有效基因组大小值和用法:
- 常见生物体值(人类、小鼠、果蝇、线虫、斑马鱼)
- 读取长度特定值
- 计算方法
- 何时以及如何在命令中使用
- 自定义基因组计算说明
何时使用此参考: 用户需要RPGC归一化或GC偏倚校正的基因组大小时。
辅助脚本
scripts/validate_files.py
验证BAM、bigWig和BED文件用于deepTools分析。检查文件存在性、索引和格式。
用法:
python scripts/validate_files.py --bam sample1.bam sample2.bam \
--bed peaks.bed --bigwig signal.bw
何时使用: 在任何分析开始前,或故障排除错误时。
scripts/workflow_generator.py
为常见deepTools工作流生成可定制的bash脚本模板。
可用工作流:
chipseq_qc:ChIP-seq质量评估chipseq_analysis:完整ChIP-seq分析rnaseq_coverage:链特异性RNA-seq覆盖度atacseq:ATAC-seq带Tn5校正
用法:
# 列出工作流
python scripts/workflow_generator.py --list
# 生成工作流
python scripts/workflow_generator.py chipseq_qc -o qc.sh \
--input-bam Input.bam --chip-bams "ChIP1.bam ChIP2.bam" \
--genome-size 2913022398 --threads 8
# 运行生成的工作流
chmod +x qc.sh
./qc.sh
何时使用: 用户请求标准工作流或需要模板脚本以定制时。
资产
assets/quick_reference.md
快速参考卡,包含最常见命令、有效基因组大小和典型工作流模式。
何时使用: 用户需要快速命令示例而无需详细文档时。
处理用户请求
对于新用户
- 从安装验证开始
- 使用
scripts/validate_files.py验证输入文件 - 基于实验类型推荐适当工作流
- 使用
scripts/workflow_generator.py生成工作流模板 - 引导通过定制和执行
对于经验用户
- 为请求的操作提供特定工具命令
- 参考
references/tools_reference.md中的适当部分 - 建议优化和最佳实践
- 提供问题故障排除
对于特定任务
“将BAM转换为bigWig”:
- 使用bamCoverage带适当归一化
- 基于用例推荐RPGC或CPM
- 提供生物体的有效基因组大小
- 建议相关参数(extendReads、ignoreDuplicates、binSize)
“检查ChIP质量”:
- 运行完整QC工作流或专门使用plotFingerprint
- 解释结果
- 基于结果建议后续操作
“创建热图”:
- 引导通过两步过程:computeMatrix → plotHeatmap
- 帮助选择适当的矩阵模式(reference-point vs scale-regions)
- 建议可视化参数和聚类选项
“比较样本”:
- 推荐bamCompare用于两样本比较
- 建议multiBamSummary + plotCorrelation用于多样本
- 引导归一化方法选择
参考文档
当用户需要详细信息时:
- 工具详情: 直接指向
references/tools_reference.md中的特定部分 - 工作流: 使用
references/workflows.md获取完整分析管道 - 归一化: 查阅
references/normalization_methods.md获取方法选择 - 基因组大小: 参考
references/effective_genome_sizes.md
使用grep模式搜索参考:
# 查找工具文档
grep -A 20 "^### toolname" references/tools_reference.md
# 查找工作流
grep -A 50 "^## Workflow Name" references/workflows.md
# 查找归一化方法
grep -A 15 "^### Method Name" references/normalization_methods.md
示例交互
用户:“我需要分析我的ChIP-seq数据”
响应方法:
- 询问可用文件(BAM文件、峰值、基因)
- 使用验证脚本验证文件
- 生成chipseq_analysis工作流模板
- 为其特定文件和生物体定制
- 解释脚本运行的每个步骤
用户:“我应该使用哪种归一化?”
响应方法:
- 询问实验类型(ChIP-seq、RNA-seq等)
- 询问比较目标(样本内或样本间)
- 查阅
references/normalization_methods.md选择指南 - 推荐适当方法带理由
- 提供带参数的命令示例
用户:“创建一个围绕TSS的热图”
响应方法:
- 验证bigWig和基因BED文件可用
- 使用computeMatrix带reference-point模式在TSS处
- 生成plotHeatmap带适当的可视化参数
- 如果数据集大,建议聚类
- 提供剖面图作为补充
关键提醒
- 首先文件验证: 始终在分析前验证输入文件
- 归一化重要: 选择适当方法用于比较类型
- 仔细扩展读取: 是用于ChIP-seq,否用于RNA-seq
- 使用所有核心: 设置
--numberOfProcessors为可用核心 - 在区域上测试: 使用
--region进行参数测试 - 首先检查QC: 在详细分析前运行质量评估
- 记录一切: 保存命令以实现可重现性
- 参考文档: 使用全面参考获取详细指导