名称：deeptools 描述：“NGS分析工具包。BAM到bigWig转换，质量评估（相关性、PCA、指纹图谱）、热图/剖面图（TSS、峰值），用于ChIP-seq、RNA-seq、ATAC-seq可视化。”

deepTools：NGS数据分析工具包

概述

deepTools是一套全面的Python命令行工具，设计用于处理和分析高通量测序数据。使用deepTools进行质量评估、数据归一化、样本比较，并为ChIP-seq、RNA-seq、ATAC-seq、MNase-seq和其他NGS实验生成出版物级别的可视化。

核心能力：

将BAM比对转换为归一化覆盖轨道（bigWig/bedGraph）
质量评估（指纹图谱、相关性、覆盖度）
样本比较和相关性分析
围绕基因组特征生成热图和剖面图
富集分析和峰值区域可视化

何时使用此技能

此技能应在以下情况下使用：

文件转换：“将BAM转换为bigWig”、“生成覆盖轨道”、“归一化ChIP-seq数据”
质量评估：“检查ChIP质量”、“比较重复样本”、“评估测序深度”、“QC分析”
可视化：“创建围绕TSS的热图”、“绘制ChIP信号”、“可视化富集”、“生成剖面图”
样本比较：“比较处理与对照”、“关联样本”、“PCA分析”
分析工作流：“分析ChIP-seq数据”、“RNA-seq覆盖度”、“ATAC-seq分析”、“完整工作流”
处理特定文件类型：在基因组学背景下处理BAM文件、bigWig文件、BED区域文件

快速开始

对于新用户，从文件验证和常见工作流开始：

1. 验证输入文件

在运行任何分析之前，使用验证脚本验证BAM、bigWig和BED文件：

python scripts/validate_files.py --bam sample1.bam sample2.bam --bed regions.bed

这会检查文件存在性、BAM索引和格式正确性。

2. 生成工作流模板

对于标准分析，使用工作流生成器创建定制脚本：

# 列出可用工作流
python scripts/workflow_generator.py --list

# 生成ChIP-seq QC工作流
python scripts/workflow_generator.py chipseq_qc -o qc_workflow.sh \
    --input-bam Input.bam --chip-bams "ChIP1.bam ChIP2.bam" \
    --genome-size 2913022398

# 使其可执行并运行
chmod +x qc_workflow.sh
./qc_workflow.sh

3. 最常见操作

参见assets/quick_reference.md获取常用命令和参数。

安装

指导用户使用conda安装（推荐）：

# 标准安装
conda install -c conda-forge -c bioconda deeptools

# 对于M1 Mac
CONDA_SUBDIR=osx-64 conda create -c conda-forge -c bioconda -n deeptools deeptools

或使用pip：

pip install deeptools

核心工作流

deepTools工作流通常遵循此模式：QC → 归一化 → 比较/可视化

ChIP-seq质量评估工作流

当用户请求ChIP-seq QC或质量评估时：

生成工作流脚本 使用 scripts/workflow_generator.py chipseq_qc
关键QC步骤：
- 样本相关性（multiBamSummary + plotCorrelation）
- PCA分析（plotPCA）
- 覆盖度评估（plotCoverage）
- 片段大小验证（bamPEFragmentSize）
- ChIP富集强度（plotFingerprint）

解释结果：

相关性：重复样本应聚类在一起，相关性高（>0.9）
指纹图谱：强ChIP显示陡峭上升；平坦对角线表示富集差
覆盖度：评估测序深度是否足够分析

完整工作流详情见 references/workflows.md → “ChIP-seq质量评估工作流”

ChIP-seq完整分析工作流

对于从BAM到可视化的完整ChIP-seq分析：

生成覆盖轨道 带归一化（bamCoverage）
创建比较轨道（bamCompare用于log2比率）
计算围绕特征的信号矩阵（computeMatrix）
生成可视化（plotHeatmap, plotProfile）
富集分析 在峰值处（plotEnrichment）

使用 scripts/workflow_generator.py chipseq_analysis 生成模板。

完整命令序列见 references/workflows.md → “ChIP-seq分析工作流”

RNA-seq覆盖度工作流

对于链特异性RNA-seq覆盖轨道：

使用bamCoverage带 --filterRNAstrand 分离正向和反向链。

重要： 切勿对RNA-seq使用 --extendReads（会跨越剪接接头）。

使用归一化：CPM用于固定箱体，RPKM用于基因级别分析。

模板可用： scripts/workflow_generator.py rnaseq_coverage

详情见 references/workflows.md → “RNA-seq覆盖度工作流”

ATAC-seq分析工作流

ATAC-seq需要Tn5偏移校正：

移位读取 使用alignmentSieve带 --ATACshift
生成覆盖 使用bamCoverage
分析片段大小（期望核小体阶梯模式）
在峰值处可视化 如果可用

模板： scripts/workflow_generator.py atacseq

完整工作流见 references/workflows.md → “ATAC-seq工作流”

工具类别和常见任务

BAM/bigWig处理

将BAM转换为归一化覆盖：

bamCoverage --bam input.bam --outFileName output.bw \
    --normalizeUsing RPGC --effectiveGenomeSize 2913022398 \
    --binSize 10 --numberOfProcessors 8

比较两个样本（log2比率）：

bamCompare -b1 treatment.bam -b2 control.bam -o ratio.bw \
    --operation log2 --scaleFactorsMethod readCount

关键工具： bamCoverage, bamCompare, multiBamSummary, multiBigwigSummary, correctGCBias, alignmentSieve

完整参考： references/tools_reference.md → “BAM和bigWig文件处理工具”

质量评估

检查ChIP富集：

plotFingerprint -b input.bam chip.bam -o fingerprint.png \
    --extendReads 200 --ignoreDuplicates

样本相关性：

multiBamSummary bins --bamfiles *.bam -o counts.npz
plotCorrelation -in counts.npz --corMethod pearson \
    --whatToShow heatmap -o correlation.png

关键工具： plotFingerprint, plotCoverage, plotCorrelation, plotPCA, bamPEFragmentSize

完整参考： references/tools_reference.md → “质量评估工具”

可视化

创建围绕TSS的热图：

# 计算矩阵
computeMatrix reference-point -S signal.bw -R genes.bed \
    -b 3000 -a 3000 --referencePoint TSS -o matrix.gz

# 生成热图
plotHeatmap -m matrix.gz -o heatmap.png \
    --colorMap RdBu --kmeans 3

创建剖面图：

plotProfile -m matrix.gz -o profile.png \
    --plotType lines --colors blue red

关键工具： computeMatrix, plotHeatmap, plotProfile, plotEnrichment

完整参考： references/tools_reference.md → “可视化工具”

归一化方法

选择正确的归一化对于有效比较至关重要。查阅 references/normalization_methods.md 获取全面指导。

快速选择指南：

ChIP-seq覆盖度： 使用RPGC或CPM
ChIP-seq比较： 使用bamCompare带log2和readCount
RNA-seq箱体： 使用CPM
RNA-seq基因： 使用RPKM（考虑基因长度）
ATAC-seq： 使用RPGC或CPM

归一化方法：

RPGC： 1×基因组覆盖（需要 --effectiveGenomeSize）
CPM： 每百万映射读取计数
RPKM： 每kb每百万读取（考虑区域长度）
BPM： 每百万箱体
无：原始计数（不推荐用于比较）

完整解释： references/normalization_methods.md

有效基因组大小

RPGC归一化需要有效基因组大小。常见值：

生物体	组装	大小	用法
人类	GRCh38/hg38	2,913,022,398	`--effectiveGenomeSize 2913022398`
小鼠	GRCm38/mm10	2,652,783,500	`--effectiveGenomeSize 2652783500`
斑马鱼	GRCz11	1,368,780,147	`--effectiveGenomeSize 1368780147`
果蝇	dm6	142,573,017	`--effectiveGenomeSize 142573017`
秀丽隐杆线虫	ce10/ce11	100,286,401	`--effectiveGenomeSize 100286401`

完整表格带读取长度特定值： references/effective_genome_sizes.md

跨工具常见参数

许多deepTools命令共享这些选项：

性能：

--numberOfProcessors, -p：启用并行处理（始终使用可用核心）
--region：为测试处理特定区域（例如，chr1:1-1000000）

读取过滤：

--ignoreDuplicates：移除PCR重复（推荐用于大多数分析）
--minMappingQuality：按比对质量过滤（例如，--minMappingQuality 10）
--minFragmentLength / --maxFragmentLength：片段长度界限
--samFlagInclude / --samFlagExclude：SAM标志过滤

读取处理：

--extendReads：扩展到片段长度（ChIP-seq：是，RNA-seq：否）
--centerReads：在片段中点居中，以获得更锐利的信号

最佳实践

文件验证

首先始终验证文件 使用 scripts/validate_files.py 检查：

文件存在性和可读性
BAM索引存在（.bai文件）
BED格式正确性
文件大小合理

分析策略

从QC开始：在进行详细分析前运行相关性、覆盖度和指纹图谱分析
在小区域测试：使用 --region chr1:1-10000000 进行参数测试
记录命令：保存完整命令行以实现可重现性
使用一致的归一化：在比较中跨样本应用相同方法
验证基因组组装：确保BAM和BED文件使用匹配的基因组版本

ChIP-seq特定

始终扩展读取 用于ChIP-seq：--extendReads 200
移除重复：在大多数情况下使用 --ignoreDuplicates
首先检查富集：在详细分析前运行plotFingerprint
GC校正：仅在检测到显著偏倚时应用；切勿在GC校正后使用 --ignoreDuplicates

RNA-seq特定

切勿扩展读取 用于RNA-seq（会跨越剪接接头）
链特异性：使用 --filterRNAstrand forward/reverse 用于链特异性文库
归一化：CPM用于箱体，RPKM用于基因

ATAC-seq特定

应用Tn5校正：使用alignmentSieve带 --ATACshift
片段过滤：设置适当的min/max片段长度
检查核小体模式：片段大小图应显示阶梯模式

性能优化

使用多个处理器：--numberOfProcessors 8（或可用核心）
增加箱体大小 以加快处理和减小文件
分别处理染色体 用于内存有限系统
预过滤BAM文件 使用alignmentSieve创建可重用过滤文件
使用bigWig而非bedGraph：压缩且处理更快

故障排除

常见问题

BAM索引缺失：

samtools index input.bam

内存不足： 使用 --region 单独处理染色体：

bamCoverage --bam input.bam -o chr1.bw --region chr1

处理慢： 增加 --numberOfProcessors 和/或增加 --binSize

bigWig文件太大： 增加箱体大小：--binSize 50 或更大

验证错误

运行验证脚本以识别问题：

python scripts/validate_files.py --bam *.bam --bed regions.bed

脚本输出中解释常见错误和解决方案。

参考文档

此技能包括全面的参考文档：

references/tools_reference.md

所有deepTools命令的完整文档，按类别组织：

BAM和bigWig处理工具（9个工具）
质量评估工具（6个工具）
可视化工具（3个工具）
杂项工具（2个工具）

每个工具包括：

目的和概述
关键参数带解释
使用示例
重要说明和最佳实践

何时使用此参考： 用户询问特定工具、参数或详细用法时。

references/workflows.md

常见分析的完整工作流示例：

ChIP-seq质量评估工作流
ChIP-seq完整分析工作流
RNA-seq覆盖度工作流
ATAC-seq分析工作流
多样本比较工作流
峰值区域分析工作流
故障排除和性能提示

何时使用此参考： 用户需要完整分析管道或工作流示例时。

references/normalization_methods.md

归一化方法的全面指南：

每个方法的详细解释（RPGC、CPM、RPKM、BPM等）
何时使用每个方法
公式和解释
按实验类型的选择指南
常见陷阱和解决方案
快速参考表

何时使用此参考： 用户询问归一化、比较样本或使用哪种方法时。

references/effective_genome_sizes.md

有效基因组大小值和用法：

常见生物体值（人类、小鼠、果蝇、线虫、斑马鱼）
读取长度特定值
计算方法
何时以及如何在命令中使用
自定义基因组计算说明

何时使用此参考： 用户需要RPGC归一化或GC偏倚校正的基因组大小时。

辅助脚本

scripts/validate_files.py

验证BAM、bigWig和BED文件用于deepTools分析。检查文件存在性、索引和格式。

用法：

python scripts/validate_files.py --bam sample1.bam sample2.bam \
    --bed peaks.bed --bigwig signal.bw

何时使用： 在任何分析开始前，或故障排除错误时。

scripts/workflow_generator.py

为常见deepTools工作流生成可定制的bash脚本模板。

可用工作流：

chipseq_qc：ChIP-seq质量评估
chipseq_analysis：完整ChIP-seq分析
rnaseq_coverage：链特异性RNA-seq覆盖度
atacseq：ATAC-seq带Tn5校正

用法：

# 列出工作流
python scripts/workflow_generator.py --list

# 生成工作流
python scripts/workflow_generator.py chipseq_qc -o qc.sh \
    --input-bam Input.bam --chip-bams "ChIP1.bam ChIP2.bam" \
    --genome-size 2913022398 --threads 8

# 运行生成的工作流
chmod +x qc.sh
./qc.sh

何时使用： 用户请求标准工作流或需要模板脚本以定制时。

资产

assets/quick_reference.md

快速参考卡，包含最常见命令、有效基因组大小和典型工作流模式。

何时使用： 用户需要快速命令示例而无需详细文档时。

处理用户请求

对于新用户

从安装验证开始
使用 scripts/validate_files.py 验证输入文件
基于实验类型推荐适当工作流
使用 scripts/workflow_generator.py 生成工作流模板
引导通过定制和执行

对于经验用户

为请求的操作提供特定工具命令
参考 references/tools_reference.md 中的适当部分
建议优化和最佳实践
提供问题故障排除

对于特定任务

“将BAM转换为bigWig”：

使用bamCoverage带适当归一化
基于用例推荐RPGC或CPM
提供生物体的有效基因组大小
建议相关参数（extendReads、ignoreDuplicates、binSize）

“检查ChIP质量”：

运行完整QC工作流或专门使用plotFingerprint
解释结果
基于结果建议后续操作

“创建热图”：

引导通过两步过程：computeMatrix → plotHeatmap
帮助选择适当的矩阵模式（reference-point vs scale-regions）
建议可视化参数和聚类选项

“比较样本”：

推荐bamCompare用于两样本比较
建议multiBamSummary + plotCorrelation用于多样本
引导归一化方法选择

参考文档

当用户需要详细信息时：

工具详情： 直接指向 references/tools_reference.md 中的特定部分
工作流： 使用 references/workflows.md 获取完整分析管道
归一化： 查阅 references/normalization_methods.md 获取方法选择
基因组大小： 参考 references/effective_genome_sizes.md

使用grep模式搜索参考：

# 查找工具文档
grep -A 20 "^### toolname" references/tools_reference.md

# 查找工作流
grep -A 50 "^## Workflow Name" references/workflows.md

# 查找归一化方法
grep -A 15 "^### Method Name" references/normalization_methods.md

示例交互

用户：“我需要分析我的ChIP-seq数据”

响应方法：

询问可用文件（BAM文件、峰值、基因）
使用验证脚本验证文件
生成chipseq_analysis工作流模板
为其特定文件和生物体定制
解释脚本运行的每个步骤

用户：“我应该使用哪种归一化？”

响应方法：

询问实验类型（ChIP-seq、RNA-seq等）
询问比较目标（样本内或样本间）
查阅 references/normalization_methods.md 选择指南
推荐适当方法带理由
提供带参数的命令示例

用户：“创建一个围绕TSS的热图”

响应方法：

验证bigWig和基因BED文件可用
使用computeMatrix带reference-point模式在TSS处
生成plotHeatmap带适当的可视化参数
如果数据集大，建议聚类
提供剖面图作为补充

关键提醒

首先文件验证： 始终在分析前验证输入文件
归一化重要： 选择适当方法用于比较类型
仔细扩展读取： 是用于ChIP-seq，否用于RNA-seq
使用所有核心： 设置 --numberOfProcessors 为可用核心
在区域上测试： 使用 --region 进行参数测试
首先检查QC： 在详细分析前运行质量评估
记录一切： 保存命令以实现可重现性
参考文档： 使用全面参考获取详细指导