nf-core生物信息学管道部署技能Skill nextflow-development

这个技能用于自动化部署和运行nf-core生物信息学管道,支持RNA-seq、WGS/WES、ATAC-seq等测序数据分析,帮助研究人员无需深入生物信息学知识即可进行基因表达、变异检测和染色质可及性分析。关键词:nf-core, Nextflow, 生物信息学, 数据分析, 基因表达, 变异调用, 染色质可及性, 自动化工作流

数据分析 0 次安装 0 次浏览 更新于 3/18/2026

name: nextflow-development description: 在测序数据上运行nf-core生物信息学管道(rnaseq、sarek、atacseq)。用于分析RNA-seq、WGS/WES或ATAC-seq数据——无论是本地FASTQ文件还是来自GEO/SRA的公共数据集。触发词包括nf-core、Nextflow、FASTQ分析、变异调用、基因表达、差异表达、GEO重新分析、GSE/GSM/SRR访问号或样本表创建。

nf-core管道部署

在本地或公共测序数据上运行nf-core生物信息学管道。

目标用户: 需要运行大规模组学分析——差异表达、变异调用或染色质可及性分析的台面科学家和研究人员,无需专门的生物信息学培训。

工作流清单

- [ ] 步骤0:获取数据(如果来自GEO/SRA)
- [ ] 步骤1:环境检查(必须通过)
- [ ] 步骤2:选择管道(与用户确认)
- [ ] 步骤3:运行测试配置文件(必须通过)
- [ ] 步骤4:创建样本表
- [ ] 步骤5:配置和运行(与用户确认基因组)
- [ ] 步骤6:验证输出

步骤0:获取数据(仅限GEO/SRA)

如果用户有本地FASTQ文件,请跳过此步骤。

对于公共数据集,首先从GEO/SRA获取。完整工作流见references/geo-sra-acquisition.md

快速开始:

# 1. 获取研究信息
python scripts/sra_geo_fetch.py info GSE110004

# 2. 下载(交互模式)
python scripts/sra_geo_fetch.py download GSE110004 -o ./fastq -i

# 3. 生成样本表
python scripts/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv

决策点: 获取研究信息后,与用户确认:

  • 下载哪个样本子集(如果有多种数据类型)
  • 建议的基因组和管道

然后继续步骤1。


步骤1:环境检查

首先运行。如果不通过环境检查,管道将失败。

python scripts/check_environment.py

所有关键检查必须通过。如果有任何失败,提供修复说明:

Docker问题

问题 修复
未安装 https://docs.docker.com/get-docker/ 安装
权限被拒绝 sudo usermod -aG docker $USER 然后重新登录
守护进程未运行 sudo systemctl start docker

Nextflow问题

问题 修复
未安装 curl -s https://get.nextflow.io | bash && mv nextflow ~/bin/
版本 < 23.04 nextflow self-update

Java问题

问题 修复
未安装 / < 11 sudo apt install openjdk-11-jdk

在所有检查通过之前不要继续。 对于HPC/Singularity,见references/troubleshooting.md


步骤2:选择管道

决策点:在继续之前与用户确认。

数据类型 管道 版本 目标
RNA-seq rnaseq 3.22.2 基因表达
WGS/WES sarek 3.7.1 变异调用
ATAC-seq atacseq 2.1.2 染色质可及性

从数据自动检测:

python scripts/detect_data_type.py /path/to/data

管道特定详情:


步骤3:运行测试配置文件

使用小数据验证环境。在真实数据之前必须通过。

nextflow run nf-core/<pipeline> -r <version> -profile test,docker --outdir test_output
管道 命令
rnaseq nextflow run nf-core/rnaseq -r 3.22.2 -profile test,docker --outdir test_rnaseq
sarek nextflow run nf-core/sarek -r 3.7.1 -profile test,docker --outdir test_sarek
atacseq nextflow run nf-core/atacseq -r 2.1.2 -profile test,docker --outdir test_atacseq

验证:

ls test_output/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log

如果测试失败,见references/troubleshooting.md


步骤4:创建样本表

自动生成

python scripts/generate_samplesheet.py /path/to/data <pipeline> -o samplesheet.csv

脚本:

  • 发现FASTQ/BAM/CRAM文件
  • 配对R1/R2读取
  • 推断样本元数据
  • 在写入前验证

对于sarek: 如果未自动检测,脚本会提示肿瘤/正常状态。

验证现有样本表

python scripts/generate_samplesheet.py --validate samplesheet.csv <pipeline>

样本表格式

rnaseq:

sample,fastq_1,fastq_2,strandedness
SAMPLE1,/abs/path/R1.fq.gz,/abs/path/R2.fq.gz,auto

sarek:

patient,sample,lane,fastq_1,fastq_2,status
patient1,tumor,L001,/abs/path/tumor_R1.fq.gz,/abs/path/tumor_R2.fq.gz,1
patient1,normal,L001,/abs/path/normal_R1.fq.gz,/abs/path/normal_R2.fq.gz,0

atacseq:

sample,fastq_1,fastq_2,replicate
CONTROL,/abs/path/ctrl_R1.fq.gz,/abs/path/ctrl_R2.fq.gz,1

步骤5:配置和运行

5a. 检查基因组可用性

python scripts/manage_genomes.py check <genome>
# 如果未安装:
python scripts/manage_genomes.py download <genome>

常见基因组:GRCh38(人类)、GRCh37(旧版)、GRCm39(小鼠)、R64-1-1(酵母)、BDGP6(果蝇)

5b. 决策点

决策点:与用户确认:

  1. 基因组: 使用哪个参考
  2. 管道特定选项:
    • rnaseq: 对齐器(推荐star_salmon,低内存使用hisat2)
    • sarek: 工具(用于种系的haplotypecaller,用于体细胞的mutect2)
    • atacseq: 读取长度(50、75、100或150)

5c. 运行管道

nextflow run nf-core/<pipeline> \
    -r <version> \
    -profile docker \
    --input samplesheet.csv \
    --outdir results \
    --genome <genome> \
    -resume

关键标志:

  • -r:固定版本
  • -profile docker:使用Docker(或HPC的singularity
  • --genome:iGenomes键
  • -resume:从检查点继续

资源限制(如果需要):

--max_cpus 8 --max_memory '32.GB' --max_time '24.h'

步骤6:验证输出

检查完成

ls results/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log

按管道的关键输出

rnaseq:

  • results/star_salmon/salmon.merged.gene_counts.tsv - 基因计数
  • results/star_salmon/salmon.merged.gene_tpm.tsv - TPM值

sarek:

  • results/variant_calling/*/ - VCF文件
  • results/preprocessing/recalibrated/ - BAM文件

atacseq:

  • results/macs2/narrowPeak/ - 峰调用
  • results/bwa/mergedLibrary/bigwig/ - 覆盖轨道

快速参考

常见退出代码和修复,见references/troubleshooting.md

恢复失败运行

nextflow run nf-core/<pipeline> -resume

参考文献


免责声明

此技能作为原型示例提供,演示如何将nf-core生物信息学管道集成到Claude Code中,用于自动化分析工作流。当前实现支持三个管道(rnaseq、sarek和atacseq),作为基础,使社区能够扩展支持完整的nf-core管道集。

它用于教育和研究目的,不应被视为生产就绪,除非为您的特定用例进行适当验证。用户负责确保其计算环境满足管道要求,并验证分析结果。

Anthropic不保证生物信息学输出的准确性,用户应遵循验证计算分析的标准实践。此集成未得到nf-core社区的正式认可或关联。

归因

发表结果时,请引用适当的管道。引用可在每个nf-core仓库的CITATIONS.md文件中找到(例如,https://github.com/nf-core/rnaseq/blob/3.22.2/CITATIONS.md)。

许可证