生物Nextflow管理器Skill bio-nextflow-manager

该技能用于自动化部署和运行nf-core生物信息学管道,处理RNA-seq、全基因组测序(WGS)、全外显子组测序(WES)和ATAC-seq等测序数据。支持本地FASTQ文件和从GEO/SRA获取的公共数据集,自动检测数据类型、配置样品表并执行分析,适用于基因表达分析、变异调用和染色质可访问性研究。关键词:生物信息学,Nextflow,nf-core,RNA-seq,WGS,WES,ATAC-seq,GEO,SRA,基因表达,变异调用,染色质可访问性。

数据分析 0 次安装 0 次浏览 更新于 3/25/2026

name: bio-nextflow-manager 描述: 在测序数据上运行nf-core生物信息学管道(rnaseq, sarek, atacseq)。当分析RNA-seq, WGS/WES, 或ATAC-seq数据时使用——无论是本地FASTQ文件还是来自GEO/SRA的公共数据集。触发于nf-core, Nextflow, FASTQ分析,变异调用,基因表达,差异表达,GEO重新分析,GSE/GSM/SRR访问号,或样品表创建。 需要: [python, bash]

nf-core管道部署

在本地或公共测序数据上运行nf-core生物信息学管道。

注意: 此技能利用 生物信息学包。 脚本和参考位于: src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/

目标用户: 没有专门生物信息学培训的实验室科学家和研究人员,他们需要运行大规模组学分析。

工作流程清单

- [ ] 步骤0: 获取数据(如果来自GEO/SRA)
- [ ] 步骤1: 环境检查(必须通过)
- [ ] 步骤2: 选择管道(与用户确认)
- [ ] 步骤3: 运行测试配置(必须通过)
- [ ] 步骤4: 创建样品表
- [ ] 步骤5: 配置和运行(与用户确认基因组)
- [ ] 步骤6: 验证输出

步骤0: 获取数据(仅GEO/SRA)

如果用户有本地FASTQ文件,跳过此步骤。

对于公共数据集,首先从GEO/SRA获取。参见包的references/geo-sra-acquisition.md

快速开始:

# 设置包脚本路径
$PACK_SCRIPTS = "src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts"

# 1. 获取研究信息
python $PACK_SCRIPTS/sra_geo_fetch.py info GSE110004

# 2. 下载(交互模式)
python $PACK_SCRIPTS/sra_geo_fetch.py download GSE110004 -o ./fastq -i

# 3. 生成样品表
python $PACK_SCRIPTS/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv

决策点: 获取研究信息后,与用户确认:

  • 下载哪个样本子集(如果有多种数据类型)
  • 建议的基因组和管道

然后继续到步骤1。


步骤1: 环境检查

首先运行。如果不通过环境检查,管道将失败。

python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/check_environment.py

所有关键检查必须通过。如果任何失败,提供修复说明(Docker, Nextflow, Java)。


步骤2: 选择管道

决策点: 在继续之前与用户确认。

数据类型 管道 目标
RNA-seq rnaseq 基因表达
WGS/WES sarek 变异调用
ATAC-seq atacseq 染色质可访问性

从数据自动检测:

python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/detect_data_type.py /path/to/data