name: bio-nextflow-manager 描述: 在测序数据上运行nf-core生物信息学管道(rnaseq, sarek, atacseq)。当分析RNA-seq, WGS/WES, 或ATAC-seq数据时使用——无论是本地FASTQ文件还是来自GEO/SRA的公共数据集。触发于nf-core, Nextflow, FASTQ分析,变异调用,基因表达,差异表达,GEO重新分析,GSE/GSM/SRR访问号,或样品表创建。 需要: [python, bash]
nf-core管道部署
在本地或公共测序数据上运行nf-core生物信息学管道。
注意: 此技能利用 生物信息学包。 脚本和参考位于:
src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/
目标用户: 没有专门生物信息学培训的实验室科学家和研究人员,他们需要运行大规模组学分析。
工作流程清单
- [ ] 步骤0: 获取数据(如果来自GEO/SRA)
- [ ] 步骤1: 环境检查(必须通过)
- [ ] 步骤2: 选择管道(与用户确认)
- [ ] 步骤3: 运行测试配置(必须通过)
- [ ] 步骤4: 创建样品表
- [ ] 步骤5: 配置和运行(与用户确认基因组)
- [ ] 步骤6: 验证输出
步骤0: 获取数据(仅GEO/SRA)
如果用户有本地FASTQ文件,跳过此步骤。
对于公共数据集,首先从GEO/SRA获取。参见包的references/geo-sra-acquisition.md。
快速开始:
# 设置包脚本路径
$PACK_SCRIPTS = "src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts"
# 1. 获取研究信息
python $PACK_SCRIPTS/sra_geo_fetch.py info GSE110004
# 2. 下载(交互模式)
python $PACK_SCRIPTS/sra_geo_fetch.py download GSE110004 -o ./fastq -i
# 3. 生成样品表
python $PACK_SCRIPTS/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv
决策点: 获取研究信息后,与用户确认:
- 下载哪个样本子集(如果有多种数据类型)
- 建议的基因组和管道
然后继续到步骤1。
步骤1: 环境检查
首先运行。如果不通过环境检查,管道将失败。
python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/check_environment.py
所有关键检查必须通过。如果任何失败,提供修复说明(Docker, Nextflow, Java)。
步骤2: 选择管道
决策点: 在继续之前与用户确认。
| 数据类型 | 管道 | 目标 |
|---|---|---|
| RNA-seq | rnaseq |
基因表达 |
| WGS/WES | sarek |
变异调用 |
| ATAC-seq | atacseq |
染色质可访问性 |
从数据自动检测:
python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/detect_data_type.py /path/to/data