name: bio-nextflow-manager 描述: 在测序数据上运行nf-core生物信息学管道（rnaseq, sarek, atacseq）。当分析RNA-seq, WGS/WES, 或ATAC-seq数据时使用——无论是本地FASTQ文件还是来自GEO/SRA的公共数据集。触发于nf-core, Nextflow, FASTQ分析，变异调用，基因表达，差异表达，GEO重新分析，GSE/GSM/SRR访问号，或样品表创建。需要: [python, bash]

nf-core管道部署

在本地或公共测序数据上运行nf-core生物信息学管道。

注意: 此技能利用 生物信息学包。脚本和参考位于: src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/

目标用户: 没有专门生物信息学培训的实验室科学家和研究人员，他们需要运行大规模组学分析。

工作流程清单

- [ ] 步骤0: 获取数据（如果来自GEO/SRA）
- [ ] 步骤1: 环境检查（必须通过）
- [ ] 步骤2: 选择管道（与用户确认）
- [ ] 步骤3: 运行测试配置（必须通过）
- [ ] 步骤4: 创建样品表
- [ ] 步骤5: 配置和运行（与用户确认基因组）
- [ ] 步骤6: 验证输出

步骤0: 获取数据（仅GEO/SRA）

如果用户有本地FASTQ文件，跳过此步骤。

对于公共数据集，首先从GEO/SRA获取。参见包的references/geo-sra-acquisition.md。

快速开始:

# 设置包脚本路径
$PACK_SCRIPTS = "src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts"

# 1. 获取研究信息
python $PACK_SCRIPTS/sra_geo_fetch.py info GSE110004

# 2. 下载（交互模式）
python $PACK_SCRIPTS/sra_geo_fetch.py download GSE110004 -o ./fastq -i

# 3. 生成样品表
python $PACK_SCRIPTS/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv

决策点: 获取研究信息后，与用户确认:

下载哪个样本子集（如果有多种数据类型）
建议的基因组和管道

然后继续到步骤1。

步骤1: 环境检查

首先运行。如果不通过环境检查，管道将失败。

python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/check_environment.py

所有关键检查必须通过。如果任何失败，提供修复说明（Docker, Nextflow, Java）。

步骤2: 选择管道

决策点: 在继续之前与用户确认。

数据类型	管道	目标
RNA-seq	`rnaseq`	基因表达
WGS/WES	`sarek`	变异调用
ATAC-seq	`atacseq`	染色质可访问性

从数据自动检测:

python src-tauri/resources/packs/bio-informatics-pack/nextflow-pipelines/scripts/detect_data_type.py /path/to/data