name: 生物单细胞 description: 使用scvi-tools和scverse生态系统进行单细胞分析的深度学习。这个技能应该在用户需要时使用:(1) 使用scVI/scANVI进行数据整合和批处理校正,(2) 使用PeakVI进行ATAC-seq分析,(3) 使用totalVI进行CITE-seq多模态分析,(4) 使用MultiVI进行多组学RNA+ATAC分析,(5) 使用DestVI进行空间转录组学解卷积,(6) 标签转移和参考映射,(7) 使用veloVI进行RNA速度分析,或(8) 单细胞RNA-seq数据的QC分析。触发词包括scVI, scANVI, totalVI, QC, quality control, batch correction, integration, multi-modal。 requires: [python, bash]
scvi-tools深度学习与QC技能
这个技能提供基于scvi-tools和标准QC工作流的单细胞深度学习方法。
注意: 这个技能使用 Bio-Informatics Pack。 脚本和参考资料位于:
src-tauri/resources/packs/bio-informatics-pack/single-cell-analysis/
如何使用此技能
- 识别适当的工作流(QC或建模)
- 使用pack中
scripts/文件夹的脚本 - 对于安装或GPU问题,参考pack中的
references/environment_setup.md
QC工作流(先运行)
在运行任何深度学习模型之前,确保数据质量。
# 运行标准QC分析
python src-tauri/resources/packs/bio-informatics-pack/single-cell-analysis/scripts/qc_analysis.py input.h5ad output_qc.h5ad
参见references/scverse_qc_guidelines.md获取详细指标阈值。
模型选择指南
| 数据类型 | 模型 | 主要用例 |
|---|---|---|
| scRNA-seq | scVI | 无监督整合、DE、插值 |
| scRNA-seq + 标签 | scANVI | 标签转移、半监督整合 |
| CITE-seq (RNA+蛋白) | totalVI | 多模态整合、蛋白去噪 |
| scATAC-seq | PeakVI | 染色质可及性分析 |
| 多组学 (RNA+ATAC) | MultiVI | 联合模态分析 |
| 空间 + scRNA参考 | DestVI | 细胞类型解卷积 |
| RNA速度 | veloVI | 转录动态 |
| 跨技术 | sysVI | 系统级批处理校正 |
CLI脚本
用于常见工作流的模块化脚本。可链接或根据需要修改。
管道脚本
脚本位于src-tauri/resources/packs/bio-informatics-pack/single-cell-analysis/scripts/。
| 脚本 | 目的 | 用法 |
|---|---|---|
prepare_data.py |
QC、过滤、HVG选择 | python prepare_data.py raw.h5ad prepared.h5ad --batch-key batch |
train_model.py |
训练任何scvi-tools模型 | python train_model.py prepared.h5ad results/ --model scvi |
cluster_embed.py |
邻居、UMAP、Leiden | python cluster_embed.py adata.h5ad results/ |
differential_expression.py |
DE分析 | python differential_expression.py model/ adata.h5ad de.csv --groupby leiden |
transfer_labels.py |
使用scANVI进行标签转移 | python transfer_labels.py ref_model/ query.h5ad results/ |
integrate_datasets.py |
多数据集整合 | python integrate_datasets.py results/ data1.h5ad data2.h5ad |
validate_adata.py |
检查数据兼容性 | python validate_adata.py data.h5ad --batch-key batch |
示例工作流
# 设置脚本路径
$SC_SCRIPTS = "src-tauri/resources/packs/bio-informatics-pack/single-cell-analysis/scripts"
# 1. 验证输入数据
python $SC_SCRIPTS/validate_adata.py raw.h5ad --batch-key batch --suggest
# 2. 准备数据(QC、HVG选择)
python $SC_SCRIPTS/prepare_data.py raw.h5ad prepared.h5ad --batch-key batch --n-hvgs 2000
# 3. 训练模型
python $SC_SCRIPTS/train_model.py prepared.h5ad results/ --model scvi --batch-key batch
# 4. 聚类和可视化
python $SC_SCRIPTS/cluster_embed.py results/adata_trained.h5ad results/ --resolution 0.8