name: scvi-tools description: 此技能应在使用 scvi-tools 进行单细胞组学数据分析时使用,包括 scRNA-seq、scATAC-seq、CITE-seq、空间转录组学和其他单细胞模态。用于概率建模、批次校正、降维、差异表达、细胞类型注释、多模态整合和空间分析任务。
scvi-tools
概述
scvi-tools 是一个全面的 Python 框架,用于单细胞基因组学中的概率模型。基于 PyTorch 和 PyTorch Lightning,它使用变分推断提供深度生成模型,用于分析多种单细胞数据模态。
何时使用此技能
使用此技能当:
- 分析单细胞 RNA-seq 数据(降维、批次校正、整合)
- 处理单细胞 ATAC-seq 或染色质可及性数据
- 整合多模态数据(CITE-seq、多组学、配对/非配对数据集)
- 分析空间转录组学数据(解卷积、空间映射)
- 对单细胞数据进行差异表达分析
- 进行细胞类型注释或迁移学习任务
- 处理专业单细胞模态(甲基化、细胞计数、RNA 速度)
- 为单细胞分析构建自定义概率模型
核心能力
scvi-tools 提供按数据模态组织的模型:
1. 单细胞 RNA-seq 分析
用于表达分析、批次校正和整合的核心模型。参见 references/models-scrna-seq.md:
- scVI:无监督降维和批次校正
- scANVI:半监督细胞类型注释和整合
- AUTOZI:零膨胀检测和建模
- VeloVI:RNA 速度分析
- contrastiveVI:扰动效应隔离
2. 染色质可及性 (ATAC-seq)
用于分析单细胞染色质数据的模型。参见 references/models-atac-seq.md:
- PeakVI:基于峰的 ATAC-seq 分析和整合
- PoissonVI:定量片段计数建模
- scBasset:带有基序分析的深度学习方法
3. 多模态与多组学整合
多种数据类型的联合分析。参见 references/models-multimodal.md:
- totalVI:CITE-seq 蛋白质和 RNA 联合建模
- MultiVI:配对和非配对多组学整合
- MrVI:多分辨率跨样本分析
4. 空间转录组学
空间解析转录组学分析。参见 references/models-spatial.md:
- DestVI:多分辨率空间解卷积
- Stereoscope:细胞类型解卷积
- Tangram:空间映射和整合
- scVIVA:细胞环境关系分析
5. 专业模态
额外的专业分析工具。参见 references/models-specialized.md:
- MethylVI/MethylANVI:单细胞甲基化分析
- CytoVI:流式/质谱细胞计数批次校正
- Solo:双倍体检测
- CellAssign:基于标记的细胞类型注释
典型工作流
所有 scvi-tools 模型遵循一致的 API 模式:
# 1. 加载和预处理数据(AnnData 格式)
import scvi
import scanpy as sc
adata = scvi.data.heart_cell_atlas_subsampled()
sc.pp.filter_genes(adata, min_counts=3)
sc.pp.highly_variable_genes(adata, n_top_genes=1200)
# 2. 向模型注册数据(指定层、协变量)
scvi.model.SCVI.setup_anndata(
adata,
layer="counts", # 使用原始计数,非对数归一化
batch_key="batch",
categorical_covariate_keys=["donor"],
continuous_covariate_keys=["percent_mito"]
)
# 3. 创建和训练模型
model = scvi.model.SCVI(adata)
model.train()
# 4. 提取潜在表示和归一化值
latent = model.get_latent_representation()
normalized = model.get_normalized_expression(library_size=1e4)
# 5. 存储在 AnnData 中以供下游分析
adata.obsm["X_scVI"] = latent
adata.layers["scvi_normalized"] = normalized
# 6. 使用 scanpy 进行下游分析
sc.pp.neighbors(adata, use_rep="X_scVI")
sc.tl.umap(adata)
sc.tl.leiden(adata)
关键设计原则:
- 需要原始计数:模型期望未归一化的计数数据以获得最佳性能
- 统一 API:所有模型的一致接口(设置 → 训练 → 提取)
- AnnData 中心化:与 scanpy 生态系统的无缝集成
- GPU 加速:自动利用可用 GPU
- 批次校正:通过协变量注册处理技术变异
常见分析任务
差异表达
使用学习到的生成模型进行概率性 DE 分析:
de_results = model.differential_expression(
groupby="cell_type",
group1="TypeA",
group2="TypeB",
mode="change", # 使用复合假设检验
delta=0.25 # 最小效应大小阈值
)
参见 references/differential-expression.md 了解详细方法和解释。
模型持久化
保存和加载训练好的模型:
# 保存模型
model.save("./model_directory", overwrite=True)
# 加载模型
model = scvi.model.SCVI.load("./model_directory", adata=adata)
批次校正和整合
跨批次或研究整合数据集:
# 注册批次信息
scvi.model.SCVI.setup_anndata(adata, batch_key="study")
# 模型自动学习批次校正表示
model = scvi.model.SCVI(adata)
model.train()
latent = model.get_latent_representation() # 批次校正
理论基础
scvi-tools 基于:
- 变分推断:近似后验分布以实现可扩展的贝叶斯推断
- 深度生成模型:学习复杂数据分布的 VAE 架构
- 摊销推断:共享神经网络以跨细胞高效学习
- 概率建模:原理性不确定性量化和统计检验
参见 references/theoretical-foundations.md 了解数学框架的详细背景。
额外资源
- 工作流:
references/workflows.md包含常见工作流、最佳实践、超参数调优和 GPU 优化 - 模型参考:
references/目录中每个模型类别的详细文档 - 官方文档:https://docs.scvi-tools.org/en/stable/
- 教程:https://docs.scvi-tools.org/en/stable/tutorials/index.html
- API 参考:https://docs.scvi-tools.org/en/stable/api/index.html
安装
pip install scvi-tools
# 用于 GPU 支持
pip install scvi-tools[cuda]
最佳实践
- 使用原始计数:始终向模型提供未归一化的计数数据
- 过滤基因:在分析前去除低计数基因(例如,
min_counts=3) - 注册协变量:在
setup_anndata中包含已知技术因素(批次、供体等) - 特征选择:使用高变异基因以提高性能
- 模型保存:始终保存训练好的模型以避免重新训练
- GPU 使用:为大数据集启用 GPU 加速(
accelerator="gpu") - Scanpy 集成:将输出存储在 AnnData 对象中以供下游分析