name: pathml description: 计算病理学工具包,用于分析全切片图像 (WSI) 和多参数成像数据。在组织病理学切片、H&E 染色图像、多路免疫荧光 (CODEX、Vectra)、空间蛋白质组学、细胞核检测/分割、组织图构建或在病理数据上训练 ML 模型时使用此技能。支持 160 多种切片格式,包括 Aperio SVS、NDPI、DICOM、OME-TIFF,适用于数字病理工作流程。
PathML
概述
PathML 是一个全面的 Python 工具包,用于计算病理学工作流程,旨在为全切片病理图像促进机器学习和图像分析。该框架提供模块化、可组合的工具,用于加载多样化的切片格式、预处理图像、构建空间图、训练深度学习模型,以及分析来自 CODEX 和多路免疫荧光等多参数成像技术的数据。
何时使用此技能
应用此技能于:
- 以各种专有格式加载和处理全切片图像 (WSI)
- 通过染色归一化预处理 H&E 染色组织图像
- 细胞核检测、分割和分类工作流程
- 为空间分析构建细胞和组织图
- 在病理数据上训练或部署机器学习模型(如 HoVer-Net、HACTNet)
- 分析多参数成像(CODEX、Vectra、MERFISH)以进行空间蛋白质组学
- 从多路免疫荧光量化标记表达
- 使用 HDF5 存储管理大规模病理数据集
- 基于瓦片的分割和拼接操作
核心能力
PathML 提供六个主要能力领域,在参考文件中详细记录:
1. 图像加载与格式
从 160 多种专有格式加载全切片图像,包括 Aperio SVS、Hamamatsu NDPI、Leica SCN、Zeiss ZVI、DICOM 和 OME-TIFF。PathML 自动处理供应商特定格式,并提供统一接口以访问图像金字塔、元数据和感兴趣区域。
参见: references/image_loading.md 了解支持格式、加载策略以及处理不同类型切片。
2. 预处理管道
通过组合用于图像操作、质量控制、染色归一化、组织检测和掩膜操作的变换,构建模块化预处理管道。PathML 的 Pipeline 架构支持跨大型数据集的可重现、可扩展预处理。
关键变换:
StainNormalizationHE- Macenko/Vahadane 染色归一化TissueDetectionHE、NucleusDetectionHE- 组织/细胞核分割MedianBlur、GaussianBlur- 降噪LabelArtifactTileHE- 伪影质量控制
参见: references/preprocessing.md 了解完整变换目录、管道构建和预处理工作流程。
3. 图构建
构建表示细胞和组织级关系的空间图。从分割对象提取特征,创建适合图神经网络和空间分析的图基表示。
参见: references/graphs.md 了解图构建方法、特征提取和空间分析工作流程。
4. 机器学习
训练和部署用于细胞核检测、分割和分类的深度学习模型。PathML 集成 PyTorch,提供预建模型(HoVer-Net、HACTNet)、自定义 DataLoaders,以及 ONNX 支持以进行推理。
关键模型:
- HoVer-Net - 同时进行细胞核分割和分类
- HACTNet - 层次细胞类型分类
参见: references/machine_learning.md 了解模型训练、评估、推理工作流程以及处理公共数据集。
5. 多参数成像
分析来自 CODEX、Vectra、MERFISH 和其他多路成像平台的空间蛋白质组学和基因表达数据。PathML 提供专门的切片类和变换,用于处理多参数数据、使用 Mesmer 进行细胞分割以及量化工作流程。
参见: references/multiparametric.md 了解 CODEX/Vectra 工作流程、细胞分割、标记量化以及与 AnnData 的集成。
6. 数据管理
使用 HDF5 格式高效存储和管理大规模病理数据集。PathML 处理瓦片、掩膜、元数据和提取特征,在统一存储结构中优化机器学习工作流程。
参见: references/data_management.md 了解 HDF5 集成、瓦片管理、数据集组织和批处理策略。
快速入门
安装
# 安装 PathML
pip install pathml
# 包含所有功能的可选依赖项
pip install pathml[all]
基本工作流程示例
from pathml.core import SlideData
from pathml.preprocessing import Pipeline, StainNormalizationHE, TissueDetectionHE
# 加载全切片图像
wsi = SlideData.from_slide("path/to/slide.svs")
# 创建预处理管道
pipeline = Pipeline([
TissueDetectionHE(),
StainNormalizationHE(target='normalize', stain_estimation_method='macenko')
])
# 运行管道
pipeline.run(wsi)
# 访问处理后的瓦片
for tile in wsi.tiles:
processed_image = tile.image
tissue_mask = tile.masks['tissue']
常见工作流程
H&E 图像分析:
- 使用适当的切片类加载 WSI
- 应用组织检测和染色归一化
- 执行细胞核检测或训练分割模型
- 提取特征并构建空间图
- 进行下游分析
多参数成像(CODEX):
- 使用
CODEXSlide加载 CODEX 切片 - 折叠多运行通道数据
- 使用 Mesmer 模型分割细胞
- 量化标记表达
- 导出到 AnnData 进行单细胞分析
训练 ML 模型:
- 准备公共病理数据的数据集
- 使用 PathML 数据集创建 PyTorch DataLoader
- 训练 HoVer-Net 或自定义模型
- 在保留测试集上评估
- 使用 ONNX 部署进行推理
详细文档参考
处理特定任务时,请参考适当的参考文件以获取全面信息:
- 加载图像:
references/image_loading.md - 预处理工作流程:
references/preprocessing.md - 空间分析:
references/graphs.md - 模型训练:
references/machine_learning.md - CODEX/多路 IF:
references/multiparametric.md - 数据存储:
references/data_management.md
资源
此技能包含按能力领域组织的全面参考文档。每个参考文件包含详细 API 信息、工作流程示例、最佳实践和针对特定 PathML 功能的故障排除指导。
references/
文档文件深入介绍 PathML 能力:
image_loading.md- 全切片图像格式、加载策略、切片类preprocessing.md- 完整变换目录、管道构建、预处理工作流程graphs.md- 图构建方法、特征提取、空间分析machine_learning.md- 模型架构、训练工作流程、评估、推理multiparametric.md- CODEX、Vectra、多路 IF 分析、细胞分割、量化data_management.md- HDF5 存储、瓦片管理、批处理、数据集组织
处理特定计算病理学任务时,根据需要加载这些参考。