name: histolab description: 数字病理图像处理工具包,用于全玻片图像(WSI)。当处理组织病理学切片、处理H&E或IHC染色组织图像、从千兆像素病理图像中提取图块、检测组织区域、分割组织掩模,或为计算病理学深度学习管道准备数据集时使用此技能。适用于WSI格式(SVS、TIFF、NDPI)、基于图块的分析和组织学图像预处理工作流。
Histolab
概述
Histolab 是一个用于处理数字病理中全玻片图像(WSI)的Python库。它自动化组织检测,从千兆像素图像中提取信息图块,并为深度学习管道准备数据集。该库支持多种WSI格式,实现复杂的组织分割,并提供灵活的图块提取策略。
安装
使用pip或conda安装histolab:
pip install histolab
# 或通过conda
conda install -c conda-forge histolab
快速开始
从全玻片图像中提取图块的基本工作流:
from histolab.slide import Slide
from histolab.tiler import RandomTiler
# 加载切片
slide = Slide("slide.svs", processed_path="output/")
# 配置图块提取器
tiler = RandomTiler(
tile_size=(512, 512),
n_tiles=100,
level=0,
seed=42
)
# 预览图块位置
tiler.locate_tiles(slide, n_tiles=20)
# 提取图块
tiler.extract(slide)
核心能力
1. 切片管理
加载、检查和处理各种格式的全玻片图像。
常见操作:
- 加载WSI文件(SVS、TIFF、NDPI等)
- 访问切片元数据(维度、放大倍数、属性)
- 生成缩略图用于可视化
- 处理金字塔图像结构
- 提取特定坐标的区域
关键类: Slide
参考: references/slide_management.md 包含全面文档:
- 切片初始化和配置
- 内置样本数据集(前列腺、卵巢、乳腺、心脏、肾脏组织)
- 访问切片属性和元数据
- 缩略图生成和可视化
- 处理金字塔级别
- 多切片处理工作流
示例工作流:
from histolab.slide import Slide
from histolab.data import prostate_tissue
# 加载样本数据
prostate_svs, prostate_path = prostate_tissue()
# 初始化切片
slide = Slide(prostate_path, processed_path="output/")
# 检查属性
print(f"维度: {slide.dimensions}")
print(f"级别: {slide.levels}")
print(f"放大倍数: {slide.properties.get('openslide.objective-power')}")
# 保存缩略图
slide.save_thumbnail()
2. 组织检测和掩模
自动识别组织区域并过滤背景/伪影。
常见操作:
- 创建二值组织掩模
- 检测最大组织区域
- 排除背景和伪影
- 自定义组织分割
- 移除笔注释
关键类: TissueMask, BiggestTissueBoxMask, BinaryMask
参考: references/tissue_masks.md 包含全面文档:
- TissueMask:使用自动过滤器分割所有组织区域
- BiggestTissueBoxMask:返回最大组织区域的边界框(默认)
- BinaryMask:自定义掩模实现的基类
- 使用
locate_mask()可视化掩模 - 创建自定义矩形和注释排除掩模
- 掩模与图块提取的集成
- 最佳实践和故障排除
示例工作流:
from histolab.masks import TissueMask, BiggestTissueBoxMask
# 为所有组织区域创建组织掩模
tissue_mask = TissueMask()
# 在切片上可视化掩模
slide.locate_mask(tissue_mask)
# 获取掩模数组
mask_array = tissue_mask(slide)
# 使用最大组织区域(大多数提取器的默认)
biggest_mask = BiggestTissueBoxMask()
何时使用每个掩模:
TissueMask:多个组织部分,全面分析BiggestTissueBoxMask:单个主要组织部分,排除伪影(默认)- 自定义
BinaryMask:特定ROI,排除注释,自定义分割
3. 图块提取
使用不同策略从大型WSI中提取较小区域。
三种提取策略:
RandomTiler: 提取固定数量的随机位置图块
- 最佳用于:采样多样化区域,探索性分析,训练数据
- 关键参数:
n_tiles,seed用于可重复性
GridTiler: 以网格模式系统地在组织上提取图块
- 最佳用于:完整覆盖,空间分析,重建
- 关键参数:
pixel_overlap用于滑动窗口
ScoreTiler: 基于评分函数提取排名最高的图块
- 最佳用于:最信息丰富的区域,质量驱动选择
- 关键参数:
scorer(NucleiScorer, CellularityScorer, 自定义)
常见参数:
tile_size:图块维度(例如,(512, 512))level:提取的金字塔级别(0 = 最高分辨率)check_tissue:按组织内容过滤图块tissue_percent:最小组织覆盖率(默认80%)extraction_mask:定义提取区域的掩模
参考: references/tile_extraction.md 包含全面文档:
- 每种提取器策略的详细解释
- 可用评分器(NucleiScorer, CellularityScorer, 自定义)
- 使用
locate_tiles()预览图块 - 提取工作流和报告
- 高级模式(多级别、分层提取)
- 性能优化和故障排除
示例工作流:
from histolab.tiler import RandomTiler, GridTiler, ScoreTiler
from histolab.scorer import NucleiScorer
# 随机采样(快速、多样化)
random_tiler = RandomTiler(
tile_size=(512, 512),
n_tiles=100,
level=0,
seed=42,
check_tissue=True,
tissue_percent=80.0
)
random_tiler.extract(slide)
# 网格覆盖(全面)
grid_tiler = GridTiler(
tile_size=(512, 512),
level=0,
pixel_overlap=0,
check_tissue=True
)
grid_tiler.extract(slide)
# 基于评分的选择(最信息丰富)
score_tiler = ScoreTiler(
tile_size=(512, 512),
n_tiles=50,
scorer=NucleiScorer(),
level=0
)
score_tiler.extract(slide, report_path="tiles_report.csv")
提取前始终预览:
# 在缩略图上预览图块位置
tiler.locate_tiles(slide, n_tiles=20)
4. 过滤器和预处理
应用图像处理过滤器用于组织检测、质量控制和预处理。
过滤器类别:
图像过滤器: 颜色空间转换、阈值处理、对比度增强
RgbToGrayscale,RgbToHsv,RgbToHedOtsuThreshold,AdaptiveThresholdStretchContrast,HistogramEqualization
形态学过滤器: 对二值图像的结构操作
BinaryDilation,BinaryErosionBinaryOpening,BinaryClosingRemoveSmallObjects,RemoveSmallHoles
组合: 将多个过滤器链接在一起
Compose:创建过滤器管道
参考: references/filters_preprocessing.md 包含全面文档:
- 每种过滤器类型的详细解释
- 过滤器组合和链接
- 常见预处理管道(组织检测、笔移除、核增强)
- 将过滤器应用于图块
- 自定义掩模过滤器
- 质量控制过滤器(模糊检测、组织覆盖率)
- 最佳实践和故障排除
示例工作流:
from histolab.filters.compositions import Compose
from histolab.filters.image_filters import RgbToGrayscale, OtsuThreshold
from histolab.filters.morphological_filters import (
BinaryDilation, RemoveSmallHoles, RemoveSmallObjects
)
# 标准组织检测管道
tissue_detection = Compose([
RgbToGrayscale(),
OtsuThreshold(),
BinaryDilation(disk_size=5),
RemoveSmallHoles(area_threshold=1000),
RemoveSmallObjects(area_threshold=500)
])
# 与自定义掩模使用
from histolab.masks import TissueMask
custom_mask = TissueMask(filters=tissue_detection)
# 将过滤器应用于图块
from histolab.tile import Tile
filtered_tile = tile.apply_filters(tissue_detection)
5. 可视化
可视化切片、掩模、图块位置和提取质量。
常见可视化任务:
- 显示切片缩略图
- 可视化组织掩模
- 预览图块位置
- 评估图块质量
- 创建报告和图表
参考: references/visualization.md 包含全面文档:
- 切片缩略图显示和保存
- 使用
locate_mask()可视化掩模 - 使用
locate_tiles()预览图块位置 - 显示提取的图块和镶嵌图
- 质量评估(评分分布、顶部与底部图块)
- 多切片可视化
- 过滤器效果可视化
- 导出高分辨率图表和PDF报告
- Jupyter笔记本中的交互式可视化
示例工作流:
import matplotlib.pyplot as plt
from histolab.masks import TissueMask
# 显示切片缩略图
plt.figure(figsize=(10, 10))
plt.imshow(slide.thumbnail)
plt.title(f"切片: {slide.name}")
plt.axis('off')
plt.show()
# 可视化组织掩模
tissue_mask = TissueMask()
slide.locate_mask(tissue_mask)
# 预览图块位置
tiler = RandomTiler(tile_size=(512, 512), n_tiles=50)
tiler.locate_tiles(slide, n_tiles=20)
# 在网格中显示提取的图块
from pathlib import Path
from PIL import Image
tile_paths = list(Path("output/tiles/").glob("*.png"))[:16]
fig, axes = plt.subplots(4, 4, figsize=(12, 12))
axes = axes.ravel()
for idx, tile_path in enumerate(tile_paths):
tile_img = Image.open(tile_path)
axes[idx].imshow(tile_img)
axes[idx].set_title(tile_path.stem, fontsize=8)
axes[idx].axis('off')
plt.tight_layout()
plt.show()
典型工作流
工作流 1:探索性图块提取
快速采样多样化组织区域用于初步分析。
from histolab.slide import Slide
from histolab.tiler import RandomTiler
import logging
# 启用日志记录以跟踪进度
logging.basicConfig(level=logging.INFO)
# 加载切片
slide = Slide("slide.svs", processed_path="output/random_tiles/")
# 检查切片
print(f"维度: {slide.dimensions}")
print(f"级别: {slide.levels}")
slide.save_thumbnail()
# 配置随机图块提取器
random_tiler = RandomTiler(
tile_size=(512, 512),
n_tiles=100,
level=0,
seed=42,
check_tissue=True,
tissue_percent=80.0
)
# 预览位置
random_tiler.locate_tiles(slide, n_tiles=20)
# 提取图块
random_tiler.extract(slide)
工作流 2:全面网格提取
完整组织覆盖用于全切片分析。
from histolab.slide import Slide
from histolab.tiler import GridTiler
from histolab.masks import TissueMask
# 加载切片
slide = Slide("slide.svs", processed_path="output/grid_tiles/")
# 为所有组织部分使用TissueMask
tissue_mask = TissueMask()
slide.locate_mask(tissue_mask)
# 配置网格图块提取器
grid_tiler = GridTiler(
tile_size=(512, 512),
level=1, # 使用级别1以加快提取
pixel_overlap=0,
check_tissue=True,
tissue_percent=70.0
)
# 预览网格
grid_tiler.locate_tiles(slide)
# 提取所有图块
grid_tiler.extract(slide, extraction_mask=tissue_mask)
工作流 3:质量驱动图块选择
基于核密度提取最信息丰富的图块。
from histolab.slide import Slide
from histolab.tiler import ScoreTiler
from histolab.scorer import NucleiScorer
import pandas as pd
import matplotlib.pyplot as plt
# 加载切片
slide = Slide("slide.svs", processed_path="output/scored_tiles/")
# 配置评分图块提取器
score_tiler = ScoreTiler(
tile_size=(512, 512),
n_tiles=50,
level=0,
scorer=NucleiScorer(),
check_tissue=True
)
# 预览顶部图块
score_tiler.locate_tiles(slide, n_tiles=15)
# 提取并生成报告
score_tiler.extract(slide, report_path="tiles_report.csv")
# 分析评分
report_df = pd.read_csv("tiles_report.csv")
plt.hist(report_df['score'], bins=20, edgecolor='black')
plt.xlabel('图块评分')
plt.ylabel('频率')
plt.title('图块评分分布')
plt.show()
工作流 4:多切片处理管道
以一致参数处理整个切片集合。
from pathlib import Path
from histolab.slide import Slide
from histolab.tiler import RandomTiler
import logging
logging.basicConfig(level=logging.INFO)
# 一次性配置图块提取器
tiler = RandomTiler(
tile_size=(512, 512),
n_tiles=50,
level=0,
seed=42,
check_tissue=True
)
# 处理所有切片
slide_dir = Path("slides/")
output_base = Path("output/")
for slide_path in slide_dir.glob("*.svs"):
print(f"
处理中: {slide_path.name}")
# 创建切片特定输出目录
output_dir = output_base / slide_path.stem
output_dir.mkdir(parents=True, exist_ok=True)
# 加载和处理切片
slide = Slide(slide_path, processed_path=output_dir)
# 保存缩略图以供审查
slide.save_thumbnail()
# 提取图块
tiler.extract(slide)
print(f"完成: {slide_path.name}")
工作流 5:自定义组织检测和过滤
处理带有伪影、注释或不寻常染色的切片。
from histolab.slide import Slide
from histolab.masks import TissueMask
from histolab.tiler import RandomTiler
from histolab.filters.compositions import Compose
from histolab.filters.image_filters import RgbToGrayscale, OtsuThreshold
from histolab.filters.morphological_filters import (
BinaryDilation, RemoveSmallObjects, RemoveSmallHoles
)
# 定义用于积极伪影移除的自定义过滤器管道
aggressive_filters = Compose([
RgbToGrayscale(),
OtsuThreshold(),
BinaryDilation(disk_size=10),
RemoveSmallHoles(area_threshold=5000),
RemoveSmallObjects(area_threshold=3000) # 移除较大伪影
])
# 创建自定义掩模
custom_mask = TissueMask(filters=aggressive_filters)
# 加载切片并可视化掩模
slide = Slide("slide.svs", processed_path="output/")
slide.locate_mask(custom_mask)
# 使用自定义掩模提取
tiler = RandomTiler(tile_size=(512, 512), n_tiles=100)
tiler.extract(slide, extraction_mask=custom_mask)
最佳实践
切片加载和检查
- 在处理前始终检查切片属性
- 保存缩略图以供快速视觉审查
- 检查金字塔级别和维度
- 使用缩略图验证组织存在
组织检测
- 在提取前使用
locate_mask()预览掩模 - 对多个部分使用
TissueMask,对单个部分使用BiggestTissueBoxMask - 为特定染色(H&E vs IHC)自定义过滤器
- 使用自定义掩模处理笔注释
- 在多样化切片上测试掩模
图块提取
- 在提取前始终使用
locate_tiles()预览 - 选择合适的图块提取器:
- RandomTiler:采样和探索
- GridTiler:完整覆盖
- ScoreTiler:质量驱动选择
- 设置适当的
tissue_percent阈值(典型70-90%) - 在RandomTiler中使用种子以确保可重复性
- 在分析分辨率下提取适当的金字塔级别
- 为大数据集启用日志记录
性能
- 在较低级别(1, 2)提取以加快处理
- 适当时使用
BiggestTissueBoxMask而非TissueMask - 调整
tissue_percent以减少无效图块尝试 - 初始探索时限制
n_tiles - 对非重叠网格使用
pixel_overlap=0
质量控制
- 验证图块质量(检查模糊、伪影、焦点)
- 为ScoreTiler审查评分分布
- 检查顶部和底部评分图块
- 监控组织覆盖率统计
- 如果需要,通过额外质量指标过滤提取的图块
常见用例
训练深度学习模型
- 使用RandomTiler在多个切片上提取平衡数据集
- 使用带NucleiScorer的ScoreTiler聚焦于细胞丰富区域
- 以一致分辨率提取(级别0或级别1)
- 生成CSV报告以跟踪图块元数据
全切片分析
- 使用GridTiler进行完整组织覆盖
- 在多个金字塔级别提取以进行分层分析
- 保持与网格位置的空间关系
- 使用
pixel_overlap进行滑动窗口方法
组织表征
- 使用RandomTiler采样多样化区域
- 使用掩模量化组织覆盖率
- 使用HED分解提取染色特定信息
- 比较切片间的组织模式
质量评估
- 使用ScoreTiler识别最佳焦点区域
- 使用自定义掩模和过滤器检测伪影
- 评估切片集合间的染色质量
- 标记问题切片以供手动审查
数据集策展
- 使用ScoreTiler优先处理信息丰富的图块
- 按组织百分比过滤图块
- 生成带图块评分和元数据的报告
- 创建跨切片和组织类型的分层数据集
故障排除
未提取任何图块
- 降低
tissue_percent阈值 - 验证切片包含组织(检查缩略图)
- 确保extraction_mask捕获组织区域
- 检查tile_size是否适合切片分辨率
许多背景图块
- 启用
check_tissue=True - 增加
tissue_percent阈值 - 使用适当掩模(TissueMask vs BiggestTissueBoxMask)
- 自定义掩模过滤器以更好检测组织
提取非常慢
- 在较低金字塔级别提取(level=1或2)
- 为RandomTiler/ScoreTiler减少
n_tiles - 使用RandomTiler而非GridTiler进行采样
- 使用BiggestTissueBoxMask而非TissueMask
图块有伪影
- 实现自定义注释排除掩模
- 调整过滤器参数以移除伪影
- 增加小物体移除阈值
- 应用提取后质量过滤
切片间结果不一致
- 对RandomTiler使用相同种子
- 使用预处理过滤器标准化染色
- 按染色质量调整
tissue_percent - 实施切片特定掩模自定义
资源
此技能包含 references/ 目录中的详细参考文档:
references/slide_management.md
加载、检查和操作全玻片图像的全面指南:
- 切片初始化和配置
- 内置样本数据集
- 切片属性和元数据
- 缩略图生成和可视化
- 处理金字塔级别
- 多切片处理工作流
- 最佳实践和常见模式
references/tissue_masks.md
组织检测和掩模的完整文档:
- TissueMask、BiggestTissueBoxMask、BinaryMask类
- 组织检测过滤器如何工作
- 自定义带过滤器链的掩模
- 可视化掩模
- 创建自定义矩形和注释排除掩模
- 与图块提取的集成
- 最佳实践和故障排除
references/tile_extraction.md
图块提取策略的详细解释:
- RandomTiler、GridTiler、ScoreTiler比较
- 可用评分器(NucleiScorer、CellularityScorer、自定义)
- 常见和策略特定参数
- 使用locate_tiles()预览图块
- 提取工作流和CSV报告
- 高级模式(多级别、分层)
- 性能优化
- 故障排除常见问题
references/filters_preprocessing.md
完整过滤器参考和预处理指南:
- 图像过滤器(颜色转换、阈值处理、对比度)
- 形态学过滤器(膨胀、侵蚀、开运算、闭运算)
- 过滤器组合和链接
- 常见预处理管道
- 将过滤器应用于图块
- 自定义掩模过滤器
- 质量控制过滤器
- 最佳实践和故障排除
references/visualization.md
全面可视化指南:
- 切片缩略图显示和保存
- 掩模可视化技术
- 图块位置预览
- 显示提取的图块和创建镶嵌图
- 质量评估可视化
- 多切片比较
- 过滤器效果可视化
- 导出高分辨率图表和PDF
- Jupyter笔记本中的交互式可视化
使用模式: 参考文件包含深入信息以支持此主技能文档中描述的工作流。根据详细实施指南、故障排除或高级功能的需要加载特定参考文件。