数字病理图像处理工具包Skill histolab

Histolab 是一个Python库,专门用于处理数字病理中的全玻片图像(WSI)。它自动化组织检测,从高分辨率图像中提取信息块,并为深度学习管道准备数据集。支持多种图像格式,实现组织分割和灵活的提取策略。关键词:数字病理、图像处理、WSI、组织检测、图块提取、深度学习、计算机视觉、医学影像。

计算机视觉 0 次安装 0 次浏览 更新于 3/16/2026

name: histolab description: 数字病理图像处理工具包,用于全玻片图像(WSI)。当处理组织病理学切片、处理H&E或IHC染色组织图像、从千兆像素病理图像中提取图块、检测组织区域、分割组织掩模,或为计算病理学深度学习管道准备数据集时使用此技能。适用于WSI格式(SVS、TIFF、NDPI)、基于图块的分析和组织学图像预处理工作流。

Histolab

概述

Histolab 是一个用于处理数字病理中全玻片图像(WSI)的Python库。它自动化组织检测,从千兆像素图像中提取信息图块,并为深度学习管道准备数据集。该库支持多种WSI格式,实现复杂的组织分割,并提供灵活的图块提取策略。

安装

使用pip或conda安装histolab:

pip install histolab

# 或通过conda
conda install -c conda-forge histolab

快速开始

从全玻片图像中提取图块的基本工作流:

from histolab.slide import Slide
from histolab.tiler import RandomTiler

# 加载切片
slide = Slide("slide.svs", processed_path="output/")

# 配置图块提取器
tiler = RandomTiler(
    tile_size=(512, 512),
    n_tiles=100,
    level=0,
    seed=42
)

# 预览图块位置
tiler.locate_tiles(slide, n_tiles=20)

# 提取图块
tiler.extract(slide)

核心能力

1. 切片管理

加载、检查和处理各种格式的全玻片图像。

常见操作:

  • 加载WSI文件(SVS、TIFF、NDPI等)
  • 访问切片元数据(维度、放大倍数、属性)
  • 生成缩略图用于可视化
  • 处理金字塔图像结构
  • 提取特定坐标的区域

关键类: Slide

参考: references/slide_management.md 包含全面文档:

  • 切片初始化和配置
  • 内置样本数据集(前列腺、卵巢、乳腺、心脏、肾脏组织)
  • 访问切片属性和元数据
  • 缩略图生成和可视化
  • 处理金字塔级别
  • 多切片处理工作流

示例工作流:

from histolab.slide import Slide
from histolab.data import prostate_tissue

# 加载样本数据
prostate_svs, prostate_path = prostate_tissue()

# 初始化切片
slide = Slide(prostate_path, processed_path="output/")

# 检查属性
print(f"维度: {slide.dimensions}")
print(f"级别: {slide.levels}")
print(f"放大倍数: {slide.properties.get('openslide.objective-power')}")

# 保存缩略图
slide.save_thumbnail()

2. 组织检测和掩模

自动识别组织区域并过滤背景/伪影。

常见操作:

  • 创建二值组织掩模
  • 检测最大组织区域
  • 排除背景和伪影
  • 自定义组织分割
  • 移除笔注释

关键类: TissueMask, BiggestTissueBoxMask, BinaryMask

参考: references/tissue_masks.md 包含全面文档:

  • TissueMask:使用自动过滤器分割所有组织区域
  • BiggestTissueBoxMask:返回最大组织区域的边界框(默认)
  • BinaryMask:自定义掩模实现的基类
  • 使用 locate_mask() 可视化掩模
  • 创建自定义矩形和注释排除掩模
  • 掩模与图块提取的集成
  • 最佳实践和故障排除

示例工作流:

from histolab.masks import TissueMask, BiggestTissueBoxMask

# 为所有组织区域创建组织掩模
tissue_mask = TissueMask()

# 在切片上可视化掩模
slide.locate_mask(tissue_mask)

# 获取掩模数组
mask_array = tissue_mask(slide)

# 使用最大组织区域(大多数提取器的默认)
biggest_mask = BiggestTissueBoxMask()

何时使用每个掩模:

  • TissueMask:多个组织部分,全面分析
  • BiggestTissueBoxMask:单个主要组织部分,排除伪影(默认)
  • 自定义 BinaryMask:特定ROI,排除注释,自定义分割

3. 图块提取

使用不同策略从大型WSI中提取较小区域。

三种提取策略:

RandomTiler: 提取固定数量的随机位置图块

  • 最佳用于:采样多样化区域,探索性分析,训练数据
  • 关键参数:n_tiles, seed 用于可重复性

GridTiler: 以网格模式系统地在组织上提取图块

  • 最佳用于:完整覆盖,空间分析,重建
  • 关键参数:pixel_overlap 用于滑动窗口

ScoreTiler: 基于评分函数提取排名最高的图块

  • 最佳用于:最信息丰富的区域,质量驱动选择
  • 关键参数:scorer(NucleiScorer, CellularityScorer, 自定义)

常见参数:

  • tile_size:图块维度(例如,(512, 512))
  • level:提取的金字塔级别(0 = 最高分辨率)
  • check_tissue:按组织内容过滤图块
  • tissue_percent:最小组织覆盖率(默认80%)
  • extraction_mask:定义提取区域的掩模

参考: references/tile_extraction.md 包含全面文档:

  • 每种提取器策略的详细解释
  • 可用评分器(NucleiScorer, CellularityScorer, 自定义)
  • 使用 locate_tiles() 预览图块
  • 提取工作流和报告
  • 高级模式(多级别、分层提取)
  • 性能优化和故障排除

示例工作流:

from histolab.tiler import RandomTiler, GridTiler, ScoreTiler
from histolab.scorer import NucleiScorer

# 随机采样(快速、多样化)
random_tiler = RandomTiler(
    tile_size=(512, 512),
    n_tiles=100,
    level=0,
    seed=42,
    check_tissue=True,
    tissue_percent=80.0
)
random_tiler.extract(slide)

# 网格覆盖(全面)
grid_tiler = GridTiler(
    tile_size=(512, 512),
    level=0,
    pixel_overlap=0,
    check_tissue=True
)
grid_tiler.extract(slide)

# 基于评分的选择(最信息丰富)
score_tiler = ScoreTiler(
    tile_size=(512, 512),
    n_tiles=50,
    scorer=NucleiScorer(),
    level=0
)
score_tiler.extract(slide, report_path="tiles_report.csv")

提取前始终预览:

# 在缩略图上预览图块位置
tiler.locate_tiles(slide, n_tiles=20)

4. 过滤器和预处理

应用图像处理过滤器用于组织检测、质量控制和预处理。

过滤器类别:

图像过滤器: 颜色空间转换、阈值处理、对比度增强

  • RgbToGrayscale, RgbToHsv, RgbToHed
  • OtsuThreshold, AdaptiveThreshold
  • StretchContrast, HistogramEqualization

形态学过滤器: 对二值图像的结构操作

  • BinaryDilation, BinaryErosion
  • BinaryOpening, BinaryClosing
  • RemoveSmallObjects, RemoveSmallHoles

组合: 将多个过滤器链接在一起

  • Compose:创建过滤器管道

参考: references/filters_preprocessing.md 包含全面文档:

  • 每种过滤器类型的详细解释
  • 过滤器组合和链接
  • 常见预处理管道(组织检测、笔移除、核增强)
  • 将过滤器应用于图块
  • 自定义掩模过滤器
  • 质量控制过滤器(模糊检测、组织覆盖率)
  • 最佳实践和故障排除

示例工作流:

from histolab.filters.compositions import Compose
from histolab.filters.image_filters import RgbToGrayscale, OtsuThreshold
from histolab.filters.morphological_filters import (
    BinaryDilation, RemoveSmallHoles, RemoveSmallObjects
)

# 标准组织检测管道
tissue_detection = Compose([
    RgbToGrayscale(),
    OtsuThreshold(),
    BinaryDilation(disk_size=5),
    RemoveSmallHoles(area_threshold=1000),
    RemoveSmallObjects(area_threshold=500)
])

# 与自定义掩模使用
from histolab.masks import TissueMask
custom_mask = TissueMask(filters=tissue_detection)

# 将过滤器应用于图块
from histolab.tile import Tile
filtered_tile = tile.apply_filters(tissue_detection)

5. 可视化

可视化切片、掩模、图块位置和提取质量。

常见可视化任务:

  • 显示切片缩略图
  • 可视化组织掩模
  • 预览图块位置
  • 评估图块质量
  • 创建报告和图表

参考: references/visualization.md 包含全面文档:

  • 切片缩略图显示和保存
  • 使用 locate_mask() 可视化掩模
  • 使用 locate_tiles() 预览图块位置
  • 显示提取的图块和镶嵌图
  • 质量评估(评分分布、顶部与底部图块)
  • 多切片可视化
  • 过滤器效果可视化
  • 导出高分辨率图表和PDF报告
  • Jupyter笔记本中的交互式可视化

示例工作流:

import matplotlib.pyplot as plt
from histolab.masks import TissueMask

# 显示切片缩略图
plt.figure(figsize=(10, 10))
plt.imshow(slide.thumbnail)
plt.title(f"切片: {slide.name}")
plt.axis('off')
plt.show()

# 可视化组织掩模
tissue_mask = TissueMask()
slide.locate_mask(tissue_mask)

# 预览图块位置
tiler = RandomTiler(tile_size=(512, 512), n_tiles=50)
tiler.locate_tiles(slide, n_tiles=20)

# 在网格中显示提取的图块
from pathlib import Path
from PIL import Image

tile_paths = list(Path("output/tiles/").glob("*.png"))[:16]
fig, axes = plt.subplots(4, 4, figsize=(12, 12))
axes = axes.ravel()

for idx, tile_path in enumerate(tile_paths):
    tile_img = Image.open(tile_path)
    axes[idx].imshow(tile_img)
    axes[idx].set_title(tile_path.stem, fontsize=8)
    axes[idx].axis('off')

plt.tight_layout()
plt.show()

典型工作流

工作流 1:探索性图块提取

快速采样多样化组织区域用于初步分析。

from histolab.slide import Slide
from histolab.tiler import RandomTiler
import logging

# 启用日志记录以跟踪进度
logging.basicConfig(level=logging.INFO)

# 加载切片
slide = Slide("slide.svs", processed_path="output/random_tiles/")

# 检查切片
print(f"维度: {slide.dimensions}")
print(f"级别: {slide.levels}")
slide.save_thumbnail()

# 配置随机图块提取器
random_tiler = RandomTiler(
    tile_size=(512, 512),
    n_tiles=100,
    level=0,
    seed=42,
    check_tissue=True,
    tissue_percent=80.0
)

# 预览位置
random_tiler.locate_tiles(slide, n_tiles=20)

# 提取图块
random_tiler.extract(slide)

工作流 2:全面网格提取

完整组织覆盖用于全切片分析。

from histolab.slide import Slide
from histolab.tiler import GridTiler
from histolab.masks import TissueMask

# 加载切片
slide = Slide("slide.svs", processed_path="output/grid_tiles/")

# 为所有组织部分使用TissueMask
tissue_mask = TissueMask()
slide.locate_mask(tissue_mask)

# 配置网格图块提取器
grid_tiler = GridTiler(
    tile_size=(512, 512),
    level=1,  # 使用级别1以加快提取
    pixel_overlap=0,
    check_tissue=True,
    tissue_percent=70.0
)

# 预览网格
grid_tiler.locate_tiles(slide)

# 提取所有图块
grid_tiler.extract(slide, extraction_mask=tissue_mask)

工作流 3:质量驱动图块选择

基于核密度提取最信息丰富的图块。

from histolab.slide import Slide
from histolab.tiler import ScoreTiler
from histolab.scorer import NucleiScorer
import pandas as pd
import matplotlib.pyplot as plt

# 加载切片
slide = Slide("slide.svs", processed_path="output/scored_tiles/")

# 配置评分图块提取器
score_tiler = ScoreTiler(
    tile_size=(512, 512),
    n_tiles=50,
    level=0,
    scorer=NucleiScorer(),
    check_tissue=True
)

# 预览顶部图块
score_tiler.locate_tiles(slide, n_tiles=15)

# 提取并生成报告
score_tiler.extract(slide, report_path="tiles_report.csv")

# 分析评分
report_df = pd.read_csv("tiles_report.csv")
plt.hist(report_df['score'], bins=20, edgecolor='black')
plt.xlabel('图块评分')
plt.ylabel('频率')
plt.title('图块评分分布')
plt.show()

工作流 4:多切片处理管道

以一致参数处理整个切片集合。

from pathlib import Path
from histolab.slide import Slide
from histolab.tiler import RandomTiler
import logging

logging.basicConfig(level=logging.INFO)

# 一次性配置图块提取器
tiler = RandomTiler(
    tile_size=(512, 512),
    n_tiles=50,
    level=0,
    seed=42,
    check_tissue=True
)

# 处理所有切片
slide_dir = Path("slides/")
output_base = Path("output/")

for slide_path in slide_dir.glob("*.svs"):
    print(f"
处理中: {slide_path.name}")

    # 创建切片特定输出目录
    output_dir = output_base / slide_path.stem
    output_dir.mkdir(parents=True, exist_ok=True)

    # 加载和处理切片
    slide = Slide(slide_path, processed_path=output_dir)

    # 保存缩略图以供审查
    slide.save_thumbnail()

    # 提取图块
    tiler.extract(slide)

    print(f"完成: {slide_path.name}")

工作流 5:自定义组织检测和过滤

处理带有伪影、注释或不寻常染色的切片。

from histolab.slide import Slide
from histolab.masks import TissueMask
from histolab.tiler import RandomTiler
from histolab.filters.compositions import Compose
from histolab.filters.image_filters import RgbToGrayscale, OtsuThreshold
from histolab.filters.morphological_filters import (
    BinaryDilation, RemoveSmallObjects, RemoveSmallHoles
)

# 定义用于积极伪影移除的自定义过滤器管道
aggressive_filters = Compose([
    RgbToGrayscale(),
    OtsuThreshold(),
    BinaryDilation(disk_size=10),
    RemoveSmallHoles(area_threshold=5000),
    RemoveSmallObjects(area_threshold=3000)  # 移除较大伪影
])

# 创建自定义掩模
custom_mask = TissueMask(filters=aggressive_filters)

# 加载切片并可视化掩模
slide = Slide("slide.svs", processed_path="output/")
slide.locate_mask(custom_mask)

# 使用自定义掩模提取
tiler = RandomTiler(tile_size=(512, 512), n_tiles=100)
tiler.extract(slide, extraction_mask=custom_mask)

最佳实践

切片加载和检查

  1. 在处理前始终检查切片属性
  2. 保存缩略图以供快速视觉审查
  3. 检查金字塔级别和维度
  4. 使用缩略图验证组织存在

组织检测

  1. 在提取前使用 locate_mask() 预览掩模
  2. 对多个部分使用 TissueMask,对单个部分使用 BiggestTissueBoxMask
  3. 为特定染色(H&E vs IHC)自定义过滤器
  4. 使用自定义掩模处理笔注释
  5. 在多样化切片上测试掩模

图块提取

  1. 在提取前始终使用 locate_tiles() 预览
  2. 选择合适的图块提取器:
    • RandomTiler:采样和探索
    • GridTiler:完整覆盖
    • ScoreTiler:质量驱动选择
  3. 设置适当的 tissue_percent 阈值(典型70-90%)
  4. 在RandomTiler中使用种子以确保可重复性
  5. 在分析分辨率下提取适当的金字塔级别
  6. 为大数据集启用日志记录

性能

  1. 在较低级别(1, 2)提取以加快处理
  2. 适当时使用 BiggestTissueBoxMask 而非 TissueMask
  3. 调整 tissue_percent 以减少无效图块尝试
  4. 初始探索时限制 n_tiles
  5. 对非重叠网格使用 pixel_overlap=0

质量控制

  1. 验证图块质量(检查模糊、伪影、焦点)
  2. 为ScoreTiler审查评分分布
  3. 检查顶部和底部评分图块
  4. 监控组织覆盖率统计
  5. 如果需要,通过额外质量指标过滤提取的图块

常见用例

训练深度学习模型

  • 使用RandomTiler在多个切片上提取平衡数据集
  • 使用带NucleiScorer的ScoreTiler聚焦于细胞丰富区域
  • 以一致分辨率提取(级别0或级别1)
  • 生成CSV报告以跟踪图块元数据

全切片分析

  • 使用GridTiler进行完整组织覆盖
  • 在多个金字塔级别提取以进行分层分析
  • 保持与网格位置的空间关系
  • 使用 pixel_overlap 进行滑动窗口方法

组织表征

  • 使用RandomTiler采样多样化区域
  • 使用掩模量化组织覆盖率
  • 使用HED分解提取染色特定信息
  • 比较切片间的组织模式

质量评估

  • 使用ScoreTiler识别最佳焦点区域
  • 使用自定义掩模和过滤器检测伪影
  • 评估切片集合间的染色质量
  • 标记问题切片以供手动审查

数据集策展

  • 使用ScoreTiler优先处理信息丰富的图块
  • 按组织百分比过滤图块
  • 生成带图块评分和元数据的报告
  • 创建跨切片和组织类型的分层数据集

故障排除

未提取任何图块

  • 降低 tissue_percent 阈值
  • 验证切片包含组织(检查缩略图)
  • 确保extraction_mask捕获组织区域
  • 检查tile_size是否适合切片分辨率

许多背景图块

  • 启用 check_tissue=True
  • 增加 tissue_percent 阈值
  • 使用适当掩模(TissueMask vs BiggestTissueBoxMask)
  • 自定义掩模过滤器以更好检测组织

提取非常慢

  • 在较低金字塔级别提取(level=1或2)
  • 为RandomTiler/ScoreTiler减少 n_tiles
  • 使用RandomTiler而非GridTiler进行采样
  • 使用BiggestTissueBoxMask而非TissueMask

图块有伪影

  • 实现自定义注释排除掩模
  • 调整过滤器参数以移除伪影
  • 增加小物体移除阈值
  • 应用提取后质量过滤

切片间结果不一致

  • 对RandomTiler使用相同种子
  • 使用预处理过滤器标准化染色
  • 按染色质量调整 tissue_percent
  • 实施切片特定掩模自定义

资源

此技能包含 references/ 目录中的详细参考文档:

references/slide_management.md

加载、检查和操作全玻片图像的全面指南:

  • 切片初始化和配置
  • 内置样本数据集
  • 切片属性和元数据
  • 缩略图生成和可视化
  • 处理金字塔级别
  • 多切片处理工作流
  • 最佳实践和常见模式

references/tissue_masks.md

组织检测和掩模的完整文档:

  • TissueMask、BiggestTissueBoxMask、BinaryMask类
  • 组织检测过滤器如何工作
  • 自定义带过滤器链的掩模
  • 可视化掩模
  • 创建自定义矩形和注释排除掩模
  • 与图块提取的集成
  • 最佳实践和故障排除

references/tile_extraction.md

图块提取策略的详细解释:

  • RandomTiler、GridTiler、ScoreTiler比较
  • 可用评分器(NucleiScorer、CellularityScorer、自定义)
  • 常见和策略特定参数
  • 使用locate_tiles()预览图块
  • 提取工作流和CSV报告
  • 高级模式(多级别、分层)
  • 性能优化
  • 故障排除常见问题

references/filters_preprocessing.md

完整过滤器参考和预处理指南:

  • 图像过滤器(颜色转换、阈值处理、对比度)
  • 形态学过滤器(膨胀、侵蚀、开运算、闭运算)
  • 过滤器组合和链接
  • 常见预处理管道
  • 将过滤器应用于图块
  • 自定义掩模过滤器
  • 质量控制过滤器
  • 最佳实践和故障排除

references/visualization.md

全面可视化指南:

  • 切片缩略图显示和保存
  • 掩模可视化技术
  • 图块位置预览
  • 显示提取的图块和创建镶嵌图
  • 质量评估可视化
  • 多切片比较
  • 过滤器效果可视化
  • 导出高分辨率图表和PDF
  • Jupyter笔记本中的交互式可视化

使用模式: 参考文件包含深入信息以支持此主技能文档中描述的工作流。根据详细实施指南、故障排除或高级功能的需要加载特定参考文件。