Pydicom医学影像处理库Skill pydicom

pydicom是一个Python库,专门用于处理DICOM格式的医学影像文件,支持读取、写入、修改、像素数据提取、元数据处理、文件匿名化、格式转换和压缩处理。适用于医学影像分析、PACS系统、放射学工作流程和医疗保健应用。关键词:医学影像、DICOM、Python、数据处理、图像分析、匿名化、PACS。

医学影像 0 次安装 0 次浏览 更新于 3/16/2026

name: pydicom description: 用于处理DICOM(医学数字成像和通信)文件的Python库。当需要读取、写入或修改DICOM格式的医学影像数据,从医学图像(CT、MRI、X射线、超声)中提取像素数据,匿名化DICOM文件,处理DICOM元数据和标签,将DICOM图像转换为其他格式,处理压缩的DICOM数据,或处理医学影像数据集时使用此技能。适用于涉及医学影像分析、PACS系统、放射学工作流程和医疗保健影像应用的任务。

Pydicom

概述

Pydicom 是一个纯Python包,用于处理DICOM文件,这是医学影像数据的标准格式。此技能提供了读取、写入和操作DICOM文件的指导,包括处理像素数据、元数据和各种压缩格式。

何时使用此技能

在以下情况下使用此技能:

  • 处理医学影像文件(CT、MRI、X射线、超声、PET等)
  • 需要提取或修改元数据的DICOM数据集
  • 从医学扫描中提取像素数据和图像处理
  • 为研究或数据共享匿名化DICOM文件
  • 将DICOM文件转换为标准图像格式
  • 需要解压缩的压缩DICOM数据
  • DICOM序列和结构化报告
  • 多切片体积重建
  • PACS(图像存档和通信系统)集成

安装

安装pydicom及常见依赖项:

pip install pydicom
pip install pillow  # 用于图像格式转换
pip install numpy   # 用于像素数组操作
pip install matplotlib  # 用于可视化

对于处理压缩的DICOM文件,可能需要额外的包:

pip install pylibjpeg pylibjpeg-libjpeg pylibjpeg-openjpeg  # JPEG压缩
pip install python-gdcm  # 替代压缩处理器

核心工作流程

读取DICOM文件

使用 pydicom.dcmread() 读取DICOM文件:

import pydicom

# 读取DICOM文件
ds = pydicom.dcmread('path/to/file.dcm')

# 访问元数据
print(f"患者姓名: {ds.PatientName}")
print(f"研究日期: {ds.StudyDate}")
print(f"模态: {ds.Modality}")

# 显示所有元素
print(ds)

关键点:

  • dcmread() 返回一个 Dataset 对象
  • 使用属性表示法(如 ds.PatientName)或标签表示法(如 ds[0x0010, 0x0010])访问数据元素
  • 使用 ds.file_meta 访问文件元数据,如传输语法UID
  • 使用 getattr(ds, 'AttributeName', default_value)hasattr(ds, 'AttributeName') 处理缺失属性

处理像素数据

从DICOM文件中提取和操作图像数据:

import pydicom
import numpy as np
import matplotlib.pyplot as plt

# 读取DICOM文件
ds = pydicom.dcmread('image.dcm')

# 获取像素数组(需要numpy)
pixel_array = ds.pixel_array

# 图像信息
print(f"形状: {pixel_array.shape}")
print(f"数据类型: {pixel_array.dtype}")
print(f"行数: {ds.Rows}, 列数: {ds.Columns}")

# 应用窗口化显示(CT/MRI)
if hasattr(ds, 'WindowCenter') and hasattr(ds, 'WindowWidth'):
    from pydicom.pixel_data_handlers.util import apply_voi_lut
    windowed_image = apply_voi_lut(pixel_array, ds)
else:
    windowed_image = pixel_array

# 显示图像
plt.imshow(windowed_image, cmap='gray')
plt.title(f"{ds.Modality} - {ds.StudyDescription}")
plt.axis('off')
plt.show()

处理彩色图像:

# RGB图像的形状为(行数, 列数, 3)
if ds.PhotometricInterpretation == 'RGB':
    rgb_image = ds.pixel_array
    plt.imshow(rgb_image)
elif ds.PhotometricInterpretation == 'YBR_FULL':
    from pydicom.pixel_data_handlers.util import convert_color_space
    rgb_image = convert_color_space(ds.pixel_array, 'YBR_FULL', 'RGB')
    plt.imshow(rgb_image)

多帧图像(视频/系列):

# 对于多帧DICOM文件
if hasattr(ds, 'NumberOfFrames') and ds.NumberOfFrames > 1:
    frames = ds.pixel_array  # 形状: (帧数, 行数, 列数)
    print(f"帧数: {frames.shape[0]}")

    # 显示特定帧
    plt.imshow(frames[0], cmap='gray')

将DICOM转换为图像格式

使用提供的 dicom_to_image.py 脚本或手动转换:

from PIL import Image
import pydicom
import numpy as np

ds = pydicom.dcmread('input.dcm')
pixel_array = ds.pixel_array

# 归一化到0-255范围
if pixel_array.dtype != np.uint8:
    pixel_array = ((pixel_array - pixel_array.min()) /
                   (pixel_array.max() - pixel_array.min()) * 255).astype(np.uint8)

# 保存为PNG
image = Image.fromarray(pixel_array)
image.save('output.png')

使用脚本:python scripts/dicom_to_image.py input.dcm output.png

修改元数据

修改DICOM数据元素:

import pydicom
from datetime import datetime

ds = pydicom.dcmread('input.dcm')

# 修改现有元素
ds.PatientName = "Doe^John"
ds.StudyDate = datetime.now().strftime('%Y%m%d')
ds.StudyDescription = "修改后的研究"

# 添加新元素
ds.SeriesNumber = 1
ds.SeriesDescription = "新系列"

# 删除元素
if hasattr(ds, 'PatientComments'):
    delattr(ds, 'PatientComments')
# 或使用del
if 'PatientComments' in ds:
    del ds.PatientComments

# 保存修改后的文件
ds.save_as('modified.dcm')

匿名化DICOM文件

移除或替换患者可识别信息:

import pydicom
from datetime import datetime

ds = pydicom.dcmread('input.dcm')

# 通常包含PHI(受保护健康信息)的标签
tags_to_anonymize = [
    'PatientName', 'PatientID', 'PatientBirthDate',
    'PatientSex', 'PatientAge', 'PatientAddress',
    'InstitutionName', 'InstitutionAddress',
    'ReferringPhysicianName', 'PerformingPhysicianName',
    'OperatorsName', 'StudyDescription', 'SeriesDescription',
]

# 移除或替换敏感数据
for tag in tags_to_anonymize:
    if hasattr(ds, tag):
        if tag in ['PatientName', 'PatientID']:
            setattr(ds, tag, 'ANONYMOUS')
        elif tag == 'PatientBirthDate':
            setattr(ds, tag, '19000101')
        else:
            delattr(ds, tag)

# 更新日期以保持时间关系
if hasattr(ds, 'StudyDate'):
    # 通过随机偏移调整日期
    ds.StudyDate = '20000101'

# 保持像素数据完整
ds.save_as('anonymized.dcm')

使用提供的脚本:python scripts/anonymize_dicom.py input.dcm output.dcm

写入DICOM文件

从头创建DICOM文件:

import pydicom
from pydicom.dataset import Dataset, FileDataset
from datetime import datetime
import numpy as np

# 创建文件元信息
file_meta = Dataset()
file_meta.MediaStorageSOPClassUID = pydicom.uid.generate_uid()
file_meta.MediaStorageSOPInstanceUID = pydicom.uid.generate_uid()
file_meta.TransferSyntaxUID = pydicom.uid.ExplicitVRLittleEndian

# 创建FileDataset实例
ds = FileDataset('new_dicom.dcm', {}, file_meta=file_meta, preamble=b"\0" * 128)

# 添加必需的DICOM元素
ds.PatientName = "Test^Patient"
ds.PatientID = "123456"
ds.Modality = "CT"
ds.StudyDate = datetime.now().strftime('%Y%m%d')
ds.StudyTime = datetime.now().strftime('%H%M%S')
ds.ContentDate = ds.StudyDate
ds.ContentTime = ds.StudyTime

# 添加图像特定元素
ds.SamplesPerPixel = 1
ds.PhotometricInterpretation = "MONOCHROME2"
ds.Rows = 512
ds.Columns = 512
ds.BitsAllocated = 16
ds.BitsStored = 16
ds.HighBit = 15
ds.PixelRepresentation = 0

# 创建像素数据
pixel_array = np.random.randint(0, 4096, (512, 512), dtype=np.uint16)
ds.PixelData = pixel_array.tobytes()

# 添加必需的UID
ds.SOPClassUID = pydicom.uid.CTImageStorage
ds.SOPInstanceUID = file_meta.MediaStorageSOPInstanceUID
ds.SeriesInstanceUID = pydicom.uid.generate_uid()
ds.StudyInstanceUID = pydicom.uid.generate_uid()

# 保存文件
ds.save_as('new_dicom.dcm')

压缩和解压缩

处理压缩的DICOM文件:

import pydicom

# 读取压缩的DICOM文件
ds = pydicom.dcmread('compressed.dcm')

# 检查传输语法
print(f"传输语法: {ds.file_meta.TransferSyntaxUID}")
print(f"传输语法名称: {ds.file_meta.TransferSyntaxUID.name}")

# 解压缩并保存为未压缩
ds.decompress()
ds.save_as('uncompressed.dcm', write_like_original=False)

# 或在保存时压缩(需要适当的编码器)
ds_uncompressed = pydicom.dcmread('uncompressed.dcm')
ds_uncompressed.compress(pydicom.uid.JPEGBaseline8Bit)
ds_uncompressed.save_as('compressed_jpeg.dcm')

常见传输语法:

  • ExplicitVRLittleEndian - 未压缩,最常见
  • JPEGBaseline8Bit - JPEG有损压缩
  • JPEGLossless - JPEG无损压缩
  • JPEG2000Lossless - JPEG 2000无损
  • RLELossless - 游程编码无损

完整列表见 references/transfer_syntaxes.md

处理DICOM序列

处理嵌套数据结构:

import pydicom

ds = pydicom.dcmread('file.dcm')

# 访问序列
if 'ReferencedStudySequence' in ds:
    for item in ds.ReferencedStudySequence:
        print(f"引用的SOP实例UID: {item.ReferencedSOPInstanceUID}")

# 创建序列
from pydicom.sequence import Sequence

sequence_item = Dataset()
sequence_item.ReferencedSOPClassUID = pydicom.uid.CTImageStorage
sequence_item.ReferencedSOPInstanceUID = pydicom.uid.generate_uid()

ds.ReferencedImageSequence = Sequence([sequence_item])

处理DICOM系列

处理多个相关的DICOM文件:

import pydicom
import numpy as np
from pathlib import Path

# 读取目录中的所有DICOM文件
dicom_dir = Path('dicom_series/')
slices = []

for file_path in dicom_dir.glob('*.dcm'):
    ds = pydicom.dcmread(file_path)
    slices.append(ds)

# 按切片位置或实例号排序
slices.sort(key=lambda x: float(x.ImagePositionPatient[2]))
# 或: slices.sort(key=lambda x: int(x.InstanceNumber))

# 创建3D体积
volume = np.stack([s.pixel_array for s in slices])
print(f"体积形状: {volume.shape}")  # (切片数, 行数, 列数)

# 获取间距信息以正确缩放
pixel_spacing = slices[0].PixelSpacing  # [行间距, 列间距]
slice_thickness = slices[0].SliceThickness
print(f"体素大小: {pixel_spacing[0]}x{pixel_spacing[1]}x{slice_thickness} mm")

辅助脚本

此技能包含 scripts/ 目录中的实用脚本:

anonymize_dicom.py

通过移除或替换受保护健康信息(PHI)匿名化DICOM文件。

python scripts/anonymize_dicom.py input.dcm output.dcm

dicom_to_image.py

将DICOM文件转换为常见图像格式(PNG、JPEG、TIFF)。

python scripts/dicom_to_image.py input.dcm output.png
python scripts/dicom_to_image.py input.dcm output.jpg --format JPEG

extract_metadata.py

以可读格式提取和显示DICOM元数据。

python scripts/extract_metadata.py file.dcm
python scripts/extract_metadata.py file.dcm --output metadata.txt

参考资料

详细参考资料可在 references/ 目录中找到:

  • common_tags.md:按类别(患者、研究、系列、图像等)组织的常用DICOM标签完整列表。
  • transfer_syntaxes.md:DICOM传输语法和压缩格式的完整参考。

常见问题及解决方案

问题: “无法解码像素数据”

  • 解决方案:安装额外的压缩处理器:pip install pylibjpeg pylibjpeg-libjpeg python-gdcm

问题: 访问标签时“AttributeError”

  • 解决方案:使用 hasattr(ds, 'AttributeName') 检查属性是否存在,或使用 ds.get('AttributeName', default)

问题: 图像显示不正确(太暗/太亮)

  • 解决方案:应用VOI LUT窗口化:apply_voi_lut(pixel_array, ds) 或使用 WindowCenterWindowWidth 手动调整

问题: 大系列文件内存问题

  • 解决方案:迭代处理文件,使用内存映射数组,或下采样图像

最佳实践

  1. 始终在使用前检查必需属性 使用 hasattr()get()
  2. 修改文件时保留文件元数据 使用 save_as() 并设置 write_like_original=True
  3. 使用传输语法UID 在处理像素数据前了解压缩格式
  4. 处理来自不可信源的异常 读取文件时
  5. 应用适当的窗口化(VOI LUT)用于医学影像可视化
  6. 处理3D体积时维护空间信息(像素间距、切片厚度)
  7. 共享医学数据前彻底验证匿名化
  8. 正确使用UID - 创建新实例时生成新UID,修改时保留

文档

官方pydicom文档:https://pydicom.github.io/pydicom/dev/