Seaborn统计可视化Skill seaborn

Seaborn 是一个用于创建高质量统计图形的 Python 数据可视化库,支持散点图、箱线图、热力图等多种图表类型,适用于数据探索、分析和出版物制作。关键词:Python 可视化、统计图形、数据分析、数据探索、Seaborn 库、数据可视化工具。

数据可视化 0 次安装 0 次浏览 更新于 3/16/2026

name: seaborn description: “统计可视化。散点图、箱线图、小提琴图、热力图、配对图、回归图、相关矩阵、KDE、分面图,用于探索性分析和出版物图表。”

Seaborn 统计可视化

概述

Seaborn 是一个用于创建出版质量统计图形的 Python 可视化库。使用此技能进行数据集导向的绘图、多变量分析、自动统计估计,以及用最少代码创建复杂多面板图。

设计理念

Seaborn 遵循以下核心原则:

  1. 数据集导向:直接使用 DataFrame 和命名变量,而非抽象坐标
  2. 语义映射:自动将数据值转换为视觉属性(颜色、大小、样式)
  3. 统计意识:内置聚合、误差估计和置信区间
  4. 美学默认值:开箱即用的出版就绪主题和调色板
  5. Matplotlib 集成:需要时与 matplotlib 自定义完全兼容

快速开始

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 加载示例数据集
df = sns.load_dataset('tips')

# 创建简单可视化
sns.scatterplot(data=df, x='total_bill', y='tip', hue='day')
plt.show()

核心绘图接口

函数接口(传统)

函数接口提供按可视化类型组织的专门绘图函数。每个类别有 轴级 函数(绘制到单个轴)和 图级 函数(管理整个图并支持分面)。

何时使用:

  • 快速探索性分析
  • 单一目的的可视化
  • 需要特定绘图类型时

对象接口(现代)

seaborn.objects 接口提供类似 ggplot2 的声明式、可组合 API。通过链式方法指定数据映射、标记、变换和比例来构建可视化。

何时使用:

  • 复杂分层可视化
  • 需要精细控制变换时
  • 构建自定义绘图类型
  • 程序化绘图生成
from seaborn import objects as so

# 声明式语法
(
    so.Plot(data=df, x='total_bill', y='tip')
    .add(so.Dot(), color='day')
    .add(so.Line(), so.PolyFit())
)

按类别绘图函数

关系图(变量间关系)

用于: 探索两个或更多变量如何相关

  • scatterplot() - 将个体观测显示为点
  • lineplot() - 显示趋势和变化(自动聚合和计算 CI)
  • relplot() - 图级接口,支持自动分面

关键参数:

  • x, y - 主要变量
  • hue - 附加类别或连续变量的颜色编码
  • size - 点或线的大小编码
  • style - 标记或线样式编码
  • col, row - 分面到多个子图(仅图级)
# 散点图,多语义映射
sns.scatterplot(data=df, x='total_bill', y='tip',
                hue='time', size='size', style='sex')

# 线图,带置信区间
sns.lineplot(data=timeseries, x='date', y='value', hue='category')

# 分面关系图
sns.relplot(data=df, x='total_bill', y='tip',
            col='time', row='sex', hue='smoker', kind='scatter')

分布图(单变量和双变量分布)

用于: 理解数据分布、形状和概率密度

  • histplot() - 基于条形的频率分布,灵活分箱
  • kdeplot() - 使用高斯核的平滑密度估计
  • ecdfplot() - 经验累积分布(无需调整参数)
  • rugplot() - 个体观测刻度标记
  • displot() - 图级接口,用于单变量和双变量分布
  • jointplot() - 带边缘分布的双变量图
  • pairplot() - 数据集内成对关系矩阵

关键参数:

  • x, y - 变量(y 可选,用于单变量)
  • hue - 按类别分离分布
  • stat - 归一化:“count”、“frequency”、“probability”、“density”
  • bins / binwidth - 直方图分箱控制
  • bw_adjust - KDE 带宽乘数(值越高越平滑)
  • fill - 填充曲线下区域
  • multiple - 处理 hue 的方式:“layer”、“stack”、“dodge”、“fill”
# 直方图,带密度归一化
sns.histplot(data=df, x='total_bill', hue='time',
             stat='density', multiple='stack')

# 双变量 KDE,带等高线
sns.kdeplot(data=df, x='total_bill', y='tip',
            fill=True, levels=5, thresh=0.1)

# 联合图,带边缘分布
sns.jointplot(data=df, x='total_bill', y='tip',
              kind='scatter', hue='time')

# 成对关系
sns.pairplot(data=df, hue='species', corner=True)

类别图(类别间比较)

用于: 比较离散类别间的分布或统计

类别散点图:

  • stripplot() - 点带抖动,显示所有观测
  • swarmplot() - 非重叠点(蜂群算法)

分布比较:

  • boxplot() - 四分位数和异常值
  • violinplot() - KDE 加四分位数信息
  • boxenplot() - 增强箱线图,适用于大型数据集

统计估计:

  • barplot() - 均值/聚合,带置信区间
  • pointplot() - 点估计,带连接线
  • countplot() - 每个类别的观测计数

图级:

  • catplot() - 分面类别图(设置 kind 参数)

关键参数:

  • x, y - 变量(通常一个是类别)
  • hue - 附加类别分组
  • order, hue_order - 控制类别顺序
  • dodge - 分离 hue 级别,并排显示
  • orient - “v”(垂直)或 “h”(水平)
  • kind - catplot 的绘图类型:“strip”、“swarm”、“box”、“violin”、“bar”、“point”
# 蜂群图,显示所有点
sns.swarmplot(data=df, x='day', y='total_bill', hue='sex')

# 小提琴图,带分裂以比较
sns.violinplot(data=df, x='day', y='total_bill',
               hue='sex', split=True)

# 条形图,带误差条
sns.barplot(data=df, x='day', y='total_bill',
            hue='sex', estimator='mean', errorbar='ci')

# 分面类别图
sns.catplot(data=df, x='day', y='total_bill',
            col='time', kind='box')

回归图(线性关系)

用于: 可视化线性回归和残差

  • regplot() - 轴级回归图,带散点 + 拟合线
  • lmplot() - 图级,支持分面
  • residplot() - 残差图,用于评估模型拟合

关键参数:

  • x, y - 要回归的变量
  • order - 多项式回归阶数
  • logistic - 拟合逻辑回归
  • robust - 使用稳健回归(对异常值不敏感)
  • ci - 置信区间宽度(默认 95)
  • scatter_kws, line_kws - 自定义散点和线属性
# 简单线性回归
sns.regplot(data=df, x='total_bill', y='tip')

# 多项式回归,带分面
sns.lmplot(data=df, x='total_bill', y='tip',
           col='time', order=2, ci=95)

# 检查残差
sns.residplot(data=df, x='total_bill', y='tip')

矩阵图(矩形数据)

用于: 可视化矩阵、相关性和网格结构数据

  • heatmap() - 颜色编码的矩阵,带注释
  • clustermap() - 层次聚类热图

关键参数:

  • data - 2D 矩形数据集(DataFrame 或数组)
  • annot - 在单元格中显示值
  • fmt - 注释格式字符串(例如,“.2f”)
  • cmap - 颜色映射名称
  • center - 颜色映射中心的值(用于发散颜色映射)
  • vmin, vmax - 颜色比例限制
  • square - 强制方形单元格
  • linewidths - 单元格间间隙
# 相关性热图
corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.2f',
            cmap='coolwarm', center=0, square=True)

# 聚类热图
sns.clustermap(data, cmap='viridis',
               standard_scale=1, figsize=(10, 10))

多图网格

Seaborn 提供网格对象以创建复杂多面板图:

FacetGrid

基于类别变量创建子图。当通过图级函数(relplotdisplotcatplot)调用时最有用,但也可直接用于自定义图。

g = sns.FacetGrid(df, col='time', row='sex', hue='smoker')
g.map(sns.scatterplot, 'total_bill', 'tip')
g.add_legend()

PairGrid

显示数据集中所有变量间的成对关系。

g = sns.PairGrid(df, hue='species')
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)
g.map_diag(sns.histplot)
g.add_legend()

JointGrid

结合双变量图和边缘分布。

g = sns.JointGrid(data=df, x='total_bill', y='tip')
g.plot_joint(sns.scatterplot)
g.plot_marginals(sns.histplot)

图级与轴级函数

理解这一区别对于有效使用 seaborn 至关重要:

轴级函数

  • 绘制到单个 matplotlib Axes 对象
  • 轻松集成到复杂 matplotlib 图中
  • 接受 ax= 参数以精确放置
  • 返回 Axes 对象
  • 示例:scatterplothistplotboxplotregplotheatmap

何时使用:

  • 构建自定义多图布局
  • 结合不同绘图类型
  • 需要 matplotlib 级控制
  • 集成到现有 matplotlib 代码
fig, axes = plt.subplots(2, 2, figsize=(10, 10))
sns.scatterplot(data=df, x='x', y='y', ax=axes[0, 0])
sns.histplot(data=df, x='x', ax=axes[0, 1])
sns.boxplot(data=df, x='cat', y='y', ax=axes[1, 0])
sns.kdeplot(data=df, x='x', y='y', ax=axes[1, 1])

图级函数

  • 管理整个图,包括所有子图
  • 通过 colrow 参数内置分面
  • 返回 FacetGridJointGridPairGrid 对象
  • 使用 heightaspect 进行大小调整(每个子图)
  • 无法放置到现有图中
  • 示例:relplotdisplotcatplotlmplotjointplotpairplot

何时使用:

  • 分面可视化(小倍数)
  • 快速探索性分析
  • 一致的多面板布局
  • 不需要与其他绘图类型结合
# 自动分面
sns.relplot(data=df, x='x', y='y', col='category', row='group',
            hue='type', height=3, aspect=1.2)

数据结构要求

长格式数据(首选)

每个变量为一列,每个观测为一行。这种“整洁”格式提供最大灵活性:

# 长格式结构
   subject  condition  measurement
0        1    control         10.5
1        1  treatment         12.3
2        2    control          9.8
3        2  treatment         13.1

优势:

  • 适用于所有 seaborn 函数
  • 易于将变量重新映射到视觉属性
  • 支持任意复杂性
  • 自然用于 DataFrame 操作

宽格式数据

变量分布在列中。适用于简单矩形数据:

# 宽格式结构
   control  treatment
0     10.5       12.3
1      9.8       13.1

用例:

  • 简单时间序列
  • 相关矩阵
  • 热力图
  • 数组数据的快速绘图

从宽格式转换到长格式:

df_long = df.melt(var_name='condition', value_name='measurement')

调色板

Seaborn 提供精心设计的调色板,适用于不同数据类型:

定性调色板(类别数据)

通过色调变化区分类别:

  • "deep" - 默认,鲜艳颜色
  • "muted" - 较柔和,饱和度较低
  • "pastel" - 浅色,低饱和度
  • "bright" - 高饱和度
  • "dark" - 深色值
  • "colorblind" - 适用于色盲安全
sns.set_palette("colorblind")
sns.color_palette("Set2")

顺序调色板(有序数据)

显示从低到高值的进展:

  • "rocket""mako" - 宽亮度范围(适用于热力图)
  • "flare""crest" - 限制亮度(适用于点或线)
  • "viridis""magma""plasma" - Matplotlib 感知统一
sns.heatmap(data, cmap='rocket')
sns.kdeplot(data=df, x='x', y='y', cmap='mako', fill=True)

发散调色板(中心数据)

强调从中点的偏离:

  • "vlag" - 蓝色到红色
  • "icefire" - 蓝色到橙色
  • "coolwarm" - 冷色到暖色
  • "Spectral" - 彩虹发散
sns.heatmap(correlation_matrix, cmap='vlag', center=0)

自定义调色板

# 创建自定义调色板
custom = sns.color_palette("husl", 8)

# 从浅到深的渐变
palette = sns.light_palette("seagreen", as_cmap=True)

# 从色调创建发散调色板
palette = sns.diverging_palette(250, 10, as_cmap=True)

主题和美学

设置主题

set_theme() 控制整体外观:

# 设置完整主题
sns.set_theme(style='whitegrid', palette='pastel', font='sans-serif')

# 重置为默认
sns.set_theme()

样式

控制背景和网格外观:

  • "darkgrid" - 灰色背景带白色网格(默认)
  • "whitegrid" - 白色背景带灰色网格
  • "dark" - 灰色背景,无网格
  • "white" - 白色背景,无网格
  • "ticks" - 白色背景带轴刻度
sns.set_style("whitegrid")

# 移除边框
sns.despine(left=False, bottom=False, offset=10, trim=True)

# 临时样式
with sns.axes_style("white"):
    sns.scatterplot(data=df, x='x', y='y')

上下文

为不同用例缩放元素:

  • "paper" - 最小(默认)
  • "notebook" - 稍大
  • "talk" - 演示幻灯片
  • "poster" - 大型格式
sns.set_context("talk", font_scale=1.2)

# 临时上下文
with sns.plotting_context("poster"):
    sns.barplot(data=df, x='category', y='value')

最佳实践

1. 数据准备

始终使用结构良好的 DataFrame 和有意义列名:

# 好:DataFrame 中命名列
df = pd.DataFrame({'bill': bills, 'tip': tips, 'day': days})
sns.scatterplot(data=df, x='bill', y='tip', hue='day')

# 避免:未命名数组
sns.scatterplot(x=x_array, y=y_array)  # 丢失轴标签

2. 选择正确的绘图类型

连续 x,连续 y: scatterplotlineplotkdeplotregplot 连续 x,类别 y: violinplotboxplotstripplotswarmplot 单一连续变量: histplotkdeplotecdfplot 相关性/矩阵: heatmapclustermap 成对关系: pairplotjointplot

3. 使用图级函数进行分面

# 而不是手动创建子图
sns.relplot(data=df, x='x', y='y', col='category', col_wrap=3)

# 不是:为简单分面手动创建子图

4. 利用语义映射

使用 huesizestyle 编码附加维度:

sns.scatterplot(data=df, x='x', y='y',
                hue='category',      # 按类别颜色编码
                size='importance',    # 按连续变量大小编码
                style='type')         # 按类型标记样式编码

5. 控制统计估计

许多函数自动计算统计。理解并自定义:

# Lineplot 默认计算均值和 95% CI
sns.lineplot(data=df, x='time', y='value',
             errorbar='sd')  # 使用标准差替代

# Barplot 默认计算均值
sns.barplot(data=df, x='category', y='value',
            estimator='median',  # 使用中位数替代
            errorbar=('ci', 95))  # 自举 CI

6. 与 Matplotlib 结合

Seaborn 与 matplotlib 无缝集成,用于微调:

ax = sns.scatterplot(data=df, x='x', y='y')
ax.set(xlabel='自定义 X 标签', ylabel='自定义 Y 标签',
       title='自定义标题')
ax.axhline(y=0, color='r', linestyle='--')
plt.tight_layout()

7. 保存高质量图

fig = sns.relplot(data=df, x='x', y='y', col='group')
fig.savefig('figure.png', dpi=300, bbox_inches='tight')
fig.savefig('figure.pdf')  # 矢量格式,用于出版物

常见模式

探索性数据分析

# 快速概览所有关系
sns.pairplot(data=df, hue='target', corner=True)

# 分布探索
sns.displot(data=df, x='variable', hue='group',
            kind='kde', fill=True, col='category')

# 相关性分析
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)

出版质量图

sns.set_theme(style='ticks', context='paper', font_scale=1.1)

g = sns.catplot(data=df, x='treatment', y='response',
                col='cell_line', kind='box', height=3, aspect=1.2)
g.set_axis_labels('处理条件', '响应 (μM)')
g.set_titles('{col_name}')
sns.despine(trim=True)

g.savefig('figure.pdf', dpi=300, bbox_inches='tight')

复杂多面板图

# 使用 matplotlib 子图与 seaborn
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

sns.scatterplot(data=df, x='x1', y='y', hue='group', ax=axes[0, 0])
sns.histplot(data=df, x='x1', hue='group', ax=axes[0, 1])
sns.violinplot(data=df, x='group', y='y', ax=axes[1, 0])
sns.heatmap(df.pivot_table(values='y', index='x1', columns='x2'),
            ax=axes[1, 1], cmap='viridis')

plt.tight_layout()

带置信区间的时间序列

# Lineplot 自动聚合并显示 CI
sns.lineplot(data=timeseries, x='date', y='measurement',
             hue='sensor', style='location', errorbar='sd')

# 更多控制
g = sns.relplot(data=timeseries, x='date', y='measurement',
                col='location', hue='sensor', kind='line',
                height=4, aspect=1.5, errorbar=('ci', 95))
g.set_axis_labels('日期', '测量值 (单位)')

故障排除

问题:图例在图区域外

图级函数默认将图例放在外部。移动到内部:

g = sns.relplot(data=df, x='x', y='y', hue='category')
g._legend.set_bbox_to_anchor((0.9, 0.5))  # 调整位置

问题:标签重叠

plt.xticks(rotation=45, ha='right')
plt.tight_layout()

问题:图太小

对于图级函数:

sns.relplot(data=df, x='x', y='y', height=6, aspect=1.5)

对于轴级函数:

fig, ax = plt.subplots(figsize=(10, 6))
sns.scatterplot(data=df, x='x', y='y', ax=ax)

问题:颜色不够分明

# 使用不同调色板
sns.set_palette("bright")

# 或指定颜色数
palette = sns.color_palette("husl", n_colors=len(df['category'].unique()))
sns.scatterplot(data=df, x='x', y='y', hue='category', palette=palette)

问题:KDE 太平滑或太锯齿状

# 调整带宽
sns.kdeplot(data=df, x='x', bw_adjust=0.5)  # 较少平滑
sns.kdeplot(data=df, x='x', bw_adjust=2)    # 更多平滑

资源

此技能包括用于深入探索的参考材料:

references/

  • function_reference.md - 所有 seaborn 函数的综合列表,带参数和示例
  • objects_interface.md - 现代 seaborn.objects API 的详细指南
  • examples.md - 不同分析场景的常见用例和代码模式

根据需要加载参考文件,以获取详细函数签名、高级参数或特定示例。