name: seaborn description: “统计可视化。散点图、箱线图、小提琴图、热力图、配对图、回归图、相关矩阵、KDE、分面图，用于探索性分析和出版物图表。”

Seaborn 统计可视化

概述

Seaborn 是一个用于创建出版质量统计图形的 Python 可视化库。使用此技能进行数据集导向的绘图、多变量分析、自动统计估计，以及用最少代码创建复杂多面板图。

设计理念

Seaborn 遵循以下核心原则：

数据集导向：直接使用 DataFrame 和命名变量，而非抽象坐标
语义映射：自动将数据值转换为视觉属性（颜色、大小、样式）
统计意识：内置聚合、误差估计和置信区间
美学默认值：开箱即用的出版就绪主题和调色板
Matplotlib 集成：需要时与 matplotlib 自定义完全兼容

快速开始

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 加载示例数据集
df = sns.load_dataset('tips')

# 创建简单可视化
sns.scatterplot(data=df, x='total_bill', y='tip', hue='day')
plt.show()

核心绘图接口

函数接口（传统）

函数接口提供按可视化类型组织的专门绘图函数。每个类别有轴级函数（绘制到单个轴）和图级函数（管理整个图并支持分面）。

何时使用：

快速探索性分析
单一目的的可视化
需要特定绘图类型时

对象接口（现代）

seaborn.objects 接口提供类似 ggplot2 的声明式、可组合 API。通过链式方法指定数据映射、标记、变换和比例来构建可视化。

何时使用：

复杂分层可视化
需要精细控制变换时
构建自定义绘图类型
程序化绘图生成

from seaborn import objects as so

# 声明式语法
(
    so.Plot(data=df, x='total_bill', y='tip')
    .add(so.Dot(), color='day')
    .add(so.Line(), so.PolyFit())
)

按类别绘图函数

关系图（变量间关系）

用于： 探索两个或更多变量如何相关

scatterplot() - 将个体观测显示为点
lineplot() - 显示趋势和变化（自动聚合和计算 CI）
relplot() - 图级接口，支持自动分面

关键参数：

x, y - 主要变量
hue - 附加类别或连续变量的颜色编码
size - 点或线的大小编码
style - 标记或线样式编码
col, row - 分面到多个子图（仅图级）

# 散点图，多语义映射
sns.scatterplot(data=df, x='total_bill', y='tip',
                hue='time', size='size', style='sex')

# 线图，带置信区间
sns.lineplot(data=timeseries, x='date', y='value', hue='category')

# 分面关系图
sns.relplot(data=df, x='total_bill', y='tip',
            col='time', row='sex', hue='smoker', kind='scatter')

分布图（单变量和双变量分布）

用于： 理解数据分布、形状和概率密度

histplot() - 基于条形的频率分布，灵活分箱
kdeplot() - 使用高斯核的平滑密度估计
ecdfplot() - 经验累积分布（无需调整参数）
rugplot() - 个体观测刻度标记
displot() - 图级接口，用于单变量和双变量分布
jointplot() - 带边缘分布的双变量图
pairplot() - 数据集内成对关系矩阵

关键参数：

x, y - 变量（y 可选，用于单变量）
hue - 按类别分离分布
stat - 归一化：“count”、“frequency”、“probability”、“density”
bins / binwidth - 直方图分箱控制
bw_adjust - KDE 带宽乘数（值越高越平滑）
fill - 填充曲线下区域
multiple - 处理 hue 的方式：“layer”、“stack”、“dodge”、“fill”

# 直方图，带密度归一化
sns.histplot(data=df, x='total_bill', hue='time',
             stat='density', multiple='stack')

# 双变量 KDE，带等高线
sns.kdeplot(data=df, x='total_bill', y='tip',
            fill=True, levels=5, thresh=0.1)

# 联合图，带边缘分布
sns.jointplot(data=df, x='total_bill', y='tip',
              kind='scatter', hue='time')

# 成对关系
sns.pairplot(data=df, hue='species', corner=True)

类别图（类别间比较）

用于： 比较离散类别间的分布或统计

类别散点图：

stripplot() - 点带抖动，显示所有观测
swarmplot() - 非重叠点（蜂群算法）

分布比较：

boxplot() - 四分位数和异常值
violinplot() - KDE 加四分位数信息
boxenplot() - 增强箱线图，适用于大型数据集

统计估计：

barplot() - 均值/聚合，带置信区间
pointplot() - 点估计，带连接线
countplot() - 每个类别的观测计数

图级：

catplot() - 分面类别图（设置 kind 参数）

关键参数：

x, y - 变量（通常一个是类别）
hue - 附加类别分组
order, hue_order - 控制类别顺序
dodge - 分离 hue 级别，并排显示
orient - “v”（垂直）或 “h”（水平）
kind - catplot 的绘图类型：“strip”、“swarm”、“box”、“violin”、“bar”、“point”

# 蜂群图，显示所有点
sns.swarmplot(data=df, x='day', y='total_bill', hue='sex')

# 小提琴图，带分裂以比较
sns.violinplot(data=df, x='day', y='total_bill',
               hue='sex', split=True)

# 条形图，带误差条
sns.barplot(data=df, x='day', y='total_bill',
            hue='sex', estimator='mean', errorbar='ci')

# 分面类别图
sns.catplot(data=df, x='day', y='total_bill',
            col='time', kind='box')

回归图（线性关系）

用于： 可视化线性回归和残差

regplot() - 轴级回归图，带散点 + 拟合线
lmplot() - 图级，支持分面
residplot() - 残差图，用于评估模型拟合

关键参数：

x, y - 要回归的变量
order - 多项式回归阶数
logistic - 拟合逻辑回归
robust - 使用稳健回归（对异常值不敏感）
ci - 置信区间宽度（默认 95）
scatter_kws, line_kws - 自定义散点和线属性

# 简单线性回归
sns.regplot(data=df, x='total_bill', y='tip')

# 多项式回归，带分面
sns.lmplot(data=df, x='total_bill', y='tip',
           col='time', order=2, ci=95)

# 检查残差
sns.residplot(data=df, x='total_bill', y='tip')

矩阵图（矩形数据）

用于： 可视化矩阵、相关性和网格结构数据

heatmap() - 颜色编码的矩阵，带注释
clustermap() - 层次聚类热图

关键参数：

data - 2D 矩形数据集（DataFrame 或数组）
annot - 在单元格中显示值
fmt - 注释格式字符串（例如，“.2f”）
cmap - 颜色映射名称
center - 颜色映射中心的值（用于发散颜色映射）
vmin, vmax - 颜色比例限制
square - 强制方形单元格
linewidths - 单元格间间隙

# 相关性热图
corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.2f',
            cmap='coolwarm', center=0, square=True)

# 聚类热图
sns.clustermap(data, cmap='viridis',
               standard_scale=1, figsize=(10, 10))

多图网格

Seaborn 提供网格对象以创建复杂多面板图：

FacetGrid

基于类别变量创建子图。当通过图级函数（relplot、displot、catplot）调用时最有用，但也可直接用于自定义图。

g = sns.FacetGrid(df, col='time', row='sex', hue='smoker')
g.map(sns.scatterplot, 'total_bill', 'tip')
g.add_legend()

PairGrid

显示数据集中所有变量间的成对关系。

g = sns.PairGrid(df, hue='species')
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)
g.map_diag(sns.histplot)
g.add_legend()

JointGrid

结合双变量图和边缘分布。

g = sns.JointGrid(data=df, x='total_bill', y='tip')
g.plot_joint(sns.scatterplot)
g.plot_marginals(sns.histplot)

图级与轴级函数

理解这一区别对于有效使用 seaborn 至关重要：

轴级函数

绘制到单个 matplotlib Axes 对象
轻松集成到复杂 matplotlib 图中
接受 ax= 参数以精确放置
返回 Axes 对象
示例：scatterplot、histplot、boxplot、regplot、heatmap

何时使用：

构建自定义多图布局
结合不同绘图类型
需要 matplotlib 级控制
集成到现有 matplotlib 代码

fig, axes = plt.subplots(2, 2, figsize=(10, 10))
sns.scatterplot(data=df, x='x', y='y', ax=axes[0, 0])
sns.histplot(data=df, x='x', ax=axes[0, 1])
sns.boxplot(data=df, x='cat', y='y', ax=axes[1, 0])
sns.kdeplot(data=df, x='x', y='y', ax=axes[1, 1])

图级函数

管理整个图，包括所有子图
通过 col 和 row 参数内置分面
返回 FacetGrid、JointGrid 或 PairGrid 对象
使用 height 和 aspect 进行大小调整（每个子图）
无法放置到现有图中
示例：relplot、displot、catplot、lmplot、jointplot、pairplot

何时使用：

分面可视化（小倍数）
快速探索性分析
一致的多面板布局
不需要与其他绘图类型结合

# 自动分面
sns.relplot(data=df, x='x', y='y', col='category', row='group',
            hue='type', height=3, aspect=1.2)

数据结构要求

长格式数据（首选）

每个变量为一列，每个观测为一行。这种“整洁”格式提供最大灵活性：

# 长格式结构
   subject  condition  measurement
0        1    control         10.5
1        1  treatment         12.3
2        2    control          9.8
3        2  treatment         13.1

优势：

适用于所有 seaborn 函数
易于将变量重新映射到视觉属性
支持任意复杂性
自然用于 DataFrame 操作

宽格式数据

变量分布在列中。适用于简单矩形数据：

# 宽格式结构
   control  treatment
0     10.5       12.3
1      9.8       13.1

用例：

简单时间序列
相关矩阵
热力图
数组数据的快速绘图

从宽格式转换到长格式：

df_long = df.melt(var_name='condition', value_name='measurement')

调色板

Seaborn 提供精心设计的调色板，适用于不同数据类型：

定性调色板（类别数据）

通过色调变化区分类别：

"deep" - 默认，鲜艳颜色
"muted" - 较柔和，饱和度较低
"pastel" - 浅色，低饱和度
"bright" - 高饱和度
"dark" - 深色值
"colorblind" - 适用于色盲安全

sns.set_palette("colorblind")
sns.color_palette("Set2")

顺序调色板（有序数据）

显示从低到高值的进展：

"rocket"、"mako" - 宽亮度范围（适用于热力图）
"flare"、"crest" - 限制亮度（适用于点或线）
"viridis"、"magma"、"plasma" - Matplotlib 感知统一

sns.heatmap(data, cmap='rocket')
sns.kdeplot(data=df, x='x', y='y', cmap='mako', fill=True)

发散调色板（中心数据）

强调从中点的偏离：

"vlag" - 蓝色到红色
"icefire" - 蓝色到橙色
"coolwarm" - 冷色到暖色
"Spectral" - 彩虹发散

sns.heatmap(correlation_matrix, cmap='vlag', center=0)

自定义调色板

# 创建自定义调色板
custom = sns.color_palette("husl", 8)

# 从浅到深的渐变
palette = sns.light_palette("seagreen", as_cmap=True)

# 从色调创建发散调色板
palette = sns.diverging_palette(250, 10, as_cmap=True)

主题和美学

设置主题

set_theme() 控制整体外观：

# 设置完整主题
sns.set_theme(style='whitegrid', palette='pastel', font='sans-serif')

# 重置为默认
sns.set_theme()

样式

控制背景和网格外观：

"darkgrid" - 灰色背景带白色网格（默认）
"whitegrid" - 白色背景带灰色网格
"dark" - 灰色背景，无网格
"white" - 白色背景，无网格
"ticks" - 白色背景带轴刻度

sns.set_style("whitegrid")

# 移除边框
sns.despine(left=False, bottom=False, offset=10, trim=True)

# 临时样式
with sns.axes_style("white"):
    sns.scatterplot(data=df, x='x', y='y')

上下文

为不同用例缩放元素：

"paper" - 最小（默认）
"notebook" - 稍大
"talk" - 演示幻灯片
"poster" - 大型格式

sns.set_context("talk", font_scale=1.2)

# 临时上下文
with sns.plotting_context("poster"):
    sns.barplot(data=df, x='category', y='value')

最佳实践

1. 数据准备

始终使用结构良好的 DataFrame 和有意义列名：

# 好：DataFrame 中命名列
df = pd.DataFrame({'bill': bills, 'tip': tips, 'day': days})
sns.scatterplot(data=df, x='bill', y='tip', hue='day')

# 避免：未命名数组
sns.scatterplot(x=x_array, y=y_array)  # 丢失轴标签

2. 选择正确的绘图类型

连续 x，连续 y： scatterplot、lineplot、kdeplot、regplot 连续 x，类别 y： violinplot、boxplot、stripplot、swarmplot 单一连续变量： histplot、kdeplot、ecdfplot 相关性/矩阵： heatmap、clustermap 成对关系： pairplot、jointplot

3. 使用图级函数进行分面

# 而不是手动创建子图
sns.relplot(data=df, x='x', y='y', col='category', col_wrap=3)

# 不是：为简单分面手动创建子图

4. 利用语义映射

使用 hue、size 和 style 编码附加维度：

sns.scatterplot(data=df, x='x', y='y',
                hue='category',      # 按类别颜色编码
                size='importance',    # 按连续变量大小编码
                style='type')         # 按类型标记样式编码

5. 控制统计估计

许多函数自动计算统计。理解并自定义：

# Lineplot 默认计算均值和 95% CI
sns.lineplot(data=df, x='time', y='value',
             errorbar='sd')  # 使用标准差替代

# Barplot 默认计算均值
sns.barplot(data=df, x='category', y='value',
            estimator='median',  # 使用中位数替代
            errorbar=('ci', 95))  # 自举 CI

6. 与 Matplotlib 结合

Seaborn 与 matplotlib 无缝集成，用于微调：

ax = sns.scatterplot(data=df, x='x', y='y')
ax.set(xlabel='自定义 X 标签', ylabel='自定义 Y 标签',
       title='自定义标题')
ax.axhline(y=0, color='r', linestyle='--')
plt.tight_layout()

7. 保存高质量图

fig = sns.relplot(data=df, x='x', y='y', col='group')
fig.savefig('figure.png', dpi=300, bbox_inches='tight')
fig.savefig('figure.pdf')  # 矢量格式，用于出版物

常见模式

探索性数据分析

# 快速概览所有关系
sns.pairplot(data=df, hue='target', corner=True)

# 分布探索
sns.displot(data=df, x='variable', hue='group',
            kind='kde', fill=True, col='category')

# 相关性分析
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)

出版质量图

sns.set_theme(style='ticks', context='paper', font_scale=1.1)

g = sns.catplot(data=df, x='treatment', y='response',
                col='cell_line', kind='box', height=3, aspect=1.2)
g.set_axis_labels('处理条件', '响应 (μM)')
g.set_titles('{col_name}')
sns.despine(trim=True)

g.savefig('figure.pdf', dpi=300, bbox_inches='tight')

复杂多面板图

# 使用 matplotlib 子图与 seaborn
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

sns.scatterplot(data=df, x='x1', y='y', hue='group', ax=axes[0, 0])
sns.histplot(data=df, x='x1', hue='group', ax=axes[0, 1])
sns.violinplot(data=df, x='group', y='y', ax=axes[1, 0])
sns.heatmap(df.pivot_table(values='y', index='x1', columns='x2'),
            ax=axes[1, 1], cmap='viridis')

plt.tight_layout()

带置信区间的时间序列

# Lineplot 自动聚合并显示 CI
sns.lineplot(data=timeseries, x='date', y='measurement',
             hue='sensor', style='location', errorbar='sd')

# 更多控制
g = sns.relplot(data=timeseries, x='date', y='measurement',
                col='location', hue='sensor', kind='line',
                height=4, aspect=1.5, errorbar=('ci', 95))
g.set_axis_labels('日期', '测量值 (单位)')

故障排除

问题：图例在图区域外

图级函数默认将图例放在外部。移动到内部：

g = sns.relplot(data=df, x='x', y='y', hue='category')
g._legend.set_bbox_to_anchor((0.9, 0.5))  # 调整位置

问题：标签重叠

plt.xticks(rotation=45, ha='right')
plt.tight_layout()

问题：图太小

对于图级函数：

sns.relplot(data=df, x='x', y='y', height=6, aspect=1.5)

对于轴级函数：

fig, ax = plt.subplots(figsize=(10, 6))
sns.scatterplot(data=df, x='x', y='y', ax=ax)

问题：颜色不够分明

# 使用不同调色板
sns.set_palette("bright")

# 或指定颜色数
palette = sns.color_palette("husl", n_colors=len(df['category'].unique()))
sns.scatterplot(data=df, x='x', y='y', hue='category', palette=palette)

问题：KDE 太平滑或太锯齿状

# 调整带宽
sns.kdeplot(data=df, x='x', bw_adjust=0.5)  # 较少平滑
sns.kdeplot(data=df, x='x', bw_adjust=2)    # 更多平滑

资源

此技能包括用于深入探索的参考材料：

references/

function_reference.md - 所有 seaborn 函数的综合列表，带参数和示例
objects_interface.md - 现代 seaborn.objects API 的详细指南
examples.md - 不同分析场景的常见用例和代码模式

根据需要加载参考文件，以获取详细函数签名、高级参数或特定示例。