name: seaborn description: “统计可视化。散点图、箱线图、小提琴图、热力图、配对图、回归图、相关矩阵、KDE、分面图,用于探索性分析和出版物图表。”
Seaborn 统计可视化
概述
Seaborn 是一个用于创建出版质量统计图形的 Python 可视化库。使用此技能进行数据集导向的绘图、多变量分析、自动统计估计,以及用最少代码创建复杂多面板图。
设计理念
Seaborn 遵循以下核心原则:
- 数据集导向:直接使用 DataFrame 和命名变量,而非抽象坐标
- 语义映射:自动将数据值转换为视觉属性(颜色、大小、样式)
- 统计意识:内置聚合、误差估计和置信区间
- 美学默认值:开箱即用的出版就绪主题和调色板
- Matplotlib 集成:需要时与 matplotlib 自定义完全兼容
快速开始
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# 加载示例数据集
df = sns.load_dataset('tips')
# 创建简单可视化
sns.scatterplot(data=df, x='total_bill', y='tip', hue='day')
plt.show()
核心绘图接口
函数接口(传统)
函数接口提供按可视化类型组织的专门绘图函数。每个类别有 轴级 函数(绘制到单个轴)和 图级 函数(管理整个图并支持分面)。
何时使用:
- 快速探索性分析
- 单一目的的可视化
- 需要特定绘图类型时
对象接口(现代)
seaborn.objects 接口提供类似 ggplot2 的声明式、可组合 API。通过链式方法指定数据映射、标记、变换和比例来构建可视化。
何时使用:
- 复杂分层可视化
- 需要精细控制变换时
- 构建自定义绘图类型
- 程序化绘图生成
from seaborn import objects as so
# 声明式语法
(
so.Plot(data=df, x='total_bill', y='tip')
.add(so.Dot(), color='day')
.add(so.Line(), so.PolyFit())
)
按类别绘图函数
关系图(变量间关系)
用于: 探索两个或更多变量如何相关
scatterplot()- 将个体观测显示为点lineplot()- 显示趋势和变化(自动聚合和计算 CI)relplot()- 图级接口,支持自动分面
关键参数:
x,y- 主要变量hue- 附加类别或连续变量的颜色编码size- 点或线的大小编码style- 标记或线样式编码col,row- 分面到多个子图(仅图级)
# 散点图,多语义映射
sns.scatterplot(data=df, x='total_bill', y='tip',
hue='time', size='size', style='sex')
# 线图,带置信区间
sns.lineplot(data=timeseries, x='date', y='value', hue='category')
# 分面关系图
sns.relplot(data=df, x='total_bill', y='tip',
col='time', row='sex', hue='smoker', kind='scatter')
分布图(单变量和双变量分布)
用于: 理解数据分布、形状和概率密度
histplot()- 基于条形的频率分布,灵活分箱kdeplot()- 使用高斯核的平滑密度估计ecdfplot()- 经验累积分布(无需调整参数)rugplot()- 个体观测刻度标记displot()- 图级接口,用于单变量和双变量分布jointplot()- 带边缘分布的双变量图pairplot()- 数据集内成对关系矩阵
关键参数:
x,y- 变量(y 可选,用于单变量)hue- 按类别分离分布stat- 归一化:“count”、“frequency”、“probability”、“density”bins/binwidth- 直方图分箱控制bw_adjust- KDE 带宽乘数(值越高越平滑)fill- 填充曲线下区域multiple- 处理 hue 的方式:“layer”、“stack”、“dodge”、“fill”
# 直方图,带密度归一化
sns.histplot(data=df, x='total_bill', hue='time',
stat='density', multiple='stack')
# 双变量 KDE,带等高线
sns.kdeplot(data=df, x='total_bill', y='tip',
fill=True, levels=5, thresh=0.1)
# 联合图,带边缘分布
sns.jointplot(data=df, x='total_bill', y='tip',
kind='scatter', hue='time')
# 成对关系
sns.pairplot(data=df, hue='species', corner=True)
类别图(类别间比较)
用于: 比较离散类别间的分布或统计
类别散点图:
stripplot()- 点带抖动,显示所有观测swarmplot()- 非重叠点(蜂群算法)
分布比较:
boxplot()- 四分位数和异常值violinplot()- KDE 加四分位数信息boxenplot()- 增强箱线图,适用于大型数据集
统计估计:
barplot()- 均值/聚合,带置信区间pointplot()- 点估计,带连接线countplot()- 每个类别的观测计数
图级:
catplot()- 分面类别图(设置kind参数)
关键参数:
x,y- 变量(通常一个是类别)hue- 附加类别分组order,hue_order- 控制类别顺序dodge- 分离 hue 级别,并排显示orient- “v”(垂直)或 “h”(水平)kind- catplot 的绘图类型:“strip”、“swarm”、“box”、“violin”、“bar”、“point”
# 蜂群图,显示所有点
sns.swarmplot(data=df, x='day', y='total_bill', hue='sex')
# 小提琴图,带分裂以比较
sns.violinplot(data=df, x='day', y='total_bill',
hue='sex', split=True)
# 条形图,带误差条
sns.barplot(data=df, x='day', y='total_bill',
hue='sex', estimator='mean', errorbar='ci')
# 分面类别图
sns.catplot(data=df, x='day', y='total_bill',
col='time', kind='box')
回归图(线性关系)
用于: 可视化线性回归和残差
regplot()- 轴级回归图,带散点 + 拟合线lmplot()- 图级,支持分面residplot()- 残差图,用于评估模型拟合
关键参数:
x,y- 要回归的变量order- 多项式回归阶数logistic- 拟合逻辑回归robust- 使用稳健回归(对异常值不敏感)ci- 置信区间宽度(默认 95)scatter_kws,line_kws- 自定义散点和线属性
# 简单线性回归
sns.regplot(data=df, x='total_bill', y='tip')
# 多项式回归,带分面
sns.lmplot(data=df, x='total_bill', y='tip',
col='time', order=2, ci=95)
# 检查残差
sns.residplot(data=df, x='total_bill', y='tip')
矩阵图(矩形数据)
用于: 可视化矩阵、相关性和网格结构数据
heatmap()- 颜色编码的矩阵,带注释clustermap()- 层次聚类热图
关键参数:
data- 2D 矩形数据集(DataFrame 或数组)annot- 在单元格中显示值fmt- 注释格式字符串(例如,“.2f”)cmap- 颜色映射名称center- 颜色映射中心的值(用于发散颜色映射)vmin,vmax- 颜色比例限制square- 强制方形单元格linewidths- 单元格间间隙
# 相关性热图
corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.2f',
cmap='coolwarm', center=0, square=True)
# 聚类热图
sns.clustermap(data, cmap='viridis',
standard_scale=1, figsize=(10, 10))
多图网格
Seaborn 提供网格对象以创建复杂多面板图:
FacetGrid
基于类别变量创建子图。当通过图级函数(relplot、displot、catplot)调用时最有用,但也可直接用于自定义图。
g = sns.FacetGrid(df, col='time', row='sex', hue='smoker')
g.map(sns.scatterplot, 'total_bill', 'tip')
g.add_legend()
PairGrid
显示数据集中所有变量间的成对关系。
g = sns.PairGrid(df, hue='species')
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)
g.map_diag(sns.histplot)
g.add_legend()
JointGrid
结合双变量图和边缘分布。
g = sns.JointGrid(data=df, x='total_bill', y='tip')
g.plot_joint(sns.scatterplot)
g.plot_marginals(sns.histplot)
图级与轴级函数
理解这一区别对于有效使用 seaborn 至关重要:
轴级函数
- 绘制到单个 matplotlib
Axes对象 - 轻松集成到复杂 matplotlib 图中
- 接受
ax=参数以精确放置 - 返回
Axes对象 - 示例:
scatterplot、histplot、boxplot、regplot、heatmap
何时使用:
- 构建自定义多图布局
- 结合不同绘图类型
- 需要 matplotlib 级控制
- 集成到现有 matplotlib 代码
fig, axes = plt.subplots(2, 2, figsize=(10, 10))
sns.scatterplot(data=df, x='x', y='y', ax=axes[0, 0])
sns.histplot(data=df, x='x', ax=axes[0, 1])
sns.boxplot(data=df, x='cat', y='y', ax=axes[1, 0])
sns.kdeplot(data=df, x='x', y='y', ax=axes[1, 1])
图级函数
- 管理整个图,包括所有子图
- 通过
col和row参数内置分面 - 返回
FacetGrid、JointGrid或PairGrid对象 - 使用
height和aspect进行大小调整(每个子图) - 无法放置到现有图中
- 示例:
relplot、displot、catplot、lmplot、jointplot、pairplot
何时使用:
- 分面可视化(小倍数)
- 快速探索性分析
- 一致的多面板布局
- 不需要与其他绘图类型结合
# 自动分面
sns.relplot(data=df, x='x', y='y', col='category', row='group',
hue='type', height=3, aspect=1.2)
数据结构要求
长格式数据(首选)
每个变量为一列,每个观测为一行。这种“整洁”格式提供最大灵活性:
# 长格式结构
subject condition measurement
0 1 control 10.5
1 1 treatment 12.3
2 2 control 9.8
3 2 treatment 13.1
优势:
- 适用于所有 seaborn 函数
- 易于将变量重新映射到视觉属性
- 支持任意复杂性
- 自然用于 DataFrame 操作
宽格式数据
变量分布在列中。适用于简单矩形数据:
# 宽格式结构
control treatment
0 10.5 12.3
1 9.8 13.1
用例:
- 简单时间序列
- 相关矩阵
- 热力图
- 数组数据的快速绘图
从宽格式转换到长格式:
df_long = df.melt(var_name='condition', value_name='measurement')
调色板
Seaborn 提供精心设计的调色板,适用于不同数据类型:
定性调色板(类别数据)
通过色调变化区分类别:
"deep"- 默认,鲜艳颜色"muted"- 较柔和,饱和度较低"pastel"- 浅色,低饱和度"bright"- 高饱和度"dark"- 深色值"colorblind"- 适用于色盲安全
sns.set_palette("colorblind")
sns.color_palette("Set2")
顺序调色板(有序数据)
显示从低到高值的进展:
"rocket"、"mako"- 宽亮度范围(适用于热力图)"flare"、"crest"- 限制亮度(适用于点或线)"viridis"、"magma"、"plasma"- Matplotlib 感知统一
sns.heatmap(data, cmap='rocket')
sns.kdeplot(data=df, x='x', y='y', cmap='mako', fill=True)
发散调色板(中心数据)
强调从中点的偏离:
"vlag"- 蓝色到红色"icefire"- 蓝色到橙色"coolwarm"- 冷色到暖色"Spectral"- 彩虹发散
sns.heatmap(correlation_matrix, cmap='vlag', center=0)
自定义调色板
# 创建自定义调色板
custom = sns.color_palette("husl", 8)
# 从浅到深的渐变
palette = sns.light_palette("seagreen", as_cmap=True)
# 从色调创建发散调色板
palette = sns.diverging_palette(250, 10, as_cmap=True)
主题和美学
设置主题
set_theme() 控制整体外观:
# 设置完整主题
sns.set_theme(style='whitegrid', palette='pastel', font='sans-serif')
# 重置为默认
sns.set_theme()
样式
控制背景和网格外观:
"darkgrid"- 灰色背景带白色网格(默认)"whitegrid"- 白色背景带灰色网格"dark"- 灰色背景,无网格"white"- 白色背景,无网格"ticks"- 白色背景带轴刻度
sns.set_style("whitegrid")
# 移除边框
sns.despine(left=False, bottom=False, offset=10, trim=True)
# 临时样式
with sns.axes_style("white"):
sns.scatterplot(data=df, x='x', y='y')
上下文
为不同用例缩放元素:
"paper"- 最小(默认)"notebook"- 稍大"talk"- 演示幻灯片"poster"- 大型格式
sns.set_context("talk", font_scale=1.2)
# 临时上下文
with sns.plotting_context("poster"):
sns.barplot(data=df, x='category', y='value')
最佳实践
1. 数据准备
始终使用结构良好的 DataFrame 和有意义列名:
# 好:DataFrame 中命名列
df = pd.DataFrame({'bill': bills, 'tip': tips, 'day': days})
sns.scatterplot(data=df, x='bill', y='tip', hue='day')
# 避免:未命名数组
sns.scatterplot(x=x_array, y=y_array) # 丢失轴标签
2. 选择正确的绘图类型
连续 x,连续 y: scatterplot、lineplot、kdeplot、regplot
连续 x,类别 y: violinplot、boxplot、stripplot、swarmplot
单一连续变量: histplot、kdeplot、ecdfplot
相关性/矩阵: heatmap、clustermap
成对关系: pairplot、jointplot
3. 使用图级函数进行分面
# 而不是手动创建子图
sns.relplot(data=df, x='x', y='y', col='category', col_wrap=3)
# 不是:为简单分面手动创建子图
4. 利用语义映射
使用 hue、size 和 style 编码附加维度:
sns.scatterplot(data=df, x='x', y='y',
hue='category', # 按类别颜色编码
size='importance', # 按连续变量大小编码
style='type') # 按类型标记样式编码
5. 控制统计估计
许多函数自动计算统计。理解并自定义:
# Lineplot 默认计算均值和 95% CI
sns.lineplot(data=df, x='time', y='value',
errorbar='sd') # 使用标准差替代
# Barplot 默认计算均值
sns.barplot(data=df, x='category', y='value',
estimator='median', # 使用中位数替代
errorbar=('ci', 95)) # 自举 CI
6. 与 Matplotlib 结合
Seaborn 与 matplotlib 无缝集成,用于微调:
ax = sns.scatterplot(data=df, x='x', y='y')
ax.set(xlabel='自定义 X 标签', ylabel='自定义 Y 标签',
title='自定义标题')
ax.axhline(y=0, color='r', linestyle='--')
plt.tight_layout()
7. 保存高质量图
fig = sns.relplot(data=df, x='x', y='y', col='group')
fig.savefig('figure.png', dpi=300, bbox_inches='tight')
fig.savefig('figure.pdf') # 矢量格式,用于出版物
常见模式
探索性数据分析
# 快速概览所有关系
sns.pairplot(data=df, hue='target', corner=True)
# 分布探索
sns.displot(data=df, x='variable', hue='group',
kind='kde', fill=True, col='category')
# 相关性分析
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0)
出版质量图
sns.set_theme(style='ticks', context='paper', font_scale=1.1)
g = sns.catplot(data=df, x='treatment', y='response',
col='cell_line', kind='box', height=3, aspect=1.2)
g.set_axis_labels('处理条件', '响应 (μM)')
g.set_titles('{col_name}')
sns.despine(trim=True)
g.savefig('figure.pdf', dpi=300, bbox_inches='tight')
复杂多面板图
# 使用 matplotlib 子图与 seaborn
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
sns.scatterplot(data=df, x='x1', y='y', hue='group', ax=axes[0, 0])
sns.histplot(data=df, x='x1', hue='group', ax=axes[0, 1])
sns.violinplot(data=df, x='group', y='y', ax=axes[1, 0])
sns.heatmap(df.pivot_table(values='y', index='x1', columns='x2'),
ax=axes[1, 1], cmap='viridis')
plt.tight_layout()
带置信区间的时间序列
# Lineplot 自动聚合并显示 CI
sns.lineplot(data=timeseries, x='date', y='measurement',
hue='sensor', style='location', errorbar='sd')
# 更多控制
g = sns.relplot(data=timeseries, x='date', y='measurement',
col='location', hue='sensor', kind='line',
height=4, aspect=1.5, errorbar=('ci', 95))
g.set_axis_labels('日期', '测量值 (单位)')
故障排除
问题:图例在图区域外
图级函数默认将图例放在外部。移动到内部:
g = sns.relplot(data=df, x='x', y='y', hue='category')
g._legend.set_bbox_to_anchor((0.9, 0.5)) # 调整位置
问题:标签重叠
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
问题:图太小
对于图级函数:
sns.relplot(data=df, x='x', y='y', height=6, aspect=1.5)
对于轴级函数:
fig, ax = plt.subplots(figsize=(10, 6))
sns.scatterplot(data=df, x='x', y='y', ax=ax)
问题:颜色不够分明
# 使用不同调色板
sns.set_palette("bright")
# 或指定颜色数
palette = sns.color_palette("husl", n_colors=len(df['category'].unique()))
sns.scatterplot(data=df, x='x', y='y', hue='category', palette=palette)
问题:KDE 太平滑或太锯齿状
# 调整带宽
sns.kdeplot(data=df, x='x', bw_adjust=0.5) # 较少平滑
sns.kdeplot(data=df, x='x', bw_adjust=2) # 更多平滑
资源
此技能包括用于深入探索的参考材料:
references/
function_reference.md- 所有 seaborn 函数的综合列表,带参数和示例objects_interface.md- 现代 seaborn.objects API 的详细指南examples.md- 不同分析场景的常见用例和代码模式
根据需要加载参考文件,以获取详细函数签名、高级参数或特定示例。