Polars数据处理与分析库Skill polars

Polars是一个基于Apache Arrow的快速DataFrame库,适用于Python和Rust,提供表达式API和惰性评估,用于高性能数据分析、数据处理管道优化、pandas迁移和数据工程工作流。关键词:Polars, DataFrame, 数据处理, 数据分析, Python, Rust, Apache Arrow, 高性能计算, 数据工程, ETL。

数据分析 0 次安装 0 次浏览 更新于 3/16/2026

名称: polars 描述: “快速DataFrame库 (Apache Arrow). 选择, 过滤, 分组, 连接, 惰性评估, CSV/Parquet I/O, 表达式API, 用于高性能数据分析工作流.”

Polars

概述

Polars是一个为Python和Rust构建的闪电般快速的DataFrame库,基于Apache Arrow。使用Polars的基于表达式的API、惰性评估框架和高性能数据操作能力,进行高效数据处理、pandas迁移和数据管道优化。

快速入门

安装和基本用法

安装Polars:

pip install polars

基本DataFrame创建和操作:

import polars as pl

# 创建DataFrame
df = pl.DataFrame({
    "name": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "city": ["NY", "LA", "SF"]
})

# 选择列
df.select("name", "age")

# 过滤行
df.filter(pl.col("age") > 25)

# 添加计算列
df.with_columns(
    age_plus_10=pl.col("age") + 10
)

核心概念

表达式

表达式是Polars操作的基本构建块。它们描述数据的转换,可以组合、重用和优化。

关键原则:

  • 使用pl.col("column_name")引用列
  • 链接方法以构建复杂转换
  • 表达式是惰性的,仅在上下文(选择、添加列、过滤、分组)中执行

示例:

# 基于表达式的计算
df.select(
    pl.col("name"),
    (pl.col("age") * 12).alias("age_in_months")
)

惰性与即时评估

即时 (DataFrame): 操作立即执行

df = pl.read_csv("file.csv")  # 立即读取
result = df.filter(pl.col("age") > 25)  # 立即执行

惰性 (LazyFrame): 操作构建查询计划,在执行前优化

lf = pl.scan_csv("file.csv")  # 尚未读取
result = lf.filter(pl.col("age") > 25).select("name", "age")
df = result.collect()  # 现在执行优化查询

何时使用惰性:

  • 处理大型数据集
  • 复杂查询管道
  • 当只需要某些列/行时
  • 性能至关重要时

惰性评估的好处:

  • 自动查询优化
  • 谓词下推
  • 投影下推
  • 并行执行

有关详细概念,加载references/core_concepts.md

常见操作

选择

选择和操作列:

# 选择特定列
df.select("name", "age")

# 用表达式选择
df.select(
    pl.col("name"),
    (pl.col("age") * 2).alias("double_age")
)

# 选择匹配模式的所有列
df.select(pl.col("^.*_id$"))

过滤

按条件过滤行:

# 单个条件
df.filter(pl.col("age") > 25)

# 多个条件(比使用&更清晰)
df.filter(
    pl.col("age") > 25,
    pl.col("city") == "NY"
)

# 复杂条件
df.filter(
    (pl.col("age") > 25) | (pl.col("city") == "LA")
)

添加列

在保留现有列的同时添加或修改列:

# 添加新列
df.with_columns(
    age_plus_10=pl.col("age") + 10,
    name_upper=pl.col("name").str.to_uppercase()
)

# 并行计算(所有列并行计算)
df.with_columns(
    pl.col("value") * 10,
    pl.col("value") * 100,
)

分组和聚合

分组数据并计算聚合:

# 基本分组
df.group_by("city").agg(
    pl.col("age").mean().alias("avg_age"),
    pl.len().alias("count")
)

# 多个分组键
df.group_by("city", "department").agg(
    pl.col("salary").sum()
)

# 条件聚合
df.group_by("city").agg(
    (pl.col("age") > 30).sum().alias("over_30")
)

有关详细操作模式,加载references/operations.md

聚合和窗口函数

聚合函数

group_by上下文中常见的聚合:

  • pl.len() - 计数行
  • pl.col("x").sum() - 求和值
  • pl.col("x").mean() - 平均值
  • pl.col("x").min() / pl.col("x").max() - 极值
  • pl.first() / pl.last() - 第一个/最后一个值

使用over()的窗口函数

在保留行数的同时应用聚合:

# 将组统计添加到每一行
df.with_columns(
    avg_age_by_city=pl.col("age").mean().over("city"),
    rank_in_city=pl.col("salary").rank().over("city")
)

# 多个分组列
df.with_columns(
    group_avg=pl.col("value").mean().over("category", "region")
)

映射策略:

  • group_to_rows (默认): 保留原始行顺序
  • explode: 更快但将行分组在一起
  • join: 创建列表列

数据I/O

支持格式

Polars支持读取和写入:

  • CSV, Parquet, JSON, Excel
  • 数据库(通过连接器)
  • 云存储 (S3, Azure, GCS)
  • Google BigQuery
  • 多个/分区文件

常见I/O操作

CSV:

# 即时
df = pl.read_csv("file.csv")
df.write_csv("output.csv")

# 惰性(推荐用于大文件)
lf = pl.scan_csv("file.csv")
result = lf.filter(...).select(...).collect()

Parquet(推荐用于性能):

df = pl.read_parquet("file.parquet")
df.write_parquet("output.parquet")

JSON:

df = pl.read_json("file.json")
df.write_json("output.json")

有关全面I/O文档,加载references/io_guide.md

转换

连接

组合DataFrames:

# 内连接
df1.join(df2, on="id", how="inner")

# 左连接
df1.join(df2, on="id", how="left")

# 在不同列名上连接
df1.join(df2, left_on="user_id", right_on="id")

连接

堆叠DataFrames:

# 垂直(堆叠行)
pl.concat([df1, df2], how="vertical")

# 水平(添加列)
pl.concat([df1, df2], how="horizontal")

# 对角线(不同模式并集)
pl.concat([df1, df2], how="diagonal")

透视和反透视

重塑数据:

# 透视(宽格式)
df.pivot(values="sales", index="date", columns="product")

# 反透视(长格式)
df.unpivot(index="id", on=["col1", "col2"])

有关详细转换示例,加载references/transformations.md

Pandas迁移

Polars提供比pandas显著的性能改进和更干净的API。关键差异:

概念差异

  • 无索引: Polars仅使用整数位置
  • 严格类型: 无静默类型转换
  • 惰性评估: 通过LazyFrame可用
  • 默认并行: 操作自动并行化

常见操作映射

操作 Pandas Polars
选择列 df["col"] df.select("col")
过滤 df[df["col"] > 10] df.filter(pl.col("col") > 10)
添加列 df.assign(x=...) df.with_columns(x=...)
分组 df.groupby("col").agg(...) df.group_by("col").agg(...)
窗口 df.groupby("col").transform(...) df.with_columns(...).over("col")

关键语法模式

Pandas顺序(慢):

df.assign(
    col_a=lambda df_: df_.value * 10,
    col_b=lambda df_: df_.value * 100
)

Polars并行(快):

df.with_columns(
    col_a=pl.col("value") * 10,
    col_b=pl.col("value") * 100,
)

有关全面迁移指南,加载references/pandas_migration.md

最佳实践

性能优化

  1. 对大数据集使用惰性评估:

    lf = pl.scan_csv("large.csv")  # 不要使用read_csv
    result = lf.filter(...).select(...).collect()
    
  2. 避免在热点路径中使用Python函数:

    • 保持在表达式API内以并行化
    • 仅在必要时使用.map_elements()
    • 偏好原生Polars操作
  3. 对非常大数据使用流式处理:

    lf.collect(streaming=True)
    
  4. 尽早只选择需要的列:

    # 好: 尽早选择列
    lf.select("col1", "col2").filter(...)
    
    # 坏: 先过滤所有列
    lf.filter(...).select("col1", "col2")
    
  5. 使用适当的数据类型:

    • 对低基数字符串使用分类
    • 适当整数大小 (i32 vs i64)
    • 对时间数据使用日期类型

表达式模式

条件操作:

pl.when(condition).then(value).otherwise(other_value)

跨多列的列操作:

df.select(pl.col("^.*_value$") * 2)  # 正则模式

空值处理:

pl.col("x").fill_null(0)
pl.col("x").is_null()
pl.col("x").drop_nulls()

有关额外最佳实践和模式,加载references/best_practices.md

资源

此技能包含全面参考文档:

references/

  • core_concepts.md - 对表达式、惰性评估和类型系统的详细解释
  • operations.md - 所有常见操作的全面指南与示例
  • pandas_migration.md - 从pandas到Polars的完整迁移指南
  • io_guide.md - 所有支持格式的数据I/O操作
  • transformations.md - 连接、连接、透视和重塑操作
  • best_practices.md - 性能优化提示和常见模式

当用户需要特定主题的详细信息时,加载这些参考。