Polars 中使用 pl.when 创建字符串新列的正确方法

5次阅读

Polars 中使用 pl.when 创建字符串新列的正确方法

在 Polars 中,pl.when().then().otherwise() 无法直接传入字符串字面量(如 ‘String a’),否则会被误解析为列名;必须用 pl.lit() 将其显式包装为字面量表达式,才能正确生成字符串新列。

在 polars 中,`pl.when().then().otherwise()` 无法直接传入字符串字面量(如 `’string a’`),否则会被误解析为列名;必须用 `pl.lit()` 将其显式包装为字面量表达式,才能正确生成字符串新列。

Polars 的表达式系统严格区分“列引用”与“字面量值”。当你在 .then(‘string a’) 中直接传入字符串时,Polars 默认将其视为对名为 ‘string a’ 的列的引用,而非一个静态字符串值——这正是 ColumnNotFoundError: string a 错误的根本原因。

✅ 正确做法是:使用 pl.lit() 显式声明字面量。pl.lit() 会将 Python 值(如字符串、数字、布尔值等)转换为 Polars 表达式中的常量节点,确保其在计算中被当作标量值处理。

以下是一个完整可运行的示例:

import polars as pl  # 构造测试数据 df = pl.DataFrame({     "score": [85, 42, 96, 58] })  # ✅ 正确:使用 pl.lit 包装字符串 result = df.with_columns(     pl.when(pl.col("score") >= 60)       .then(pl.lit("string a"))       .otherwise(pl.lit("string b"))       .alias("new_column") )  print(result)

输出:

shape: (4, 2) ┌───────┬────────────┐ │ score ┆ new_column │ │ ---   ┆ ---        │ │ i64   ┆ str        │ ╞═══════╪════════════╡ │ 85    ┆ string a   │ │ 42    ┆ string b   │ │ 96    ┆ string a   │ │ 58    ┆ string b   │ └───────┴────────────┘

? 关键注意事项

  • pl.lit() 不仅适用于字符串,也适用于 int、Floatbool、None、date、datetime 等任意 Python 字面量;
  • 若需动态拼接字符串(如基于多列生成),应改用 pl.format() 或 pl.concat_str(),而非嵌套多个 pl.lit;
  • 在链式条件中(如连续多个 .when().then()),每个 .then() 和最终 .otherwise() 都需独立包裹 pl.lit()(或其它合法表达式);
  • 切勿混淆 pl.lit(“col_name”) 与 pl.col(“col_name”):前者生成字符串 “col_name”,后者引用名为 “col_name” 的列。

? 总结:pl.when 是 Polars 实现条件逻辑的核心表达式构造器,但其 .then() / .otherwise() 分支接收的是 表达式,而非原始 Python 值。牢记「字面量须经 pl.lit() 显式提升」这一原则,即可避免绝大多数类型误解析问题。

text=ZqhQzanResources