如何在 Pandas 中清除列名或列数据中的时间戳(仅保留日期部分)

1次阅读

如何在 Pandas 中清除列名或列数据中的时间戳(仅保留日期部分)

本文介绍如何在读取 excel 文件后,针对被自动识别为 datetime 类型的列(尤其是日期型列头或数据列),正确移除时间部分、仅保留日期(如 2022-10-31 或 datetime.date 对象),并指出常见误区与最佳实践。

本文介绍如何在读取 excel 文件后,针对被自动识别为 datetime 类型的列(尤其是日期型列头或数据列),正确移除时间部分、仅保留日期(如 2022-10-31 或 datetime.date 对象),并指出常见误区与最佳实践。

在使用 pandas.read_excel() 读取 .xlsm 文件时,若列头(如 ‘20221031’)被 Excel 误存为日期格式,或数据列本身是日期型,Pandas 常将其解析为带时间戳的 datetime64[ns] 类型(例如 2022-10-31 00:00:00)。此时,若仅需日期部分(忽略 00:00:00),关键在于区分列名(headers)处理列数据处理——原问题中用户实际想处理的是列名(column headers),但代码却作用于列数据(df[column]),导致逻辑错位。

✅ 正确做法:按需选择 dt.date() 或 dt.strftime()

若目标是将 列数据中的 datetime 值转为纯日期对象(datetime.date),推荐使用:

for column in df.columns:     if pd.api.types.is_datetime64_any_dtype(df[column]):         df[column] = df[column].dt.date  # 注意:.date 是属性,非方法;无需加括号

⚠️ 注意:.dt.date 是属性(返回 datetime.date 对象),不是方法;写成 .dt.date() 会报错。原答案中 df[column].dt.date() 是错误写法,应为 df[column].dt.date。

若需保持字符串格式(如 ‘2022-10-31’),则用:

df[column] = df[column].dt.strftime('%Y-%m-%d')  # ✅ 此写法本身正确,但需确保列确实为 datetime 类型

但该方法不适用于列名(headers) ——因为 df.columns 是 Index 对象,不支持 .dt 访问器

? 如何真正处理「列头中的时间戳」?

原问题本质是:Excel 列头 20221031 被读取为 2022-10-31 00:00:00。这是因为 Pandas 尝试自动解析列名中的数字为日期。解决方案是在读取阶段就禁用自动类型推断:

# 推荐:读取时强制将列名视为字符串 df = pd.read_excel("file.xlsm", header=0, dtype=str)  # ⚠️ dtype=str 仅影响数据列,不影响列名  # 更可靠的方式:先读取列名,再手动清洗 df = pd.read_excel("file.xlsm", header=None)  # 不解析 header headers = df.iloc[0].apply(     lambda x: x.date() if pd.api.types.is_datetime64_any_dtype(pd.Series([x])) else x ) # 或更稳妥地对原始 header 字符串做正则/格式化 headers = df.iloc[0].astype(str).str.replace(r's+00:00:00$', '', regex=True) df.columns = headers df = df.drop(df.index[0]).reset_index(drop=True)

? 关键注意事项

  • df.columns 是 Index,不能直接调用 .dt;需单独处理列名。
  • pd.api.types.is_datetime64_any_dtype() 检查的是数据类型,对列名无效。
  • .dt.date 返回 datetime.date 对象(不可参与数值计算,但内存小、语义清晰);.dt.strftime() 返回字符串(易读,但失去日期运算能力)。
  • 若后续需日期运算,建议保留 datetime64[ns] 类型,仅显示时格式化(如 df.style.format({col: ‘{:%Y-%m-%d}’}))。

✅ 总结

  • 数据列去时间戳 → 用 df[col].dt.date(得 date 对象)或 df[col].dt.strftime(‘%Y-%m-%d’)(得字符串);
  • 列头含时间戳 → 必须在 read_excel() 后立即清洗 df.columns,或改用 header=None 手动解析;
  • 避免在非 datetime 列上误用 .dt,否则触发 AttributeError。

通过精准区分“列数据”与“列名”的处理路径,并选用语义明确的 .dt.date,即可稳健实现日期精简目标。

text=ZqhQzanResources