Python数据清洗与处理实战教程_实用技巧与案例解析

13次阅读

python数据清洗需识别脏数据模式、选合适工具并避免重复劳动;pandas为主力,配合numpy、re、datetime等库;常见脏数据包括空值、重复行、格式混乱、异常值、编码错误;清洗前用df.info()、df.sample()、df.nunique()探查数据;缺失值按性质处理,文本用str+正则清理,时间字段标准化并衍生特征;清洗后保存中间结果便于回溯。

Python数据清洗与处理实战教程_实用技巧与案例解析

Python数据清洗与处理不是写几个函数就完事,关键在识别脏数据的模式、选择合适工具、避免重复劳动。pandas是主力,但配合numpy、re、datetime等库才能覆盖真实场景中的各种“意外”。

识别常见脏数据类型,对症下药

脏数据往往有固定表现形式:空值(None、NaN、空字符串、”NULL”)、重复行、格式混乱(日期写成”2023/01/01″和”2023-01-01″混用)、异常值(年龄999、价格-5)、编码错误(中文乱码、utf-8与gbk混用)。清洗前先用df.info()看整体结构,用df.sample(10)抽样观察原始形态,再用df.nunique()检查字段唯一性——比如“用户ID”若不唯一,大概率存在重复或录入错误。

高效处理缺失值的实用策略

别一上来就用dropna()删光。先区分缺失性质:是随机丢失(可均值/中位数填充),还是系统性缺失(如新上线功能导致某列全空,应保留并标记为“未启用”)。常用操作包括:

  • df[‘age’].fillna(df[‘age’].median(), inplace=True) —— 数值型用中位数更抗异常值干扰
  • df[‘category’].fillna(‘Unknown’, inplace=True) —— 分类型补占位符,后续建模时可作为独立类别
  • df[‘date’] = pd.to_datetime(df[‘date’], errors=’coerce’) —— 强制转日期,失败变NaT,再统一用fillna(pd.timestamp(‘1970-01-01’))

用正则和str方法精准清理文本字段

地址、姓名、评论这类字段最易藏坑。pandas的str访问器配合正则能批量解决:

立即学习Python免费学习笔记(深入)”;

  • df[‘phone’] = df[‘phone’].str.replace(r’D’, ”, Regex=True) —— 去掉所有非数字字符,统一为11位纯数字
  • df[’email’] = df[’email’].str.lower().str.strip() —— 统一小写+去首尾空格,避免同一邮箱因大小写被当不同用户
  • df[‘comment’] = df[‘comment’].str.replace(r'[^ws]’, ‘ ‘, regex=True).str.replace(r’s+’, ‘ ‘, regex=True).str.strip() —— 清除标点、合并多余空格、去首尾空格

时间字段标准化与特征衍生

时间不是只为了排序。从原始时间戳可挖出业务信号:

  • df[‘order_time’] = pd.to_datetime(df[‘order_time’]) —— 确保是datetime64类型
  • df[‘hour’] = df[‘order_time’].dt.hour —— 提取小时,分析下单高峰
  • df[‘is_weekend’] = df[‘order_time’].dt.dayofweek >= 5 —— 判断是否周末,用于分组统计
  • df[‘days_since_last’] = df.groupby(‘user_id’)[‘order_time’].diff().dt.days.fillna(0) —— 计算用户两次下单间隔天数

清洗不是终点,而是让后续分析、建模、可视化真正可信的起点。每次清洗后建议保存中间结果(如df.to_parquet(‘cleaned_v1.parquet’)),方便回溯和协作。不复杂但容易忽略。

text=ZqhQzanResources