Python数据清洗与处理实战教程_实用技巧与案例解析

13次阅读

python数据清洗需识别脏数据模式、选合适工具并避免重复劳动；pandas为主力，配合numpy、re、datetime等库；常见脏数据包括空值、重复行、格式混乱、异常值、编码错误；清洗前用df.info()、df.sample()、df.nunique()探查数据；缺失值按性质处理，文本用str+正则清理，时间字段标准化并衍生特征；清洗后保存中间结果便于回溯。

Python数据清洗与处理不是写几个函数就完事，关键在识别脏数据的模式、选择合适工具、避免重复劳动。pandas是主力，但配合numpy、re、datetime等库才能覆盖真实场景中的各种“意外”。

识别常见脏数据类型，对症下药

脏数据往往有固定表现形式：空值（None、NaN、空字符串、”NULL”）、重复行、格式混乱（日期写成”2023/01/01″和”2023-01-01″混用）、异常值（年龄999、价格-5）、编码错误（中文乱码、utf-8与gbk混用）。清洗前先用df.info()看整体结构，用df.sample(10)抽样观察原始形态，再用df.nunique()检查字段唯一性——比如“用户ID”若不唯一，大概率存在重复或录入错误。

高效处理缺失值的实用策略

别一上来就用dropna()删光。先区分缺失性质：是随机丢失（可均值/中位数填充），还是系统性缺失（如新上线功能导致某列全空，应保留并标记为“未启用”）。常用操作包括：

df[‘age’].fillna(df[‘age’].median(), inplace=True) —— 数值型用中位数更抗异常值干扰
df[‘category’].fillna(‘Unknown’, inplace=True) —— 分类型补占位符，后续建模时可作为独立类别
df[‘date’] = pd.to_datetime(df[‘date’], errors=’coerce’) —— 强制转日期，失败变NaT，再统一用fillna(pd.timestamp(‘1970-01-01’))

用正则和str方法精准清理文本字段

地址、姓名、评论这类字段最易藏坑。pandas的str访问器配合正则能批量解决：

立即学习“Python免费学习笔记（深入）”；

df[‘phone’] = df[‘phone’].str.replace(r’D’, ”, Regex=True) —— 去掉所有非数字字符，统一为11位纯数字
df[’email’] = df[’email’].str.lower().str.strip() —— 统一小写+去首尾空格，避免同一邮箱因大小写被当不同用户
df[‘comment’] = df[‘comment’].str.replace(r'[^ws]’, ‘ ‘, regex=True).str.replace(r’s+’, ‘ ‘, regex=True).str.strip() —— 清除标点、合并多余空格、去首尾空格

时间字段标准化与特征衍生

时间不是只为了排序。从原始时间戳可挖出业务信号：

df[‘order_time’] = pd.to_datetime(df[‘order_time’]) —— 确保是datetime64类型
df[‘hour’] = df[‘order_time’].dt.hour —— 提取小时，分析下单高峰
df[‘is_weekend’] = df[‘order_time’].dt.dayofweek >= 5 —— 判断是否周末，用于分组统计
df[‘days_since_last’] = df.groupby(‘user_id’)[‘order_time’].diff().dt.days.fillna(0) —— 计算用户两次下单间隔天数

清洗不是终点，而是让后续分析、建模、可视化真正可信的起点。每次清洗后建议保存中间结果（如df.to_parquet(‘cleaned_v1.parquet’)），方便回溯和协作。不复杂但容易忽略。

发表于：php框架

2026-01-02

# ai # date # go # NULL # numpy # pandas # python # Regex # timestamp # 中文乱码 # 字符串 # 工具 # 数据清洗 # 数据类型 # 编码 # 访问器 # 邮箱

复制链接

laravel怎么在模型查询中禁用全局作用域（Global Scopes）_laravel模型查询禁用全局作用域方法

Laravel路由前缀？路由组前缀怎样设置？

javascript性能如何优化_有哪些提升代码效率的技巧【教程】

LinuxCPU亲和性配置_taskset使用技巧解析【教程】

如何捕获和处理Javascript中的错误_怎样编写健壮的Javascript错误处理逻辑？

Python数据清洗与处理实战教程_实用技巧与案例解析

识别常见脏数据类型，对症下药

高效处理缺失值的实用策略

用正则和str方法精准清理文本字段

时间字段标准化与特征衍生

欧易交易所安卓版下载欧易OKX官方最新v7.188.0版

symfony学习成本高吗_剖析symfony对团队的要求【成本】

css如何让字体大小平滑过渡_使用transition-font-size实现动画效果

Go 中的错误处理：Errors are values 模式详解

合约交易中K线周期怎么选择？短线长线有何不同？

SVG的标签怎么用创建箭头

Web Service (SOAP)中的XML请求和响应映射

PHP怎样判断文件修改时间距今_PHP距今时间计算法【时间】

mysql如何进行无停机时间的版本升级_mysql零停机迁移方法

PHP怎么输出arraylist_多维数组如何逐层清晰呈现数据【说明】