高效统计180万行数据中城市与犯罪类型的组合频次

12次阅读

本文介绍如何使用pandas高效处理大规模（180万行）结构化文本数据，针对“多值分隔字段”（如london~paris~new york）进行展开与交叉计数，快速生成每个城市的各类犯罪事件频次统计表。

在分析含重复值、多标签字段的大规模日志或调查数据时（如本例中每行可包含多个城市和多种犯罪类型），传统循环+嵌套字典或预定义数组的方式不仅代码冗长、易出错，且性能低下。而Pandas提供了声明式、向量化的方法，兼顾可读性与执行效率——尤其适合处理1.8M行级别的中等规模数据集。

核心思路是：先“展开”（explode）多值字段为原子行，再按组合分组计数。具体步骤如下：

读取数据（假设csv格式，列名为City和Crime）
字符串切分 + 展开：对City和Crime两列分别用str.split(‘~’)转为列表，再调用.explode()将每个列表元素扩展为独立行；
分组聚合：使用groupby([“City”, “Crime”]).size()直接获取每组出现次数（比value_counts()更直观，且返回Series便于后续操作）；
结果格式化（可选）：按需转换为嵌套字典、宽表或自定义字符串格式（如”Murder(2), Theft(1)”）。

✅ 完整可运行示例：

import pandas as pd  # 读取数据（生产环境建议指定 dtype 和 chunksize 优化内存） df = pd.read_csv("cities_crimes.csv", dtype={"City": "string", "Crime": "string"})  # 展开 City 字段 df_exploded = df.assign(City=df["City"].str.split('~')).explode("City") # 展开 Crime 字段（注意：必须在 City 展开后进行，否则笛卡尔爆炸） df_exploded = df_exploded.assign(Crime=df_exploded["Crime"].str.split('~')).explode("Crime")  # 统计每城-每罪组合频次 city_crime_counts = df_exploded.groupby(["City", "Crime"]).size().reset_index(name="count")  # 可选：按 City 分组，聚合为字符串（匹配题目输出格式） result = (     city_crime_counts     .assign(crime_count=lambda x: x["Crime"] + "(" + x["count"].astype(str) + ")")     .groupby("City")["crime_count"]     .apply(lambda x: ", ".join(x))     .reset_index(name="Crimes") )

⚠️ 注意事项：

explode() 要求字段为列表类型，若原始数据含空值（NaN），需提前用 .fillna(“”) 或 .dropna(subset=[“City”, “Crime”]) 处理，否则会引发错误；
若内存受限，可考虑分块读取（chunksize参数）并用defaultdict(Counter)做流式累加；
对于超大规模（>10M行）或实时场景，可进一步结合Dask或Polars提升性能，但Pandas在此量级已足够高效（实测1.8M行通常在10秒内完成）；
最终输出的Crimes列是字符串，如需后续数值分析，建议保留长格式（City, Crime, count三列）而非合并成单字段。

通过此方法，你彻底摆脱了手动维护1200个城市×70种犯罪的索引映射和海量if判断，以清晰、健壮、高性能的方式完成复杂多值关联统计。

发表于：后端开发

2026-01-19

# app # count # csv # if # pandas # 事件 # 字符串 # 循环

复制链接

利用Protocol为可排序且可哈希的参数创建精确类型提示

Golang如何使用迭代器模式遍历集合_Golang迭代器模式集合遍历实践详解

trae里php的precision怎么改_trae改小数精度法【技巧】

Go指针与接口动态类型之间的关系是什么_Go接口动态类型说明

套套这种写法到底有多糟糕？

高效统计180万行数据中城市与犯罪类型的组合频次

如何使用Golang的for循环_Golang for循环使用与优化实践

Golang并发程序调试的常用技巧

为什么不能用等号判断null_mysql语法误区说明

PHP页面白屏是错没隐好吗_PHP白屏隐错检查法【定位】

Go语言channel为什么会死锁_Golang通道使用误区

JavaScript 中使用 rest 参数实现函数的动态参数与函数接收

欧易OKX全球官方网址直连访问欧易交易平台v6.181.1安卓版下载

如何使用 puresnmp 高效批量获取 SNMP 多个 OID 值

如何精确控制 CSS 3D 轮播图中图片之间的间距

如何在Python中生成指定小数位数的等差数值序列