标题：Pandas对比两个客户数据表并按区域分组统计变动明细（含姓名列表）

14次阅读

本文详解如何使用pandas对比两个时间点的客户数据表，按zone/region/district三级分组，完整统计客户数量变化（转入、转出、新增、流失），并精准聚合对应客户姓名列表。

在客户运营分析中，常需追踪跨周期的客户地理分布变动——例如某月初（df1）与月末（df2）客户所属的 Zone→Region→District 层级是否发生变化。仅统计数量变化远远不够，业务方更关注“谁转走了”“谁新来了”“谁转入本区”，因此必须将客户姓名以列表形式聚合到对应分组下。

核心思路分为三步：识别变动类型 → 按目标维度分组聚合姓名 → 合并所有维度结果。关键在于正确区分四类客户行为：

Transfer In（转入）：客户在 df2 中出现在某区，但 df1 中不在该区（可能来自其他区或为新客）；
Transfer Out（转出）：客户在 df1 中位于某区，但 df2 中已不在该区（去往他区或流失）；
New Customer（新增）：客户仅存在于 df2，df1 中无记录；
Leaver（流失）：客户仅存在于 df1，df2 中已消失。

⚠️ 注意：df1.merge(df2, on=’cust_name’) 是识别同名客户的基础，但必须配合 suffixes 区分来源字段，并用 apply 判断 District_df1 != District_df2 才能准确捕获“区内转出/转入”（而非单纯增删）。对于纯新增/流失客户，需用 ~isin() 独立筛选，避免被 merge 过滤掉。

以下为可直接运行的完整实现（已适配问题中的数据结构）：

import pandas as pd  # 构建示例数据 df1 = pd.DataFrame({     'cust_name': ['cxa', 'cxb', 'cxc', 'cxd', 'cxe', 'cxf'],     'cust_id': ['c1001', 'c1002', 'c1003', 'c1004', 'c1006', 'c1007'],     'town_id': ['t001', 't002', 't001', 't003', 't002', 't002'],     'Zone': ['A', 'A', 'A', 'B', 'A', 'A'],     'Region': ['A1', 'A2', 'A1', 'B1', 'A2', 'A2'],     'District': ['A1a', 'A2a', 'A1a', 'B1a', 'A2b', 'A2b'] })  df2 = pd.DataFrame({     'cust_name': ['cxb', 'cxc', 'cxd', 'cxe', 'cxf'],     'cust_id': ['c1002', 'c1003', 'c1004', 'c1006', 'c1007'],     'town_id': ['t002', 't001', 't003', 't002', 't002'],     'Zone': ['A', 'A', 'A', 'A', 'C'],     'Region': ['A2', 'A1', 'A1', 'A2', 'C1'],     'District': ['A2a', 'A1a', 'A1a', 'A2a', 'C1a'] })  # 步骤1：识别转入与转出客户（仅针对共同客户） merged = df1.merge(df2, on='cust_name', suffixes=('_df1', '_df2')) # 标记：District变化即为转移（非新增/流失） transfers = merged[merged['District_df1'] != merged['District_df2']].copy() transfers['TransferIn_Zone'] = transfers['Zone_df2'] transfers['TransferIn_Region'] = transfers['Region_df2'] transfers['TransferIn_District'] = transfers['District_df2'] transfers['TransferOut_Zone'] = transfers['Zone_df1'] transfers['TransferOut_Region'] = transfers['Region_df1'] transfers['TransferOut_District'] = transfers['District_df1']  # 提取转入客户（按df2位置分组） transfer_in = transfers[['TransferIn_Zone', 'TransferIn_Region', 'TransferIn_District', 'cust_name']] transfer_in.columns = ['Zone', 'Region', 'District', 'NamesTransferIn'] transfer_in_grouped = transfer_in.groupby(['Zone', 'Region', 'District'])['NamesTransferIn'].apply(list).reset_index()  # 提取转出客户（按df1位置分组） transfer_out = transfers[['TransferOut_Zone', 'TransferOut_Region', 'TransferOut_District', 'cust_name']] transfer_out.columns = ['Zone', 'Region', 'District', 'NamTransferOut'] transfer_out_grouped = transfer_out.groupby(['Zone', 'Region', 'District'])['NamTransferOut'].apply(list).reset_index()  # 步骤2：识别纯新增与纯流失客户 leavers = df1[~df1['cust_name'].isin(df2['cust_name'])][['cust_name', 'Zone', 'Region', 'District']] leavers_grouped = leavers.groupby(['Zone', 'Region', 'District'])['cust_name'].apply(list).reset_index().rename(columns={'cust_name': 'NamLeaver'})  new_customers = df2[~df2['cust_name'].isin(df1['cust_name'])][['cust_name', 'Zone', 'Region', 'District']] new_customers_grouped = new_customers.groupby(['Zone', 'Region', 'District'])['cust_name'].apply(list).reset_index().rename(columns={'cust_name': 'NamNewCustomer'})  # 步骤3：合并全部结果（outer join确保不遗漏任何地理单元） result = pd.merge(transfer_in_grouped, transfer_out_grouped, on=['Zone','Region','District'], how='outer') result = pd.merge(result, leavers_grouped, on=['Zone','Region','District'], how='outer') result = pd.merge(result, new_customers_grouped, on=['Zone','Region','District'], how='outer')  # 填充空值为清晰空字符串（非NaN） result = result.fillna('').replace({'': []})  print(result)

✅ 输出说明：

每行代表一个 (Zone, Region, District) 组合；
各 Names* 列均为 list 类型（如 [‘cxd’]），便于后续展开或导出；
若某类变动不存在，则对应列为 []（空列表），语义明确且利于程序判断。

? 进阶提示：

如需生成 Initial count/Final Count 等数值列，可在各分组后添加 .size().reset_index(name=’count’) 并合并；
对于超大数据集，建议用 pd.concat([df1, df2], keys=[‘df1′,’df2’]) 替代多次 merge，提升性能；
姓名列表若需转为逗号分隔字符串，可追加 .apply(Lambda x: ‘, ‘.join(x) if x else ”)。

此方案兼顾逻辑严谨性与工程可维护性，是客户地理流动分析的典型范式。

发表于：web3.0

2026-01-12

# app # count # if # Lambda # pandas # 大数据 # 字符串 # 数据结构

复制链接

币安下载(Binance App) 币安交易所手机最新版本v3.8.0

什么是网格交易？优缺点、策略与操作技巧详解

OKX欧易官方网址入口欧易交易所最新APP v6.154.0安全下载

一文详细了解比特币（BTC）要避免陷入熊市，必须出现的三大关键因素

企业终端HTML5怎么禁_企业终端禁HTML5策略【方案】

标题：Pandas对比两个客户数据表并按区域分组统计变动明细（含姓名列表）

mysql查询优化中缓存与索引的结合应用

如何优雅地处理 functools.reduce 在空迭代器上的异常？

html5play函数播放花屏咋处理_html5play函数花屏修复法【步骤】

Laravel如何使用Contracts契约_Laravel 接口注入开发模式【核心】

PHP怎样复制现有表结构_PHP复制表结构快捷法【复用】

html语句嵌套怎么入门_从p套span学起快速上手【介绍】

mysql如何设计学生管理系统_mysql项目实战教程

如何在Golang中配置虚拟化环境_Golang虚拟机与容器环境配置

怎么用XPath选取所有叶子节点

composer怎么处理递归依赖_composer解决复杂依赖嵌套方法