详解如何利用Python进行客户分群分析

更新时间：2023年02月24日 09:13:16 作者：Python数据挖掘

每个电子商务数据分析师必须掌握的一项数据聚类技能，如果你是一名在电子商务公司工作的数据分析师，从客户数据中挖掘潜在价值，来提高客户留存率很可能就是你的工作任务之一。这篇就来告诉你如何将客户分成不同的群组，并在一段时间内观察每个群组的留存率

导入数据和python库

import pandas as pd  
import matplotlib.pyplot as plt  
import seaborn as sns  
df = pd.read_csv('sales_2018-01-01_2019-12-31.csv')  
df

分离新老客户

first_time = df.loc[df['customer_type'] == 'First-time',]  
final = df.loc[df['customer_id'].isin(first_time['customer_id'].values)]

在这里，不能简单地选择df.loc[df['customer_type']]，因为在这个数据中，在customer_type列下，First_time指的是新客户，而Returning指的是老客户。因此，如果我在2019年12月31日第一次购买，数据会显示我在2019年12月31日是新客户，但在我第二次、第三次…时是返回客户。同期群分析着眼于新客户和他们的后续购买行为。因此，如果我们简单地使用df.loc[df['customer_type']=='First-time',]，我们就会忽略新客户的后续购买，这不是分析同期群行为的正确方法。

因此，这里所需要做的是，首先创建一个所有第一次的客户列表，并将其存储为first_time。然后从原始客户数据框df中只选择那些ID在first_time客户组内的客户。通过这样做，我们可以确保我们获得的数据只有第一次的客户和他们后来的购买行为。

现在，我们删除customer_type列，因为它已经没有必要了。同时，将日期列转换成正确的日期时间格式

final = final.drop(columns = ['customer_type'])  
final['day']= pd.to_datetime(final['day'], dayfirst=True)

按客户ID排序，然后是日期

final = final.drop(columns = ['customer_type'])  
final['day']= pd.to_datetime(final['day'], dayfirst=True)

定义一些函数

def purchase_rate(customer_id):  
    purchase_rate = [1]  
    counter = 1  
    for i in range(1,len(customer_id)):  
          if customer_id[i] != customer_id[i-1]:  
                 purchase_rate.append(1)  
                 counter = 1  
          else:  
                 counter += 1  
                 purchase_rate.append(counter)  
    return purchase_rate  
def join_date(date, purchase_rate):  
    join_date = list(range(len(date)))  
    for i in range(len(purchase_rate)):   
          if purchase_rate[i] == 1:  
                 join_date[i] = date[i]  
          else:  
                 join_date[i] = join_date[i-1]  
    return join_date  
def age_by_month(purchase_rate, month, year, join_month, join_year):  
    age_by_month = list(range(len(year)))  
    for i in range(len(purchase_rate)):  
          if purchase_rate[i] == 1:  
              age_by_month[i] = 0  
          else:  
              if year[i] == join_year[i]:  
                 age_by_month[i] = month[i] - join_month[i]  
              else:  
                 age_by_month[i] = month[i] - join_month[i] + 12*(year[i]-join_year[i])  
     return age_by_month

purchase_rate函数将决定这是否是每个客户的第二次、第三次、第四次购买。
join_date函数允许确定客户加入的日期。
age_by_month函数提供了从客户当前购买到第一次购买的多少个月。

现在输入已经准备好了，接下来创建群组。

创建群组

final['month'] =pd.to_datetime(final['day']).dt.month  
final['Purchase Rate'] = purchase_rate(final['customer_id'])  
final['Join Date'] = join_date(final['day'], final['Purchase Rate'])  
final['Join Date'] = pd.to_datetime(final['Join Date'], dayfirst=True)  
final['cohort'] = pd.to_datetime(final['Join Date']).dt.strftime('%Y-%m')  
final['year'] = pd.to_datetime(final['day']).dt.year  
final['Join Date Month'] = pd.to_datetime(final['Join Date']).dt.month  
final['Join Date Year'] = pd.to_datetime(final['Join Date']).dt.year

final['Age by month'] = age_by_month(final['Purchase Rate'],   
                                     final['month'],  
                                     final['year'],  
                                     final['Join Date Month'],  
                                     final['Join Date Year'])

cohorts = final.groupby(['cohort','Age by month']).nunique()  
cohorts = cohorts.customer_id.to_frame().reset_index()   # convert series to frame  
cohorts = pd.pivot_table(cohorts, values = 'customer_id',index = 'cohort', columns= 'Age by month')  
cohorts.replace(np.nan, '',regex=True)

**如何解释这个表格：**以群组2018-01为例。在2018年1月，有462名新客户。在这462人中，121名客户在2018年2月回来购买，125名在2018年3月购买，以此类推。

转换为群组百分比

for i in range(len(cohorts)-1):  
    cohorts[i+1] = cohorts[i+1]/cohorts[0]  
cohorts[0] = cohorts[0]/cohorts[0]

可视化

cohorts_t = cohorts.transpose()  
cohorts_t[cohorts_t.columns].plot(figsize=(10,5))  
sns.set(style='whitegrid')  
plt.figure(figsize=(20, 15))  
plt.title('Cohorts: User Retention')  
sns.set(font_scale = 0.5) # font size  
sns.heatmap(cohorts, mask=cohorts.isnull(),  
cmap="Blues",  
annot=True, fmt='.01%')  
plt.show()

到此这篇关于详解如何利用Python进行客户分群分析的文章就介绍到这了,更多相关Python客户分群分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python中使用Counter进行字典创建以及key数量统计的方法
今天小编就为大家分享一篇Python中使用Counter进行字典创建以及key数量统计的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python实现购物车购物小程序
这篇文章主要为大家详细介绍了Python实现购物车购物小程序，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-04-04
Scrapy中如何向Spider传入参数的方法实现
这篇文章主要介绍了Scrapy中如何向Spider传入参数的方法实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
使用Pytorch+PyG实现MLP的详细过程
图神经网络是最近 AI 领域最热门的方向之一,下面这篇文章主要给大家介绍了关于使用Pytorch+PyG实现MLP的详细过程,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-03-03
Python实现计算机时长管理程序
这篇文章主要为大家详细介绍了如何使用Python编写一个包含倒计时,密码验证,音频控制,系统进程监控与终止等功能的程序,需要的可以了解下
2025-02-02
详解Python函数式编程—高阶函数
这篇文章主要介绍了Python函数式编程—高阶函数，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-03-03
python处理“&#”开头加数字的html字符方法
在本篇文章里小编给大家整理了关于python如何处理“&#”开头加数字的html字符的相关知识点总结，有兴趣的朋友们学习下。
2019-06-06
Python利用神经网络解决非线性回归问题实例详解
这篇文章主要介绍了Python利用神经网络解决非线性回归问题,结合实例形式详细分析了Python使用神经网络解决非线性回归问题的相关原理与实现技巧,需要的朋友可以参考下
2019-07-07
pytorch加载的cifar10数据集过程详解
这篇文章主要介绍了pytorch加载的cifar10数据集,到底有没有经过归一化,本文对这一问题给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
2023-11-11
python中cryptography库的实现
本文主要介绍了python中cryptography库的实现,包括Fernet、hash、AES、RSA等加密算法的使用,具有一定的参加价值,感兴趣的可以了解一下
2025-01-01