Python Pandas数据分析的使用完整教学
一、 数据接入层:高效 I/O 与现代数据格式
在企业中,数据来源五花八门(CSV、Excel、SQL数据库、数据湖Parquet)。“如何把数据快速且省内存地读进来” 是分析的第一步。
1.1 传统格式的“避坑”读取
import pandas as pd
import numpy as np
# 新手做法:直接读取,导致内存撑爆或类型推断错误
# df = pd.read_csv('huge_orders.csv')
# 专业做法:精准控制列、类型与分块
# 1. 使用 usecols 只读需要的列
# 2. 使用 dtype 预先指定类型,避免 object 和 int64 的内存浪费
# 3. 使用 parse_dates 直接解析时间
dtypes = {
'order_id': 'int32',
'user_id': 'int32',
'status': 'category', # 低基数枚举字段使用 category
'amount': 'float32'
}
df = pd.read_csv(
'huge_orders.csv',
usecols=['order_id', 'user_id', 'status', 'amount', 'order_time'],
dtype=dtypes,
parse_dates=['order_time']
)
1.2 超大文件的分块处理 (Chunking)
当 CSV 文件达到几十 GB,超出单机内存时,使用 chunksize 进行流式处理。
chunk_iter = pd.read_csv('billion_rows.csv', chunksize=100_000)
total_revenue = 0
for chunk in chunk_iter:
# 在每个 chunk 上进行聚合操作,最后合并结果
total_revenue += chunk['amount'].sum()
1.3 拥抱现代数据湖格式:Parquet
强烈建议:在内部流转大量数据时,彻底抛弃 CSV,改用 Parquet。它支持列式存储、压缩率极高,且完美保留数据类型。
# 写入 Parquet (使用 pyarrow 引擎)
df.to_parquet('orders_clean.parquet', engine='pyarrow', compression='snappy')
# 读取 Parquet (Pandas 2.0+ 推荐开启 PyArrow 后端)
df_arrow = pd.read_parquet('orders_clean.parquet', dtype_backend='pyarrow')
二、 数据诊断层:快速探索与质量评估 (EDA)
拿到数据后,不要急于建模或画图,先给数据做“全身体检”。
2.1 一键生成数据质量诊断报告
def diagnose_dataframe(df: pd.DataFrame) -> pd.DataFrame:
"""数据质量诊断函数"""
diag = pd.DataFrame({
'Dtype': df.dtypes,
'Non_Null': df.count(),
'Null_Count': df.isnull().sum(),
'Null_Rate(%)': (df.isnull().sum() / len(df) * 100).round(2),
'Unique_Count': df.nunique(),
'Memory_MB': df.memory_usage(deep=True) / (1024**2)
})
return diag.sort_values('Null_Rate(%)', ascending=False)
# 调用
diagnose_dataframe(df)
2.2 数值与分布的快速概览
# 查看数值型统计量,并调整显示精度
pd.set_option('display.float_format', lambda x: '%.2f' % x)
print(df.describe(percentiles=[.05, .25, .5, .75, .95, .99])) # 关注长尾分布
# 查看类别型字段的基数和Top频率
print(df.describe(include=['category', 'object']))
三、 数据清洗层:脏数据处理方案
数据清洗占据了分析师 70% 的时间。我们需要向量化、自动化的清洗策略。
3.1 缺失值的高级处理
不要无脑 dropna(),要根据业务逻辑处理。
# 1. 业务规则填充:例如“退款金额”缺失代表未退款,填0
df['refund_amount'] = df['refund_amount'].fillna(0)
# 2. 分组填充:用该用户的历史均值填充缺失的评分
df['user_score'] = df.groupby('user_id')['user_score'].transform(
lambda x: x.fillna(x.mean())
)
# 3. 时间序列插值:对于连续的传感器/财务数据,使用线性或样条插值
df['daily_revenue'] = df['daily_revenue'].interpolate(method='spline', order=2)
3.2 异常值检测与截断 (Winsorization)
在计算均值或训练模型前,必须处理“羊毛党”或“测试订单”产生的极端值。
def clip_outliers_iqr(series: pd.Series, factor=1.5) -> pd.Series:
"""基于 IQR 的异常值截断(盖帽法)"""
Q1 = series.quantile(0.25)
Q3 = series.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - factor * IQR
upper_bound = Q3 + factor * IQR
return series.clip(lower=lower_bound, upper=upper_bound)
df['amount_clean'] = clip_outliers_iqr(df['amount'])
3.3 字符串的向量化正则提取
从杂乱的文本中提取结构化信息(如从地址中提取省份,从备注中提取优惠券码)。
# 假设 df['remark'] 包含类似 "使用优惠券:VIP2026, 免邮" 的文本 # ❌ 慢速做法:df['remark'].apply(lambda x: re.search(...)) # ✅ 向量化做法: df['coupon_code'] = df['remark'].str.extract(r'优惠券:([A-Z0-9]+)') # 清理隐藏字符并统一小写 df['city'] = df['city'].str.strip().str.lower().str.replace(r'\s+', ' ', regex=True)
四、 数据转换层:重塑、聚合与多表关联
这是 Pandas 最强大的核心区域,决定了你能否将“明细数据”转化为“业务洞察”。
4.1 优雅的条件筛选:query()
query() 不仅语法接近 SQL,而且在处理大数据框时,由于底层使用 numexpr,内存效率远高于布尔索引。
# 筛选:高价值、已完成、特定城市的订单
target_cities = ['北京', '上海', '广州', '深圳']
# 使用 @ 引用外部变量
df_filtered = df.query(
"amount > 1000 and status == 'completed' and city in @target_cities"
)
4.2 分组聚合的终极形态:命名聚合
Pandas 0.25+ 引入的命名聚合,让代码具备极强的可读性,直接输出宽表。
user_stats = df.groupby('user_id').agg(
total_orders=('order_id', 'count'),
total_spend=('amount', 'sum'),
avg_spend=('amount', 'mean'),
first_order=('order_time', 'min'),
last_order=('order_time', 'max')
).reset_index()
# 计算 RFM 模型中的时间间隔特征
user_stats['recency_days'] = (pd.Timestamp('2026-05-27') - user_stats['last_order']).dt.days
4.3 数据重塑:长宽表转换
melt(宽转长):将多列指标融合为一列,方便可视化(如 Seaborn/Matplotlib)。pivot_table(长转宽):生成业务报表。
# 宽转长:将 Jan, Feb, Mar 三列销售额转为一列
df_long = pd.melt(
df_wide,
id_vars=['store_id', 'region'],
value_vars=['Jan_Sales', 'Feb_Sales', 'Mar_Sales'],
var_name='month',
value_name='sales'
)
# 长转宽:生成 地区 x 月份 的交叉报表
report = pd.pivot_table(
df_long,
values='sales',
index='region',
columns='month',
aggfunc='sum',
fill_value=0,
margins=True # 添加总计行/列
)
4.4 多表关联的“防爆”
在大规模数据分析中,merge 导致数据行数翻倍(笛卡尔积)是最常见的生产事故。
# ✅ 务必使用 validate 参数验证关联键的唯一性
# 'm:1' 表示左表多对一右表,如果右表 key 不唯一,直接报错拦截!
df_final = pd.merge(
orders,
users,
on='user_id',
how='left',
validate='m:1',
suffixes=('_order', '_user')
)
五、 时序分析层:商业时间序列处理
电商、金融、SaaS 等行业,时间序列是数据的灵魂。
5.1 时间重采样 (Resample)
将不规则的交易流水,聚合为标准的日/周/月报表。
# 确保索引是 DatetimeIndex
df_time = df.set_index('order_time')
# 按日重采样,计算每日总GMV和订单数
daily_report = df_time.resample('D').agg(
gmv=('amount', 'sum'),
orders=('order_id', 'count')
).fillna(0) # 补齐没有交易的日期
5.2 滑动窗口与滞后特征 (Rolling & Shift)
用于计算移动平均线(MA)、同比/环比增长率。
# 1. 7日移动平均 GMV daily_report['gmv_ma7'] = daily_report['gmv'].rolling(window=7).mean() # 2. 计算日环比增长率 (今日 / 昨日 - 1) daily_report['gmv_dod'] = daily_report['gmv'].pct_change(periods=1) # 3. 计算周同比 (今日 / 7天前 - 1) daily_report['gmv_wow'] = daily_report['gmv'].pct_change(periods=7)
六、 性能优化层:突破 Pandas 内存与速度瓶颈
当数据量超过 500 万行,Pandas 往往会显得笨重。掌握以下技巧,能让你的代码提速 10x ~ 100x。
6.1 拥抱 Pandas 2.x 的 PyArrow 后端
这是 Pandas 历史上最伟大的更新。 PyArrow 提供了零拷贝(Zero-copy)读取、更低的内存占用以及原生的缺失值(<NA>)支持。
# 开启全局 PyArrow 后端 (Pandas 2.0+)
pd.options.mode.dtype_backend = "pyarrow"
# 或者在读取时指定
df = pd.read_csv('data.csv', engine='pyarrow', dtype_backend='pyarrow')
# 此时字符串不再是低效的 object,而是 string[pyarrow],内存直降 70%!
6.2 Copy-on-Write (CoW) 机制
Pandas 2.2 默认开启(3.0 将强制)的 CoW 机制,彻底解决了“链式赋值警告(SettingWithCopyWarning)”和隐式内存复制问题。
# 开启 CoW pd.options.mode.copy_on_write = True # 现在,切片操作是懒加载的(视图),只有当你真正修改切片数据时,才会发生内存拷贝。 subset = df[df['amount'] > 100] subset['new_col'] = 1 # 安全,不会触发警告,也不会意外修改原 df
6.3 消灭apply,走向向量化
apply 本质上是 Python 的 for 循环,极慢。永远优先寻找向量化替代方案。
# 场景:根据金额划分等级 (低、中、高)
# ❌ 极慢的 apply
def get_level(x):
if x < 100: return 'Low'
elif x < 1000: return 'Mid'
else: return 'High'
df['level'] = df['amount'].apply(get_level)
# ✅ 向量化方案 1:np.select (推荐,逻辑清晰)
conditions = [df['amount'] < 100, df['amount'] < 1000]
choices = ['Low', 'Mid']
df['level'] = np.select(conditions, choices, default='High')
# ✅ 向量化方案 2:pd.cut (适用于连续数值分箱)
df['level_bin'] = pd.cut(df['amount'], bins=[0, 100, 1000, np.inf], labels=['Low', 'Mid', 'High'])
七、 工程实践层:链式编程与代码规范
在大型项目中,代码的可读性和可维护性与运行效率同等重要。推荐使用链式操作(Method Chaining),让数据处理像流水线一样清晰。
7.1 链式操作与pipe函数
def drop_outliers(df: pd.DataFrame, col: str) -> pd.DataFrame:
"""自定义清洗管道"""
limit = df[col].quantile(0.99)
return df[df[col] <= limit]
# 一气呵成的数据流水线
final_df = (
pd.read_csv('raw_data.csv', parse_dates=['time'])
.query("status == 'success'")
.assign(
# 在链中直接创建新列
revenue = lambda x: x['price'] * x['qty'],
year_month = lambda x: x['time'].dt.to_period('M')
)
.pipe(drop_outliers, col='revenue') # 接入自定义函数
.groupby('year_month')
.agg(total_rev=('revenue', 'sum'))
.reset_index()
)
7.2 代码规范 Checklist
- 禁止使用
inplace=True:它不仅不能节省内存,还会破坏链式编程,且在 CoW 机制下已被逐步废弃。 - 警惕
object类型:读取数据后,第一时间将字符串转为string或category,将大整数降级为int32。 - 隔离业务逻辑:将复杂的
groupby或清洗逻辑封装为独立的函数,通过pipe调用,便于单元测试。 - 大表关联先聚合:永远不要拿两张千万级的明细表直接
merge,先在子表groupby聚合到合适的粒度,再进行关联。
到此这篇关于Python Pandas数据分析的使用完整教学的文章就介绍到这了,更多相关Python Pandas数据分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
Python如何实现Markdown记账记录转Excel存储
这篇文章主要为大家详细介绍了Python如何实现Markdown记账记录转Excel存储功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下2025-03-03
python使用openpyxl库读写Excel表格的方法(增删改查操作)
这篇文章主要介绍了python使用openpyxl库读写Excel表格的方法(增删改查操作),本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下2021-05-05
python中elasticsearch_dsl模块的使用方法
这篇文章主要介绍了python中elasticsearch_dsl模块的使用方法,elasticsearch-dsl是基于elasticsearch-py封装实现的,提供了更简便的操作elasticsearch的方法2022-09-09


最新评论