Python Pandas数据分析的使用完整教学

 更新时间:2026年06月03日 09:30:09   作者:河阿里  
本文介绍了高效数据处理的全流程技术方案,涵盖数据接入、诊断、清洗、转换及时序分析五大环节,文中的示例代码讲解详细,有需要的小伙伴可以了解下

一、 数据接入层:高效 I/O 与现代数据格式

在企业中,数据来源五花八门(CSV、Excel、SQL数据库、数据湖Parquet)。“如何把数据快速且省内存地读进来” 是分析的第一步。

1.1 传统格式的“避坑”读取

import pandas as pd
import numpy as np

# 新手做法:直接读取,导致内存撑爆或类型推断错误
# df = pd.read_csv('huge_orders.csv')

# 专业做法:精准控制列、类型与分块
# 1. 使用 usecols 只读需要的列
# 2. 使用 dtype 预先指定类型,避免 object 和 int64 的内存浪费
# 3. 使用 parse_dates 直接解析时间
dtypes = {
    'order_id': 'int32',
    'user_id': 'int32',
    'status': 'category',  # 低基数枚举字段使用 category
    'amount': 'float32'
}

df = pd.read_csv(
    'huge_orders.csv',
    usecols=['order_id', 'user_id', 'status', 'amount', 'order_time'],
    dtype=dtypes,
    parse_dates=['order_time']
)

1.2 超大文件的分块处理 (Chunking)

当 CSV 文件达到几十 GB,超出单机内存时,使用 chunksize 进行流式处理。

chunk_iter = pd.read_csv('billion_rows.csv', chunksize=100_000)
total_revenue = 0

for chunk in chunk_iter:
    # 在每个 chunk 上进行聚合操作,最后合并结果
    total_revenue += chunk['amount'].sum()

1.3 拥抱现代数据湖格式:Parquet

强烈建议:在内部流转大量数据时,彻底抛弃 CSV,改用 Parquet。它支持列式存储、压缩率极高,且完美保留数据类型

# 写入 Parquet (使用 pyarrow 引擎)
df.to_parquet('orders_clean.parquet', engine='pyarrow', compression='snappy')

# 读取 Parquet (Pandas 2.0+ 推荐开启 PyArrow 后端)
df_arrow = pd.read_parquet('orders_clean.parquet', dtype_backend='pyarrow')

二、 数据诊断层:快速探索与质量评估 (EDA)

拿到数据后,不要急于建模或画图,先给数据做“全身体检”。

2.1 一键生成数据质量诊断报告

def diagnose_dataframe(df: pd.DataFrame) -> pd.DataFrame:
    """数据质量诊断函数"""
    diag = pd.DataFrame({
        'Dtype': df.dtypes,
        'Non_Null': df.count(),
        'Null_Count': df.isnull().sum(),
        'Null_Rate(%)': (df.isnull().sum() / len(df) * 100).round(2),
        'Unique_Count': df.nunique(),
        'Memory_MB': df.memory_usage(deep=True) / (1024**2)
    })
    return diag.sort_values('Null_Rate(%)', ascending=False)

# 调用
diagnose_dataframe(df)

2.2 数值与分布的快速概览

# 查看数值型统计量,并调整显示精度
pd.set_option('display.float_format', lambda x: '%.2f' % x)
print(df.describe(percentiles=[.05, .25, .5, .75, .95, .99])) # 关注长尾分布

# 查看类别型字段的基数和Top频率
print(df.describe(include=['category', 'object']))

三、 数据清洗层:脏数据处理方案

数据清洗占据了分析师 70% 的时间。我们需要向量化、自动化的清洗策略。

3.1 缺失值的高级处理

不要无脑 dropna(),要根据业务逻辑处理。

# 1. 业务规则填充:例如“退款金额”缺失代表未退款,填0
df['refund_amount'] = df['refund_amount'].fillna(0)

# 2. 分组填充:用该用户的历史均值填充缺失的评分
df['user_score'] = df.groupby('user_id')['user_score'].transform(
    lambda x: x.fillna(x.mean())
)

# 3. 时间序列插值:对于连续的传感器/财务数据,使用线性或样条插值
df['daily_revenue'] = df['daily_revenue'].interpolate(method='spline', order=2)

3.2 异常值检测与截断 (Winsorization)

在计算均值或训练模型前,必须处理“羊毛党”或“测试订单”产生的极端值。

def clip_outliers_iqr(series: pd.Series, factor=1.5) -> pd.Series:
    """基于 IQR 的异常值截断(盖帽法)"""
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - factor * IQR
    upper_bound = Q3 + factor * IQR
    return series.clip(lower=lower_bound, upper=upper_bound)

df['amount_clean'] = clip_outliers_iqr(df['amount'])

3.3 字符串的向量化正则提取

从杂乱的文本中提取结构化信息(如从地址中提取省份,从备注中提取优惠券码)。

# 假设 df['remark'] 包含类似 "使用优惠券:VIP2026, 免邮" 的文本
# ❌ 慢速做法:df['remark'].apply(lambda x: re.search(...))
# ✅ 向量化做法:
df['coupon_code'] = df['remark'].str.extract(r'优惠券:([A-Z0-9]+)')

# 清理隐藏字符并统一小写
df['city'] = df['city'].str.strip().str.lower().str.replace(r'\s+', ' ', regex=True)

四、 数据转换层:重塑、聚合与多表关联

这是 Pandas 最强大的核心区域,决定了你能否将“明细数据”转化为“业务洞察”。

4.1 优雅的条件筛选:query()

query() 不仅语法接近 SQL,而且在处理大数据框时,由于底层使用 numexpr内存效率远高于布尔索引

# 筛选:高价值、已完成、特定城市的订单
target_cities = ['北京', '上海', '广州', '深圳']

# 使用 @ 引用外部变量
df_filtered = df.query(
    "amount > 1000 and status == 'completed' and city in @target_cities"
)

4.2 分组聚合的终极形态:命名聚合

Pandas 0.25+ 引入的命名聚合,让代码具备极强的可读性,直接输出宽表。

user_stats = df.groupby('user_id').agg(
    total_orders=('order_id', 'count'),
    total_spend=('amount', 'sum'),
    avg_spend=('amount', 'mean'),
    first_order=('order_time', 'min'),
    last_order=('order_time', 'max')
).reset_index()

# 计算 RFM 模型中的时间间隔特征
user_stats['recency_days'] = (pd.Timestamp('2026-05-27') - user_stats['last_order']).dt.days

4.3 数据重塑:长宽表转换

  • melt (宽转长):将多列指标融合为一列,方便可视化(如 Seaborn/Matplotlib)。
  • pivot_table (长转宽):生成业务报表。
# 宽转长:将 Jan, Feb, Mar 三列销售额转为一列
df_long = pd.melt(
    df_wide, 
    id_vars=['store_id', 'region'], 
    value_vars=['Jan_Sales', 'Feb_Sales', 'Mar_Sales'],
    var_name='month', 
    value_name='sales'
)

# 长转宽:生成 地区 x 月份 的交叉报表
report = pd.pivot_table(
    df_long, 
    values='sales', 
    index='region', 
    columns='month', 
    aggfunc='sum', 
    fill_value=0,
    margins=True # 添加总计行/列
)

4.4 多表关联的“防爆”

在大规模数据分析中,merge 导致数据行数翻倍(笛卡尔积)是最常见的生产事故

# ✅ 务必使用 validate 参数验证关联键的唯一性
# 'm:1' 表示左表多对一右表,如果右表 key 不唯一,直接报错拦截!
df_final = pd.merge(
    orders, 
    users, 
    on='user_id', 
    how='left',
    validate='m:1', 
    suffixes=('_order', '_user')
)

五、 时序分析层:商业时间序列处理

电商、金融、SaaS 等行业,时间序列是数据的灵魂。

5.1 时间重采样 (Resample)

将不规则的交易流水,聚合为标准的日/周/月报表。

# 确保索引是 DatetimeIndex
df_time = df.set_index('order_time')

# 按日重采样,计算每日总GMV和订单数
daily_report = df_time.resample('D').agg(
    gmv=('amount', 'sum'),
    orders=('order_id', 'count')
).fillna(0) # 补齐没有交易的日期

5.2 滑动窗口与滞后特征 (Rolling & Shift)

用于计算移动平均线(MA)、同比/环比增长率。

# 1. 7日移动平均 GMV
daily_report['gmv_ma7'] = daily_report['gmv'].rolling(window=7).mean()

# 2. 计算日环比增长率 (今日 / 昨日 - 1)
daily_report['gmv_dod'] = daily_report['gmv'].pct_change(periods=1)

# 3. 计算周同比 (今日 / 7天前 - 1)
daily_report['gmv_wow'] = daily_report['gmv'].pct_change(periods=7)

六、 性能优化层:突破 Pandas 内存与速度瓶颈

当数据量超过 500 万行,Pandas 往往会显得笨重。掌握以下技巧,能让你的代码提速 10x ~ 100x

6.1 拥抱 Pandas 2.x 的 PyArrow 后端

这是 Pandas 历史上最伟大的更新。 PyArrow 提供了零拷贝(Zero-copy)读取、更低的内存占用以及原生的缺失值(<NA>)支持。

# 开启全局 PyArrow 后端 (Pandas 2.0+)
pd.options.mode.dtype_backend = "pyarrow"

# 或者在读取时指定
df = pd.read_csv('data.csv', engine='pyarrow', dtype_backend='pyarrow')
# 此时字符串不再是低效的 object,而是 string[pyarrow],内存直降 70%!

6.2 Copy-on-Write (CoW) 机制

Pandas 2.2 默认开启(3.0 将强制)的 CoW 机制,彻底解决了“链式赋值警告(SettingWithCopyWarning)”和隐式内存复制问题。

# 开启 CoW
pd.options.mode.copy_on_write = True

# 现在,切片操作是懒加载的(视图),只有当你真正修改切片数据时,才会发生内存拷贝。
subset = df[df['amount'] > 100]
subset['new_col'] = 1  # 安全,不会触发警告,也不会意外修改原 df

6.3 消灭apply,走向向量化

apply 本质上是 Python 的 for 循环,极慢。永远优先寻找向量化替代方案。

# 场景:根据金额划分等级 (低、中、高)

# ❌ 极慢的 apply
def get_level(x):
    if x < 100: return 'Low'
    elif x < 1000: return 'Mid'
    else: return 'High'
df['level'] = df['amount'].apply(get_level)

# ✅ 向量化方案 1:np.select (推荐,逻辑清晰)
conditions = [df['amount'] < 100, df['amount'] < 1000]
choices = ['Low', 'Mid']
df['level'] = np.select(conditions, choices, default='High')

# ✅ 向量化方案 2:pd.cut (适用于连续数值分箱)
df['level_bin'] = pd.cut(df['amount'], bins=[0, 100, 1000, np.inf], labels=['Low', 'Mid', 'High'])

七、 工程实践层:链式编程与代码规范

在大型项目中,代码的可读性和可维护性与运行效率同等重要。推荐使用链式操作(Method Chaining),让数据处理像流水线一样清晰。

7.1 链式操作与pipe函数

def drop_outliers(df: pd.DataFrame, col: str) -> pd.DataFrame:
    """自定义清洗管道"""
    limit = df[col].quantile(0.99)
    return df[df[col] <= limit]

# 一气呵成的数据流水线
final_df = (
    pd.read_csv('raw_data.csv', parse_dates=['time'])
    .query("status == 'success'")
    .assign(
        # 在链中直接创建新列
        revenue = lambda x: x['price'] * x['qty'],
        year_month = lambda x: x['time'].dt.to_period('M')
    )
    .pipe(drop_outliers, col='revenue')  # 接入自定义函数
    .groupby('year_month')
    .agg(total_rev=('revenue', 'sum'))
    .reset_index()
)

7.2 代码规范 Checklist

  1. 禁止使用 inplace=True:它不仅不能节省内存,还会破坏链式编程,且在 CoW 机制下已被逐步废弃。
  2. 警惕 object 类型:读取数据后,第一时间将字符串转为 stringcategory,将大整数降级为 int32
  3. 隔离业务逻辑:将复杂的 groupby 或清洗逻辑封装为独立的函数,通过 pipe 调用,便于单元测试。
  4. 大表关联先聚合:永远不要拿两张千万级的明细表直接 merge,先在子表 groupby 聚合到合适的粒度,再进行关联。

到此这篇关于Python Pandas数据分析的使用完整教学的文章就介绍到这了,更多相关Python Pandas数据分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 利用Python实现Excel报表自动化的操作指南

    利用Python实现Excel报表自动化的操作指南

    在职场中,数据分析的终极目标往往是生成一份清晰、专业的报表,数据分析完成,却要花费大量时间手工制图,制作出的报表枯燥无味,只有密密麻麻的数字,缺乏可视化图表的直观冲击力,今天,我将带你进入Python报表自动化的终极世界,如何利用Python实现Excel报表自动化
    2025-11-11
  • Python pygame派生精灵和精灵组创建敌机

    Python pygame派生精灵和精灵组创建敌机

    这篇文章主要为大家介绍了Python pygame派生精灵和精灵组创建敌机示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-08-08
  • 简单谈谈python中的语句和语法

    简单谈谈python中的语句和语法

    下面小编就为大家带来一篇简单谈谈python中的语句和语法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • Django celery异步任务实现代码示例

    Django celery异步任务实现代码示例

    这篇文章主要介绍了Django celery异步任务实现代码示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python如何实现Markdown记账记录转Excel存储

    Python如何实现Markdown记账记录转Excel存储

    这篇文章主要为大家详细介绍了Python如何实现Markdown记账记录转Excel存储功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-03-03
  • python使用openpyxl库读写Excel表格的方法(增删改查操作)

    python使用openpyxl库读写Excel表格的方法(增删改查操作)

    这篇文章主要介绍了python使用openpyxl库读写Excel表格的方法(增删改查操作),本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-05-05
  • python中elasticsearch_dsl模块的使用方法

    python中elasticsearch_dsl模块的使用方法

    这篇文章主要介绍了python中elasticsearch_dsl模块的使用方法,elasticsearch-dsl是基于elasticsearch-py封装实现的,提供了更简便的操作elasticsearch的方法
    2022-09-09
  • Matplotlib中文乱码的3种解决方案

    Matplotlib中文乱码的3种解决方案

    当我们用matplotlib作图时,往往会发现中文的文字变成了小方块,我在绘制决策树的时候就碰到了这个问题。下面这篇文章主要给大家总结介绍了关于Matplotlib中文乱码的3种解决方案,需要的朋友可以参考下
    2018-11-11
  • pandas获取某列最大值的所有数据的两种方法

    pandas获取某列最大值的所有数据的两种方法

    本文主要介绍了pandas获取某列最大值的所有数据实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-07-07
  • python如何删除文件中重复的字段

    python如何删除文件中重复的字段

    这篇文章主要为大家详细介绍了python如何删除文件中重复的字段,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-07-07

最新评论