Python 第三方库 Pandas 数据分析教程

更新时间：2022年09月21日 08:27:59 作者：孤飞

这篇文章主要介绍了Python 第三方库 Pandas 数据分析教程的相关资料,需要的朋友可以参考下

Pandas导入

Pandas是Python第三方库，提供高性能易用数据类型和分析工具 Pandas基于NumPy实现，常与NumPy和Matplotlib一同使用两个数据类型：Series, DataFrame

import pandas as pd

Pandas与numpy的比较

Pandas的Series类型

由一组数据及与之相关的数据索引组成

Pandas的Series类型的创建

Series类型可以由如下类型创建：

Python列表，index与列表元素个数一致标量值，index表达Series类型的尺寸 Python字典，键值对中的“键”是索引，index从字典中进行选择操作 ndarray，索引和数据都可以通过ndarray类型创建其他函数，range()函数等

Pandas的Series类型的基本操作

Series类型包含index和values两个部分：

index 获得索引 values 获得数据

由ndarray或字典创建的Series，操作类似ndarray或字典类型

pandas的DataFrame类型

DataFrame类型由共用相同索引的一组列组成

DataFrame是一个表格型的数据类型，每列值类型可以不同

DataFrame既有行索引、也有列索引

DataFrame常用于表达二维数据，但可以表达多维数据

DataFrame是二维带“标签”数组

DataFrame基本操作类似Series，依据行列索引

pandas的DataFrame类型创建

DataFrame类型可以由如下类型创建：

二维ndarray对象由一维ndarray、列表、字典、元组或Series构成的字典 Series类型其他的DataFrame类型

Pandas的Dataframe类型的基本操作

pandas索引操作

pandas重新索引

reindex()能够改变或重排Series和DataFrame索引

reindex(index=None, columns=None, …)的参数

pandas删除索引

drop()能够删除Series和DataFrame指定行或列索引

pandas数据运算

算术运算根据行列索引，补齐后运算，运算默认产生浮点数补齐时缺项填充NaN (空值) 二维和一维、一维和零维间为广播运算采用+ ‐ * /符号进行的二元运算产生新的对象

算术运算

不同维度间为广播运算，一维Series默认在轴1参与运算使用运算方法可以令一维Series参与轴0运算

Pandas数据分析

pandas导入与导出数据

导入数据

pd.read_csv(filename)：从CSV文件导入数据

pd.read_table(filename)：从限定分隔符的文本文件导入数据

pd.read_excel(filename)：从Excel文件导入数据

pd.read_sql(query, connection_object)：从SQL表/库导入数据

pd.read_json(json_string)：从JSON格式的字符串导入数据

pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格

pd.read_clipboard()：从你的粘贴板获取内容，并传给read_table()

pd.DataFrame(dict)：从字典对象导入数据，Key是列名，Value是数据

导出数据

df.to_csv(filename)：导出数据到CSV文件

df.to_excel(filename)：导出数据到Excel文件

df.to_sql(table_name, connection_object)：导出数据到SQL表

df.to_json(filename)：以Json格式导出数据到文本文件

Pandas查看、检查数据

df.head(n)：查看DataFrame对象的前n行

df.tail(n)：查看DataFrame对象的最后n行

df.shape()：查看行数和列数

http://df.info()：查看索引、数据类型和内存信息

df.describe()：查看数值型列的汇总统计

s.value_counts(dropna=False)：查看Series对象的唯一值和计数

df.apply(pd.Series.value_counts)：查看DataFrame对象中每一列的唯一值和计数

Pandas数据选取

df[col]：根据列名，并以Series的形式返回列

df[[col1, col2]]：以DataFrame形式返回多列

s.iloc[0]：按位置选取数据

s.loc['index_one']：按索引选取数据

df.iloc[0,:]：返回第一行

df.iloc[0,0]：返回第一列的第一个元素

pandas数据清理

df.columns = ['a','b','c']：重命名列名

pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组

pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组

df.dropna()：删除所有包含空值的行

df.dropna(axis=1)：删除所有包含空值的列

df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行

df.fillna(x)：用x替换DataFrame对象中所有的空值

s.astype(float)：将Series中的数据类型更改为float类型

s.replace(1,'one')：用‘one’代替所有等于1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={'old_name': 'new_ name'})：选择性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

Pandas数据处理

df.columns = ['a','b','c']：重命名列名

pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组

pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组

df.dropna()：删除所有包含空值的行

df.dropna(axis=1)：删除所有包含空值的列

df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行

df.fillna(x)：用x替换DataFrame对象中所有的空值

s.astype(float)：将Series中的数据类型更改为float类型

s.replace(1,'one')：用‘one’代替所有等于1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={'old_name': 'new_ name'})：选择性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

df[df[col] > 0.5]：选择col列的值大于0.5的行

df.sort_values(col1)：按照列col1排序数据，默认升序排列

df.sort_values(col2, ascending=False)：按照列col1降序排列数据

df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据

df.groupby(col)：返回一个按列col进行分组的Groupby对象

df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象

df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表

df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值

data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean

data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

Pandas数据合并

df1.append(df2)：将df2中的行添加到df1的尾部

df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部

df1.join(df2,on=col1,how='inner')：对df1的列和df2的列执行SQL形式的join

Pandas数据统计

df.describe()：查看数据值列的汇总统计

df.mean()：返回所有列的均值

df.corr()：返回列与列之间的相关系数

df.count()：返回每一列中的非空值的个数

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位数

df.std()：返回每一列的标准差

到此这篇关于Python 第三方库 Pandas 数据分析教程的文章就介绍到这了,更多相关Python Pandas 数据分析内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python实现监听键盘
这篇文章主要为大家详细介绍了python实现监听键盘，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-04-04
Pandas空值处理全攻略
在进行数据分析和建模时,空值的存在会给结果带来很大影响,本文主要介绍了Pandas空值处理全攻略,具有一定的参考价值,感兴趣的可以了解一下
2024-04-04
python中pandas操作apply返回多列的实现
本文主要介绍了python中pandas操作apply返回多列的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-08-08
Python输出PowerPoint（ppt）文件中全部文字信息的方法
这篇文章主要介绍了Python输出PowerPoint（ppt）文件中全部文字信息的方法,涉及Python通过windows中com组件操作ppt的相关技巧,非常具有实用价值,需要的朋友可以参考下
2015-04-04
如何使用pyinstaller打包多个和单个python文件详解
最近需要将python写的程序打包分发给其他同事使用,下面这篇文章主要给大家介绍了关于如何使用pyinstaller打包多个和单个python文件的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-06-06
6种Python中提高文本处理效率的技巧分享
这篇文章主要为大家介绍了一些Python中用得上的高级技巧,大大提高了文本处理效率,可以让大家轻松驾驭文本处理,下面就跟随小编一起来了解下吧
2025-02-02
使用Python保存网页上的图片或者保存页面为截图
这篇文章主要介绍了使用Python保存网页上的图片或者保存页面为截图的方法,保存网页图片主要用到urllib模块,即简单的爬虫原理,需要的朋友可以参考下
2016-03-03
pytorch-神经网络拟合曲线实例
今天小编就为大家分享一篇pytorch-神经网络拟合曲线实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
深入了解Python中的序列解包
在Python中,序列解包（Sequence Unpacking）指的是将一个序列（或任何可迭代的对象）解包,并将得到的值存储在一系列变量中,下面我们就来学习一下Python中序列解包的用法吧
2023-10-10
Python实现学生管理系统的代码(JSON模块)
这篇文章主要介绍了Python实现学生管理系统的代码(JSON模块),本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-04-04