Python中的pandas模块详解

更新时间：2023年10月18日 09:45:33 作者：hope_wisdom

在Python中使用pandas模块,需要先安装pandas库,pandas模块是Python编程语言中用于数据处理和分析的强大模块,它提供了许多用于数据操作和清洗的函数,使得数据处理和分析变得更为简单和直观,本文给大家介绍Python pandas模块,感兴趣的朋友跟随小编一起看看吧

概述

在上一节，我们介绍了Python的numpy模块，包括：多维数组、数组索引、数组操作、数学函数、线性代数、随机数生成等内容。在这一节，我们将介绍Python的pandas模块。pandas模块是Python编程语言中用于数据处理和分析的强大模块，它提供了许多用于数据操作和清洗的函数，使得数据处理和分析变得更为简单和直观。

在Python中使用pandas模块，需要先安装pandas库。可以通过pip命令进行安装：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas。安装完成后，就可以在Python脚本中导入pandas模块，并使用其函数和方法了。

Series

Series是一个一维数组，它不仅包含数据，还包含索引。Series可以被看作是一个字典，其中的索引是键，值是数据。每个索引只有一个对应的值，因此Series可以被看作是具有标签化的数值数据。

import pandas as pd
# 创建一个Series
s = pd.Series([1, 2, 3, 4, 5])
# 输出：
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int64
print(s)

上面的示例代码创建了一个包含五个整数的Series，默认情况下，它的索引是从0开始的整数。

当然，我们也可以提供一个列表作为Series的索引和值。

import pandas as pd
# 创建一个带有自定义索引和值的Series
index = ['C', 'S', 'D', 'N', 'P']
s = pd.Series([1, 2, 3, 4, 5], index = index)
# 输出：
# C    1
# S    2
# D    3
# N    4
# P    5
# dtype: int64
print(s)

我们还可以直接使用字典创建带有自定义数据标签的数据，pandas会自动把字典的键作为数据标签，字典的值作为相对应的数据。

import pandas as pd
# 创建一个带有自定义索引和值的Series
s = pd.Series({'C': 1, 'S': 2, 'D': 3, 'N': 4, 'P': 5})
# 输出：
# C    1
# S    2
# D    3
# N    4
# P    5
# dtype: int64
print(s)

如果想访问Series里的数据，也非常简单，直接使用中括号加数据标签的方式即可。

import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
# 访问第二个元素，输出：3
print(s[2])
s = pd.Series({'C': 1, 'S': 2, 'D': 3, 'N': 4, 'P': 5})
# 访问Key值为'D'的元素，输出：3
print(s['D'])

使用Series，结合pandas强大的数据对齐功能，可以让我们快速对数据进行分析和处理。

import pandas as pd
s1 = pd.Series({'Red': 1, 'Blue': 2, 'Green': 3})
s2 = pd.Series({'Red': 100, 'Blue': 200, 'Green': 300})
s = s1 + s2
# 将两个Series进行相加，输出：
# Red      101
# Blue     202
# Green    303
# dtype: int64
print(s)
s1 = pd.Series({'Red': 1, 'Blue': 2, 'Green': 3, 'White': 4})
s2 = pd.Series({'Red': 100, 'Blue': 200, 'Green': 300})
s = s1 + s2
# 数据标签不相同的数据，运算后结果是NaN，输出：
# Blue     202.0
# Green    303.0
# Red      101.0
# White      NaN
# dtype: float64
print(s)
# 数据标签不相同的数据，调用add函数，可以设置默认填充值，输出：
# Blue     202.0
# Green    303.0
# Red      101.0
# White      4.0
# dtype: float64
s = s1.add(s2, fill_value = 0)
print(s)

DataFrame

DataFrame是一个二维的表格型数据结构，类似于Excel或数据库中的表。DataFrame中的数据可以是不同的数据类型，比如：整数、浮点数、字符串、布尔值等。

import pandas as pd
# 创建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 输出：
#    Name  Age
# 0  Jack   20
# 1  Tank   21
# 2  John   19
print(df)

使用DataFrame，我们可以很方便地对表中的行、列进行增删改查等操作。使用df['column_name']可以查看指定列的数据；使用df.iloc[row_number]可以查看指定行的数据；使用df.loc[row_label]可以基于标签访问指定行的数据；使用df[condition]可以筛选出满足条件的数据：使用df['new_column'] = values可以添加一个新列；使用del df['column_name']可以删除一列。

import pandas as pd
# 创建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 输出：
#    Name  Age
# 0  Jack   20
# 1  Tank   21
# 2  John   19
print(df)
df = pd.DataFrame(data, index = ['First', 'Second', 'Third'])
# 指定自定义索引，输出：
#         Name  Age
# First   Jack   20
# Second  Tank   21
# Third   John   19
print(df)
# 访问列数据，输出：
# First     Jack
# Second    Tank
# Third     John
# Name: Name, dtype: object
print(df['Name'])
# 根据行索引访问行数据，输出：
# Name    John
# Age       19
# Name: Third, dtype: object
print(df.iloc[2])
# 根据行标签访问行数据，输出：
# Name    John
# Age       19
# Name: Third, dtype: object
print(df.loc['Third'])
df['Age'] = [22, 18, 20]
# 修改列数据，输出：
#         Name  Age
# First   Jack   22
# Second  Tank   18
# Third   John   20
print(df)
df['Gender'] = ['M', 'F', 'F']
# 新增列数据，输出：
#         Name  Age Gender
# First   Jack   22      M
# Second  Tank   18      F
# Third   John   20      F
print(df)
del df['Gender']
# 删除列数据，输出：
#         Name  Age
# First   Jack   22
# Second  Tank   18
# Third   John   20
print(df)
# 筛选出年龄大于20的数据，输出：
#        Name  Age
# First  Jack   22
print(df[df['Age'] > 20])

数据读取和写入

使用pandas，可以方便地读取和写入各种数据格式，比如：CSV、Excel、SQL数据库等。我们以CSV文件的读写为例，来理解CSV表格数据的读取和写入。

import pandas as pd
# 创建DataFrame
data = {'Name': ['Jack', 'Tank', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
# 将DataFrame写入CSV文件
df.to_csv('output.csv', index = False)

在上面的示例代码中，我们首先创建了一个名为df的DataFrame，然后使用to_csv函数将其写入一个名为output.csv的CSV文件中。我们将index参数设置为False，以避免将DataFrame的索引写入CSV文件。

to_csv函数还有其他一些可选参数，包括：

sep：用于指定CSV文件中的分隔符，默认是逗号。

header：用于指定是否将DataFrame的列名写入CSV文件中，默认为True。

encoding：用于指定文件的编码格式，默认为UTF-8。

compression：用于指定文件的压缩格式，默认为None。

在下面的示例代码中，我们读取了上面保存的名为output.csv的CSV文件，并将其转化为一个pandas DataFrame。

import pandas as pd
# 从CSV文件读取 
df = pd.read_csv('output.csv')
# 输出：
#    Name  Age
# 0  Jack   20
# 1  Tank   21
# 2  John   19
print(df)

read_csv函数还有其他一些可选参数，包括：

sep：指定分隔符，默认为逗号。

header：指定行号作为列名，默认为0。

index_col：将一列或多列设为DataFrame的索引。

usecols：返回的列的子集，可以是一个列表或函数。

dtype：为每一列设置数据类型。

skiprows：跳过指定的行数或行号。

na_values：用于识别空值的字符串或字符串列表。

keep_default_na：是否保留默认的识别空值的字符串。

到此这篇关于 Python中的pandas模块的文章就介绍到这了,更多相关 Python pandas模块内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python manage.py createsuperuser运行错误问题解决
这篇文章主要介绍了python manage.py createsuperuser运行错误,本文给大家分享错误复现及解决方案，感兴趣的朋友一起看看吧
2023-10-10
python接入GoogleAuth的实现
经常会用到GoogleAuth作为二次验证码,本文主要介绍了python接入GoogleAuth的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-08-08
Pytorch pth 格式转ONNX 格式的详细过程
PyTorch 训练的模型，需要在Jetson nano 上部署，jetson 原生提供了TensorRT 的支持，所以一个比较好的方式是把它转换成ONNX 格式，然后在通过ONNX 转换成TensorRT 格式，这篇文章主要介绍了Pytorch pth 格式转ONNX 格式,需要的朋友可以参考下
2023-05-05
基于Python编写一个Markdown转EPUB电子书生成工具
在数字阅读时代,EPUB格式已成为电子书的主流标准,本文将为大家详细介绍如何使用Python和wxPython构建一个简洁实用的Markdown转EPUB转换工具,有需要的小伙伴可以了解下
2026-01-01
Python入门指南之代码注释的三种写法详解
本文详细介绍了Python中的三种代码注释方式及其最佳实践,主要内容包括单行注释（#）,多行注释（'''或"""）和文档字符串（docstring）,感兴趣的小伙伴可以跟随小编一起学习一下
2026-06-06
Django中几种重定向方法
这篇文章主要介绍了Django中几种重定向方法,本文讲解了使用HttpResponseRedirect、redirect、reverse以及配置文件中配置URL等方法,需要的朋友可以参考下
2015-04-04
Python轻松实现添加、隐藏和删除幻灯片的操作详解
Free Spire.Presentation 是一个专业的演示文稿处理工具,下面我们来看看如何使用它实现在 Python 中添加、隐藏和删除幻灯片的使用技巧,让你的 PPT 处理变成快捷且高效
2025-12-12
Python读写文件(文本/二进制)的方法详解与实战
文件操作是 Python 编程中最常见的基础技能之一,本文将带你深入理解 Python 中文件操作的核心方法,例如打开与关闭文件和读取与写入文本文件等,下面我们就来简单介绍一下吧
2025-11-11
Python类和实例的属性机制原理详解
这篇文章主要介绍了Python类和实例的属性机制原理详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-03-03
Matplotlib实战之柱状图绘制详解
柱状图,是一种使用矩形条,对不同类别进行数值比较的统计图表,这篇文章主要为大家详细介绍了如何使用Matplotlib绘制柱状图,需要的可以参考下
2023-08-08

Python中的pandas模块详解

目录

概述

Series

DataFrame

数据读取和写入

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具