Python数据处理的三个实用技巧分享

 更新时间:2022年04月01日 11:45:01   作者:Python学习与数据挖掘  
数据处理无所不在,掌握常用技巧,事半功倍。这篇文章将使用Pandas开展数据处理分析,总结其中常用、好用的数据分析技巧,感兴趣的可以学习一下

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 怎么使用pipenv管理你的python项目

    怎么使用pipenv管理你的python项目

    本篇文章主要介绍了怎么使用pipenv管理你的python项目,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-03-03
  • Python中用startswith()函数判断字符串开头的教程

    Python中用startswith()函数判断字符串开头的教程

    这篇文章主要介绍了Python中用startswith()函数判断字符串开头的教程,startswith()函数的使用是Python学习中的基础知识,本文列举了一些不同情况下的使用结果,需要的朋友可以参考下
    2015-04-04
  • 解决windows下命令行执行python3失效,会打开应用商店问题

    解决windows下命令行执行python3失效,会打开应用商店问题

    这篇文章主要介绍了解决windows下命令行执行python3失效,会打开应用商店问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Random 在 Python 中的使用方法

    Random 在 Python 中的使用方法

    random() 方法返回随机生成的一个实数,它在[0,1)范围内。这篇文章主要介绍了Random 在 Python 中的使用方法,需要的朋友可以参考下
    2018-08-08
  • Python return函数返回值类型和帮助函数使用教程

    Python return函数返回值类型和帮助函数使用教程

    这篇文章主要为大家介绍了Python return函数返回值类型和帮助函数使用教程详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • 用Python实现流星雨效果的方法详解

    用Python实现流星雨效果的方法详解

    这篇文章主要为大家介绍了Python实现流星雨效果的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助<BR>
    2021-12-12
  • Python实现监视程序的内存使用情况

    Python实现监视程序的内存使用情况

    我们使用Python和它的数据处理库套件进行大量数据处理时候,可能使用了大量的计算资源,那么如何监视程序的内存使用情况就显得尤为重要,下面我们就来了解一下具体实现方法吧
    2023-12-12
  • Django如何实现内容缓存示例详解

    Django如何实现内容缓存示例详解

    缓存对于大家来说应该都不陌生,下面这篇文章主要给大家介绍了关于Django如何实现内容缓存的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-09-09
  • python实现自动网页截图并裁剪图片

    python实现自动网页截图并裁剪图片

    这篇文章主要为大家详细介绍了python实现自动网页截图并裁剪图片,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Python集合基本概念与相关操作实例分析

    Python集合基本概念与相关操作实例分析

    这篇文章主要介绍了Python集合基本概念与相关操作,结合实例形式分析了Python集合的功能、原理、基本使用方法及操作注意事项,需要的朋友可以参考下
    2019-10-10

最新评论