Pandas剔除混合数据中非数字的数据操作

 更新时间:2021年03月26日 08:38:08   作者:zheng_weibin  
这篇文章主要介绍了Pandas剔除混合数据中非数字的数据操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

我们日常拿到的数据,指标字段有时会混入非数字的数据,这时候会影响我们的操作

name height
Hang 180
Ben 145
Cho notknow
XIn 189

比如read_csv读入时,该列会以object形式读入,也不能直接进行计算,不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误

这时候就需要进行数据预处理,清除掉指标值中非数字的数据,这里我以2012_FederalElectionCommission_Database数据为例。

首先读入数据,可以发现提示:Columns (6) have mixed types,这里Columns (6)是指标值混有字符串格式数据

fec = pd.read_csv('P00000001-ALL.csv')
D:\SOFTWARE\Anaconda\lib\site-packages\IPython\core\interactiveshell.py:2717: DtypeWarning: Columns (6) have mixed types. Specify dtype option on import or set low_memory=False.
 interactivity=interactivity, compiler=compiler, result=result)
#先使用str打开数据
fec = pd.read_csv('P00000001-ALL.csv',dtype={'contbr_zip':str})
 
#然后使用str函数isdigit()判断单元格是否全为数字
 
fec_isnum=fec.iloc[:,6].str.isdigit()
 
#得到使用bool索引把全为数字的表格cleaned
 
cleaned = fec[fec_isnum].copy()

补充:pandas如何去掉、过滤数据集中的某些值或者某些行?

在进行数据分析与清理中,我们可能常常需要在数据集中去掉某些异常值。具体来说,看看下面的例子。

0.导入我们需要使用的包

import pandas as pd

pandas是很常用的数据分析,数据处理的包。anaconda已经有这个包了,纯净版python的可以自行pip安装。

1.去掉某些具体值

数据集df中,对于属性appPlatform(最后一列),我们想删除掉取值为2的那些样本。

如何做?非常简单。

import pandas as pd
df[(True-df['appPlatform'].isin([2]))]

当然,有时候我们需要去掉不止一个值,这个时候只需要在isin([])的列表中添加。更具体来说,例如,对于appID这个属性,我们想去掉appID=278和appID=382的样本。

df[(True-df['appID'].isin([278,382]))]

另外,我们有时候并不只是考虑某一列,还需要考虑另外若干列的情况。例如,我们需要过滤掉appPlatform=2而且appID=278和appID=382的样本呢?非常简单。

df[(True-df['appID'].isin([278,382]))&(True-df['appPlatform'].isin([2]))]

其实,在这里我们看到,就是由两部分组成的,第一部分就是appID中等于278和382的,另外一部分就是appPlatform中等于2的。两者取逻辑关系 与(&)

2.过滤掉某个范围的值

上面我们是了解了如何取掉某个具体值,下面,我们要看看如何过滤掉某个范围的值。

对于数据集df,我们想过滤掉creativeID(第一列)中ID值大于10000的样本。

df[df['creativeID']<=10000]

另外,如果要考虑多列的话,其实和上面一样,将两种情况做逻辑与(&)就可以,不过值得注意的是,每个条件要用括号()括起来。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

相关文章

  • python获取天气接口给指定微信好友发天气预报

    python获取天气接口给指定微信好友发天气预报

    这篇文章主要介绍了python获取天气接口给指定微信好友发天气预报的步骤,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-12-12
  • Vs Code中8个好用的python 扩展插件

    Vs Code中8个好用的python 扩展插件

    这篇文章主要介绍了Vs Code中8个好用的python 扩展插件,帮助大家更好的利用vs code进行python开发,感兴趣的朋友可以了解下
    2020-10-10
  • python中的随机函数小结

    python中的随机函数小结

    这篇文章主要介绍了python中的随机函数小结,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-01-01
  • python利用xlsxwriter模块 操作 Excel

    python利用xlsxwriter模块 操作 Excel

    这篇文章主要介绍了python利用xlsxwriter模块 操作 Excel,帮助大家更好的利用python处理表格,提高办公效率,感兴趣的朋友可以了解下
    2020-10-10
  • 使用Python将Exception异常错误堆栈信息写入日志文件

    使用Python将Exception异常错误堆栈信息写入日志文件

    这篇文章主要介绍了使用Python将Exception异常错误堆栈信息写入日志文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • 详解Python验证码识别

    详解Python验证码识别

    这几天在写一个程序的时候需要识别验证码,因为程序是Python写的自然打算用Python进行验证码的识别。下面把实现思路分享在脚本之家平台,感兴趣的朋友可以参考下
    2016-01-01
  • Python中的JMESPath库示例详解

    Python中的JMESPath库示例详解

    这篇文章主要介绍了Python中的JMESPath库示例详解,JMESPath的基本思想是使用类似于XPath的路径表达式来指定要从JSON结构中提取哪些数据,它允许您以一致的方式导航和过滤JSON对象和数组,需要的朋友可以参考下
    2023-09-09
  • python图像处理入门(一)

    python图像处理入门(一)

    这篇文章主要介绍了python图像处理入门,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python中使用ctypes调用so传参设置遇到的问题及解决方法

    python中使用ctypes调用so传参设置遇到的问题及解决方法

    这篇文章主要介绍了python中使用ctypes调用so传参设置,本文较详细的给大家介绍了遇到问题及解决方案,需要的朋友可以参考下
    2019-06-06
  • python 在threading中如何处理主进程和子线程的关系

    python 在threading中如何处理主进程和子线程的关系

    这篇文章主要介绍了python 在threading中如何处理主进程和子线程的关系,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04

最新评论