DataFrame数据框模糊查询与去重方式

 更新时间:2024年09月10日 14:38:05   作者:呀~吼  
数据框模糊查询通常使用contains函数和正则表达式来实现,可以查询以某个字符开头、包含或结尾的数据,若数据类型不一致可能会报错,需统一为str类型,数据框去重则通过drop_duplicates函数实现,可指定列进行去重,并有多种处理重复值的方式

1.数据框模糊查询

数据框查询使用contains函数+正则表达式来实现。

语法格式如下:

data[data.列名.str.contains()]

1.1查询以某某开头的数据

data[data.列名.str.contains('^某某')]

1.2查询包含某某的数据

data[data.列名.str.contains('某某')]

1.3查询以某某结尾的数据

data[data.列名.str.contains('某某$')]

上述DataFrame模糊查询是针对某列数据元素格式全为str格式,方可使用该方法!

若遇到下面这样的报错:

ValueError: Cannot mask with non-boolean array containing NA / NaN values

可能某列数据元素格式不全是str格式,可能存在int格式等等,因此把某列的数据格式统一成str格式就可以了!

解决方法如下:

data['列名']=data['列名'].apply(str)#把非字符串格式改为字符串格式

1.4多条件查询

data[data.source.str.contains('某某|某某1')]

1.5对条件查询结果进行删除

data[-data.source.str.contains('某某|某某1')]

2.数据框去重

数据框去重使用drop_duplicates函数可以按某列去重,也可以按多列去重。

语法格式如下:

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

参数解析:

  • DataFrame:待去重的数据框。
  • subset:用来指定特定的列。根据指定的列对数据框去重。默认值为None,即DataFrame中一行元素全部相同时才去除。
  • keep:对重复值的处理方式。可选参数有first,last,False。默认值first,即保留重复数据第一条。若选last为保留重复数据的最后一条,若选False则删除全部重复数据。
  • inplace:是否在原数据集上操作。默认值False,返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重,没有返回值。

2.1按某列去重

data.drop_duplicates(subset='列名',keep='first',inplace=False)

2.2按多列去重

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python中对二维列表中一维列表的调用方法

    python中对二维列表中一维列表的调用方法

    在本文里小编给大家整理的是关于python中对二维列表中一维列表的调用方法,正在学习的朋友们可以参考下。
    2020-06-06
  • 详解pandas数据合并与重塑(pd.concat篇)

    详解pandas数据合并与重塑(pd.concat篇)

    这篇文章主要介绍了详解pandas数据合并与重塑(pd.concat篇),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • PyTorch模型保存与加载实例详解

    PyTorch模型保存与加载实例详解

    大家都知道pytorch的模型和参数是分开的,可以分别保存或加载模型和参数,这篇文章主要给大家介绍了关于PyTorch模型保存与加载的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • 从零学python系列之数据处理编程实例(一)

    从零学python系列之数据处理编程实例(一)

    本文目的:用一个实例总结学习到的with语句,函数,列表推导,集合,排序,字符分割等内容
    2014-05-05
  • python安装virtualenv虚拟环境步骤图文详解

    python安装virtualenv虚拟环境步骤图文详解

    这篇文章主要介绍了python安装virtualenv虚拟环境步骤,本文通过图文并茂的形式给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • python groupby 函数 as_index详解

    python groupby 函数 as_index详解

    今天小编就为大家分享一篇python groupby 函数 as_index详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • 关于python中的setup.py

    关于python中的setup.py

    distutils 的精髓在于编写 setup.py,它是模块分发与安装的指导文件,那么如何编写 setup.py 呢?这里面的内容非常多,我会在本文给大家详细讲解,对python setup.py相关知识感兴趣的朋友一起看看吧
    2022-08-08
  • Python实现网络端口转发和重定向的方法

    Python实现网络端口转发和重定向的方法

    这篇文章主要介绍了Python实现网络端口转发和重定向的方法,结合实例形式分析了Python基于threading和socket模块实现端口转发与重定向的具体操作技巧,需要的朋友可以参考下
    2016-09-09
  • 关于pip安装opencv-python遇到的问题

    关于pip安装opencv-python遇到的问题

    这篇文章主要介绍了关于pip安装opencv-python遇到的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Python之多线程爬虫抓取网页图片的示例代码

    Python之多线程爬虫抓取网页图片的示例代码

    本篇文章主要介绍了Python之多线程爬虫抓取网页图片的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-01-01

最新评论