DataFrame数据框模糊查询与去重方式

更新时间：2024年09月10日 14:38:05 作者：呀～吼

数据框模糊查询通常使用contains函数和正则表达式来实现,可以查询以某个字符开头、包含或结尾的数据,若数据类型不一致可能会报错,需统一为str类型,数据框去重则通过drop_duplicates函数实现,可指定列进行去重,并有多种处理重复值的方式

1.数据框模糊查询

数据框查询使用contains函数+正则表达式来实现。

语法格式如下：

data[data.列名.str.contains()]

1.1查询以某某开头的数据

data[data.列名.str.contains('^某某')]

1.2查询包含某某的数据

data[data.列名.str.contains('某某')]

1.3查询以某某结尾的数据

data[data.列名.str.contains('某某$')]

上述DataFrame模糊查询是针对某列数据元素格式全为str格式，方可使用该方法！

若遇到下面这样的报错：

ValueError: Cannot mask with non-boolean array containing NA / NaN values

可能某列数据元素格式不全是str格式，可能存在int格式等等，因此把某列的数据格式统一成str格式就可以了！

解决方法如下：

data['列名']=data['列名'].apply(str)#把非字符串格式改为字符串格式

1.4多条件查询

data[data.source.str.contains('某某|某某1')]

1.5对条件查询结果进行删除

data[-data.source.str.contains('某某|某某1')]

2.数据框去重

数据框去重使用drop_duplicates函数可以按某列去重，也可以按多列去重。

语法格式如下：

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

参数解析：

DataFrame：待去重的数据框。
subset：用来指定特定的列。根据指定的列对数据框去重。默认值为None，即DataFrame中一行元素全部相同时才去除。
keep：对重复值的处理方式。可选参数有first,last,False。默认值first，即保留重复数据第一条。若选last为保留重复数据的最后一条，若选False则删除全部重复数据。
inplace：是否在原数据集上操作。默认值False，返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重，没有返回值。

2.1按某列去重

data.drop_duplicates(subset='列名',keep='first',inplace=False)

2.2按多列去重

data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python 定义分数类实现其基本运算(示例代码)
这篇文章主要介绍了Python 定义分数类实现其基本运算,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-06-06
python中扫描条形码和二维码的实现代码
pyzbar模块是Python一个开源库用于扫描和识别二维码信息。这篇文章主要介绍了python中扫描条形码和二维码的示例代码,需要的朋友可以参考下
2021-10-10
Python TensorFlow 2.6获取MNIST数据的示例代码
这篇文章主要介绍了Python TensorFlow 2.6获取MNIST数据的的相关示例,文中有详细的代码示例供大家参考,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
2024-04-04
Python编程之Re模块下的函数介绍
这篇文章主要介绍了Python编程之Re模块下的函数介绍，还是比较不错的，这里分享给大家，供需要的朋友参考。
2017-10-10
Python实现将多张图片合成视频并加入背景音乐
这篇文章主要为大家介绍了如何利用Python实现将多张图片合成mp4视频，并加入背景音乐。文中的示例代码讲解详细，感兴趣的小伙伴可以了解一下
2022-04-04
python函数传参意义示例详解
这篇文章主要为大家介绍了关于python函数传参的意义示例详解，有需要的朋友可以借鉴参考下，希望可以加深各位同学对Python传参的理解
2021-10-10
Python中函数的定义、调用及作用说明
Python函数可通过def定义,lambda声明,支持缺省参数和不定长参数（*号,仅一个且在最后）,调用时可指定参数顺序,函数可作为类方法、局部变量或高阶函数参数/返回值
2025-07-07
Python selenium 自动化脚本打包成一个exe文件(推荐)
这篇文章主要介绍了Python selenium 自动化脚本打包成一个exe文件，本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-01-01
opencv3/C++ 平面对象识别&透视变换方式
今天小编就为大家分享一篇opencv3/C++ 平面对象识别&透视变换方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
Python数组条件过滤filter函数使用示例
数组条件过滤简洁实现方式，使用filter函数，实现一个条件判断函数即可，示例代码如下
2014-07-07