python的去重以及数据合并的用法说明

更新时间：2023年02月07日 14:13:06 作者：Just_do_it_2018

这篇文章主要介绍了python的去重以及数据合并的用法说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

python去重及数据合并

drop_dupicates

参数含义：

subset：即表示要去重指定参考的列
keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原来的数据上修改还是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比较数据中的全部列都相同时才能去除，则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()

merge

首先关于连接，从SQL中的可以得知，连接主要分为外连接和内连接：

内连接

内连接是指在两个数据表中，根据其指定合并的列，找到其交集，也就是既在df1中出现，也在df2中出现的数据

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系，因为merge默认的就是内连接

假设如果在df1和df2中的指定要合并的列的列名不一致的话，则需要显式指定根据哪一列进行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列，但是两个的本质是一样的，都是内连接

外连接

外连接可以分为三种，全外连接、左连接和右连接。

全外连接就是保留两个表中指定合并的列关键字的并集，然后在左右两个表中找到相对应的数据进行填充，没有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右连接是保留右表中指定列的所有关键字，然后去左表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左连接是保留左表中指定列的所有关键字，然后去右表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重脚本

可以用来去除字典、漏洞数量等

使用方法，将要去重的部分保存成为csv格式，并命名为all.csv，直接执行后，会在当前目录下生成qc.csv的文件！

#coding:utf-8

ciku=open(r'all.csv','r')   #打开需要去重文件
xieci=open(r'qc.csv','w')   #打开处理后存放的文件
cikus=ciku.readlines() 
list2 = {}.fromkeys(cikus).keys()     #列表去重方法，将列表数据当作字典的键写入字典，依据字典键不可重复的特性去重
i=1
for line in list2:
    if line[0]!=',':
        # print line[0:-1].decode('utf-8').encode('gbk')
        # print  u"writing"+i
        i+=1
        xieci.writelines(line)
xieci.close()

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python Pygame实战之打砖块游戏的实现
这篇文章主要介绍了如何利用Python实现经典的游戏—打砖块。玩家操作一根萤幕上水平的“棒子”，让一颗不断弹来弹去的“球”在撞击作为过关目标消去的“砖块”的途中不会落到萤幕底下。感兴趣的小伙伴可以了解一下
2022-03-03
python使用PIL模块实现给图片打水印的方法
这篇文章主要介绍了python使用PIL模块实现给图片打水印的方法,涉及使用PIL模块操作图片的相关技巧,需要的朋友可以参考下
2015-05-05
PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout方式
这篇文章主要介绍了PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02
python实现新年倒计时实例代码
大家好，本篇文章主要讲的是python实现新年倒计时实例代码，昂星期的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12
python使用matplotlib绘制折线图
这篇文章主要为大家详细介绍了python使用matplotlib绘制折线图，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-04-04
Python实现快速排序的方法详解
这篇文章主要介绍了Python实现快速排序的方法,结合实例形式详细分析了快速排序的思路、原理及Python具体实现技巧与相关操作注意事项,需要的朋友可以参考下
2019-10-10
关于Keras Dense层整理
这篇文章主要介绍了关于Keras Dense层整理，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
Appium+Python实现简单的自动化登录测试的实现
这篇文章主要介绍了Appium+Python实现简单的自动化登录测试的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01
使用pycharm和pylint检查python代码规范操作
这篇文章主要介绍了使用pycharm和pylint检查python代码规范操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
windows端python版本管理工具pyenv-win安装使用
这篇文章主要介绍了如何通过git方式下载和配置pyenv-win,包括下载、克隆仓库、配置环境变量等步骤,同时还详细介绍了如何使用pyenv-win管理Python版本,需要的朋友可以参考下
2025-01-01