python的去重以及数据合并的用法说明

 更新时间:2023年02月07日 14:13:06   作者:Just_do_it_2018  
这篇文章主要介绍了python的去重以及数据合并的用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

python去重及数据合并

drop_dupicates

参数含义:

  • subset:即表示要去重指定参考的列
  • keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原来的数据上修改还是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比较数据中的全部列都相同时才能去除,则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()

merge

首先关于连接,从SQL中的可以得知,连接主要分为外连接和内连接:

内连接

内连接是指在两个数据表中,根据其指定合并的列,找到其交集,也就是既在df1中出现,也在df2中出现的数据

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系,因为merge默认的就是内连接 

假设如果在df1和df2中的指定要合并的列的列名不一致的话,则需要显式指定根据哪一列进行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列,但是两个的本质是一样的,都是内连接

外连接

外连接可以分为三种,全外连接、左连接和右连接。

全外连接就是保留两个表中指定合并的列关键字的并集,然后在左右两个表中找到相对应的数据进行填充,没有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右连接是保留右表中指定列的所有关键字,然后去左表中找到指定列对应的数据进行补充,没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左连接是保留左表中指定列的所有关键字,然后去右表中找到指定列对应的数据进行补充,没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重脚本

可以用来去除字典、漏洞数量等

使用方法,将要去重的部分保存成为csv格式,并命名为all.csv,直接执行后,会在当前目录下生成qc.csv的文件!

#coding:utf-8

ciku=open(r'all.csv','r')   #打开需要去重文件
xieci=open(r'qc.csv','w')   #打开处理后存放的文件
cikus=ciku.readlines() 
list2 = {}.fromkeys(cikus).keys()     #列表去重方法,将列表数据当作字典的键写入字典,依据字典键不可重复的特性去重
i=1
for line in list2:
    if line[0]!=',':
        # print line[0:-1].decode('utf-8').encode('gbk')
        # print  u"writing"+i
        i+=1
        xieci.writelines(line)
xieci.close()

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python Pygame实战之打砖块游戏的实现

    Python Pygame实战之打砖块游戏的实现

    这篇文章主要介绍了如何利用Python实现经典的游戏—打砖块。玩家操作一根萤幕上水平的“棒子”,让一颗不断弹来弹去的“球”在撞击作为过关目标消去的“砖块”的途中不会落到萤幕底下。感兴趣的小伙伴可以了解一下
    2022-03-03
  • python使用PIL模块实现给图片打水印的方法

    python使用PIL模块实现给图片打水印的方法

    这篇文章主要介绍了python使用PIL模块实现给图片打水印的方法,涉及使用PIL模块操作图片的相关技巧,需要的朋友可以参考下
    2015-05-05
  • PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout方式

    PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout方式

    这篇文章主要介绍了PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • python实现新年倒计时实例代码

    python实现新年倒计时实例代码

    大家好,本篇文章主要讲的是python实现新年倒计时实例代码,昂星期的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • python使用matplotlib绘制折线图

    python使用matplotlib绘制折线图

    这篇文章主要为大家详细介绍了python使用matplotlib绘制折线图,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-04-04
  • Python实现快速排序的方法详解

    Python实现快速排序的方法详解

    这篇文章主要介绍了Python实现快速排序的方法,结合实例形式详细分析了快速排序的思路、原理及Python具体实现技巧与相关操作注意事项,需要的朋友可以参考下
    2019-10-10
  • 关于Keras Dense层整理

    关于Keras Dense层整理

    这篇文章主要介绍了关于Keras Dense层整理,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Appium+Python实现简单的自动化登录测试的实现

    Appium+Python实现简单的自动化登录测试的实现

    这篇文章主要介绍了Appium+Python实现简单的自动化登录测试的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • 使用pycharm和pylint检查python代码规范操作

    使用pycharm和pylint检查python代码规范操作

    这篇文章主要介绍了使用pycharm和pylint检查python代码规范操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • windows端python版本管理工具pyenv-win安装使用

    windows端python版本管理工具pyenv-win安装使用

    这篇文章主要介绍了如何通过git方式下载和配置pyenv-win,包括下载、克隆仓库、配置环境变量等步骤,同时还详细介绍了如何使用pyenv-win管理Python版本,需要的朋友可以参考下
    2025-01-01

最新评论