Pandas的AB BA类型数据框去重复

 更新时间:2023年05月25日 10:09:46   作者:Victor  
这篇文章主要为大家介绍了Pandas的AB BA类型数据框去重复实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)

df.drop_duplicates()
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Pdcl2  Gnai3
# Gm4340  Gm3376
# Gm3376  Gm4340

而且drop_duplicates不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。

字符串的比较大小

字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如

"Gnai3">"Pdcl2"
# False

axis=1是对每一行循环,总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3  Pdcl2 Pdcl2-Gnai3
# Pdcl2  Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376

对temp的行去重复

这个时候再对temp的行去重复,就可以了

df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376

最后再删除temp列

df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Gm4340  Gm3376

以上就是Pandas的AB BA类型数据框去重复的详细内容,更多关于Pandas数据框去重复的资料请关注脚本之家其它相关文章!

相关文章

  • Python利用PaddleOCR制作个搜题小工具

    Python利用PaddleOCR制作个搜题小工具

    PaddleOCR是一个基于百度飞桨的OCR工具库,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。本文将利用PaddleOCR开发一个搜题小工具,感兴趣的可以了解一下
    2022-06-06
  • python cs架构实现简单文件传输

    python cs架构实现简单文件传输

    这篇文章主要为大家详细介绍了python cs架构实现简单文件传输,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Python标准库内置函数complex介绍

    Python标准库内置函数complex介绍

    这篇文章主要介绍了Python标准库内置函数complex介绍,本文先是讲解了complex的作用和使用注意,然后给出了使用示例,需要的朋友可以参考下
    2014-11-11
  • PyCharm配置anaconda环境的步骤详解

    PyCharm配置anaconda环境的步骤详解

    PyCharm是一款很好用很流行的python编辑器。Anaconda通过管理工具包、开发环境、Python版本,大大简化了你的工作流程。今天通过本文给大家分享PyCharm配置anaconda环境,感兴趣的朋友一起看看吧
    2020-07-07
  • plt.figure()参数使用详解及运行演示

    plt.figure()参数使用详解及运行演示

    这篇文章主要介绍了plt.figure()参数使用详解及运行演示,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Flask接收上传图片方法实现

    Flask接收上传图片方法实现

    本文主要介绍了Flask接收上传图片方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • Pandas 中的 drop_duplicates()详解

    Pandas 中的 drop_duplicates()详解

    Pandas 中的 drop_duplicates() 函数用于从 DataFrame 中删除重复的行,该函数有一些参数,允许你进行不同方式的重复行处理,本文给大家介绍Pandas 中的 drop_duplicates(),感兴趣的朋友跟随小编一起看看吧
    2023-09-09
  • Python+Appium实现自动抢微信红包

    Python+Appium实现自动抢微信红包

    不知从何时开始微信红包横空出世,对于网速和手速慢的人只能在一旁观望,做为python的学习者就是要运用编程解决生活和工作上的事情。于是我用python解决我们的手速问题python实现自动抢微信红包,至于网速慢得那就只能自己花钱提升了。
    2021-05-05
  • Python编程实现tail-n查看日志文件的方法

    Python编程实现tail-n查看日志文件的方法

    这篇文章主要介绍了Python编程实现tail-n查看日志文件的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • 超级详细实用的pycharm常用快捷键

    超级详细实用的pycharm常用快捷键

    本文详细总结了Pycharm的常用快捷键,下文介绍使用方法和场景, 并不需要记忆这些快捷键, 你只需要知道有这些快捷键, 再需要用的时候查看一下, 用的多了自然也就记住了,需要的朋友可以参考下
    2021-05-05

最新评论