Pandas的AB BA类型数据框去重复

 更新时间:2023年05月25日 10:09:46   作者:Victor  
这篇文章主要为大家介绍了Pandas的AB BA类型数据框去重复实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

正文

从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)

df.drop_duplicates()
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Pdcl2  Gnai3
# Gm4340  Gm3376
# Gm3376  Gm4340

而且drop_duplicates不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。

字符串的比较大小

字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如

"Gnai3">"Pdcl2"
# False

axis=1是对每一行循环,总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3  Pdcl2 Pdcl2-Gnai3
# Pdcl2  Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376

对temp的行去重复

这个时候再对temp的行去重复,就可以了

df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376

最后再删除temp列

df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Gm4340  Gm3376

以上就是Pandas的AB BA类型数据框去重复的详细内容,更多关于Pandas数据框去重复的资料请关注脚本之家其它相关文章!

相关文章

  • Python中qutip用法示例详解

    Python中qutip用法示例详解

    这篇文章主要给大家介绍了关于Python中qutip用法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • TensorFlow人工智能学习按索引取数据及维度变换详解

    TensorFlow人工智能学习按索引取数据及维度变换详解

    这篇文章主要为大家介绍了TensorFlow人工智能学习按索引取数据及维度变换的示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-11-11
  • 使用Python设置Word文档中表格的格式的方法

    使用Python设置Word文档中表格的格式的方法

    本文介绍了使用PyQt5和python-docx库开发的图形化应用程序,用于对Word文档中的表格进行格式化设置,该应用程序提供文件操作、基本格式设置、条件格式设置、边框和背景设置等功能,支持跨平台运行,并提供详细的错误处理和用户反馈,需要的朋友可以参考下
    2025-12-12
  • Python3实现并发检验代理池地址的方法

    Python3实现并发检验代理池地址的方法

    这篇文章主要介绍了Python3实现并发检验代理池地址的方法,实例分析了Python3基于线程的代理检验操作相关技巧,需要的朋友可以参考下
    2016-09-09
  • Python+numpy实现矩阵的行列扩展方式

    Python+numpy实现矩阵的行列扩展方式

    今天小编就为大家分享一篇Python+numpy实现矩阵的行列扩展方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python去除字典键中空格的多种方法

    Python去除字典键中空格的多种方法

    本文介绍了Python中去除字典键空格的多种方法,文章中描述了四种不同的方法,包括建立新词典、编辑现有词典、使用词典理解以及递归函数,感兴趣的可以了解一下
    2025-12-12
  • 对PyQt5的输入对话框使用(QInputDialog)详解

    对PyQt5的输入对话框使用(QInputDialog)详解

    今天小编就为大家分享一篇对PyQt5的输入对话框使用(QInputDialog)详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python输出数组中指定元素的所有索引示例

    python输出数组中指定元素的所有索引示例

    今天小编就为大家分享一篇python输出数组中指定元素的所有索引示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python使用Virtualenv进行虚拟环境管理的详细步骤

    Python使用Virtualenv进行虚拟环境管理的详细步骤

    Virtualenv是一个Python环境管理工具,它允许开发者在不同的项目之间独立创建和管理各自的Python环境,通过virtualenv,你可以为每个项目安装特定版本的Python解释器以及项目的依赖库,本文给大家介绍了Python使用Virtualenv进行虚拟环境管理的详细步骤
    2024-09-09
  • pytorch 6 batch_train 批训练操作

    pytorch 6 batch_train 批训练操作

    这篇文章主要介绍了pytorch 6 batch_train 批训练操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05

最新评论