Python 列表筛选数据详解

 更新时间:2021年11月18日 08:49:29   作者:陈年椰子  
这篇文章主要为大家介绍了Python 列表筛选数据,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助

在做数据处理中,常会遇到列表筛选,比如有以下两个列表:

根据上列表中的KEY1 , 筛选下列表的数据,也就是标黄的数据。数量不大的情况,一般就是遍历比较,逻辑简单,几行代码搞掂。

但如果列表达到万,或者百万、千万,那遍历效率就低了。

先构造测试的列表。

# 构造筛选目标列表,确保KEY不重复
n1 = 30000
n1_set = set([random.randint(1,n1)  for n in range(n1)])
n1 = len(n1_set)
list1 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',10))] for n in n1_set]
# 构造待筛选数据列表,确保KEY不重复
n2 = 100000
n2_set = set([random.randint(1,n2)  for n in range(n2)])
n2= len(n2_set)
list2 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',5)),n ] for n in n2_set]

比较遍历、列表生成式+filter 、pandas 的 merge 三种方法效率。

筛选目标18971条, 待处理数据63275条
遍历生成数据 耗时11.591秒 获得数据量 12024
['11080000427', 'eArVD', 4]
filter 耗时11.5秒 获得数据量 12024
['11080000427', 'eArVD', 4]
merge 耗时0.058秒 获得数据量 12024
['11080000427', 'eArVD', 4]
筛选目标189733条, 待处理数据632363条
遍历生成数据 耗时1597.4296秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
filter 耗时1575.0432秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
merge 耗时0.64秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]

经过比较, 直接遍历生成和列表生成式+filter的效率基本一致, pandas 的merge 效率最高。适合大批量数据处理。

上代码

print("筛选目标{}条, 待处理数据{}条".format(n1,n2))
# 直接遍历生成数据,计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = []
for n in list2:
    if n[0] in list_temp:
        list3.append(n)
t2 = time.time()
print("遍历生成数据 耗时{}秒".format(round(t2 - t1, 4)), "获得数据量", len(list3))
print(list3[0])
# 用filter筛选数据,计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = [n for n in filter(lambda x: x[0] in list_temp, list2)]
t2 = time.time()
print("filter 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(list3))
print(list3[0])
# 用pd.merge 筛选数据,计时
t1 = time.time()
df1 = pd.DataFrame(list1, columns=['k1','m1'])
df2 = pd.DataFrame(list2, columns=['k1','m2','n2'])
df3 = pd.merge(df1[['k1']], df2, how='inner', on='k1')
t2 = time.time()
print("merge 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(df3))
print(list(df3.iloc[0]))

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

相关文章

  • python 协程中的迭代器,生成器原理及应用实例详解

    python 协程中的迭代器,生成器原理及应用实例详解

    这篇文章主要介绍了python 协程中的迭代器,生成器原理及应用,结合具体实例形式详细分析了Python协程中的迭代器,生成器概念、原理及应用操作技巧,需要的朋友可以参考下
    2019-10-10
  • python和shell获取文本内容的方法

    python和shell获取文本内容的方法

    今天小编就为大家分享一篇python和shell获取文本内容的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • pytorch DataLoader的num_workers参数与设置大小详解

    pytorch DataLoader的num_workers参数与设置大小详解

    这篇文章主要介绍了pytorch DataLoader的num_workers参数与设置大小详解,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Django使用AJAX调用自己写的API接口的方法

    Django使用AJAX调用自己写的API接口的方法

    这篇文章主要介绍了Django使用AJAX调用自己写的API接口的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-03-03
  • python中字典取最大值的应用方式

    python中字典取最大值的应用方式

    这篇文章主要介绍了python中字典取最大值的应用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 使用Python的Scrapy框架十分钟爬取美女图

    使用Python的Scrapy框架十分钟爬取美女图

    Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。本文介绍了使用Python的Scrapy框架十分钟爬取美女图,需要的朋友可以参考下
    2016-12-12
  • Python元类基础知识示例深度剖析

    Python元类基础知识示例深度剖析

    这篇文章主要为大家介绍了Python元类基础知识深度剖析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • 在Django框架中设置语言偏好的教程

    在Django框架中设置语言偏好的教程

    这篇文章主要介绍了在Django框架中设置语言偏好的教程,Django是最具人气的Python框架,需要的朋友可以参考下
    2015-07-07
  • python 随机数使用方法,推导以及字符串,双色球小程序实例

    python 随机数使用方法,推导以及字符串,双色球小程序实例

    下面小编就为大家带来一篇python 随机数使用方法,推导以及字符串,双色球小程序实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • python实现按任意键继续执行程序

    python实现按任意键继续执行程序

    本文给大家分享的是如何使用Python脚本实现按任意键继续执行程序的代码,非常的简单实用,有需要的小伙伴可以参考下
    2016-12-12

最新评论