在python list中筛选包含字符的字段方式

 更新时间:2022年11月01日 10:11:27   作者:cuisidong1997  
这篇文章主要介绍了在python list中筛选包含字符的字段方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

python list筛选包含字符的字段

l = [‘123a',‘456b',‘789c']

ll = [s for s in l if ‘a' in s]

这是通过判断语句

lst = [“123a”, “456b”, “789c”]
lst = list(filter(lambda x: x.find(“a”) >= 0, lst))
print(lst)

这是通过函数

Python 列表筛选数据

在做数据处理中,常会遇到列表筛选

比如有以下两个列表

 

根据上列表中的KEY1 , 筛选下列表的数据,也就是标黄的数据。数量不大的情况,一般就是遍历比较,逻辑简单,几行代码搞掂。

但如果列表达到万,或者百万、千万,那遍历效率就低了。

先构造测试的列表

# 构造筛选目标列表,确保KEY不重复
n1 = 30000
n1_set = set([random.randint(1,n1)  for n in range(n1)])
n1 = len(n1_set)
list1 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',10))] for n in n1_set]
 
# 构造待筛选数据列表,确保KEY不重复
n2 = 100000
n2_set = set([random.randint(1,n2)  for n in range(n2)])
n2= len(n2_set)
list2 = [['1108{:0>6d}27'.format(n), "".join(random.sample('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz',5)),n ] for n in n2_set]

比较遍历、列表生成式+filter 、pandas 的 merge 三种方法效率

筛选目标18971条, 待处理数据63275条
遍历生成数据 耗时11.591秒 获得数据量 12024
['11080000427', 'eArVD', 4]
filter 耗时11.5秒 获得数据量 12024
['11080000427', 'eArVD', 4]
merge 耗时0.058秒 获得数据量 12024
['11080000427', 'eArVD', 4]
筛选目标189733条, 待处理数据632363条
遍历生成数据 耗时1597.4296秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
filter 耗时1575.0432秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]
merge 耗时0.64秒 获得数据量 120180
['1108000000227', 'NkoEQ', 2]

经过比较, 直接遍历生成和列表生成式+filter的效率基本一致, pandas 的merge 效率最高。适合大批量数据处理。

上代码

print("筛选目标{}条, 待处理数据{}条".format(n1,n2))
 
# 直接遍历生成数据,计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = []
for n in list2:
    if n[0] in list_temp:
        list3.append(n)
t2 = time.time()
print("遍历生成数据 耗时{}秒".format(round(t2 - t1, 4)), "获得数据量", len(list3))
print(list3[0]) 
 
 
# 用filter筛选数据,计时
t1 = time.time()
list_temp = [n[0] for n in list1]
list3 = [n for n in filter(lambda x: x[0] in list_temp, list2)]
t2 = time.time()
print("filter 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(list3))
print(list3[0])
 
 
# 用pd.merge 筛选数据,计时
t1 = time.time()
df1 = pd.DataFrame(list1, columns=['k1','m1'])
df2 = pd.DataFrame(list2, columns=['k1','m2','n2'])
df3 = pd.merge(df1[['k1']], df2, how='inner', on='k1')
t2 = time.time()
print("merge 耗时{}秒".format(round(t2 - t1,4)), "获得数据量", len(df3))
print(list(df3.iloc[0]))

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python由已知数组快速生成新数组的方法

    python由已知数组快速生成新数组的方法

    这篇文章主要介绍了python由已知数组快速生成新数组的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-04-04
  • Python标准库与第三方库详解

    Python标准库与第三方库详解

    这篇文章主要介绍了Python标准库与第三方库,需要的朋友可以参考下
    2014-07-07
  • python中tab键是什么意思

    python中tab键是什么意思

    在本篇内容里小编给大家整理了关于python中的tab键表示什么意思的相关内容,需要的朋友们可以参考学习下。
    2020-06-06
  • python 三种方法实现对Excel表格的读写

    python 三种方法实现对Excel表格的读写

    这篇文章主要介绍了python 三种方法实现对Excel表格的读写,帮助大家更好的利用python处理表格,感兴趣的朋友可以了解下
    2020-11-11
  • Python从Excel读取数据并使用Matplotlib绘制成二维图像

    Python从Excel读取数据并使用Matplotlib绘制成二维图像

    本课程实现使用 Python 从 Excel 读取数据,并使用 Matplotlib 绘制成二维图像。这一过程中,将通过一系列操作来美化图像,最终得到一个可以出版级别的图像。本课程对于需要书写实验报告,学位论文,发表文章,做报告的学员具有较大价值
    2023-02-02
  • Python实现随机生成一个汉字的方法分享

    Python实现随机生成一个汉字的方法分享

    这篇文章主要为大家详细介绍了Python如何实现随机生成一个汉字的功能,文中的示例代码讲解详细,对我们深入了解Python有一定的帮助,需要的可以参考一下
    2023-01-01
  • Python实现GUI计算器(附源码)

    Python实现GUI计算器(附源码)

    这篇文章主要为大家详细介绍了如何利用Python语言实现GUI计算器,可执行复杂运算,文中的示例代码讲解详细,具有一定的借鉴价值,需要的可以参考一下
    2022-11-11
  • 详解Swift中属性的声明与作用

    详解Swift中属性的声明与作用

    Swift中的属性可以被分为存储属性和计算属性,本文将为大家详解Swift中属性的声明与作用,需要的朋友可以参考下
    2016-06-06
  • 你所不知道的Python技巧13招【实用】

    你所不知道的Python技巧13招【实用】

    有时候你会看到很Cool的Python代码,你惊讶于它的简洁,你不由自主地赞叹:竟然还能这样写,其实,这些优雅的代码都要归功于Python的特性,只要你能掌握这些Pythonic的技巧,你一样可以写出像诗一样的Python代码,本文主要介绍Python应用的一些小技巧,一起来看下吧
    2016-12-12
  • Python实现多进程共享数据的方法分析

    Python实现多进程共享数据的方法分析

    这篇文章主要介绍了Python实现多进程共享数据的方法,结合实例形式分析了Python多进程共享数据的相关实现技巧,需要的朋友可以参考下
    2017-12-12

最新评论