python 高效去重复 支持GB级别大文件的示例代码

 更新时间:2018年11月08日 14:46:05   作者:夜班机器人  
今天小编就为大家分享一篇python 高效去重复 支持GB级别大文件的示例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 详解python程序中的多任务

    详解python程序中的多任务

    这篇文章主要介绍了python程序中多任务的相关资料,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-09-09
  • Python读写TOML文件的示例代码

    Python读写TOML文件的示例代码

    TOML 文件表示(Tom's Obvious,最小语言),它的语法主要由键=值对组成,本文主要为大家详细介绍了如何使用Python读写TOML文件,感兴趣的小伙伴可以了解下
    2023-08-08
  • Pandas Groupby之在Python中汇总、聚合和分组数据的示例详解

    Pandas Groupby之在Python中汇总、聚合和分组数据的示例详解

    GroupBy是一个非常简单的概念,我们可以创建一个类别分组,并对这些类别应用一个函数,本文给大家介绍Pandas Groupby之如何在Python中汇总、聚合和分组数据,感兴趣的朋友跟随小编一起看看吧
    2023-07-07
  • Python实战小项目之身份证信息校验

    Python实战小项目之身份证信息校验

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Python做一个身份证信息校验的小项目,大家可以在过程中查缺补漏,提升水平
    2021-10-10
  • python好玩的项目—色情图片识别代码分享

    python好玩的项目—色情图片识别代码分享

    这篇文章主要介绍了python好玩的项目—色情图片识别,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • Pytorch统计参数网络参数数量方式

    Pytorch统计参数网络参数数量方式

    这篇文章主要介绍了Pytorch统计参数网络参数数量方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • python GUI模拟实现计算器

    python GUI模拟实现计算器

    这篇文章主要为大家详细介绍了python GUI模拟实现计算器,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-06-06
  • Python中的sys.stdout.write实现打印刷新功能

    Python中的sys.stdout.write实现打印刷新功能

    今天小编就为大家分享一篇Python中的sys.stdout.write实现打印刷新功能,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • 从0到1使用python开发一个半自动答题小程序的实现

    从0到1使用python开发一个半自动答题小程序的实现

    这篇文章主要介绍了从0到1使用python开发一个半自动答题小程序的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05
  • python转换wrf输出的数据为网页可视化json格式

    python转换wrf输出的数据为网页可视化json格式

    这篇文章主要介绍了python转换wrf输出的数据为网页可视化json格式,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09

最新评论