Python多进程分块读取超大文件的方法

 更新时间:2016年04月13日 09:52:10   作者:asdfsx  
这篇文章主要介绍了Python多进程分块读取超大文件的方法,涉及Python多进程操作与文件分块读取的相关技巧,需要的朋友可以参考下

本文实例讲述了Python多进程分块读取超大文件的方法。分享给大家供大家参考,具体如下:

读取超大的文本文件,使用多进程分块读取,将每一块单独输出成文件

# -*- coding: GBK -*-
import urlparse
import datetime
import os
from multiprocessing import Process,Queue,Array,RLock
"""
多进程分块读取文件
"""
WORKERS = 4
BLOCKSIZE = 100000000
FILE_SIZE = 0
def getFilesize(file):
  """
    获取要读取文件的大小
  """
  global FILE_SIZE
  fstream = open(file,'r')
  fstream.seek(0,os.SEEK_END)
  FILE_SIZE = fstream.tell()
  fstream.close()
def process_found(pid,array,file,rlock):
  global FILE_SIZE
  global JOB
  global PREFIX
  """
    进程处理
    Args:
      pid:进程编号
      array:进程间共享队列,用于标记各进程所读的文件块结束位置
      file:所读文件名称
    各个进程先从array中获取当前最大的值为起始位置startpossition
    结束的位置endpossition (startpossition+BLOCKSIZE) if (startpossition+BLOCKSIZE)<FILE_SIZE else FILE_SIZE
    if startpossition==FILE_SIZE则进程结束
    if startpossition==0则从0开始读取
    if startpossition!=0为防止行被block截断的情况,先读一行不处理,从下一行开始正式处理
    if 当前位置 <=endpossition 就readline
    否则越过边界,就从新查找array中的最大值
  """
  fstream = open(file,'r')
  while True:
    rlock.acquire()
    print 'pid%s'%pid,','.join([str(v) for v in array])
    startpossition = max(array)      
    endpossition = array[pid] = (startpossition+BLOCKSIZE) if (startpossition+BLOCKSIZE)<FILE_SIZE else FILE_SIZE
    rlock.release()
    if startpossition == FILE_SIZE:#end of the file
      print 'pid%s end'%(pid)
      break
    elif startpossition !=0:
      fstream.seek(startpossition)
      fstream.readline()
    pos = ss = fstream.tell()
    ostream = open('/data/download/tmp_pid'+str(pid)+'_jobs'+str(endpossition),'w')
    while pos<endpossition:
      #处理line
      line = fstream.readline()
      ostream.write(line)
      pos = fstream.tell()
    print 'pid:%s,startposition:%s,endposition:%s,pos:%s'%(pid,ss,pos,pos)
    ostream.flush()
    ostream.close()
    ee = fstream.tell()
  fstream.close()
def main():
  global FILE_SIZE
  print datetime.datetime.now().strftime("%Y/%d/%m %H:%M:%S") 
  file = "/data/pds/download/scmcc_log/tmp_format_2011004.log"
  getFilesize(file)
  print FILE_SIZE
  rlock = RLock()
  array = Array('l',WORKERS,lock=rlock)
  threads=[]
  for i in range(WORKERS):
    p=Process(target=process_found, args=[i,array,file,rlock])
    threads.append(p)
  for i in range(WORKERS):
    threads[i].start()
  for i in range(WORKERS):
    threads[i].join()
  print datetime.datetime.now().strftime("%Y/%d/%m %H:%M:%S") 
if __name__ == '__main__':
  main()

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • python使用多线程+socket实现端口扫描

    python使用多线程+socket实现端口扫描

    这篇文章主要为大家详细介绍了python使用多线程+socket实现端口扫描,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-05-05
  • python muggle_ocr库用法及实例代码

    python muggle_ocr库用法及实例代码

    在本篇文章里小编给大家整理的是一篇关于python muggle_ocr库用法及实例代码内容,有需要的朋友们可以跟着学习参考下。
    2021-07-07
  • Python解决IndexError: list index out of range问题的三种方法

    Python解决IndexError: list index out of&nb

    IndexError是一种常见的异常类型,它通常发生在尝试访问列表(list)中不存在的索引时,错误信息“IndexError: list index out of range”意味着你试图访问的列表索引超出了列表的实际范围,所以本文给大家介绍了Python成功解决IndexError: list index out of range
    2024-05-05
  • 详解Python利用random生成一个列表内的随机数

    详解Python利用random生成一个列表内的随机数

    这篇文章主要介绍了详解Python利用random生成一个列表内的随机数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python实现实时显示进度条的六种方法

    Python实现实时显示进度条的六种方法

    这篇文章主要为大家介绍了Python实现实时显示进度条,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助<BR>
    2021-12-12
  • python3爬虫中多线程的优势总结

    python3爬虫中多线程的优势总结

    在本篇文章里小编给大家分享了一篇关于python3爬虫中多线程的优势总结内容,需要的朋友们可以参考学习下。
    2020-11-11
  • 如何使用 Python为你的在线会议创建一个假的摄像头

    如何使用 Python为你的在线会议创建一个假的摄像头

    这篇文章主要介绍了使用 Python为你的在线会议创建一个假的摄像头,在 Python 的帮助下,不再强制开启摄像头,将向你展示如何为你的在线会议创建一个假的摄像头,需要的朋友可以参考下
    2022-08-08
  • 使用Python实现自动填入密码功能

    使用Python实现自动填入密码功能

    对于频繁使用的软件,每次都手动输入密码可能会显得繁琐,所以本文主要为大家详细介绍了如何使用Python实现自动填入密码功能,需要的可以参考下
    2024-04-04
  • python 实现简单的吃豆人游戏

    python 实现简单的吃豆人游戏

    这篇文章主要介绍了python 如何实现简单的吃豆人游戏,帮助大家更好的理解和学习使用python制作游戏,感兴趣的朋友可以了解下
    2021-04-04
  • Python Matplotlib实现三维数据的散点图绘制

    Python Matplotlib实现三维数据的散点图绘制

    这篇文章主要为大家详细介绍了Python Matplotlib实现三维数据的散点图绘制,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03

最新评论