python多进程提取处理大量文本的关键词方法

 更新时间:2018年06月05日 15:39:44   作者:怀梦远航  
今天小编就为大家分享一篇python多进程提取处理大量文本的关键词方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

经常需要通过python代码来提取文本的关键词,用于文本分析。而实际应用中文本量又是大量的数据,如果使用单进程的话,效率会比较低,因此可以考虑使用多进程。

python的多进程只需要使用multiprocessing的模块就行,如果使用大量的进程就可以使用multiprocessing的进程池--Pool,然后不同进程处理时使用apply_async函数进行异步处理即可。

实验测试语料:message.txt中存放的581行文本,一共7M的数据,每行提取100个关键词。

代码如下:

#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from multiprocessing import Pool,Queue,Process
import multiprocessing as mp 
import time,random
import os
import codecs
import jieba.analyse
jieba.analyse.set_stop_words("yy_stop_words.txt")
def extract_keyword(input_string):
	#print("Do task by process {proc}".format(proc=os.getpid()))
	tags = jieba.analyse.extract_tags(input_string, topK=100)
	#print("key words:{kw}".format(kw=" ".join(tags)))
	return tags
#def parallel_extract_keyword(input_string,out_file):
def parallel_extract_keyword(input_string):
	#print("Do task by process {proc}".format(proc=os.getpid()))
	tags = jieba.analyse.extract_tags(input_string, topK=100)
	#time.sleep(random.random())
	#print("key words:{kw}".format(kw=" ".join(tags)))
	#o_f = open(out_file,'w')
	#o_f.write(" ".join(tags)+"\n")
	return tags
if __name__ == "__main__":
	data_file = sys.argv[1]
	with codecs.open(data_file) as f:
		lines = f.readlines()
		f.close()
	
	out_put = data_file.split('.')[0] +"_tags.txt" 
	t0 = time.time()
	for line in lines:
		parallel_extract_keyword(line)
		#parallel_extract_keyword(line,out_put)
		#extract_keyword(line)
	print("串行处理花费时间{t}".format(t=time.time()-t0))
	
	pool = Pool(processes=int(mp.cpu_count()*0.7))
	t1 = time.time()
	#for line in lines:
		#pool.apply_async(parallel_extract_keyword,(line,out_put))
	#保存处理的结果,可以方便输出到文件
	res = pool.map(parallel_extract_keyword,lines)
	#print("Print keywords:")
	#for tag in res:
		#print(" ".join(tag))
	pool.close()
	pool.join()
	print("并行处理花费时间{t}s".format(t=time.time()-t1))

运行:

python data_process_by_multiprocess.py message.txt

message.txt是每行是一个文档,共581行,7M的数据

运行时间:

不使用sleep来挂起进程,也就是把time.sleep(random.random())注释掉,运行可以大大节省时间。

以上这篇python多进程提取处理大量文本的关键词方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python中Selenium的基本使用步骤

    Python中Selenium的基本使用步骤

    Selenium是一个用于自动化浏览器操作的Python库,常用于Web应用的测试和爬虫等场景,本文给大家介绍Python中Selenium的基本使用教程,感兴趣的朋友一起看看吧
    2023-11-11
  • 在FastAPI中改变响应状态码的两种方法

    在FastAPI中改变响应状态码的两种方法

    FastAPI,顾名思义,是一个快速、现代、高性能的web框架,用于用Python构建后端api,响应状态码是一个三位数,表示请求的结果,在这篇简明的基于示例的博文中,我将向你展示在FastAPI中更改响应状态代码的两种不同方法,需要的朋友可以参考下
    2025-02-02
  • python实现简单http服务器功能

    python实现简单http服务器功能

    这篇文章主要为大家详细介绍了python实现简单http服务器功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-09-09
  • 深入理解Python3 内置函数大全

    深入理解Python3 内置函数大全

    本篇文章主要介绍了Python3 内置函数,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-11-11
  • python中abs&map&reduce简介

    python中abs&map&reduce简介

    map与reduce是两个十分常用的Python内置函数,它们与Hadoop中的MapReduce在某些方面有一定的相似之处。
    2018-02-02
  • python实现马丁策略的实例详解

    python实现马丁策略的实例详解

    这篇文章主要介绍了python实现马丁策略的实例详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-01-01
  • 关于Python字符编码与二进制不得不说的一些事

    关于Python字符编码与二进制不得不说的一些事

    这篇文章主要给大家介绍了关于Python字符编码与二进制不得不说的一些事,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • python深度学习人工智能BackPropagation链式法则

    python深度学习人工智能BackPropagation链式法则

    这篇文章主要为大家介绍了python深度学习人工智能BackPropagation链式法则的示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-11-11
  • Python 数据可视化之Bokeh详解

    Python 数据可视化之Bokeh详解

    这篇文章主要介绍了Python数据可视化库Bokeh的使用总结,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2021-11-11
  • Python实现C#代码生成器应用服务于Unity示例解析

    Python实现C#代码生成器应用服务于Unity示例解析

    为了满足项目需要,需要实现一个c#代码生成器,为此设计了一个语法模板适用于Unity的代码生成器。本次使用了Python的Template模板,使用python开发
    2021-10-10

最新评论