python实现统计汉字／英文单词数的正则表达式

更新时间：2012年09月09日 10:12:46 作者：

一个简单的程序，统计文本文档中的单词和汉字数，逆序排列（出现频率高的排在最前面）python实现

思路

•使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。
•将dictionary按照value排序，输出。

源码

复制代码代码如下:

 
#!/usr/bin/python 
# -*- coding: utf-8 -*- 
# 
#author: rex 
#blog: http://iregex.org 
#filename counter.py 
#created: Mon Sep 20 21:00:52 2010 
#desc: convert .py file to html with VIM. 

import sys 
import re 
from operator import itemgetter 

def readfile(f): 
with file(f,"r") as pFile: 
return pFile.read() 

def divide(c, regex): 
#the regex below is only valid for utf8 coding 
return regex.findall(c) 


def update_dict(di,li): 
for i in li: 
if di.has_key(i): 
di[i]+=1 
else: 
di[i]=1 
return di 

def main(): 

#receive files from bash 
files=sys.argv[1:] 

#regex compile only once 
regex=re.compile("(?x) (?: [\w-]+ | [\x80-\xff]{3} )") 

dict={} 

#get all words from files 
for f in files: 
words=divide(readfile(f), regex) 
dict=update_dict(dict, words) 

#sort dictionary by value 
#dict is now a list. 
dict=sorted(dict.items(), key=itemgetter(1), reverse=True) 

#output to standard-output 
for i in dict: 
print i[0], i[1] 


if __name__=='__main__': 
main() 

Tips

由于使用了files=sys.argv[1:] 来接收参数，因此./counter.py file1 file2 ...可以将参数指定的文件的词频累加计算输出。

可以自定义该程序。例如，
•使用

复制代码代码如下:

 
regex=re.compile("(?x) ( [\w-]+ | [\x80-\xff]{3} )") 
words=[w for w in regex.split(line) if w] 

这样得到的列表是包含分隔符在内的单词列表，方便于以后对全文分词再做操作。

•以行为单位处理文件，而不是将整个文件读入内存，在处理大文件时可以节约内存。
•可以使用这样的正则表达式先对整个文件预处理一下，去掉可能的html tags: content=re.sub(r"<[^>]+","",content)，这样的结果对于某些文档更精确。

您可能感兴趣的文章:

JavaScript replace new RegExp使用介绍
这篇文章主要介绍了JavaScript replace new RegExp使用介绍,需要的朋友可以参考下
2016-05-05
javascript将字符串中的多个空格替换为一个空格的正则实例
这篇文章主要介绍了javascript将字符串中的多个空格替换为一个空格的正则实例,需要的朋友可以参考下
2016-12-12
十分钟上手正则表达式上篇
正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等
2021-10-10
编写高质量的js之正确理解正则表达式回溯
在正则表达式实现中，回溯是匹配过程的基本组成部分，它是正则表达式如此好用和强大的根源。然而，回溯计算代价很高，如果设计失误，将导致失控。回溯是影响整体性能的唯一因素，理解它的工作原理，以及如何减小使用频率，可能是编写高效正则表达式的关键点
2016-12-12
asp去掉html，保留img br p div的正则实现代码
非常实用的一个函数，这里主要用到了正则的匹配模式大家可以看脚本之家网站的正则专题
2009-02-02
python 正则表达式语法学习笔记
正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。这篇文章主要介绍了python 正则表达式语法记录,需要的朋友可以参考下
2020-02-02
限制文本框中只能输入实数或整数,其它字符无效,有劳大家了!
限制文本框中只能输入实数或整数,其它字符无效,有劳大家了!...
2006-10-10
Hive中常用正则表达式的运用小结
在实际的应用中，通常需要在一些复杂的、没有规律的字符串中提取数据，这时候就需要用到正则表达式了，这次讲一下hive的正则表达式，感兴趣的朋友跟随小编一起看看吧
2022-08-08
超全的js正则表达式整理笔记
这篇文章为大家分享了一篇超全的javascript正则表达式整理笔记，感兴趣的小伙伴们可以参考一下
2015-12-12
asp+正则获得字符串中最后一个字母非字母不算
非常不错的用正则表达式实现的，获取字符串中最后一个字母的代码，这个正则可以应用在所有的支持正则的语言中
2008-06-06

python实现统计汉字／英文单词数的正则表达式

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具