Python结巴中文分词工具使用过程中遇到的问题及解决方法

更新时间：2017年04月15日 08:50:58 作者：捂汗县长

这篇文章主要介绍了Python结巴中文分词工具使用过程中遇到的问题及解决方法,较为详细的讲述了Python结巴中文分词工具的下载、安装、使用方法及容易出现的问题与相应解决方法,需要的朋友可以参考下

本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考，具体如下：

结巴分词是Python语言中效果最好的分词工具，其功能包括：分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具，在安装与使用过程中遇到一些问题，现在把自己的一些方法帖出来分享一下。

1、安装。

按照官网上的说法，有三种安装方式，

第一种是全自动安装：easy_install jieba 或者 pip install jieba，可是并没有找到它提供这个安装程序。

第二种方法是半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压后在cmd命令行中运行 python setup.py install。这里需要注意的是，默认情况下，不能在cmd中直接运行python命令，需要把它的路径加入到环境变量path中方可。我试过，可行。但是这种方法安装之后，结巴分词功能只能在Python自带的IDLE中使用。在含有PyDEV的MyEclipse中不能执行“import jieba”命令，所以继续尝试第三种方法。

第三种方法是手动安装：将jieba目录放置于当前目录或者site-packages目录。把下载到的jieba-0.30.zip解压后，里面有个jibba的文件夹，把它复制到与你的Python程序相同的位置，这样在程序中就可以执行“import jieba”了。

2、关于分词的实现

官网提供了分词的基本用法示例：

#encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print "Full Mode:", "/ ".join(seg_list) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print "Default Mode:", "/ ".join(seg_list) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print ", ".join(seg_list)

程序可以执行，但是在MyEclipse中显示中文为Unicode编码，这不科学。

但是继续执行另一个词性标注的示例却非常正常：

import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for w in words:
  print w.word, w.flag

所以我就想去分析一下它的源代码，结果发现在jiba/_init_.py文件（这是实现分词的文件）的第209行（cut函数）中有关于检查编码的语句块：

if not isinstance(sentence, unicode):
  try:
   sentence = sentence.decode('utf-8')
  except UnicodeDecodeError:
   sentence = sentence.decode('gbk','ignore')

而在jieba/posseg/_init_.py文件（这是实现词性标注的文件）第158行的cut函数中却没有发现此类代码。所以我猜想，前者有检查编码的代码就出现乱码，而后者没有检查编码的代码而正常显示，所以就把前者检查编码的代码给注释了，结果程序执行报错，只好又把人家的源码还原，结果中文又正常显示了！

运行效果如下图：

以上只是对固定的中文字符串变量进行分词和词性标注，接下来的文章里我会尝试从文件中读取中文进行分词和词性标注。

更多关于Python相关内容可查看本站专题：《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Python+Tkinter实现软件自动更新与提醒
这篇文章主要为大家详细介绍了Python如何利用Tkinter编写一个软件自动更新与提醒小程序，文中的示例代码简洁易懂，感兴趣的小伙伴可以动手尝试一下
2023-07-07
python threading和multiprocessing模块基本用法实例分析
这篇文章主要介绍了python threading和multiprocessing模块基本用法,结合实例形式详细分析了Python中threading和multiprocessing模块基本概念、功能、使用方法及相关操作注意事项,需要的朋友可以参考下
2019-07-07
Python 判断图像是否读取成功的方法
今天小编就为大家分享一篇Python 判断图像是否读取成功的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
pip安装指定版本的tensorflow的实现
本文介绍了如何使用pip安装指定版本的TensorFlow,包括CPU版本和GPU版本的安装方法,同时,文中也提到了使用阿里国内镜像源加速下载的方法,以及在安装GPU版本时需要检查CUDA和cuDNN的兼容性的注意事项,感兴趣的可以了解一下
2024-10-10
Python中re模块的常用方法总结
这篇文章主要给大家介绍了关于Python中re模块的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
Python调用C++程序的方法详解
这篇文章主要介绍了Python调用C++程序的方法，文中通过示例代码介绍的详细，相信对大家具有一定的参考借鉴价值，需要的朋友们下面来一起看看吧。
2017-01-01
Python真题案例之错位键盘单词长度字母重排详解
这篇文章主要介绍了python实操案例练习，本文给大家分享的案例中主要任务有错位键盘、单词长度、字母重排，需要的小伙伴可以参考一下
2022-03-03
python如何将aac转为mp3,保持原有目录结构
使用Python脚本实现AAC格式转MP3格式的方法介绍,需要用户输入AAC文件所在目录路径和MP3输出目录路径,通过调用FFmpeg工具实现格式转换,该脚本简单易懂,适合需要批量处理音频文件的用户,使用前需确保已安装FFmpeg环境
2024-11-11
30行Python代码实现高分辨率图像导航的方法
这篇文章主要介绍了30行Python代码实现高分辨率图像导航的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-05-05
Python批量加密Excel文件的实现示例
在日常工作中,保护敏感数据是至关重要的,本文主要介绍了Python批量加密Excel文件的实现示例,具有一定的参考价值,感兴趣的可以了解一下
2023-12-12

Python结巴中文分词工具使用过程中遇到的问题及解决方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具