Python jieba库用法及实例解析

 更新时间:2019年11月04日 11:17:52   作者:王陸  
这篇文章主要介绍了Python jieba库用法及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

2.jieba应用实例

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 详解如何用OpenCV + Python 实现人脸识别

    详解如何用OpenCV + Python 实现人脸识别

    这篇文章主要介绍了详解如何用OpenCV + Python 实现人脸识别,非常具有实用价值,需要的朋友可以参考下
    2017-10-10
  • python从入门到实践之字典

    python从入门到实践之字典

    这篇文章主要为大家介绍了python字典,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • Python实现常见网络通信的示例详解

    Python实现常见网络通信的示例详解

    这篇文章主要为大家详细介绍了Python实现常见网络通信的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴就跟随小编一起学习一下吧
    2025-04-04
  • python调用可执行文件.exe的2种实现方法

    python调用可执行文件.exe的2种实现方法

    Python是一种流行的编程语言,可以轻松地通过脚本调用各种应用程序,本文就详细的介绍了python调用可执行文件.exe的2种实现方法,感兴趣的可以了解一下
    2023-08-08
  • Django Rest framework频率原理与限制

    Django Rest framework频率原理与限制

    这篇文章主要介绍了Django Rest framework频率原理与限制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • python创建ArcGIS shape文件的实现

    python创建ArcGIS shape文件的实现

    今天小编就为大家分享一篇python创建ArcGIS shape文件的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python 识别登录验证码图片功能的实现代码(完整代码)

    python 识别登录验证码图片功能的实现代码(完整代码)

    这篇文章主要介绍了python 识别登录验证码图片功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • Python对Excel不同的行分别复制不同的次数

    Python对Excel不同的行分别复制不同的次数

    这篇文章主要介绍了如何利用Python实现读取Excel表格文件数据,并将其中符合我们特定要求的那一行加以复制指定的次数,感兴趣的小伙伴可以学习一下
    2023-07-07
  • Python中使用print函数进行不换行打印问题

    Python中使用print函数进行不换行打印问题

    这篇文章主要介绍了Python中使用print函数进行不换行打印问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python创建Getter和Setter的方法详解

    Python创建Getter和Setter的方法详解

    Getters 和 Setters 是帮助我们设置类变量或属性而无需直接访问的方法,这篇文章主要和大家介绍了如何在Python中创建Getter和Setter,需要的可以参考下
    2023-10-10

最新评论