Python jieba结巴分词原理及用法解析

 更新时间:2020年11月05日 11:05:55   作者:南风丶轻语  
这篇文章主要介绍了Python jieba结巴分词原理及用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1、简要说明

结巴分词支持三种分词模式,支持繁体字,支持自定义词典

2、三种分词模式

全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义

精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下

搜索引擎模式:在精简模式下,对长词再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '我去北京天安门广场跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

运行

3、某个词语不能被分开

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '桃花侠大战菊花怪'
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  # 如果不把桃花侠分开
  jieba.add_word('桃花侠')
  d = jieba.lcut(str1) # 默认是精简模式
  print(d)

运行

4、 某个单词必须被分开

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM参数,默认为True
  '''HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,
  用来描述一个系统隐性状态的转移和隐性状态的表现概率。
  在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,
  其大致原理是:
  采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。
  通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
  '''
  str1 = '桃花侠大战菊花怪'
  b = jieba.lcut(str1, cut_all=False, HMM=False) # 精简模式,且不使用HMM模型
  print('精简模式:{}'.format(b))
  # 分开大战为大和战
  jieba.suggest_freq(('大', '战'), True)
  e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
  print('分开:{}'.format(e))

运行

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 详解Python文件修改的两种方式

    详解Python文件修改的两种方式

    这篇文章主要介绍了详解Python文件修改的两种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • 在Python中的Django框架中进行字符串翻译

    在Python中的Django框架中进行字符串翻译

    这篇文章主要介绍了在Python中的Django框架中进行字符串翻译的一些初步方法,Django中还提供了待翻译字符串检测工具,需要的朋友可以参考下
    2015-07-07
  • python3 tkinter实现添加图片和文本

    python3 tkinter实现添加图片和文本

    这篇文章主要为大家详细介绍了python3 tkinter实现添加图片和文本,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-11-11
  • python pandas模块基础学习详解

    python pandas模块基础学习详解

    这篇文章主要介绍了python pandas模块基础学习详解的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python OpenCV读取显示视频的方法示例

    Python OpenCV读取显示视频的方法示例

    这篇文章主要介绍了 Python OpenCV读取显示视频的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02
  • python实现名片管理系统项目

    python实现名片管理系统项目

    这篇文章主要为大家详细介绍了python实现名片管理系统项目,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • python统计多维数组的行数和列数实例

    python统计多维数组的行数和列数实例

    今天小编就为大家分享一篇python统计多维数组的行数和列数实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 安装出现:Requirement already satisfied解决办法

    安装出现:Requirement already satisfied解决办法

    最近pip install的时候报错,一大串Requirement already satisfied,所以下面这篇文章主要给大家介绍了关于安装出现:Requirement already satisfied的解决办法,需要的朋友可以参考下
    2022-08-08
  • Flask中提供静态文件的实例讲解

    Flask中提供静态文件的实例讲解

    在本篇文章里小编给大家分享的是一篇关于Flask中提供静态文件的实例及相关知识点详解,有兴趣的朋友们可以跟着学习下。
    2021-12-12
  • 神经网络算法RNN实现时间序列预测

    神经网络算法RNN实现时间序列预测

    这篇文章主要为大家介绍了神经网络算法RNN实现时间序列预测示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04

最新评论