Python中文文本处理利器jieba分词库使用

更新时间：2023年12月18日 15:47:31 作者：陌北v1

这篇文章主要给大家介绍了关于Python中文文本处理利器jieba分词库使用的相关资料,jieba是python中一个重要的第三方中文分词函数库,文中通过代码介绍的非常详细,需要的朋友可以参考下

一. 介绍

A. 什么是jieba库

jieba库是一款开源的中文分词工具，能够将中文文本切分成词语。

B. jieba库的特点和优势

支持四种分词模式：精确模式、全模式、搜索引擎模式和paddle模式。
提供自定义词典功能，可以添加、删除词语。
支持关键词提取和词性标注。
提供Tokenize接口，可以获取每个词语的起始位置和词性。
支持并行分词，提高分词速度。

C. 安装jieba库

在命令行中使用pip安装jieba库：
```
pip install jieba
```

二. 分词基础

A. 字典加载

jieba库内置了一个默认的词典，可以直接使用。
也可以使用自定义的词典，通过jieba.load_userdict(file_path)加载。

B. 分词模式

精确模式
- 精确模式是将文本按照最大概率进行切分，效果较好。
- 使用方法：jieba.cut(sentence)，返回一个可迭代的分词结果。
全模式
- 全模式将文本中所有可能的词语都切分出来，可能存在冗余。
- 使用方法：jieba.cut(sentence, cut_all=True)，返回一个可迭代的分词结果。
搜索引擎模式
- 搜索引擎模式根据词语的位置进行切分，适合搜索引擎分词。
- 使用方法：jieba.cut_for_search(sentence)，返回一个可迭代的分词结果。
paddle模式
- 利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，pip install jieba --upgrade 。

C. 使用示例

# encoding=utf-8
import jieba

# 启动paddle模式。 0.40版之后开始支持，早期版本不支持
jieba.enable_paddle()
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

# 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))

# 精确模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))

# 默认是精确模式
seg_list = jieba.cut("他来到了网易杭研大厦")
print(", ".join(seg_list))

# 搜索引擎模式
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

三. 自定义词典

A. 添加词语

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

B. 载入自定义词典

如果有一个包含自定义词语的文件，可以使用jieba.load_userdict(file_path)方法加载该文件，并将其中的词语加入到词典中。

C. 使用示例

import jieba

# 添加单个词语到词典中
jieba.add_word("自然语言处理")

# 载入自定义词典文件
jieba.load_userdict("custom_dict.txt")

sentence = "我爱自然语言处理"

# 分词结果包含自定义词语
seg_list = jieba.cut(sentence)
print("/".join(seg_list))  # 输出: 我/爱/自然语言处理

四. 关键词提取

A. 基于TF-IDF算法的关键词提取

jieba库提供了基于TF-IDF算法的关键词提取方法jieba.extract_tags(sentence, topK=10)，用于从文本中提取关键词。
topK参数指定返回的关键词数量，默认为10。

B. 基于TextRank算法的关键词提取

jieba库还提供了基于TextRank算法的关键词提取方法jieba.textrank(sentence, topK=10)，也可以用于从文本中提取关键词。
topK参数指定返回的关键词数量，默认为10。

C. 使用示例

import jieba

sentence = "自然语言处理是人工智能领域的重要技术之一"

# 基于TF-IDF算法的关键词提取
keywords = jieba.extract_tags(sentence, topK=5)
print(keywords)  # 输出: ['自然语言处理', '人工智能', '技术', '领域', '重要']

# 基于TextRank算法的关键词提取
keywords = jieba.textrank(sentence, topK=5)
print(keywords)  # 输出: ['技术', '重要', '领域', '自然语言处理', '人工智能']

五. 词性标注

A. 词性标注集

jieba库支持对分词结果进行词性标注，使用的是jieba库内置的词性标注集。

B. 使用示例

import jieba
import jieba.posseg as pseg

# 分词并进行词性标注
words = pseg.cut("自然语言处理很有趣") #jieba默认模式
jieba.enable_paddle() #启动paddle模式。 0.40版之后开始支持，早期版本不支持
words = pseg.cut("我爱北京天安门",use_paddle=True) #paddle模式
for word, flag in words:
    print(word, flag)
# 输出:
# 自然语言 l
# 处理 v
# 很 d
# 有趣 a

paddle模式词性标注对应表如下：

paddle模式词性和专名类别标签集合如下表，其中词性标签 24 个（小写字母），专名类别标签 4 个（大写字母）。

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

六. 并行分词

A. 并行分词的优势

jieba库支持并行分词，能够利用多核CPU提高分词速度。
并行分词使用的是基于python多进程的方式，需要在分词前调用jieba.enable_parallel()启用并行分词，之后可以正常使用分词功能。

B. 并行分词使用示例

import jieba

jieba.enable_parallel(4)  # 启用并行分词，使用4个进程

sentence = "自然语言处理很有趣"

# 分词结果
seg_list = jieba.cut(sentence)
print("/".join(seg_list))
# 输出: 自然/语言/处理/很/有趣

jieba.disable_parallel()  # 关闭并行分词

七. Tokenize接口

A. 默认模式

jieba库提供了Tokenize接口jieba.tokenize(sentence, mode='default')，用于获取每个词语的起始位置和词性。
默认模式下，返回结果包含词语、词语在文本中的起始位置和结束位置。

B. 搜索引擎模式

在Tokenize接口中，可以选择搜索引擎模式，通过mode='search'参数指定。
搜索引擎模式下，返回结果还包含分词的偏移量，适用于搜索引擎等应用场景。

C. 返回结果格式

Tokenize接口返回的结果是一个可迭代的生成器，每个生成器元素都是一个元组，包含词语、起始位置、结束位置和词性（可选）。

D. 使用示例

import jieba

sentence = "自然语言处理很有趣"

# 默认模式下的Tokenize接口
tokens = jieba.tokenize(sentence)
for tk in tokens:
    word = tk[0]
    start_index = tk[1]
    end_index = tk[2]
    print(word, start_index, end_index)
# 输出:
# 自然语言 0 4
# 处理 4 6
# 很 6 7
# 有趣 7 9

# 搜索引擎模式下的Tokenize接口
tokens = jieba.tokenize(sentence, mode='search')
for tk in tokens:
    word = tk[0]
    start_index = tk[1]
    end_index = tk[2]
    print(word, start_index, end_index)
# 输出:
# 自然 0 2
# 语言 2 4
# 处理 4 6
# 很 6 7
# 有趣 7 9

八. 总结

本教程介绍了Python中jieba库的基本使用方法和常用功能，包括分词基础、自定义词典、关键词提取、词性标注、并行分词和Tokenize接口。通过学习和掌握这些功能，你可以在中文文本处理中灵活应用jieba库，实现有效的分词、关键词提取和词性标注等任务。

在使用jieba库时，你可以根据具体需求选择不同的分词模式，如精确模式、全模式和搜索引擎模式。还可以通过自定义词典添加特定词语，提高分词的准确性。关键词提取功能可以帮助你从文本中提取出重要的关键词，有助于文本理解和信息提取。词性标注功能可以标注每个词语的词性，对于一些需要深入分析的任务很有帮助。Tokenize接口可以提供词语的起始位置和词性信息，适用于一些特定的应用场景。并行分词功能可以充分利用多核CPU，提高分词速度。

到此这篇关于Python中文文本处理利器jieba分词库使用的文章就介绍到这了,更多相关Python jieba分词库使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python GUI实例学习
给大家介绍一下python GUI实例学习的心得以及实现的方式，希望能帮助到你。
2017-11-11
关于python中第三方库交叉编译的问题
这篇文章主要介绍了python及第三方库交叉编译,通过交叉编译工具，我们就可以在CPU能力很强、存储控件足够的主机平台上（比如PC上）编译出针对其他平台的可执行程序，需要的朋友可以参考下
2022-09-09
Python内置函数之staticmethod函数使用及说明
这篇文章主要介绍了Python内置函数之staticmethod函数使用及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2025-07-07
python中利用numpy.array()实现俩个数值列表的对应相加方法
今天小编就为大家分享一篇python中利用numpy.array()实现俩个数值列表的对应相加方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
Python装饰器限制函数运行时间超时则退出执行
今天小编就为大家分享一篇关于Python装饰器限制函数运行时间超时则退出执行，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-04-04
Tensorflow:转置函数 transpose的使用详解
今天小编就为大家分享一篇Tensorflow:转置函数 transpose的使用详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
在python里从协程返回一个值的示例
今天小编就为大家分享一篇在python里从协程返回一个值的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-02-02
Python+drawpad实现CPU监控小程序
这篇文章主要为大家详细介绍了如何利用Python+drawpad实现一个简单的CPU监控小程序，文中示例代码讲解详细，感兴趣的小伙伴可以尝试一下
2022-08-08
python DataFrame数据分组统计groupby()函数的使用
在python的DataFrame中对数据进行分组统计主要使用groupby()函数，本文主要介绍了python DataFrame数据分组统计groupby()函数的使用，具有一定的参考价值，感兴趣的可以了解一下
2022-03-03
详解python变量的命名和使用
变量名只能包含字母、数字和下划线,本文主要介绍了详解python变量的命名和使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-12-12