Python jieba分词添加自定义词和去除不需要长尾词的操作方法

 更新时间:2023年03月02日 10:19:41   作者:虚坏叔叔  
这篇文章主要介绍了Python jieba分词如何添加自定义词和去除不需要长尾词,主要介绍jieba的基础用法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

Python jieba分词如何添加自定义词和去除不需要长尾词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]

通过如下代码,读取一个txt的高频词汇:

            # 找到高频词汇
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]

就可以看到,统计出来的词是这个自定义词

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]

总结

  • 本文主要介绍jieba的基础用法。

到此这篇关于Python jieba分词如何添加自定义词和去除不需要长尾词的文章就介绍到这了,更多相关Python jieba分词内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • TensorFlow-gpu和opencv安装详细教程

    TensorFlow-gpu和opencv安装详细教程

    这篇文章主要介绍了TensorFlow-gpu和opencv安装过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Python调用百度AI实现颜值评分功能

    Python调用百度AI实现颜值评分功能

    这篇文章主要介绍了应用百度AI的人脸识别功能对年龄、性别、颜值等进行识别,代码具有一定的学习价值,感兴趣的朋友跟随小编一起看看吧
    2021-11-11
  • python爬虫爬取笔趣网小说网站过程图解

    python爬虫爬取笔趣网小说网站过程图解

    这篇文章主要介绍了python爬虫爬取笔趣网小说网站过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • python3 MKL库 安装使用教程

    python3 MKL库 安装使用教程

    这篇文章主要介绍了python3 MKL库 安装使用教程的相关资料,需要的朋友可以参考下
    2023-11-11
  • Python中 传递值 和 传递引用 的区别解析

    Python中 传递值 和 传递引用 的区别解析

    这篇文章主要介绍了Python中 传递值 与 传递引用 的区别解析,非常不错,具有参考借鉴价值,需要的朋友参考下吧
    2018-02-02
  • 如何在Python中使用pyecharts图形画可视化大屏

    如何在Python中使用pyecharts图形画可视化大屏

    最近碰巧需要用到pyecharts,pyecharts库是一个用于生成echarts图表的类库,这篇文章主要给大家介绍了关于如何在Python中使用pyecharts图形画可视化大屏的相关资料,需要的朋友可以参考下
    2024-05-05
  • Python切片操作去除字符串首尾的空格

    Python切片操作去除字符串首尾的空格

    这篇文章主要介绍了Python切片操作去除字符串首尾的空格 的相关资料,需要的朋友可以参考下
    2019-04-04
  • django fernet fields字段加密实践详解

    django fernet fields字段加密实践详解

    这篇文章主要介绍了django fernet fields字段加密实践详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • python读取txt文件中特定位置字符的方法

    python读取txt文件中特定位置字符的方法

    今天小编就为大家分享一篇python读取txt文件中特定位置字符的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python 中制作偶数列表的方法

    Python 中制作偶数列表的方法

    这篇文章主要介绍了Python 中制作偶数列表的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-05-05

最新评论