使用python生成定制化词云的代码示例

 更新时间:2024年09月04日 10:45:07   作者:码银  
词云,作为一种流行的数据可视化形式,能够将大量文本数据中的关键词以视觉化的方式呈现,让我们迅速捕捉到文本的核心,本文将通过Python编程语言,使用jieba和wordcloud库,生成一个具有特定形状的词云,需要的朋友可以参考下

引言

数据可视化已成为我们理解复杂信息的关键工具。词云,作为一种流行的数据可视化形式,能够将大量文本数据中的关键词以视觉化的方式呈现,让我们迅速捕捉到文本的核心。本文将通过Python编程语言,使用jieba和wordcloud库,并基于斗破苍穹第一章的内容,生成一个具有特定形状的词云。

环境搭建

在开始之前,确保你的Python环境中安装了必要的库。如果尚未安装,可以通过以下命令进行安装:

pip install matplotlib 
jieba 
wordcloud 
numpy 
pillow

读取与准备文本

我们将使用《斗破苍穹第一章》的文本作为示例。首先,确保文本文件以UTF-8编码保存,以避免编码错误:

with open('斗破苍穹第一章.txt', 'r', encoding='utf-8') as file:
    text = file.read()

中文分词

中文文本处理的第一步是分词。我们使用jieba库,它是中文文本分词的常用工具:

import jieba
cut_text = jieba.cut(text)
word = ' '.join(cut_text)

定义停用词

在生成词云之前,我们需要定义一组停用词,以排除那些在文本中频繁出现但对分析没有太大意义的词:

    stopwords={
        '了', '的', '和', '是', '我', '你', '这', '就', '有', '在', '也', '一', '不', '人', '都', '一个',
        '我们', '他', '她', '得', '地', '很', '到', '说', '要', '去', '上', '说', '知道', '能', '看',
        '自己', '出来', '过', '着', '听', '觉得', '但是', '而且', '因为', '所以', '虽然', '如果', '就是',
        '只有', '可以', '什么', '哪', '哪个', '那些', '什么', '怎么', '怎样', '这么', '那么', '这样', '那样',
        '一点', '一些', '一点', '一些', '一下', '一下', '一会儿', '一点儿', '现在', '然后', '再', '曾经',
        '曾经', '曾经', '曾经', '或者', '或者', '以及', '或者', '跟', '跟', '同', '和', '与', '跟', '同',
        '跟', '与', '跟', '和', '与', '而且', '并且', '或者', '还是', '或者', '或者', '又', '也', '还',
        '再', '另外', '那',
        '然后',
        '接着',
        '之后',
        '起来',
        # ... 其他语气助词 ...
    }

选择词云形状

词云的形状可以是任何形式,本例中我们将使用一张图片来定义词云的形状:

from PIL import Image
import numpy as np

pic = Image.open('test1.png')
pic_array = np.array(pic)

现在,我们将所有元素结合在一起,生成词云:

import wordcloud
from matplotlib import colors

color_list = ['black', 'red', 'blue', 'green']
colormap = colors.ListedColormap(color_list)

wc = wordcloud.WordCloud(
    mask=pic_array,
    font_path='simhei.ttf',
    background_color='white',
    colormap=colormap,
    stopwords=stopwords
)

wc.generate(word)

显示词云

最后,我们使用matplotlib库来显示我们生成的词云:

plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

结语

通过上述步骤,我们不仅学习了如何使用Python生成词云,还了解了如何通过jieba进行中文分词,以及如何使用wordcloud库自定义词云的生成。

import matplotlib.pyplot as plt
import jieba
import wordcloud
from PIL import Image
import numpy as np  
from matplotlib import colors

# 读取文本文件
str1 = open('斗破苍穹第一章.txt', 'r', encoding='utf-8').read()  # 确保使用正确的编码

cut_text = jieba.cut(str1)    # 分词处理
word = ' '.join(cut_text)       # 以空格分割文本


color_list = ['black', 'red','blue','green']
colormap = colors.ListedColormap(color_list)  # matplotlib色图

# 使用Pillow读取图片
pic = Image.open('test1.png')  # 读取图片

# 将Pillow图像转换为numpy数组
pic_array = np.array(pic)

wc = wordcloud.WordCloud(
    mask=pic_array,               # 使用转换后的数组作为背景图形
    font_path='simhei.ttf',       # 可以改成自己喜欢的字体
    background_color='white',     # 词云图背景颜色可以换成自己喜欢的颜色
    colormap=colormap,
    stopwords={
        '了', '的', '和', '是', '我', '你', '这', '就', '有', '在', '也', '一', '不', '人', '都', '一个',
        '我们', '他', '她', '得', '地', '很', '到', '说', '要', '去', '上', '说', '知道', '能', '看',
        '自己', '出来', '过', '着', '听', '觉得', '但是', '而且', '因为', '所以', '虽然', '如果', '就是',
        '只有', '可以', '什么', '哪', '哪个', '那些', '什么', '怎么', '怎样', '这么', '那么', '这样', '那样',
        '一点', '一些', '一点', '一些', '一下', '一下', '一会儿', '一点儿', '现在', '然后', '再', '曾经',
        '曾经', '曾经', '曾经', '或者', '或者', '以及', '或者', '跟', '跟', '同', '和', '与', '跟', '同',
        '跟', '与', '跟', '和', '与', '而且', '并且', '或者', '还是', '或者', '或者', '又', '也', '还',
        '再', '另外', '那',
        '然后',
        '接着',
        '之后',
        '起来',
        # ... 其他语气助词 ...
    }
)

wc.generate(word)  # 生成词云

# 显示词云图
plt.imshow(wc, interpolation='bilinear')  # 使用bilinear插值可以使词云看起来更平滑
plt.axis('off')
plt.show()

到此这篇关于使用python生成定制化词云的代码示例的文章就介绍到这了,更多相关python生成定制化词云内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现将元组中的元素作为参数传入函数的操作

    Python实现将元组中的元素作为参数传入函数的操作

    这篇文章主要介绍了Python实现将元组中的元素作为参数传入函数的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • pandas学习之df.fillna的具体使用

    pandas学习之df.fillna的具体使用

    本文主要介绍了pandas学习之df.fillna的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • Python做文本按行去重的实现方法

    Python做文本按行去重的实现方法

    每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行。接下来通过本文给大家介绍Python做文本按行去重的实现方法,感兴趣的朋友一起看看吧
    2016-10-10
  • python使用requests设置读取超时时间

    python使用requests设置读取超时时间

    在Python中,使用requests库进行网络请求时,可以通过设置 timeout参数来指定读取超时时间,本文就来介绍一下,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • python 表达式和语句及for、while循环练习实例

    python 表达式和语句及for、while循环练习实例

    下面小编就为大家带来一篇python 表达式和语句及for、while循环练习实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • PyQt 实现使窗口中的元素跟随窗口大小的变化而变化

    PyQt 实现使窗口中的元素跟随窗口大小的变化而变化

    今天小编就为大家分享一篇PyQt 实现使窗口中的元素跟随窗口大小的变化而变化,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python趣味挑战之turtle库绘画飘落的银杏树

    Python趣味挑战之turtle库绘画飘落的银杏树

    银杏还是和恐龙同时代的植物,被称为活化石,适应能力强,生长期漫长,寿命可达千年.因此,银杏是长寿的代表和象征,接下来用Python的turtle库来绘画银杏树唯美的一幕,需要的朋友可以参考下
    2021-05-05
  • 使用python Telnet远程登录执行程序的方法

    使用python Telnet远程登录执行程序的方法

    今天小编就为大家分享一篇使用python Telnet远程登录执行程序的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python yield 关键词,

    Python yield 关键词,

    这篇文章主要介绍了Python yield 关键词,要理解yield的作用,你必须理解生成器是什么。在理解生成器之前,必须先理解迭代器。下面文章我们就先从
    迭代器开始展开yield关键词的相关自资料 ,需要的朋友可以参考一下
    2021-12-12
  • python算法测试结果自动保存到excel表格的实现步骤

    python算法测试结果自动保存到excel表格的实现步骤

    我们在进行算法评估是通常会针对每个样本的算法处理结果进行统计,例如每个样本正确预测数量、漏检数量和误检数量、精度等,本文小编将给大家介绍python算法测试结果自动保存到excel表格的实现步骤,感兴趣的朋友可以参考下
    2023-12-12

最新评论