Python3 解决读取中文文件txt编码的问题

 更新时间:2019年12月20日 17:13:36   作者:晨小点的小疯子  
今天小编就为大家分享一篇Python3 解决读取中文文件txt编码的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

问题描述

尝试用Python写一个Wordcloud的时候,出现了编码问题。

照着网上某些博客的说法添添改改后,结果是变成了“UnicodeDecodeError: ‘utf-8' codec can't decode byte…”这个错误。

捣鼓了一天啊,TXT(此处为本人现下内心表情)。最后,干脆写个最简单的文件读取,竟然还是报错。于是就考虑是不是txt的编码问题,因为读取的txt文件是在Mac上面新建的纯文本文件,一时没找到在哪里查看编码,最后拷贝到Windows系统上,查看了txt文件的编码,竟然是ASCII,不是我最爱的utf-8,Mac你辜负了我对你的一番信任啊!ε(┬┬﹏┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外,在打开文件的时候,要加上第三个参数encoding=‘utf8'(没有横杠)。

with open('./test3.txt','r',encoding='utf8') as fin:
  for line in fin.readlines():
    line = line.strip('\n')

下面附上第一次成功显示的词云的源码(参考网上他人的,注释很详细)

import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
 
# 1.读取数据
with open("./test.txt","r",encoding="utf8") as f:
  text = f.read()
 
# 2.基于 TextRank 算法的关键词抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)
 
# 指定中文字体,不然中文显示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景图,随意
image = imread('cake.jpg')
wc = WordCloud(
  font_path=font,
  background_color='white',#背景色
  mask=image,#背景图
  stopwords=STOPWORDS,#设置停用词
  max_words=100,#设置最大文字数
  max_font_size=100,#设置最大字体
  width=800,
  height=1000,
 
)
 
#生成词云
image_colors = ImageColorGenerator(image)
wc.generate(file)
 
# 使用matplotlib,显示词云图
plt.imshow(wc) #显示词云图
plt.axis('off') #关闭坐标轴
plt.show()
# 保存图片
wc.to_file('news.png')

以上这篇Python3 解决读取中文文件txt编码的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python中的len()函数是什么意思

    Python中的len()函数是什么意思

    这篇文章主要介绍了Python中的len()函数是什么意思以及len()函数使用,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • 如何使用 Python和 FFmpeg 批量截图视频到各自文件夹中

    如何使用 Python和 FFmpeg 批量截图视频到各自文件夹中

    wxPython 提供了一个简单易用的界面,而 FFmpeg 则负责处理视频帧的提取,这个工具不仅对视频编辑工作有帮助,也为批量处理视频文件提供了极大的便利,这篇文章主要介绍了使用 Python和 FFmpeg 批量截图视频到各自文件夹中,需要的朋友可以参考下
    2024-08-08
  • python密码学实现文件加密教程

    python密码学实现文件加密教程

    这篇文章主要为大家介绍了python密码学实现文件加密教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • 使用Python统计网站访问流量

    使用Python统计网站访问流量

    在现代Web开发中,了解和分析网站的访问流量对于优化用户体验、提高网站性能以及制定营销策略具有重要意义,下面我们就来看看如何使用Python来实现一个简单的网站访问流量统计系统吧
    2025-04-04
  • Python协程操作之gevent(yield阻塞,greenlet),协程实现多任务(有规律的交替协作执行)用法详解

    Python协程操作之gevent(yield阻塞,greenlet),协程实现多任务(有规律的交替协作执行)用法详解

    这篇文章主要介绍了Python协程操作之gevent(yield阻塞,greenlet),协程实现多任务(有规律的交替协作执行)用法,结合实例形式较为详细的分析了协程的功能、原理及gevent、greenlet实现协程,以及协程实现多任务相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • Python中requests模块的请求参数详解

    Python中requests模块的请求参数详解

    这篇文章主要介绍了Python中requests模块的请求参数详解,requests模块是一个网络请求模块,可以帮助我们模拟成客户端去请求服务器的数据,我们今天就是主要针对这个模块进行学习,需要的朋友可以参考下
    2023-08-08
  • 详解Django+uwsgi+Nginx上线最佳实战

    详解Django+uwsgi+Nginx上线最佳实战

    这篇文章主要介绍了Django+uwsgi+Nginx上线最佳实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • django中显示字符串的实例方法

    django中显示字符串的实例方法

    在本篇文章里小编给大家整理了一篇关于django中显示字符串的实例方法,有兴趣的朋友们可以跟着学习参考下。
    2021-03-03
  • Python中的迭代器与生成器使用及说明

    Python中的迭代器与生成器使用及说明

    这篇文章主要介绍了Python中的迭代器与生成器使用及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • Python中canmatrix解析dbc文件应用常见示例

    Python中canmatrix解析dbc文件应用常见示例

    DBC是一种用于描述CAN网络协议的文件格式,Python作为一种流行的编程语言,也提供了解析DBC文件的相关类库,这篇文章主要给大家介绍了关于Python中canmatrix解析dbc文件的相关资料,需要的朋友可以参考下
    2024-08-08

最新评论