Python处理文件的方法(mimetypes和chardet)

 更新时间:2021年04月14日 10:13:59   作者:八戒无戒i  
这篇文章主要介绍了Python处理文件的方法(mimetypes和chardet),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

处理文件时minetype和chardet是很好用的两个模块函数:

###chardet:
主要处理文件文件编码问题

示例.png

假如有这个一个配置文件,非ascii或者utf8编码:

__coding__ = 'UTF-8'
__author__ = 'bingo'

import chardet
import configparser
parse = configparser.ConfigParser()
parse.read("config.ini")
print(parse.sections())

运行结果:

G:\Anaconda\python.exe "C:/Users/bingo/Desktop/The crawler/学习/demo.py"
Traceback (most recent call last):
 File "C:/Users/bingo/Desktop/The crawler/学习/demo.py", line 29, in <module>
   parse.read("config.ini")
 File "G:\Anaconda\lib\configparser.py", line 696, in read
   self._read(fp, filename)
 File "G:\Anaconda\lib\configparser.py", line 1014, in _read
   for lineno, line in enumerate(fp, start=1):
UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal >multibyte sequence

但是改成下面, 用chardet先获取文件编码格式,就可以完美解决上面报错问题:

import chardet
import configparser

data = open("config.ini", "rb").read()
a = chardet.detect(data)
print(a)

parse = configparser.ConfigParser()
parse.read("config.ini", encoding=a["encoding"])
print(parse.sections())

>>>>>>>>>>>>>>>再运行:
G:\Anaconda\python.exe "C:/Users/bingo/Desktop/The crawler/学习/demo.py"
{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}
['config']

Process finished with exit code 0

###mimetypes:
主要处理文件文件类型问题
该模块提供在文件名或URL与与文件扩展名关联的MIME类型之间进行转换的功能,主要有以下两个函数:
mimetypes.guess_type(url, strict=True)
返回一个元组(type, encoding), strict默认参数,指定已知MIME类型的列表是否仅限于在IANA注册的官方类型,type为MIME类型,encoding可能为None
mimetypes.guess_all_extensions(type, strict=True)
返回一个列表,根据传入的type(MIME类型),返回提供所有可能的文件扩展名的字符串列表,包括前导点('.'),strict默认参数,指定已知MIME类型的列表是否仅限于在IANA注册的官方类型

import mimetypes

# 获取文件MIME类型
type, encoding = mimetypes.guess_type("demo.py")
print(type)
# 根据MIME类型获取所有可能的文件后缀名
c = mimetypes.guess_all_extensions(type)
print(c)

>>>运行结果如下:
G:\Anaconda\python.exe "C:/Users/bingo/Desktop/The crawler/学习/demo.py"
text/plain
['.bat', '.c', '.h', '.ksh', '.pl', '.txt', '.asm', '.cc', '.cod', '.cpp', '.cs', '.csh', '.cshader', >'.csproj', '.cxx', '.def', '.dsh', '.dshader', '.dsp', '.dsw', '.efu', '.filters', '.fx', '.gitattributes', >'.gitignore', '.gitmodules', '.gsh', '.gshader', '.hh', '.hlsl', '.hlsli', '.hpp', '.hsh', '.hshader', >'.hxx', '.i', '.idl', '.inc', '.inl', '.ipp', '.js', '.jsproj', '.jsx', '.jsxbin', '.jsxinc', '.lst', '.mak', >'.map', '.mdp', '.mk', '.odh', '.odl', '.pkgdef', '.pkgundef', '.psh', '.pshader', '.py', '.pyw', >'.rc', '.rc2', '.rct', '.res', '.rgs', '.s', '.sln', '.sol', '.sor', '.srf', '.tlh', '.tli', '.ts', '.tsx', '.tt', >'.user', '.vb', '.vbproj', '.vcp', '.vcw', '.vsh', '.vshader']
.bat

Process finished with exit code 0

到此这篇关于Python—处理文件(mimetypes和chardet)的文章就介绍到这了,更多相关Python—处理文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python 中的列表解析和生成表达式

    python 中的列表解析和生成表达式

    优雅、清晰和务实都是python的核心价值观,如果想通过操作和处理一个序列(或其他的可迭代对象)来创建一个新的列表时可以使用列表解析( List comprehensions)和生成表达式,通过这两个操作,我们可以看到这三个观点是如何在python中和谐统一起来的。
    2011-03-03
  • python 中Mixin混入类的使用方法详解

    python 中Mixin混入类的使用方法详解

    这篇文章主要介绍了python 中Mixin混入类的使用方法详解,Mixin 混入也可以说是编程模式,并不是什么新的语法,用好混入类可以使自己的代码结构清晰,功能明了,所以以后在设计类时要多考虑使用Mixin混入类的实现方式
    2022-07-07
  • Django框架中间件(Middleware)用法实例分析

    Django框架中间件(Middleware)用法实例分析

    这篇文章主要介绍了Django框架中间件(Middleware)用法,结合实例形式分析了Django框架中间件(Middleware)的功能、用法及相关操作技巧,需要的朋友可以参考下
    2019-05-05
  • Python 详解通过Scrapy框架实现爬取CSDN全站热榜标题热词流程

    Python 详解通过Scrapy框架实现爬取CSDN全站热榜标题热词流程

    Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便
    2021-11-11
  • 解决pytorch 数据类型报错的问题

    解决pytorch 数据类型报错的问题

    这篇文章主要介绍了解决pytorch 数据类型报错的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • pyqt5实现井字棋的示例代码

    pyqt5实现井字棋的示例代码

    这篇文章主要给大家介绍了关于pyqt5实现井字棋的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python装饰器原理与简单用法实例分析

    Python装饰器原理与简单用法实例分析

    这篇文章主要介绍了Python装饰器原理与简单用法,结合实例形式分析了Python装饰器的概念、原理、使用方法及相关注意事项,需要的朋友可以参考下
    2018-04-04
  • pandas中字典和dataFrame的相互转换

    pandas中字典和dataFrame的相互转换

    有时候需要把dic转换为DataFrame格式,便于查看和存储,下面这篇文章主要给大家介绍了关于pandas中字典和dataFrame相互转换的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • python和ruby,我选谁?

    python和ruby,我选谁?

    本文给大家对比了下python和Ruby的异同以及各自的优缺点等,向大家展示了python与Ruby的资源以及学习曲线,非常适合在此两种语言中犹豫不决的小伙伴,希望大家能够喜欢
    2017-09-09
  • windows下Virtualenvwrapper安装教程

    windows下Virtualenvwrapper安装教程

    这篇文章主要为大家详细介绍了windows下Virtualenvwrapper安装教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12

最新评论