Python批量解压文件中出现中文乱码的原因及解决方法

 更新时间:2023年08月21日 09:58:45   作者:布拉德特皮  
这篇文章主要给大家记一次Python批量解压文件遇中文乱码及解决过程,文中有详细的图解及代码示例,具有一定的参考价值,需要的朋友可以参考下

前言

因为工作原因,公司提高了对项目的安全扫描水平,所以最近在学习Web逆向工程。

通过付费渠道,拿到了关于 Python 爬虫的相关教材,百度网盘下载后发现文件格式像套娃一样(如下图所示),如果30+个文件都挨个点进去解压,就显得有点愚蠢,正好同时要学 Python,于是拿来练手,写一个批量解压的脚本,由此引出了标题。

image.png

省流

在调用 zipfile.ZipFile() 方法时,需要多传 metadata_encoding 参数,即:

with zipfile.ZipFile(sub_zip_path, 'r', metadata_encoding='gbk') as item:

编写脚本

这里直接贴源码了,主要是遍历文件,并使用 zipfile 库解压:

import os
import zipfile
import shutil
origin_file_path = r"G:\Nas\爬虫第11期"
# 使用 os.listdir 获取目录下的所有文件列表
path_dir = os.listdir(origin_file_path)
for finder in path_dir:
    # 拼接路径
    item_path = os.path.join(origin_file_path, finder)
    # 如果是文件夹
    if os.path.isdir(item_path):
        # 继续获取子目录下的文件列表
        sub_file_dir = os.listdir(item_path)
        # 如果不是空文件夹
        if len(sub_file_dir): 
            # 正常应该用正则判断是不是zip文件
            # 因为每个文件夹只有一个zip压缩包,固直接取sub_file_dir的下标0
            sub_zip_path = os.path.join(item_path, sub_file_dir[0])
            # 将文件解压到当前目录
            zip_to_path = os.path.join(sub_zip_path, finder)
            # 参数 r 代表自动转义【盘符】
            with zipfile.ZipFile(sub_zip_path, 'r') as item:
                # 其实直接调用extractall方法可以实现全部解压
                # item.extractall(item_path)
                # 遍历压缩文件,并解压
                for name in item.namelist():
                    item.extract(name, item_path)
                    print(f'name: {name} | {sub_zip_path}')
                item.close()
            # 若对解压结果不满意,批量删除
            # if os.path.isdir(sub_zip_path):
            #     shutil.rmtree(sub_zip_path)
            print(finder, item_path, sub_file_dir)
    else:
        print('isFile:', finder)

点击运行,然后……

image.png

完全的乱码,根本没法用。

批量删除(可选)

此时可以把批量删除的代码注释打开,清空乱码文件,即:

            # 参数 r 代表自动转义【盘符】
            # with zipfile.ZipFile(sub_zip_path, 'r') as item:
            #     # item.extractall(item_path)
            #     for name in item.namelist():
            #         item.extract(name, item_path)
            #         print(f'name: {name} | {sub_zip_path}')
            #     item.close()
            # 若对解压结果不满意,批量删除
            if os.path.isdir(sub_zip_path):
                shutil.rmtree(sub_zip_path)

shutil.rmtree() 就是删除整个文件夹(不会校验子目录的状态)的意思

寻解过程

Google 后发现大多数都是几年前的解法,而且涉及到修改库文件源码:

image.png

image.png

于是在查看源码的过程中,发现其实3.11版本已经支持了中文解码,只需要传入参数即可:

image.png

由上图可知,若不传入 metadata_encoding 就会默认按 cp437 处理。

修改后,再次运行脚本,发现打印和解压目录也正常了:

image.png

image.png

到此这篇关于Python批量解压文件中出现中文乱码的原因及解决方法的文章就介绍到这了,更多相关Python解压文件中出现中文乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python字符串str和字节数组相互转化方法

    python字符串str和字节数组相互转化方法

    下面小编就为大家带来一篇python字符串str和字节数组相互转化方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-03-03
  • python爬虫判断招聘信息是否存在的实例代码

    python爬虫判断招聘信息是否存在的实例代码

    在本篇文章里小编给大家整理的是一篇关于python爬虫判断招聘信息是否存在的实例代码,有兴趣的朋友们可以学习下。
    2020-11-11
  • python 实现单一数字取对数与数列取对数

    python 实现单一数字取对数与数列取对数

    这篇文章主要介绍了python 实现单一数字取对数与数列取对数操作,具有很好的参考价值,希望对大家有所帮助。
    2021-05-05
  • python33 urllib2使用方法细节讲解

    python33 urllib2使用方法细节讲解

    Python 标准库中有很多实用的工具类,这里总结一些 urllib2 的使用细节:Proxy 的设置、Timeout 设置、在 HTTP Request 中加入特定的 、Cookie、使用 HTTP 的 PUT 和 DELETE 方法
    2013-12-12
  • python实现修改xml文件内容

    python实现修改xml文件内容

    这篇文章主要介绍了python实现修改xml文件内容,XML 指可扩展标记语言,是一种标记语言,是从标准通用标记语言(SGML)中简化修改出来的
    2022-07-07
  • 我用Python抓取了7000 多本电子书案例详解

    我用Python抓取了7000 多本电子书案例详解

    这篇文章主要介绍了我用Python抓取了7000 多本电子书案例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • 详解Python中的内建函数,可迭代对象,迭代器

    详解Python中的内建函数,可迭代对象,迭代器

    这篇文章主要介绍了Python内建函数,可迭代对象,迭代器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • 利用Python实现岗位的分析报告

    利用Python实现岗位的分析报告

    这篇文章主要为大家详细介绍了如何利用Python实现岗位的分析报告,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-03-03
  • Python列表推导式实现代码实例

    Python列表推导式实现代码实例

    这篇文章主要介绍了Python列表推导式实现代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • Python中的并发编程asyncio库入门使用

    Python中的并发编程asyncio库入门使用

    这篇文章主要为大家介绍了Python中的并发编程asyncio库入门的使用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05

最新评论