python处理常见格式压缩包文件的全指南

 更新时间:2025年05月09日 09:50:40   作者:hutaotaotao  
这篇文章主要为大家详细介绍了如何使用python处理常见格式压缩包文件,例如7z压缩包,tar和gz压缩包,zip类压缩包和.rar文件,有需要的小伙伴可以了解下

1.7z压缩包

安装py7zr库

pip install py7zr

解压.7z文件

以下示例代码将一次性把"F:/Ticks/test.7z"压缩文件里面的所有文件一一按照原文件层次结构递归解压到"F:/Ticks/test"目录下。注意,如果xxx.7z里面包含有压缩文件,将不会解压。

import py7zr
 
def un_7z(file_7z_path):
    save_dir = file_7z_path[:file_7z_path.rfind(".7z")]
    archive = py7zr.SevenZipFile(file_7z_path, mode='r')
    archive.extractall(path=save_dir)
    archive.close()
 
if __name__ == "__main__":
    filepath = "F:/Ticks/test.7z"
    un_7z(filepath)

源文件夹目录结构

解压后是保持一致的

py7zr (v0.6及更高版本) 也提供了上下文管理,所以可以使用 with 代码块:

import py7zr
 
with py7zr.SevenZipFile('sample.7z', mode='r') as z:
    z.extractall()

py7zr 还支持提取单个或通过 extract(targets=[‘file path’]) 选特定的多个文件进行解压。注意:如果只指定文件而不指定父目录,将会提取失败。

import py7zr
import re
 
filter_pattern = re.compile(r'<your/target/file_and_directories/regex/expression>')
with SevenZipFile('archive.7z', 'r') as archive:
    allfiles = archive.getnames()
    selective_files = [f for f in allfiles if filter_pattern.match(f)]
    archive.extract(targets=selective_files)

py7zr(v0.6及更高版本)支持提取受密码保护的归档文件。

import py7zr
 
with py7zr.SevenZipFile('encrypted.7z', mode='r', password='secret') as z:
    z.extractall()

压缩为.7z文件

下面是一段如何生成归档文件的示例代码

import py7zr
 
with py7zr.SevenZipFile('target.7z', 'w') as archive:
    archive.writeall('/path/to/base_dir', 'base')
 
with py7zr.SevenZipFile('target.7z', 'w') as z:
    z.writeall('./base_dir')

要创建加密存档,请传递密码

import py7zr
 
with py7zr.SevenZipFile('target.7z', 'w', password='secret') as archive:
    archive.writeall('/path/to/base_dir', 'base')

要使用zstandard等算法创建存档,可以使用自定义过滤器调用。

import py7zr
 
my_filters = [{"id": py7zr.FILTER_ZSTD}]
another_filters = [{"id": py7zr.FILTER_ARM}, {"id": py7zr.FILTER_LZMA2, "preset": 7}]
with py7zr.SevenZipFile('target.7z', 'w', filters=my_filter) as archive:
    archive.writeall('/path/to/base_dir', 'base')

7z压缩包分卷的解压缩

①分卷长什么样

正常情况下是把文件夹filename压缩为filename.7z压缩包,但7z也提供了用分卷的形式,比如11个分卷

filename.7z.001,filename.7z.002,filename.7z.003,filename.7z.004,.......,filename.7z.011

7z.001这类文件是7z格式文件简单分割出的

②如何手动解压分卷形式的压缩包

要将全部分卷放在同一个目录下,然后解压filename.7z.001即可,如果filename.7z.001所在目录下缺少部分分卷,则会无法解压或者解压失败

③如何将分卷压缩包合并为7z压缩包文件

linux环境下

进入分卷所在文件夹,使用指令

cat {文件名1} {文件名2} {文件名n} > {生成文件名}

下以文件名 shapeNetP2M.7z为例,执行如下命令:

cat ShapeNetP2M.7z-001.001 ShapeNetP2M.7z-002.002 ShapeNetP2M.7z-003.003 >ShapeNetP2M.7z

[root@localhost 7ztest]# ls
BondTick.7z.001  BondTick.7z.002  BondTick.7z.003  BondTick.7z.004  BondTick.7z.005  BondTick.7z.006  BondTick.7z.007  BondTick.7z.008  BondTick.7z.009  BondTick.7z.010  BondTick.7z.011
[root@localhost 7ztest]# cat * > BondTick.7z

windows环境下

1、在G:\Downloads\Test目录中有一批Test.7z.00x分卷压缩文件(后缀一般为001-00x)。

2、首先使用快捷键“Win+R”弹出运行命令框,输入:cmd,打开命令行窗口。

3、输入:cd /d G:\Downloads\Test,进入7z分卷文件目录中。

4、然后输入:copy /b test.7z.* test.7z。

5、成功后就会在当前目录看到一个test.7z文件(7z后缀)

2.tar和gz压缩包

安装相关包

Python自带的tarfile模块可以方便读取tar归档文件,牛b的是可以处理使用gzip和bz2压缩归档文件tar.gz和tar.bz2。

tarfile包常用函数

①tarfile.open

创建tar文件对象

tarfile.open(name=None,mode='r',fileobj=None,bufsize=10240,**kwargs)

mode的值有:

  • 'r' or 'r:*'   Open for reading with transparent compression (recommended).
  • 'r:'   Open for reading exclusively without compression.
  • 'r:gz'   Open for reading with gzip compression.
  • 'r:bz2'   Open for reading with bzip2 compression.
  • 'a' or 'a:'   Open for appending with no compression. The file is created if it does not exist.
  • 'w' or 'w:'   Open for uncompressed writing.
  • 'w:gz'   Open for gzip compressed writing.
  • 'w:bz2'   Open for bzip2 compressed writing.

②tar.close()

关闭文件对象

③tar.add(filepath)

将文件filepath添加到压缩包文件中

④tar.getnames()

获取压缩包里的全部目录和文件路径,返回列表,比如压缩包是linux环境下的某个压缩包,压缩时某个文件路径是"/home/tick/test/20230510/601669_snap.csv",则返回列表里的某个元素就是"/home/pjzy003/test/20230510/601669_snap.csv"

⑤tar.extract(file_name, target_dir)

将压缩包文件中的文件file_name解压到target_dir中,最终解压后的文件路径或者目录路径为target_dir+file_name

  • 比如target_dir="D:\xxx\yyy",file_name="test\20230510",则新生成的文件夹为"D:\xxx\yyy\test\20230510"
  • 比如target_dir="D:/xxx/yyy",file_name="/home/tick/test/20230510/601669_snap.csv",则新生成的文件为"D:/xxx/yyy/home/tick/test/20230510/601669_snap.csv"

注意:tar.extract函数的第一个参数必须传入tar.getnames()这个函数返回的列表里的元素

压缩为tar.gz文件

import os
import tarfile
 
if __name__ == "__main__":
    dir_path = r"D:\PythonTest\20220510"
    tar_gz_path = f"{dir_path}.tar.gz"
    
    # 1.创建tar文件对象
    tar = tarfile.open(tar_gz_path, "w:gz")
    
    # 2.将子目录和文件添加到tar对象中
    for root, dirs, files in os.walk(dir_path):
        # 2.1先将目录添加到压缩包中
        tar.add(root)
        
        # 2.2再将目录下的文件添加到压缩包中
        for file in files:
            fullpath = os.path.join(root, file)
            tar.add(fullpath)
    
    # 3.关闭tar对象
    tar.close()

解压tar.gz文件

用法示例

import os
import tarfile
 
if __name__ == "__main__":
    tar_gz_path = r"D:\PythonTest\test\20220510.tar.gz"
    # 以下代码将tar.gz文件解压到了同级目录下
    # 比如D:\PythonTest\test\20220510.tar.gz
    # 解压后产生D:\PythonTest\test\20220510
    
    # 处理路径信息
    tar_gz_path = tar_gz_path.replace("\\", "/")
    tar_gz_dir = tar_gz_path[:tar_gz_path.rfind("/")]
    tar_gz_name = tar_gz_path[tar_gz_path.rfind("/")+1:]
    dir_name = tar_gz_name[:-7]
    
    # 创建tar文件对象
    tar = tarfile.open(tar_gz_path, "r:gz")
    
    # 获取压缩包下的所有子目录和文件路径
    file_names = tar.getnames()
    print(file_names)
 
    # 解压
    for file_name in file_names:
        print("=============")
        print("file_name:", file_name)   
        pre_name = file_name[:file_name.rfind(dir_name)-1]
        print("pre_name:", pre_name)     
        save_dir = tar_gz_dir[:tar_gz_dir.rfind(pre_name)]
        print("save_dir:", save_dir)    
        tar.extract(file_name, save_dir)
    
    # 关闭tar对象
    tar.close()

将其封装为函数。与示例相比,这里的函数处理了文件路径的细节问题,比如压缩的路径"D:\data\20230510.tar.gz",压缩包里面的文件路径是"/home/tick/test/20230510/601669_snap.csv",则解压后的文件路径是"D:/data/20230510/home/tick/test/20230510/601669_snap.csv",但是我们想要的是"D:/data/20230510/601669_snap.csv"这种效果,因此需要处理,具体见下方代码。

import os
import shutil
import tarfile
 
def un_tar_gz(gz_file_path):
    """
    :param gz_file_path: tar.gz文件路径,比如D:/PythonTest/test/20220510.tar.gz
    :return: None
    函数作用:
        将tar.gz文件解压到了同级目录下
        比如D:/PythonTest/test/20220510.tar.gz解压后产生D:/PythonTest/test/20220510
    """
    # 判断传输的文件类型是否正确
    if gz_file_path[-7:] != ".tar.gz":
        print(f"{gz_file_path} not tar.gz type")
        return None
    
    # 若文件不存在
    if not os.path.exists(gz_file_path):
        print(f"{gz_file_path} not exists")
        return None
    
    # 处理路径信息
    tar_gz_path = gz_file_path.replace("\\", "/")
    tar_gz_dir = tar_gz_path[:tar_gz_path.rfind("/")]
    tar_gz_name = tar_gz_path[tar_gz_path.rfind("/") + 1:]
    tar_gz_name_pre = tar_gz_name[:-7]
    save_dir = tar_gz_dir + "/" + tar_gz_name_pre
    save_dir_temp = save_dir + "_temp"
    
    # 创建tar文件对象
    tar = tarfile.open(tar_gz_path, "r:gz")
    
    # 获取压缩包下的所有子目录和文件路径
    file_names = tar.getnames()
    # print(file_names)
    
    # 解压,解压后的文件名为 save_dir + file_name
    for file_name in file_names:
        tar.extract(file_name, save_dir_temp)
    
    # 关闭tar对象
    tar.close()
    
    # 创建同级目录
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)
    
    # 将解压后的文件移动到同级目录下
    for file_name in file_names:
        temp_file_path = save_dir_temp+"/"+file_name
        start_index = file_name.rfind(tar_gz_name_pre) + len(tar_gz_name_pre)
        final_file_path = save_dir+"/"+file_name[start_index:]
        if not os.path.exists(final_file_path):
            if os.path.isdir(temp_file_path):
                os.mkdir(final_file_path)
            else:
                shutil.move(temp_file_path, final_file_path)
    
    # 删除临时目录
    if os.path.exists(save_dir_temp):
        shutil.rmtree(save_dir_temp)
 
if __name__ == "__main__":
    gz_path = r"D:\PythonTest\test\20220510.tar.gz"
    un_tar_gz(gz_path)

将tar.gz解压tar文件

import gzip
 
def ungz(filename):
    filename = filename[:-3] 
    # gz文件的单文件解压就是去掉 filename 后面的 .gz
    gz_file = gzip.GzipFile(filename)
    with open(filename, "w+") as file:
        file.write(gz_file.read())
        return filename  # 这个gzip的函数需要返回值以进一步配合untar函数

解压tar文件

import tarfile
 
def untar(filename):
    tar = tarfile.open(filename)
    names = tar.getnames()
    # tar本身是将文件打包,解除打包会产生很多文件,因此需要建立文件夹存放
    if not os.path.isdir(filename + "_dir"):
        os.mkdir(filename + "_dir")
    for name in names:
        tar.extract(name, filename + "_dir/")
    tar.close()

3.zip类压缩包

使用zipfile模块

import zipfile
 
def unzip(filename):
    zip_file = zipfile.ZipFile(filename)
    # 类似tar解除打包,建立文件夹存放解压的多个文件
    if not os.path.isdir(filename + "_dir"):
        os.mkdir(filename + "_dir")
    for names in zip_file.namelist():
        zip_file.extract(names, filename + "_dir/")
    zip_file.close()

4.处理.rar文件

使用rarfile包

import rarfile
import os
 
def unrar(filename):
    rar = rarfile.RarFile(filename)
    if not os.path.isdir(filename + "_dir"):
        os.mkdir(filename + "_dir")
    os.chdir(filename + "_dir")  # 改变当前工作路径
    rar.extractall()   # 将全部文件解压到当前工作路径
    rar.close()

以上就是python处理常见格式压缩包文件的全指南的详细内容,更多关于python处理压缩包文件的资料请关注脚本之家其它相关文章!

相关文章

  • pandas库中to_datetime()方法的使用解析

    pandas库中to_datetime()方法的使用解析

    这篇文章主要介绍了pandas库中to_datetime()方法的使用解析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • python 将字符串转换成字典dict的各种方式总结

    python 将字符串转换成字典dict的各种方式总结

    下面小编就为大家分享一篇python 将字符串转换成字典dict的各种方式总结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-03-03
  • python带参数打包exe及调用方式

    python带参数打包exe及调用方式

    今天小编就为大家分享一篇python带参数打包exe及调用方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python进行批量剪辑视频片头片尾

    Python进行批量剪辑视频片头片尾

    这篇文章主要为大家详细介绍了如何使用Python进行批量剪辑视频片头片尾功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-01-01
  • python爬虫实例详解

    python爬虫实例详解

    这篇文章主要为大家详细介绍了python爬虫实例,包括爬虫技术架构,组成爬虫的关键模块,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • Python中dataclass库实例详解

    Python中dataclass库实例详解

    这篇文章主要介绍了Python中dataclass库,合理使用dataclass将会大大减轻开发中的负担,将我们从大量的重复劳动中解放出来,这既是dataclass的魅力,本文结合实例代码给大家介绍的非常详细,需要的朋友参考下吧
    2022-09-09
  • 一文学会利用python解决文章付费限制问题

    一文学会利用python解决文章付费限制问题

    本篇文章主要介绍利用Python爬虫爬取付费文章,适合练习爬虫基础同学,文中描述和代码示例很详细,干货满满,感兴趣的小伙伴快来一起学习吧
    2023-05-05
  • Python编程实现的简单神经网络算法示例

    Python编程实现的简单神经网络算法示例

    这篇文章主要介绍了Python编程实现的简单神经网络算法,结合实例形式分析了神经网络算法的原理及Python相关算法实现技巧,需要的朋友可以参考下
    2018-01-01
  • Python实现功能完整的个人员管理程序

    Python实现功能完整的个人员管理程序

    这篇文章主要介绍了Python实现功能完整的个人员管理程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2022-12-12
  • 如何使用python获取现在的日期与时间

    如何使用python获取现在的日期与时间

    学习了一段时间的python,不知道大家对于代码的编写有了属于自己的一套思路了呢,下面这篇文章主要给大家介绍了关于如何使用python获取现在的日期与时间的相关资料,需要的朋友可以参考下
    2022-11-11

最新评论