Python 读取 .gz 文件全过程

 更新时间:2022年09月26日 15:02:38   作者:努力沉淀  
这篇文章主要介绍了Python 读取 .gz 文件全过程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

Python 读取 .gz 文件

读取.gz 文件需要使用gzip 包,如果没有安装可以自行在终端安装

pip install gzip
import gzip
path = "" #你的文件路径
f = gzip.open(path, 'rb')
 
for line in f.readlines(): # 按行进行读取
    s = line.decode() # 读取之后要进行解码
    print(s) # s 为string类型,就是我们读取的文件中的一行

也可以批量读取,批量读取文件使用os包对文件夹中的所有文件进行

import gzip
import os\
 
path = "" #表示你要打开的文件夹
files = os.listdir(path) #files 是path中存放的所有文件名集合
for file in files:
    f = gzip.open(path+file, 'rb')
    for line in f.readline():
        print(line)

Python 读取gz文件,字符串与字节串的相互转换

首先是字节串转字符串,也就是str:

b = b'some byte array'
 
str(b, encoding = "utf-8")  
#or
bytes.decode(b)

然后是字符串转为字节串:

s = 'some string'
 
bytes(s, encoding = "utf8")  
#or
str.encode(s)

fastq.gz文件读取

with gzip.open(fq,'r') as fastq:
    try:
        while True:
            line1 = next(fastq).decode()  # 字节转字符串
            line2 = next(fastq).decode()
            line3 = next(fastq).decode()
            line4 = next(fastq).decode()
            
    except:
            pass

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python人工智能tensorflow构建循环神经网络RNN

    python人工智能tensorflow构建循环神经网络RNN

    这篇文章主要为大家介绍了python人工智能tensorflow构建循环神经网络RNN,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • Django 项目重命名的实现步骤解析

    Django 项目重命名的实现步骤解析

    这篇文章主要介绍了Django 项目重命名的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python+Pygame实战之炫舞小游戏的实现

    Python+Pygame实战之炫舞小游戏的实现

    提到QQ炫舞,可能很多人想到的第一个词是“青春”。恍然间,这个承载了无数人回忆与时光的游戏品牌,已经走到了第十几个年头。今天小编就来给大家尝试做一款简单的简陋版的小游戏——《舞动青春*炫舞》,感兴趣的可以了解一下
    2022-12-12
  • Python面向对象class类属性及子类用法分析

    Python面向对象class类属性及子类用法分析

    这篇文章主要介绍了Python面向对象class类属性及子类用法,结合实例形式较为详细的分析了Python面向对象编程中class类属性的访问、修改、删除操作及子类的相关使用技巧,需要的朋友可以参考下
    2018-02-02
  • Pytorch释放显存占用方式

    Pytorch释放显存占用方式

    今天小编就为大家分享一篇Pytorch释放显存占用方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • 使用Python对微信好友进行数据分析

    使用Python对微信好友进行数据分析

    这篇文章主要介绍了使用Python对微信好友进行数据分析的实现代码,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-06-06
  • Python Dask库处理大规模数据集的强大功能实战

    Python Dask库处理大规模数据集的强大功能实战

    Dask是一个灵活、开源的Python库,专为处理大规模数据集而设计,与传统的单机计算相比,Dask能够在分布式系统上运行,有效利用集群的计算资源,本文将深入介绍Dask的核心概念、功能和实际应用,通过丰富的示例代码展示其在大数据处理领域的强大能力
    2023-12-12
  • Python 管理依赖包工具pip, virtualenv详解

    Python 管理依赖包工具pip, virtualenv详解

    管理依赖包是Python开发中不可或缺的一部分,通过pip、virtualenv和pipenv等工具,我们可以有效地管理包和虚拟环境,确保项目的可移植性和一致性,这篇文章主要介绍了Python 管理依赖包(pip, virtualenv),需要的朋友可以参考下
    2024-07-07
  • 详解如何在PyCharm控制台中输出彩色文字和背景

    详解如何在PyCharm控制台中输出彩色文字和背景

    这篇文章主要介绍了详解如何在PyCharm控制台中输出彩色文字和背景,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • keras用auc做metrics以及早停实例

    keras用auc做metrics以及早停实例

    这篇文章主要介绍了keras用auc做metrics以及早停实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07

最新评论