tensorflow之并行读入数据详解

更新时间：2020年02月05日 10:42:18 作者：hh_2018

今天小编就为大家分享一篇tensorflow之并行读入数据详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

最近研究了一下并行读入数据的方式，现在将自己的理解整理如下，理解比较浅，仅供参考。

并行读入数据主要分

1. 创建文件名列表

2. 创建文件名队列

3. 创建Reader和Decoder

4. 创建样例列表

5. 创建批列表（读取时可要可不要，一般情况下样例列表可以执行读取数据操作，但是在实际训练的时候往往需要批列表来分批进行数据的组织，提取）

其具体流程如下：

一、文件名列表：

文件名列表是一个list类型的数据，里面的内容是需要用的数据文件名。可以使用常规的python语法入：[file1, file2]。也可以使用tf.train.match_filename_once方法通过匹配输入。

二、文件名队列

一般使用tf.train.string_input_producer的方法创建文件名队列。该方法传入的是一个文件名列表，输出的是一个先进先出队列。在该方法中存在两个重要参数，num_epochs和shuffle。num_epochs表示列表遍历的次数，主要是由于有时候训练模型需要反复的遍历数据集便于更新模型参数，默认情况下是None（循环遍历）。shuffle表示是否随机遍历，默认情况下是true，表示数据会随机输入队列，当想顺序读入数据时shuffle设置为false。至于其他的capacity表示列表的容量，shared_name表示共享时的名字。

三、Reader和Decoder

Reader的功能是读取数据记录，Decoder的功能是将数据的记录转化为张量格式。在使用时需要先创建输入数据文件对应的Reader，然后从文件名队列中取出文件名，在调用Reader.read的方法返回一个类似于（输入文件名，数据记录）的元组。最后使用Decoder方法将每一列数据都转化为张量的形式。

四、批队列

批队列可以在构建图之前事先构建好，样例队列需要在图中直接产生不用直接预定义。所以先介绍批队列的构建方式。批队列主要是样例打包聚集成批数据，能供模型训练使用。一般是使用tf.train.shuffle_batch和tf.train.batch的方法构建。可以控制批的大小（一次性读入的数据大小），线程个数，然后在图中直接调用。

五、样例队列

样例队列的创建方式是隐式的，一般在图中为了计算任务顺利的输入数据，我们一般使用tf.train.start_queue_runners方法启动所有的入队操作所需的线程，此时会自动执行所有的文件名入队操作和文件名队列的操作，执行样例队列入队和样例队列的操作。这些都是在后台产生的。

六、线程协调器

并行读取数据离不开多线程操作，多线程操作离不开线程调节器。tensorflow使用tf.train.Coordinatior方法创建管理多线程生命周期的调节器。调节器的工作原理比较简单，它监控Tensoflow后台的所有线程，当某一个线程出现异常时，它的should_stop方法返回true，最后调用request_stop终止所有的线程。但是要注意我们在使用线程调节器之前一定要调用tf.local_variables_initializer方法进行初始化。

七、读入数据类型

tensorflow读入的数据类型可以使csv，TFRecord和自由格式文件。CSV的读取直接调用tf.TextLineReader构建Reader，再调用tf.decoder_csv的方法对文件进行解码变为张量。

TFRecoder是tensorflow标准的输入格式，它是通过protocolBuffer构建的存储数据记录的结构。该数据结构分明，一个样例中包含一组特征Features，一个Features又包含多个特征向量feature。其在读取的时候主要使用tf.TFRecoderReader的方法构建Reader，在使用read的方法读出元组。接着对元组中的value采用tf.parse_single_example()方法进行解析。再解析的时候需要传入features参数，该参数要和构造该文件时输入的字典型变量保持一致（key,value）。key和输入的key一致，value是一个表示该key对应的维度和类型的定西，用tf.FixedLenFeature函数构造，该函数传入参数表示特征形状和特征值的类型。具体如下：

自由格式是指用户自定义的二进制文件，他存储的对象是字符串，每条记录都是一个固定长度的字节块。再读入的时候首先要使用tf.FixedLengthRecoderReader的方法读取对应的二进制文件，然后使用tf.decode_raw的方法将字符串转化为uint8类型的张量。

八、整体代码

具体的相关码如下：

以上这篇tensorflow之并行读入数据详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python 里最强的地图绘制神器
这篇文章主要介绍了Python 里最强的地图绘制神器,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-03-03
Python 迭代器工具包【推荐】
迭代器工具在产生数据的时候将会显得非常便捷、高效，掌握了这些基本的方法之后，通过简单的组合就可以获得更多迭代器工具。
2016-05-05
MATLAB中text函数使用的语法与示例代码
text函数的功能是向数据点添加文本说明,下面这篇文章主要给大家介绍了关于MATLAB中text函数使用的语法与示例的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-05
python Tkinter的简单入门教程
这篇文章主要介绍了python Tkinter的简单入门教程，帮助大家更好的理解和学习使用python制作gui程序，感兴趣的朋友可以了解下
2021-04-04
python上selenium的弹框操作实现
这篇文章主要介绍了python上selenium的弹框操作实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-07-07
Python绘制分类图的方法
这篇文章主要为大家详细介绍了Python绘制分类图的方法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-04-04
python 列表的查询操作和切片
这篇文章主要介绍了python 列表的查询操作和切片,列表是python内置的数据结构,相当于数组,列表中所有数据都是按顺序有序排列，列表属于序列类型,接下来一起学习下面的文章内容吧
2022-01-01
python提取字典key列表的方法
这篇文章主要介绍了python提取字典key列表的方法,涉及Python中keys方法的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
Python脚本判断 Linux 是否运行在虚拟机上
这篇文章主要介绍了Python脚本判断 Linux 是否运行在虚拟机上,本文讲解了判断 OpenVZ/Xen PV/UML、判断 VMware/Xen HVM/KVM、判断 VirtualBox/Virtual PC等方法,需要的朋友可以参考下
2015-04-04
Pytorch抽取网络层的Feature Map(Vgg)实例
今天小编就为大家分享一篇Pytorch抽取网络层的Feature Map(Vgg)实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08