Tensorflow分批量读取数据教程

更新时间：2020年02月07日 11:26:14 作者：freedom098

今天小编就为大家分享一篇Tensorflow分批量读取数据教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

之前的博客里使用tf读取数据都是每次fetch一条记录，实际上大部分时候需要fetch到一个batch的小批量数据，在tf中这一操作的明显变化就是tensor的rank发生了变化，我目前使用的人脸数据集是灰度图像，因此大小是92*112的，所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor，大小是92*112的（如果考虑通道，也可以reshape为rank为3的，即92*112*1）。如果加入batch，比如batch大小为5，那么拿到的tensor的rank就变成了3，大小为5*92*112。

下面规则化的写一下读取数据的一般流程，按照官网的实例，一般把读取数据拆分成两个大部分，一个是函数专门负责读取数据和解码数据，一个函数则负责生产batch。

import tensorflow as tf

def read_data(fileNameQue):

  reader = tf.TFRecordReader()
  key, value = reader.read(fileNameQue)
  features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
                            'img': tf.FixedLenFeature([], tf.string),})
  img = tf.decode_raw(features["img"], tf.uint8)
  img = tf.reshape(img, [92,112]) # 恢复图像原始大小
  label = tf.cast(features["label"], tf.int32)

  return img, label

def batch_input(filename, batchSize):

  fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
  img, label = read_data(fileNameQue) # fetch图像和label
  min_after_dequeue = 1000
  capacity = min_after_dequeue+3*batchSize
  # 预取图像和label并随机打乱，组成batch，此时tensor rank发生了变化，多了一个batch大小的维度
  exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
                           min_after_dequeue=min_after_dequeue)
  return exampleBatch,labelBatch

if __name__ == "__main__":

  init = tf.initialize_all_variables()
  exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)

  with tf.Session() as sess:

    sess.run(init)
    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord=coord)

    for i in range(100):
      example, label = sess.run([exampleBatch, labelBatch])
      print(example.shape)

    coord.request_stop()
    coord.join(threads)

读取数据和解码数据与之前基本相同，针对不同格式数据集使用不同阅读器和解码器即可，后面是产生batch，核心是tf.train.shuffle_batch这个函数，它相当于一个蓄水池的功能，第一个参数代表蓄水池的入水口，也就是逐个读取到的记录，batch_size自然就是batch的大小了，capacity是蓄水池的容量，表示能容纳多少个样本，min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小，显然，capacity要大于min_after_dequeue，官网推荐：min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads，表示所用线程数目。

min_after_dequeue这个值越大，随机采样的效果越好，但是消耗的内存也越大。

以上这篇Tensorflow分批量读取数据教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python中np.percentile和df.quantile分位数详解
分位数(Quantile)亦称分位点是指将一个随机变量的概率分布范围分为几个等份的数值点,下面这篇文章主要给大家介绍了关于Python中np.percentile和df.quantile分位数的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-05
PyCharm创建Django项目的简单步骤记录
PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,下面这篇文章主要给大家介绍了关于利用PyCharm创建Django项目的简单步骤,需要的朋友可以参考下
2022-07-07
Python中列表复制的常用方法解析
在Python编程中,经常需要对列表进行复制或克隆操作,以便保护原始数据或创建独立的副本,本文将详细介绍如何在Python中进行列表克隆,以及如何选择合适的方法来保护数据,希望对大家有所帮助
2024-02-02
tensorflow 获取checkpoint中的变量列表实例
今天小编就为大家分享一篇tensorflow 获取checkpoint中的变量列表实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
对python中类的继承与方法重写介绍
今天小编就为大家分享一篇对python中类的继承与方法重写介绍，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
windows下python连接oracle数据库
这篇文章主要为大家详细介绍了windows下python连接oracle数据库，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-06-06
Python 修改CSV文件实例详解
这篇文章主要为大家介绍了Python 修改CSV文件实例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-08-08
tensorflow使用freeze_graph.py将ckpt转为pb文件的方法
这篇文章主要介绍了tensorflow使用freeze_graph.py将ckpt转为pb文件的方法,需要的朋友可以参考下
2020-04-04
利用python实现蝴蝶曲线
这篇文章主要介绍了如何利用python实现蝴蝶曲线，自然界的很多现象都可以适当的简化用代数曲线和超越曲线来表达，下面我们就来利用去先画出小蝴蝶，需要的小伙伴可以参考一下
2022-03-03
Anaconda下Python中GDAL模块的下载与安装过程
这篇文章主要介绍了Anaconda下Python中GDAL模块的下载与安装方法,本文介绍在Anaconda环境下，安装Python中栅格、矢量等地理数据处理库GDAL的方法，需要的朋友可以参考下
2023-04-04