浅谈keras2 predict和fit_generator的坑

更新时间：2020年06月17日 15:02:49 作者：BYR_jiandong

这篇文章主要介绍了浅谈keras2 predict和fit_generator的坑，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

1、使用predict时，必须设置batch_size,否则效率奇低。

查看keras文档中，predict函数原型：

predict(self, x, batch_size=32, verbose=0)

说明：

只使用batch_size=32，也就是说每次将batch_size=32的数据通过PCI总线传到GPU，然后进行预测。在一些问题中，batch_size=32明显是非常小的。而通过PCI传数据是非常耗时的。

所以，使用的时候会发现预测数据时效率奇低，其原因就是batch_size太小了。

经验：

使用predict时，必须人为设置好batch_size，否则PCI总线之间的数据传输次数过多，性能会非常低下。

2、fit_generator

说明：keras 中 fit_generator参数steps_per_epoch已经改变含义了，目前的含义是一个epoch分成多少个batch_size。旧版的含义是一个epoch的样本数目。

如果说训练样本树N=1000，steps_per_epoch = 10，那么相当于一个batch_size=100，如果还是按照旧版来设置，那么相当于

batch_size = 1，会性能非常低。

经验：

必须明确fit_generator参数steps_per_epoch

补充知识：Keras：创建自己的generator(适用于model.fit_generator)，解决内存问题

为什么要使用model.fit_generator？

在现实的机器学习中，训练一个model往往需要数量巨大的数据，如果使用fit进行数据训练，很有可能导致内存不够，无法进行训练。

fit_generator的定义如下：

fit_generator(generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)

其中各项的具体解释，请参考Keras中文文档

我们重点关注的是generator参数：

generator: 一个生成器，或者一个 Sequence (keras.utils.Sequence) 对象的实例，以在使用多进程时避免数据的重复。生成器的输出应该为以下之一：

一个 (inputs, targets) 元组

一个 (inputs, targets, sample_weights) 元组。

那么，问题来了，如何构建这个generator呢？有以下几种办法：

自己创建一个generator生成器

自己定义一个 Sequence (keras.utils.Sequence) 对象

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory来生成一个generator

1.自己创建一个generator生成器

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory 灵活度不高，只有当数据集满足一定格式（例如，按照分类文件夹存放）或者具备一定条件时，使用才使用才较为方便。

此时，自己创建一个generator就很重要了，关于python的generator是什么原理，怎么使用，就不加赘述，可以查看python的基本语法。

此处，我们用yield来返回数据组，标签组，从而使fit_generator可以调用我们的generator来成批处理数据。

具体实现如下：

  def myGenerator(batch_size):
    # loading data
    X_train,Y_train=load_data(...)
    
    # data processing
    # ................
    
    total_size=X_train.size
    #batch_size means how many data you want to train one step
    
    while 1:
      for i in range(total_size//batch_size):
        yield x_train[i*batch_size:(i+1)*batch_size], y[i*batch_size:(i+1)*batch_size]
  return myGenerator

接着你可以调用该生成器：

self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size, epochs=epoch_num)

以上这篇浅谈keras2 predict和fit_generator的坑就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

详解python基础之while循环及if判断
这篇文章主要介绍了python基础之while循环及if判断的相关资料,需要的朋友可以参考下
2017-08-08
Python使用pyenv实现多环境管理
这篇文章主要介绍了Python使用pyenv实现多环境管理，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-02-02
深入详解Python中生成器的原理与应用
生成器是Python中一种非常实用的特性,它能帮助我们编写高效的代码,本文将详细为大家介绍生成器的原理、用法以及实际应用场景,有需要的小伙伴可以了解下
2023-12-12
Python采集代理ip并判断是否可用和定时更新的方法
今天小编就为大家分享一篇Python采集代理ip并判断是否可用和定时更新的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-05-05
windows下python模拟鼠标点击和键盘输示例
这篇文章主要介绍了windows下python模拟鼠标点击和键盘输示例,需要的朋友可以参考下
2014-02-02
Python全局变量global关键字详解
这篇文章主要介绍了Python全局变量global关键字详解,需要的朋友可以参考下
2021-04-04
python中数组array和列表list的基本用法及区别解析
大家都知道数组array是同类型数据的有限集合，列表list是一系列按特定顺序排列的元素组成，可以将任何数据放入列表，且其中元素之间没有任何关系，本文介绍python中数组array和列表list的基本用法及区别，感兴趣的朋友一起看看吧
2022-05-05
Python图像处理PIL各模块详细介绍(推荐)
这篇文章主要介绍了Python图像处理PIL各模块详细介绍，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
Python无损压缩图片的示例代码
这篇文章主要介绍了Python无损压缩图片的方法，简单的代码即可实现压缩图片，感兴趣的朋友可以了解下
2020-08-08
Python 实现文件读写、坐标寻址、查找替换功能
这篇文章主要介绍了Python 实现文件读写、坐标寻址、查找替换功能，本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下
2019-09-09

浅谈keras2 predict和fit_generator的坑

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具