spring batch使用reader读数据的内存容量问题详解

更新时间：2020年07月20日 17:17:28 作者：topEngineerray

这篇文章主要介绍了spring batch使用reader读数据的内存容量问题详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

概述

本篇博客是记录使用spring batch做数据迁移时时遇到的一个关键问题：数据迁移量大时如何保证内存。当我们在使用spring batch时，我们必须配置三个东西: reader，processor，和writer。其中，reader用于从数据库中读数据，当数据量较小时，reader的逻辑不会对内存带来太多压力，但是当我们要去读的数据量非常大的时候，我们就不得不考虑内存等方面的问题，因为若数据量非常大，内存，执行时间等等都会受到影响。关于spring batch的基础知识和介绍请参考这篇博客：批处理框架spring batch介绍及使用。

问题是什么

在上面的内容当中我们已经提到了,我们面临的问题是数据迁移量大时的内存问题。但是这样的描述非常笼统，因此博主决定将这一部分单独拎出来说。

在学习了spring batch的知识之后我们应该很清楚的一点是，每一个spring batch的step都包含如下的部分:

即读数据，处理数据，写数据。这三个步骤里面最可能会导致内存变大问题的无疑是读数据环节。读数据作为spring batch的数据输入，是整个spring batch job的开头逻辑。

若我们的数据量不大，如只有几十万条，那我们无疑不会面临内存问题，即便一次将所有数据加载到内存当中，占的内存也不会非常多，且spring batch数据迁移的速度非常之快，几十万条的数据往往是几十秒的时间就可以迁移完成。但是当数据量变大之后，问题就不一样了。当我们的数据量达到数百万或上千万时，若一次性将所有数据全部读到内存当中，则会占据远远超出正常范围的非常大的内存。该问题示意图如下所示:

我们写的任何程序都会有一个运行内存,假设这个内存的总容量现在只有4g，而我们数据库里需要操作的数据有8g，那么无疑，一次性的将数据读出来就会出错。这便是需要考虑得问题。

Spring提供的reader实现

spring提供了非常丰富的Reader实现，其中比较常用的从数据库读数据的有JdbcCursorItemReader,JdbcPagingItemReader等。

JdbcCursorItemReader

使用JdbcCursorItemReader的示例代码如下：

@Bean
public JdbcCursorItemReader<CustomerCredit> itemReader() {
 return new JdbcCursorItemReaderBuilder<CustomerCredit>()
   .dataSource(this.dataSource)
   .name("creditReader")
   .sql("select ID, NAME, CREDIT from CUSTOMER")
   .rowMapper(new CustomerCreditRowMapper())
   .build();
 
}

JdbcCursorItemReader的好处在于使用简单，但是我们从它的sql就能发现，JdbcCursorItemReader会一次把所有的数据全部拿回来，当数据量过大而服务器内存不够时，就会遇到下面无法分配内存的问题：

报错信息为:Resource exhaustion event:The JVM was unable to allocate memory from the heap. 意思就是需要分配内存的数据太多，但是无法找到足够的内存了。

反映在内存里，堆内存会呈现出如下的情况:

随着每一次数据读入，堆内存都会增大，原因就在于JdbcCursorItemReader一次性读回了所有的数据，返回之后就会存在一个对象里面，而这个对象的尺寸过大，因此直接进入了老年代。在数据迁移完成之前，这些数据都不会被回收。如下图所示:

毫无疑问，当我们的数据量大时不应该使用这种类型的reader来读取数据。

JdbcPagingItemReader

JdbcPagingItemReader的作用和它的名字一样，它可以分页读取数据，但是使用起来相比于JdbcCursorItemReader更加复杂，示例代码如下:

@Bean
public JdbcPagingItemReader itemReader(DataSource dataSource, PagingQueryProvider queryProvider) {
 Map<String, Object> parameterValues = new HashMap<>();
 parameterValues.put("status", "NEW");
 
 return new JdbcPagingItemReaderBuilder<CustomerCredit>()
      .name("creditReader")
      .dataSource(dataSource)
      .queryProvider(queryProvider)
      .parameterValues(parameterValues)
      .rowMapper(customerCreditMapper())
      .pageSize(1000)
      .build();
}
 
@Bean
public SqlPagingQueryProviderFactoryBean queryProvider() {
 SqlPagingQueryProviderFactoryBean provider = new SqlPagingQueryProviderFactoryBean();
 
 provider.setSelectClause("select id, name, credit");
 provider.setFromClause("from customer");
 provider.setWhereClause("where status=:status");
 provider.setSortKey("id");
 
 return provider;
}

可以看到我们能够设置page的大小，JdbcPagingItemReader将根据这个页的大小，每次读取这么多的数据，因此这些数据返回保存的对象，就只会是小对象，因此他们不会直接在老年代里分配，而是先分配在年轻代，随着年轻代不断变大，minor gc也不断进行，回收掉已经处理完的数据，老年代的内存使用量不会有任何增大，类似下图：

老年代内存不会有任何变化，年轻带会随着服务器数据迁移进行而增大同时被回收。

在使用JdbcPagingItemReader时，有一个必须注意的地方就是排序关键字是必须指定的，原因在于排序是分页实现原理的技术基础。sortKey和我们指定的其他字句一起构建出SQL语句出来。在sortKey上必须使用unique key constraint约束，因为只有这样才能得以确保执行之间不会丢失任何数据。这也可以说是JdbcCursorItemReader相对便利的一点优势。

总结

数据量小时选择的方案差别不会很大，当数据量大时，为了有好的内存表现则使用分页的reader是必要的。但同时，因为要实现分页，也会带来一些不可避免的限制。

到此这篇关于spring batch使用reader读数据的内存容量问题详解的文章就介绍到这了,更多相关spring batch使用reader读数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

kettle指定jdk8的路径启动的实现
本文主要介绍了指定jdk8的路径启动的实现,通过修改kettle的配置文件来指定使用jdk8版本启动,具有一定的参考价值,感兴趣的可以了解一下
2025-03-03
使用栈的迷宫算法java版代码
这篇文章主要为大家详细介绍了使用栈的迷宫算法java版代码，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-01-01
说说@ModelAttribute在父类和子类中的执行顺序
这篇文章主要介绍了@ModelAttribute在父类和子类中的执行顺序，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-06-06
Java实现根据前端所要格式返回树形3级层级数据
这篇文章主要为大家详细介绍了Java如何实现根据前端所要格式返回树形3级层级数据,文中的示例代码讲解详细,有需要的小伙伴可以了解下
2024-02-02
SpringBoot中的声明式事务详解
这篇文章主要介绍了SpringBoot中的声明式事务详解,Spring采用统一的机制来处理不同的数据访问技术的事务， Spring的事务提供一个PlatformTransactionManager的接口，不同的数据访问技术使用不同的接口实现,需要的朋友可以参考下
2023-08-08
AsyncHttpClient ClientStats源码流程解读
这篇文章主要为大家介绍了AsyncHttpClient ClientStats源码流程解读,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-12-12
java Zookeeper简述
ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。下面通过本文给大家分享java 中 zookeeper简单使用，需要的朋友参考下吧
2021-09-09
Spring5中的WebClient使用方法详解
这篇文章主要给大家介绍了关于Spring5中WebClient使用方法的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Spring5具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-11-11
java selenium 常见web UI 元素操作及API使用
本文主要介绍java selenium 常见web UI 元素操作,这里帮大家整理了相关资料并附示例代码，有需要的小伙伴可以参考下
2016-08-08
Java面试题冲刺第二十六天--实战编程2
这篇文章主要为大家分享了最有价值的三道java实战编程的面试题，涵盖内容全面，包括数据结构和算法相关的题目、经典面试编程题等，感兴趣的小伙伴们可以参考一下
2021-08-08