Java大文本并行计算实现过程解析

 更新时间:2020年06月05日 11:06:52   作者:麋鹿✈  
这篇文章主要介绍了Java大文本并行计算如何实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

简单提高文本读取效率,使用BufferedReader是个不错的选择。速度最快的方法是MappedByteBuffer,但是,相比BufferedReader而言,效果不是非常明显。也就是说,后者虽然快,但也快的有限(不要抱有性能提升几倍的幻想)。

对于大文本的读取,性能瓶颈主要在IO,read占时间多是正常的,硬盘本身就不快,读入内存后还要转成对象,都比较耗时间。

想要提速应当用并行的办法,用多线程同时读取和处理数据,但Java写多线程程序很麻烦,并行分段读同一个文件时还要考虑调整边界,也比较麻烦。

比如要这么个场景:分组汇总每个客户的销售额,部分源数据如下:

O_ORDERKEY    O_CUSTKEY    O_ORDERDATE    O_TOTALPRICE
10262  RATTC  1996-07-22    14487.0
10263  ERNSH  1996-07-23    43818.0
10264  FOLKO  2007-07-24    1101.0
10265  BLONP  1996-07-25    5528.0
10266  WARTH  1996-07-26    7719.0
10267  FRANK  1996-07-29    20858.0
10268  GROSR  1996-07-30    19887.0
10269  WHITC  1996-07-31    456.0
10270  WARTH  1996-08-01    13654.0
...

期望的结果:

Java部分多线程代码大概要写成这样:

...
final int DOWN_THREAD_NUM = 8;
CountDownLatch doneSignal = new CountDownLatch(DOWN_THREAD_NUM);
RandomAccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM];
try{
	long length = new File(OUT_FILE_NAME).length();
	long numPerThred = length / DOWN_THREAD_NUM;
	long left = length % DOWN_THREAD_NUM;
	for (int i = 0; i < DOWN_THREAD_NUM; i++) {
		outArr[i] = new RandomAccessFile(OUT_FILE_NAME, "rw");
		...                
		    if (i == DOWN_THREAD_NUM - 1) {
			new ReadThread(i * numPerThred, (i + 1) * numPerThred + left, outArr[i],keywords,doneSignal).start();
			...
		} else {
			new ReadThread(i * numPerThred, (i + 1) * numPerThred,outArr[i],keywords,doneSignal).start();
			...
		}
	}
}
...

如果有集算器就简单多了,它对Java的多线程进行了封装,提供了对大文件分段并行的功能,写起来容易多了,对人员要求也低。比如上面问题,2行就搞定了(集算器内置了并行选项@m,不设置并行数,默认按核数做为并行数):

=file("/workspace/orders.txt").cursor@mt()

=A1.groups(O_CUSTKEY;sum(O_TOTALPRICE):AMOUNT)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Springboot中的异步任务执行及监控详解

    Springboot中的异步任务执行及监控详解

    这篇文章主要介绍了Springboot中的异步任务执行及监控详解,除了自己实现线程外,springboot本身就提供了通过注解的方式,进行异步任务的执行,下面主要记录一下,在Springboot项目中实现异步任务,以及对异步任务进行封装监控,需要的朋友可以参考下
    2023-10-10
  • Java后端实现异步编程的9种方式总结

    Java后端实现异步编程的9种方式总结

    我们日常开发的时候,经常说到异步编程,比如说,在注册接口,我们在用户注册成功时,用异步发送邮件通知用户,那么实现异步编程一共有多少种方式呢,下面小编就来简单讲讲吧
    2025-03-03
  • Java实现多项式除法的代码示例

    Java实现多项式除法的代码示例

    今天小编就为大家分享一篇关于Java实现多项式除法的代码示例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-10-10
  • IDEA中的Run/Debug Configurations各项解读

    IDEA中的Run/Debug Configurations各项解读

    这篇文章主要介绍了IDEA中的Run/Debug Configurations各项解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • Java如何获取相对路径文件

    Java如何获取相对路径文件

    这篇文章主要介绍了Java如何获取相对路径文件问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • IDEA下Servlet可能出现404的一些情况

    IDEA下Servlet可能出现404的一些情况

    相信有很多小伙伴遇到报错都不知道怎么处理,今天特地整理了这篇文章,文中对IDEA下Servlet可能出现404的一些情况作了详细的介绍,需要的朋友可以参考下
    2021-06-06
  • Java多线程Callable和Future接口区别

    Java多线程Callable和Future接口区别

    这篇文章主要介绍了Java多线程Callable和Future接口区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Java用POI导入导出Excel实例分析

    Java用POI导入导出Excel实例分析

    在本篇文章里小编给大家整理的是一篇关于Java用POI导入导出Excel实例分析内容,有需要的朋友们可以跟着学习下。
    2021-11-11
  • java中@requestMappling注解的使用

    java中@requestMappling注解的使用

    本文主要介绍了java中@requestMappling注解的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Springboot整合Dubbo教程之项目创建和环境搭建

    Springboot整合Dubbo教程之项目创建和环境搭建

    本篇文章主要介绍了Springboot整合Dubbo教程之项目创建和环境搭建,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-12-12

最新评论