Apache Spark 2.0 在作业完成时却花费很长时间结束

更新时间：2019年06月14日 14:58:52 作者：胖头鱼

大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然我们的 Spark Jobs 已经全部完成了，但是我们的程序却还在执行。怎么回事呢？下面小编通过实例代码给大家介绍下

现象

大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然我们的 Spark Jobs 已经全部完成了，但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询语句还在运行。通过日志，我们可以看到 driver 节点正在一个一个地将 tasks 生成的文件移动到最终表的目录下面，当我们作业生成的文件很多的情况下，就很容易产生这种现象。本文将给大家介绍一种方法来解决这个问题。

为什么会造成这个现象

Spark 2.x 用到了 Hadoop 2.x，其将生成的文件保存到 HDFS 的时候，最后会调用了 saveAsHadoopFile，而这个函数在里面用到了 FileOutputCommitter，如下：

问题就出在了 Hadoop 2.x 的 FileOutputCommitter 实现FileOutputCommitter 里面有两个值得注意的方法：commitTask 和 commitJob。在 Hadoop 2.x 的FileOutputCommitter 实现里面，mapreduce.fileoutputcommitter.algorithm.version 参数控制着 commitTask 和 commitJob 的工作方式。具体代码如下（为了说明方便，我去掉了无关紧要的语句，完整代码可以参见 FileOutputCommitter.java）：

大家可以看到 commitTask 方法里面，有个条件判断 algorithmVersion == 1，这个就是 mapreduce.fileoutputcommitter.algorithm.version 参数的值，默认为1；如果这个参数为1，那么在 Task 完成的时候，是将 Task 临时生成的数据移到 task 的对应目录下，然后再在 commitJob 的时候移到最终作业输出目录，而这个参数,在 Hadoop 2.x 的默认值就是 1！这也就是为什么我们看到 job 完成了，但是程序还在移动数据，从而导致整个作业尚未完成，而且最后是由 Spark 的 Driver 执行 commitJob 函数的，所以执行的慢也是有到底的。

而我们可以看到，如果我们将 mapreduce.fileoutputcommitter.algorithm.version 参数的值设置为 2，那么在 commitTask 执行的时候，就会调用 mergePaths 方法直接将 Task 生成的数据从 Task 临时目录移动到程序最后生成目录。而在执行 commitJob 的时候，直接就不用移动数据了，自然会比默认的值要快很多。

注意，其实在 Hadoop 2.7.0 之前版本，我们可以将 mapreduce.fileoutputcommitter.algorithm.version 参数设置为非1的值就可以实现这个目的，因为程序里面并没有限制这个值一定为2,。不过到了 Hadoop 2.7.0，mapreduce.fileoutputcommitter.algorithm.version 参数的值必须为1或2，具体参见 MAPREDUCE-4815。

怎么在 Spark 里面设置这个参数

问题已经找到了，我们可以在程序里面解决这个问题。有以下几种方法：

直接在 conf/spark-defaults.conf 里面设置 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2，这个是全局影响的。
直接在 Spark 程序里面设置，spark.conf.set("mapreduce.fileoutputcommitter.algorithm.version", "2")，这个是作业级别的。
如果你是使用 Dataset API 写数据到 HDFS，那么你可以这么设置 dataset.write.option("mapreduce.fileoutputcommitter.algorithm.version", "2")。

不过如果你的 Hadoop 版本为 3.x，mapreduce.fileoutputcommitter.algorithm.version 参数的默认值已经设置为2了，具体参见 MAPREDUCE-6336 和 MAPREDUCE-6406。

因为这个参数对性能有一些影响，所以到了 Spark 2.2.0，这个参数已经记录在 Spark 配置文档里面了 configuration.html，具体参见 SPARK-20107。

总结

以上所述是小编给大家介绍的Apache Spark 2.0 在作业完成时却花费很长时间结束，希望对大家有所帮助！

您可能感兴趣的文章:

apache
spark

Linux下安装Hadoop集群详细步骤
大家好，本篇文章主要讲的是Linux下安装Hadoop集群详细步骤，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2021-12-12
浅析Hyper-V安装CentOS 8问题
这篇文章主要介绍了Hyper-V安装CentOS 8问题,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-10-10
基于Ubuntu 18.04配置固定IP的方法教程
最近新装的Ubuntu 18.04还是不习惯，但还是要努力适应，下面这篇文章主要给大家介绍了关于基于Ubuntu 18.04配置固定IP的方法教程，文中通过示例代码介绍的非常详细，需要的朋友可以参考下
2018-08-08
ubuntu13.10编译安装mono环境(一)
Mono是一个自由开放源代码项目。该项目的目标是创建一系列符合ECMA标准的.NET工具，包括C#编译器和通用语言架构。Mono项目不仅可以运行于Windows系统上，还可以运行于Linux，FreeBSD，Unix，OS X和Solaris，甚至一些游戏平台，例如：Playstation 3，Wii或XBox 360。
2014-07-07
详解Centos下YUM安装PHP的两种方式
本篇文章主要介绍了Centos下YUM安装PHP的两种方式，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-07-07
Linux中实现修改打开文件数量和进程数量限制的3种方法
这篇文章主要介绍了Linux中实现修改打开文件数量和进程数量限制的3种方法，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
Centos7安装完后无法联网的解决方法
这篇文章主要为大家详细介绍了Centos7安装完后无法联网的解决方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-12-12
linux服务器显卡崩溃解决方案
这篇文章主要介绍了linux服务器显卡崩溃解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-07-07
centos7.0安装离线JDK1.8方法详解
这篇文章主要介绍了centos7.0安装离线JDK1.8方法,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2018-06-06
Win7安装和配置Apache2.4服务器的详细方法
这篇文章主要介绍了Win7安装和配置Apache2.4服务器的详细方法,需要的朋友可以参考下
2017-09-09