spark大数据任务提交参数的优化记录分析

更新时间：2023年05月11日 16:29:23 作者：是奉壹呀

这篇文章主要介绍了spark大数据任务提交参数的优化记录分析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

起因

新接触一个spark集群，明明集群资源（core,内存）还有剩余，但是提交的任务却申请不到资源。

分析

环境

spark 2.2.0 基于yarn集群

参数

spark任务提交参数中最重要的几个：

spark-submit --master yarn --driver-cores 1 --driver-memory 5G --executor-cores 2 --num-executors 16 --executor-memory 4G

driver-cores driver端核数 driver-memory driver端内存大小 executor-cores 每个执行器的核数 num-executors 此任务申请的执行器总数 executor-memory 每个执行器的内存大小

那么，该任务将申请多少资源呢？

申请的执行器总内存数大小=num-executor * (executor-memory +spark.yarn.executor.memoryOverhead) = 16 * (4 + 2) = 96 申请的总内存=执行器总内存+dirver端内存=101 申请的总核数=num-executor*executor-core + yarn.AM(默认为1)=33 运行的总容器(contanier) = num-executor + yarn.AM(默认为1) = 17

所以这里还有一个关键的参数 spark.yarn.executor.memoryOverhead

这个参数是什么意思呢？堆外内存，每个executor归spark 计算的内存为executor-memory，每个executor是一个单独的JVM，这个JAVA虚拟机本向在的内存大小即为spark.yarn.executor.memoryOverhead，不归spark本身管理。在spark集群中配置。

也可在代码中指定 spark.set("spark.yarn.executor.memoryOverhead", 1)

这部份实际上是存放spark代码本身的究竟，在executor-memory内存不足的时候也能应应急顶上。

问题所在

假设一个节点16G的内存，每个executor-memory=4，理想情况下4x4=16，那么该节点可以分配出4个节点供spark任务计算所用。 1.但应考虑到spark.yarn.executor.memoryOverhead. 如果spark.yarn.executor.memoryOverhead=2，那么每个executor所需申请的资源为4+2=6G，那么该节点只能分配2个节点，剩余16-6x2=4G的内存，无法使用。

如果一个集群共100个节点，用户将在yarn集群主界面看到，集群内存剩余400G,但一直无法申请到资源。

2.core也是一样的道理。

很多同学容易忽略spark.yarn.executor.memoryOverhead此参数，然后陷入怀疑，怎么申请的资源对不上，也容易陷入优化的误区。

优化结果

最终优化结果，将spark.yarn.executor.memoryOverhead调小，并根据node节点资源合理优化executor-memory,executor-core大小，将之前经常1.6T的内存占比，降到1.1左右。并能较快申请到资源。

以上就是spark任务提交参数的优化记录分析的详细内容，更多关于spark任务提交参数优化的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

优秀程序猿调试技巧Debug与Release
这篇文章主要为大家介绍了程序员养成金手指了解优秀程序猿的调试技巧Debug与Release，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2022-02-02
调用无文档说明的 Web API过程描述
这篇文章主要为大家介绍了调用无文档说明的Web API过程描述，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪<BR>
2022-03-03
水晶报表分页的问题
在论坛上经常会看到水晶报表分页的问题，这个很好解决。但是自动插入空白行的问题却一直没有很好的答案，经过研究找到一个变通的办法来实现了。
2009-04-04
idea中实用的git操作问题小结(撤回commit，撤回push、暂存区使用)
我们在开发过程中经常遇到commit代码后,发现还有需要修改的地方又不想多次commit,此时如果不想敲git命令,可以利用idea实现commit撤回,下面给大家分享idea中实用的git操作问题小结,感兴趣的朋友跟随小编一起看看吧
2024-08-08
使用Postman和SoapUI工具测试WebService接口
这篇文章介绍了使用Postman和SoapUI工具测试WebService接口的方法，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-06-06
VsCode配置ssh免密远程连接服务器的实现步骤
现在,可以在VSCode中直接通过SSH连接到服务器,而无需每次输入密码,本文主要介绍了VsCode配置ssh免密远程连接服务器的实现步骤,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
2023-08-08
日历控件和天气使用分享
本文给大家分享的2个简单而且实用的小功能代码，分别是日历控件和天气预报接口，推荐给大家，需要的小伙伴快来参考下吧
2015-03-03
如何让Visual Studio用上chatgpt
这篇文章主要介绍了如何让Visual Studio用上chatgpt,Visual chatGPT Studio是Visual Studio的一个免费扩展，它直接在IDE中添加了chatGPT功能，它允许用户以可以根据菜单功能的方式使用chatGPT，需要的朋友可以参考下
2023-05-05
vscode使用editorconfig插件以及.editorconfig配置文件说明详解
这篇文章主要介绍了vscode使用editorconfig插件以及.editorconfig配置文件说明详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
如何使用clion中配置ROS工程
这篇文章主要介绍了如何使用clion中配置ROS工程,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-08-08

spark大数据任务提交参数的优化记录分析

目录

起因

分析

环境

参数

问题所在

优化结果

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具