Spark SQL小文件问题处理

更新时间：2023年04月07日 09:56:56 作者：宝哥大数据

大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性，这篇文章主要介绍了Spark SQL小文件问题的处理，感兴趣的同学可以借鉴一下

1.1、小文件危害

大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性：

1.Spark SQL写Hive或者直接写入HDFS，过多的小文件会对NameNode内存管理等产生巨大的压力，会影响整个集群的稳定运行
2.容易导致task数过多，如果超过参数spark.driver.maxResultSize的配置（默认1g），会抛出类似如下的异常，影响任务的处理

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 478 tasks (2026.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

当然可以通过调大spark.driver.maxResultSize的默认配置来解决问题，但如果不能从源头上解决小文件问题，以后还可能遇到类似的问题。此外，Spark在处理任务时，一个分区分配一个task进行处理，多个分区并行处理，虽然并行处理能够提高处理效率，但不是意味着task数越多越好。如果数据量不大，过多的task运行反而会影响效率。最后，Spark中一个task处理一个分区从而也会影响最终生成的文件数。

1.2、产生小文件过多的原因

1、流式处理中，每个批次的处理执行保存操作也会产生很多小文件
2、为了解决数据更新问题，同一份数据保存了不同的几个状态，也容易导致文件数过多

1.3、如何解决这种小文件的问题呢？

通过repartition或coalesce算子控制最后的DataSet的分区数, 注意repartition和coalesce的区别
将Hive风格的Coalesce and Repartition Hint 应用到Spark SQL 需要注意这种方式对Spark的版本有要求，建议在Spark2.4.X及以上版本使用，

示例：
INSERT ... SELECT /*+ COALESCE(numPartitions) */ ...
INSERT ... SELECT /*+ REPARTITION(numPartitions) */ ...

小文件定期合并可以定时通过异步的方式针对Hive分区表的每一个分区中的小文件进行合并操作

上述只是给出3种常见的解决办法，并且要结合实际用到的技术和场景去具体处理，比如对于HDFS小文件过多，也可以通过生成HAR 文件或者Sequence File来解决。

1.3.1、调优参数

在小文件场景下，您可以通过如下配置手动指定每个Task的数据量（Split Size），确保不会产生过多的Task，提高性能。

当SQL逻辑中不包含Shuffle操作时，设置此配置项，不会有明显的性能提升。

参数	描述	默认值
spark.sql.small.file.combine	用于设置是否开启小文件优化。 “true”表示开启。开启后，可以避免过多的小Task。	false
spark.sql.small.file.split.size	合并小文件后，用于指定单个Task期望的数据量。单位：Byte	256000000

set spark.default.parallelism = 400;

/*+ coalesce(40) */ 调整最后的task个数；

SELECT age, name FROM person DISTRIBUTE BY age;//按照某个字段重新分区重新分区。
对于使用动态分区的任务，使用distribute by。

insert overwrite table dm.dm_grw_retain_abtest_sd partition (year, month, day, retain_days)
select ……
distribute by retain_days -- 最终每个子分区一个文件
distribute by retain_days, cast(rand()*7 as int) -- 最终每个子分区7个文件

到此这篇关于Spark SQL小文件问题处理的文章就介绍到这了,更多相关SQL小文件问题处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

关于ADOX的相关知识
关于ADOX的相关知识...
2006-12-12
SQL数据库的所有命令（函数、运算符）汇总大全
结构化查询语言(Structured Query Language)简称SQL，结构化查询语言是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。sql语句就是对数据库进行操作的一种语言。
2023-01-01
面试中常常被问到sql优化的几种方案
这篇文章主要给大家介绍了关于面试中常常被问到sql优化的几种方案,现在⾯试过程中除了开发的基础,⾯试官通常还会问SQL优化的⽅⾯,SQL优化也能体现出来平时对数据库的理解和技术的⾼低,需要的朋友可以参考下
2023-08-08
SQLite与MySQL区别及优缺点介绍
这篇文章介绍了SQLite与MySQL的区别及优缺点，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-01-01
Navicat Premium 15 永久破解激活工具及安装教程(亲测可用)
这篇文章主要介绍了Navicat Premium 15 永久破解激活教程,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-11-11
很全的SQL中文解释代码
学习sql的朋友可以参考下，中文版sql命令
2008-04-04
简单分析SQLite4的一些设计改变
这篇文章主要介绍了SQLite4的一些设计改变,SQLite作为内嵌式数据库使用起来非常轻便,需要的朋友可以参考下
2015-07-07
数据库查询排除重复记录的方法
这篇文章主要介绍了数据库查询排除重复记录的方法,使用DISTINCT语句实现,需要的朋友可以参考下
2014-06-06
开源数据库设计神器chiner的安装及初体验介绍
最近在造轮子，从 0 到 1 的那种，就差前台的界面了，大家可以耐心耐心耐心期待一下。其中需要设计一些数据库表，可以通过 Navicat 这种图形化管理工具直接开搞，也可以通过一些数据库设计工具来搞，比如说 PowerDesigner，更专业一点
2022-02-02
基于navicat连接登录windows10本地wsl数据库
这篇文章主要介绍了基于navicat连接登录windows10本地wsl数据库,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11