Apache Hudi集成Spark SQL操作hide表

 更新时间:2022年03月31日 10:37:20   作者:leesf  
这篇文章主要为大家介绍了Apache Hudi集成Spark SQL操作hide表,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪

1. 摘要

社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hudi表的DDL/DML操作,下面就来看看如何使用Spark SQL操作Hudi表。

2. 环境准备

首先需要将PR拉取到本地打包,生成SPARK_BUNDLE_JAR(hudi-spark-bundle_2.11-0.9.0-SNAPSHOT.jar)包

2.1 启动spark-sql

在配置完spark环境后可通过如下命令启动spark-sql

spark-sql --jars $PATH_TO_SPARK_BUNDLE_JAR  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

2.2 设置并发度

由于Hudi默认upsert/insert/delete的并发度是1500,对于演示的小规模数据集可设置更小的并发度。

set hoodie.upsert.shuffle.parallelism = 1;
set hoodie.insert.shuffle.parallelism = 1;
set hoodie.delete.shuffle.parallelism = 1;

同时设置不同步Hudi表元数据

set hoodie.datasource.meta.sync.enable=false;

3. Create Table

使用如下SQL创建表

create table test_hudi_table (
  id int,
  name string,
  price double,
  ts long,
  dt string
) using hudi
 partitioned by (dt)
 options (
  primaryKey = 'id',
  type = 'mor'
 )
 location 'file:///tmp/test_hudi_table'

说明:表类型为MOR,主键为id,分区字段为dt,合并字段默认为ts。

创建Hudi表后查看创建的Hudi表

show create table test_hudi_table

4. Insert Into

4.1 Insert

使用如下SQL插入一条记录

 insert into test_hudi_table select 1 as id, 'hudi' as name, 10 as price, 1000 as ts, '2021-05-05' as dt

insert完成后查看Hudi表本地目录结构,生成的元数据、分区和数据与Spark Datasource写入均相同。

4.2 Select

使用如下SQL查询Hudi表数据

select * from test_hudi_table

查询结果如下

5. Update

5.1 Update

使用如下SQL将id为1的price字段值变更为20

update test_hudi_table set price = 20.0 where id = 1

5.2 Select

再次查询Hudi表数据

select * from test_hudi_table

查询结果如下,可以看到price已经变成了20.0

查看Hudi表的本地目录结构如下,可以看到在update之后又生成了一个deltacommit,同时生成了一个增量log文件。

6. Delete

6.1 Delete

使用如下SQL将id=1的记录删除

delete from test_hudi_table where id = 1

查看Hudi表的本地目录结构如下,可以看到delete之后又生成了一个deltacommit,同时生成了一个增量log文件。

6.2 Select

再次查询Hudi表

select * from test_hudi_table;

查询结果如下,可以看到已经查询不到任何数据了,表明Hudi表中已经不存在任何记录了。

7. Merge Into

7.1 Merge Into Insert

使用如下SQL向test_hudi_table插入数据

 merge into test_hudi_table as t0
 using (
  select 1 as id, 'a1' as name, 10 as price, 1000 as ts, '2021-03-21' as dt
 ) as s0
 on t0.id = s0.id
 when not matched and s0.id % 2 = 1 then insert *

7.2 Select

查询Hudi表数据

select * from test_hudi_table

查询结果如下,可以看到Hudi表中存在一条记录

7.4 Merge Into Update

使用如下SQL更新数据

 merge into test_hudi_table as t0
 using (
  select 1 as id, 'a1' as name, 12 as price, 1001 as ts, '2021-03-21' as dt
 ) as s0
 on t0.id = s0.id
 when matched and s0.id % 2 = 1 then update set *

7.5 Select

查询Hudi表

select * from test_hudi_table

查询结果如下,可以看到Hudi表中的分区已经更新了

7.6 Merge Into Delete

使用如下SQL删除数据

merge into test_hudi_table t0
 using (
  select 1 as s_id, 'a2' as s_name, 15 as s_price, 1001 as s_ts, '2021-03-21' as dt
 ) s0
 on t0.id = s0.s_id
 when matched and s_ts = 1001 then delete

查询结果如下,可以看到Hudi表中已经没有数据了

8. 删除表

使用如下命令删除Hudi表

drop table test_hudi_table;

使用show tables查看表是否存在

show tables;

可以看到已经没有表了

9. 总结

通过上面示例简单展示了通过Spark SQL Insert/Update/Delete Hudi表数据,通过SQL方式可以非常方便地操作Hudi表,降低了使用Hudi的门槛。另外Hudi集成Spark SQL工作将继续完善语法,尽量对标Snowflake和BigQuery的语法,如插入多张表(INSERT ALL WHEN condition1 INTO t1 WHEN condition2 into t2),变更Schema以及CALL Cleaner、CALL Clustering等Hudi表服务。

以上就是Apache Hudi集成Spark SQL操作hide表的详细内容,更多关于Apache Hudi集成Spark SQL的资料请关注脚本之家其它相关文章!

相关文章

  • 一次数据库查询超时优化问题的实战记录

    一次数据库查询超时优化问题的实战记录

    当MySQL服务器出现异常(慢),首先要考虑是否因SQL语句引起数据库慢,下面这篇文章主要给大家介绍了一次数据库查询超时优化问题的实战记录,需要的朋友可以参考下
    2021-10-10
  • Ubuntu 17.10安装phpMyAdmin数据库管理工具配置详解

    Ubuntu 17.10安装phpMyAdmin数据库管理工具配置详解

    这篇文章主要介绍了Ubuntu 17.10安装phpMyAdmin数据库管理工具,通过示例代码给大家讲解了安装phpmyadmin数据库的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-03-03
  • 关于数据库设计中主键问题的思考

    关于数据库设计中主键问题的思考

    数据库主键在数据库中占有重要地位。主键的选取策略决定了系统是否可靠、易用、高效。本文探讨了数据库设计过程当中常见的主键选取策略,并剖析了其做主键的优缺点,提出了相应的解决问题的方法
    2013-08-08
  • SQL嵌套查询总结

    SQL嵌套查询总结

    这是我写的一个结合UINON的嵌套查询. 将五个方面的报表放到一个临时表里,再从临时表里,将所要的数据查询出来.
    2008-10-10
  • 如何找回存储在DBeaver连接中数据库密码

    如何找回存储在DBeaver连接中数据库密码

    DBeaver数据库连接工具是我用了这么久最好用的一个数据库连接工具,拥有的优点,支持的数据库多、快捷键很赞、导入导出数据非常方便,这篇文章主要给大家介绍了关于如何找回存储在DBeaver连接中数据库密码的相关资料,需要的朋友可以参考下
    2024-03-03
  • Hive如何写exist/in子句示例详解

    Hive如何写exist/in子句示例详解

    这篇文章主要介绍了在Hive中使用EXISTS和IN子句进行数据查询的方法,EXISTS子句用于检查子查询是否至少返回一行记录,而IN子句用于检查某个值是否存在于指定的列表中,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-02-02
  • MyISAM与InnoDB索引实现对比详解

    MyISAM与InnoDB索引实现对比详解

    这篇文章主要给大家介绍了关于MyISAM与InnoDB索引实现对比的相关资料,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • 也许是被忽略的update语句(update技巧)

    也许是被忽略的update语句(update技巧)

    这篇文章主要介绍了也许是被忽略的update语句,update语句就仅仅这样吗?它的精髓它的原理是什么呢?我们通过例子来说明
    2014-08-08
  • Navicat恢复数据库连接及查询sql的完美解决办法

    Navicat恢复数据库连接及查询sql的完美解决办法

    因为公司给电脑加域,导致使用新的用户账户,原先的很多配置都失效了,这篇文章主要介绍了Navicat恢复数据库连接及查询sql的解决办法,需要的朋友可以参考下
    2023-08-08
  • 在PostgreSQL上安装并使用扩展模块的教程

    在PostgreSQL上安装并使用扩展模块的教程

    这篇文章主要介绍了在PostgreSQL上安装并使用扩展模块的教程,作者在Ubuntu系统上给出演示,需要的朋友可以参考下
    2015-04-04

最新评论