关于Hive中的NULL空值处理问题

更新时间：2023年07月07日 09:22:38 作者：longshenlmj

这篇文章主要介绍了关于Hive中的NULL空值处理问题,Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能,需要的朋友可以参考下

HIVE表中默认将NULL存为\N，可查看表的源文件（hadoop fs -cat或者hadoop fs -text），文件中存储大量\N，这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时，解析也要注意。

另外，hive表的源文件中，默认列分隔符为\001(SOH)，行分隔符为\n（目前只支持\n，别的不能用，所以定义时不需要显示声明）。元素间分隔符\002，map中key和value的分隔符为\003。

举例，如源文件中一条记录为：

10000042SOH77SOH435SOH16SOH22SOH1156120000SOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOHyoukuSOH85133.0SOH111

可以看出存储NULL的\N 浪费了大量空间。

但hive的NULL有时候是必须的：

1）hive中insert语句必须列数匹配，不支持不写入，没有值的列必须使用null占位。
2）hive表的数据文件中按分隔符区分各个列。空列会保存NULL（\n）来保留列位置。但外部表加载某些数据时如果列不够，如表13列，文件数据只有2列，则在表查询时表中的末尾剩余列无数据对应，自动显示为NULL。

所以，NULL转化为空字符串，可以节省磁盘空间，实现方法有几种

1）建表时直接指定（两种方式）

a、用语句

ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'with serdeproperties('serialization.null.format' = '')

实现，注意两者必须一起使用，如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
   WITH SERDEPROPERTIES (
        ‘field.delim'='/t',
        ‘escape.delim'='//',
        ‘serialization.null.format'=''
   ) STORED AS TEXTFILE;

b、或者通过ROW FORMAT DELIMITED NULL DEFINED AS '' 如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT DELIMITED 
        NULL DEFINED AS '' 
   STORED AS TEXTFILE;

2）修改已存在的表

    alter table hive_tb set serdeproperties('serialization.null.format' = '');

节省空间的验证结果如下：

hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
1137
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
319753
-----------------------------------
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
885
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
249529

到此这篇关于关于Hive中的NULL空值处理问题的文章就介绍到这了,更多相关Hive中的NULL内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

一文详解在Hive中NULL的理解

SQL注入详解及防范方法
本文详细讲解了SQL注入及防范方法，文中通过示例代码介绍的非常详细。对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-12-12
SQL Server数据库性能优化技术
SQL Server数据库性能优化技术...
2007-06-06
比较实用SQL语句总结
sql语句查询，比较实用的技巧
2008-04-04
dbeaver批量导出数据到另一个数据库的详细图文教程
DBeaver是一款数据库管理软件,小巧易用,最主要其官方版就可以满足平常得任务需求,这篇文章主要给大家介绍了关于dbeaver批量导出数据到另一个数据库的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2024-03-03
GBase 8s数据库主键约束、唯一约束和唯一索引的区别解析
这篇文章主要介绍了GBase 8s数据库主键约束、唯一约束和唯一索引的区别,通过示例代码给大家说明这三者之间的区别，感兴趣的朋友一起看看吧
2022-02-02
关于Hive中的NULL空值处理问题
这篇文章主要介绍了关于Hive中的NULL空值处理问题,Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能,需要的朋友可以参考下
2023-07-07
Spark SQL小文件问题处理
大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性，这篇文章主要介绍了Spark SQL小文件问题的处理，感兴趣的同学可以借鉴一下
2023-04-04
Navicat卡住一直在执行中的简单解决办法
众所周知Navicat是我们常用的连接MYSQL工具,非常方便好用,其实日常中我们也常常会遇到运行时间很长甚至几乎跑不完卡死的情况,这篇文章主要给大家介绍了关于Navicat卡住一直在执行中的简单解决办法,需要的朋友可以参考下
2023-11-11
MySQL与Oracle SQL语言差异比较一览
这篇文章主要介绍了MySQL与Oracle SQL语言差异比较一览,需要的朋友可以参考下
2017-04-04
数据库正规化和设计技巧
数据库正规化和设计技巧...
2007-06-06

关于Hive中的NULL空值处理问题

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具