关于Hive中的NULL空值处理问题

 更新时间:2023年07月07日 09:22:38   作者:longshenlmj  
这篇文章主要介绍了关于Hive中的NULL空值处理问题,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,需要的朋友可以参考下

HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N,这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时,解析也要注意。

另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明)。元素间分隔符\002,map中key和value的分隔符为\003。

举例,如源文件中一条记录为:

10000042SOH77SOH435SOH16SOH22SOH1156120000SOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOHyoukuSOH85133.0SOH111

可以看出存储NULL的\N 浪费了大量空间。

但hive的NULL有时候是必须的:

  • 1)hive中insert语句必须列数匹配,不支持不写入,没有值的列必须使用null占位。
  • 2)hive表的数据文件中按分隔符区分各个列。空列会保存NULL(\n)来保留列位置。但外部表加载某些数据时如果列不够,如表13列,文件数据只有2列,则在表查询时表中的末尾剩余列无数据对应,自动显示为NULL。

所以,NULL转化为空字符串,可以节省磁盘空间,实现方法有几种

1)建表时直接指定(两种方式)

a、用语句

ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'with serdeproperties('serialization.null.format' = '')

实现,注意两者必须一起使用,如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
   WITH SERDEPROPERTIES (
        ‘field.delim'='/t',
        ‘escape.delim'='//',
        ‘serialization.null.format'=''
   ) STORED AS TEXTFILE;

b、或者通过ROW FORMAT DELIMITED NULL DEFINED AS '' 如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT DELIMITED 
        NULL DEFINED AS '' 
   STORED AS TEXTFILE;

2)修改已存在的表

    alter table hive_tb set serdeproperties('serialization.null.format' = '');

节省空间的验证结果如下:

    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
    1137
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
    319753
    -----------------------------------
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
    885
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
    249529

到此这篇关于关于Hive中的NULL空值处理问题的文章就介绍到这了,更多相关Hive中的NULL内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • Navicat15激活使用教程

    Navicat15激活使用教程

    navicat15激活工具是一款针对同名软件所推出的激活码注册生成器,接下来通过本文给大家介绍Navicat15激活使用教程,需要的朋友可以参考下
    2021-10-10
  • 复杂SQL实现分组分情况分页查询代码实例

    复杂SQL实现分组分情况分页查询代码实例

    最近学习了一下SQL的分页查询,总结了复杂SQL分组分页查询的方法,这篇文章主要给大家介绍了关于复杂SQL实现分组分情况分页查询的相关资料,需要的朋友可以参考下
    2023-12-12
  • 关于SQL注入中文件读写的方法总结

    关于SQL注入中文件读写的方法总结

    这篇文章主要给大家介绍了关于SQL注入中文件的读写方法,文中通过示例代码介绍的非常详细,相信对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。
    2017-03-03
  • SQL中case when then else end用法实例

    SQL中case when then else end用法实例

    CASE WHEN THEN ELSE END是一个固定搭配,这样排列是想把通过格式把逻辑展示出来,CASE告诉计算机接下来是条件句式了,下面这篇文章主要给大家介绍了关于SQL中case when then else end用法的相关资料,需要的朋友可以参考下
    2023-02-02
  • 大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用

    大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用

    本文主要介绍了大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • 简单聊一聊SQL注入及防止SQL注入

    简单聊一聊SQL注入及防止SQL注入

    众所周知SQL注入是比较常见的网络攻击方式之一,它不是利用操作系统的BUG来实现攻击,而是针对程序员编程时的疏忽,通过SQL语句,实现无帐号登录,下面这篇文章主要给大家介绍了关于SQL注入及防止SQL注入的相关资料,需要的朋友可以参考下
    2022-03-03
  • pgsql binlog监听功能点解析

    pgsql binlog监听功能点解析

    这篇文章主要为大家介绍了pgsql binlog监听功能点解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-02-02
  • sql优化实战 把full join改为left join +union all(从5分钟降为10秒)

    sql优化实战 把full join改为left join +union all(从5分钟降为10秒)

    因为特殊原因,无法访问客户的服务器,没办法查看sql的执行计划、没办法知道表中的索引情况,所以,尝试从语句的改写上来优化
    2020-09-09
  • SELECT INTO用法及支持的数据库

    SELECT INTO用法及支持的数据库

    SQL中的SELECT INTO是一种将查询结果插入到新表中的操作,能够快速复制数据和表结构,本文主要介绍了SELECT INTO用法及支持的数据库,感兴趣的可以了解一下
    2025-03-03
  • MySQL与Oracle 差异比较之七 其它

    MySQL与Oracle 差异比较之七 其它

    这篇文章主要介绍了MySQL与Oracle 差异比较之七 其它,需要的朋友可以参考下
    2017-04-04

最新评论