python处理数据,存进hive表的方法

 更新时间:2018年07月04日 15:08:23   作者:小鱼人儿  
今天小编就为大家分享一篇python处理数据,存进hive表的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python用threading实现多线程详解

    Python用threading实现多线程详解

    这篇文章主要给大家介绍了Python用threading实现多线程的方法示例,文中介绍的很详细,对大家具有一定的参考借鉴价值,有需要的朋友们下面来一起学习学习吧。
    2017-02-02
  • Python写出新冠状病毒确诊人数地图的方法

    Python写出新冠状病毒确诊人数地图的方法

    在本篇文章里小编给大家分享的是关于Python做新冠状病毒确诊人数地图的详解内容,需要的朋友们可以学习下。
    2020-02-02
  • python opencv鼠标画矩形框之cv2.rectangle()函数

    python opencv鼠标画矩形框之cv2.rectangle()函数

    鼠标操作属于用户接口设计,以前一直使用Qt来做,但是如果只需要简单的鼠标,键盘操作,直接调用opencv库的函数也未尝不可,下面这篇文章主要给大家介绍了关于python opencv鼠标画矩形框cv2.rectangle()函数的相关资料,需要的朋友可以参考下
    2021-10-10
  • python 实现 mp3Play 音频播放

    python 实现 mp3Play 音频播放

    这篇文章主要介绍了python 实现 mp3Play 音频播放,文章基于python的相关资料展开详细内容,具有一定的参考价值需要的小伙伴可以参考一下
    2022-04-04
  • python3 selenium自动化 下拉框定位的例子

    python3 selenium自动化 下拉框定位的例子

    今天小编就为大家分享一篇python3 selenium自动化 下拉框定位的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • 可视化之如何用pandas绘制简单的图形

    可视化之如何用pandas绘制简单的图形

    这篇文章主要介绍了可视化之如何用pandas绘制简单的图形问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Python中闭包与lambda的作用域解析

    Python中闭包与lambda的作用域解析

    这篇文章主要介绍了Python中闭包与lambda的作用域解析,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • pycharm下配置pyqt5的教程(anaconda虚拟环境下+tensorflow)

    pycharm下配置pyqt5的教程(anaconda虚拟环境下+tensorflow)

    这篇文章主要介绍了pycharm下配置pyqt5的教程(anaconda虚拟环境下+tensorflow),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • Python实现的对一个数进行因式分解操作示例

    Python实现的对一个数进行因式分解操作示例

    这篇文章主要介绍了Python实现的对一个数进行因式分解操作,结合实例形式分析了Python因式分解数值运算相关操作技巧,需要的朋友可以参考下
    2019-06-06
  • Python导入模块的3种方式超级详细讲解

    Python导入模块的3种方式超级详细讲解

    这篇文章主要给大家介绍了关于Python导入模块的3种方式,本文介绍了在Python中使用模块的概念和不同的导入方式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-12-12

最新评论