pandas dataframe写入到hive方式

 更新时间:2023年08月21日 08:34:58   作者:taiguangxing  
这篇文章主要介绍了pandas dataframe写入到hive方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

pandas dataframe写入hive表

关键流程主要分为两步:

1.将pandas dataframe转换为sparkdataframe

这一步骤主要使用spark自带的接口:

spark_df = spark.createDataFrame(pd_df)

2.将spark_df写入到hive的几种方式

spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename")

以下是一个demo的完整代码:

import pandas as pd
import numpy as np
from pyspark import SparkContext,SparkConf
from pyspark.sql import HiveContext,SparkSession
from pyspark.sql import SQLContext
pd_df = pd.DataFrame(np.random.randint(0,10,(3,4)),columns=['a','b','c'])
spark = SparkSession.builder.appName('pd_2_hive').master('local').enableHiveSupport().getOrCreate()
spark_df = spark.createDataFrame(pd_df)
#spark dataframe 有接口可以直接写入到hive
spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename")
'''
其中 overwrite 代表如果表中存在数据,那么新数据会将原来的数据覆盖,此外还有append等模式,详细介绍如下:
        * `append`: Append contents of this :class:`DataFrame` to existing data.
        * `overwrite`: Overwrite existing data.
        * `error` or `errorifexists`: Throw an exception if data already exists.
        * `ignore`: Silently ignore this operation if data already exists.
'''
#此外还可以将spark_df 注册为临时表,之后通过sql的方式写到hive里
spark_df.registerTempTable('tmp_table')
tmp_sql = '''create table dbname.tablename as select * from tmp_table'''
spark.sql(tmp_sql)
spark.stop()

至此,便完成了pandas dataframe 写入到 hive表的过程。

如何把dataframe直接保存到hive表中?

有多种方式把一个dataframe保存到hive表中:

1.直接把dataframe的内容写入到目标hive表

df.write().mode("overwrite").saveAsTable("tableName");
或
df.select(df.col("col1"),df.col("col2")) .write().mode("overwrite").saveAsTable("schemaName.tableName");
或
df.write().mode(SaveMode.Overwrite).saveAsTable("dbName.tableName");

2.注册一张临时表,再通过sql语句插入到目标表

df.createOrReplaceTempView("$tempTableName")
spark.sql("insert into table dbName.$hive_table_name PARTITION($partition_column) select * from $tempTableName")

注意:

第2种方式可以指定写入的分区,而临时表会在任务完成时自动清除,但最好是在不使用时主动清除掉。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python threading模块中lock与Rlock的使用详细讲解

    Python threading模块中lock与Rlock的使用详细讲解

    python的thread模块是比较底层的模块,python的threading模块是对thread做了一些包装的,可以更加方便的被使用。这篇文章主要介绍了Python threading模块中lock与Rlock的使用
    2022-10-10
  • python实现对svn操作及信息获取

    python实现对svn操作及信息获取

    这篇文章主要介绍了python实现对svn的操作及信息获取示例过程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-10-10
  • Python PyQt5由入门到精通超详细篇

    Python PyQt5由入门到精通超详细篇

    本文介绍了PyQt5的基础知识及常用控件,详细介绍了QLabel、QPushButton、QLineEdit和QCheckBox等常用控件的使用方法,这些内容为读者提供了从基础到进阶的PyQt5开发指南,感兴趣的朋友跟随小编一起看看吧
    2026-03-03
  • Django url反向解析的实现

    Django url反向解析的实现

    本文主要介绍了Django url反向解析的实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • Pycharm设置去除显示的波浪线方法

    Pycharm设置去除显示的波浪线方法

    今天小编就为大家分享一篇Pycharm设置去除显示的波浪线方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python 日期区间处理 (本周本月上周上月...)

    Python 日期区间处理 (本周本月上周上月...)

    这篇文章主要介绍了Python 日期区间处理 (本周本月上周上月...),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • 使用Python实现图像融合及加法运算

    使用Python实现图像融合及加法运算

    这篇文章主要介绍了使用Python实现图像融合及加法运算,Python调用OpenCV实现图像融合及加法运算,包括三部分知识:图像融合、图像加法运算、图像类型转换,下文详细内容现需要的小伙伴可以参考一下
    2022-05-05
  • python实现mp3文件播放的具体实现代码

    python实现mp3文件播放的具体实现代码

    前段时间在搞一个基于python的语音助手,其中需要用到python播放音频的功能,下面这篇文章主要给大家介绍了关于python实现mp3文件播放的具体实现代码,需要的朋友可以参考下
    2023-05-05
  • Python编程之列表操作实例详解【创建、使用、更新、删除】

    Python编程之列表操作实例详解【创建、使用、更新、删除】

    这篇文章主要介绍了Python编程之列表操作,结合实例形式分析了Python列表的创建、使用、更新、删除等实现方法与相关操作技巧,需要的朋友可以参考下
    2017-07-07
  • 使用Pygal库创建可缩放的矢量图表的操作方法

    使用Pygal库创建可缩放的矢量图表的操作方法

    在本文中,我们探讨了如何使用Pygal库创建可缩放的矢量图表,首先,我们介绍了Pygal的基本概念和安装方法,然后通过多个示例演示了如何创建各种类型的图表,包括折线图、柱状图、饼图、散点图、雷达图和地图等,需要的朋友可以参考下
    2024-05-05

最新评论