pandas dataframe写入到hive方式

 更新时间:2023年08月21日 08:34:58   作者:taiguangxing  
这篇文章主要介绍了pandas dataframe写入到hive方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

pandas dataframe写入hive表

关键流程主要分为两步:

1.将pandas dataframe转换为sparkdataframe

这一步骤主要使用spark自带的接口:

spark_df = spark.createDataFrame(pd_df)

2.将spark_df写入到hive的几种方式

spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename")

以下是一个demo的完整代码:

import pandas as pd
import numpy as np
from pyspark import SparkContext,SparkConf
from pyspark.sql import HiveContext,SparkSession
from pyspark.sql import SQLContext
pd_df = pd.DataFrame(np.random.randint(0,10,(3,4)),columns=['a','b','c'])
spark = SparkSession.builder.appName('pd_2_hive').master('local').enableHiveSupport().getOrCreate()
spark_df = spark.createDataFrame(pd_df)
#spark dataframe 有接口可以直接写入到hive
spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename")
'''
其中 overwrite 代表如果表中存在数据,那么新数据会将原来的数据覆盖,此外还有append等模式,详细介绍如下:
        * `append`: Append contents of this :class:`DataFrame` to existing data.
        * `overwrite`: Overwrite existing data.
        * `error` or `errorifexists`: Throw an exception if data already exists.
        * `ignore`: Silently ignore this operation if data already exists.
'''
#此外还可以将spark_df 注册为临时表,之后通过sql的方式写到hive里
spark_df.registerTempTable('tmp_table')
tmp_sql = '''create table dbname.tablename as select * from tmp_table'''
spark.sql(tmp_sql)
spark.stop()

至此,便完成了pandas dataframe 写入到 hive表的过程。

如何把dataframe直接保存到hive表中?

有多种方式把一个dataframe保存到hive表中:

1.直接把dataframe的内容写入到目标hive表

df.write().mode("overwrite").saveAsTable("tableName");
或
df.select(df.col("col1"),df.col("col2")) .write().mode("overwrite").saveAsTable("schemaName.tableName");
或
df.write().mode(SaveMode.Overwrite).saveAsTable("dbName.tableName");

2.注册一张临时表,再通过sql语句插入到目标表

df.createOrReplaceTempView("$tempTableName")
spark.sql("insert into table dbName.$hive_table_name PARTITION($partition_column) select * from $tempTableName")

注意:

第2种方式可以指定写入的分区,而临时表会在任务完成时自动清除,但最好是在不使用时主动清除掉。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python中类似于jquery的pyquery库用法分析

    Python中类似于jquery的pyquery库用法分析

    这篇文章主要介绍了Python中类似于jquery的pyquery库用法,结合实例形式分析了pyquery库的概念、原理、使用方法及操作技巧,需要的朋友可以参考下
    2019-12-12
  • 对python 生成拼接xml报文的示例详解

    对python 生成拼接xml报文的示例详解

    今天小编就为大家分享一篇对python 生成拼接xml报文的示例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • 在python3中pyqt5和mayavi不兼容问题的解决方法

    在python3中pyqt5和mayavi不兼容问题的解决方法

    今天小编就为大家分享一篇在python3中pyqt5和mayavi不兼容问题的解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • python内打印变量之%和f的实例

    python内打印变量之%和f的实例

    今天小编就为大家分享一篇python内打印变量之%和f的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • 利用LyScript实现应用层钩子扫描器

    利用LyScript实现应用层钩子扫描器

    Capstone 是一个轻量级的多平台、多架构的反汇编框架。本篇文章将运用LyScript插件结合Capstone反汇编引擎实现一个钩子扫描器,感兴趣的可以了解一下
    2022-08-08
  • 用Python将IP地址在整型和字符串之间轻松转换

    用Python将IP地址在整型和字符串之间轻松转换

    这篇文章主要给大家介绍了利用Python将IP在整型和字符串之间轻松转换的相关资料,文中还跟大家分享了Python下利用正则表达式来匹配校验一个字符串是否为ip地址的方法,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-03-03
  • 利用Python实现简易计算器的示例代码

    利用Python实现简易计算器的示例代码

    最近学习了字符串,运算符,条件语句,循环语句,我在想可以用我最近学的东西做什么? 看到运算我就想到了可以做一个简易的计算器,感兴趣的可以了解一下
    2022-11-11
  • Python技巧之四种多线程应用分享

    Python技巧之四种多线程应用分享

    这篇文章主要介绍了Python中多线程的所有方式,包括使用threading模块、使用concurrent.futures模块、使用multiprocessing模块以及使用asyncio模块,希望对大家有所帮助
    2023-05-05
  • Python连接Redis库常见操作全面详解

    Python连接Redis库常见操作全面详解

    本文将介绍如何在Python中进行Redis操作,包括连接Redis、数据存储、数据检索和其他常见操作,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • 用Python实现石头剪刀布游戏

    用Python实现石头剪刀布游戏

    大家好,本篇文章主要讲的是用Python实现石头剪刀布游戏,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-01-01

最新评论