sqoop读取postgresql数据库表格导入到hdfs中的实现

 更新时间:2020年12月31日 09:45:56   作者:秋名山庄李逍遥  
这篇文章主要介绍了sqoop读取postgresql数据库表格导入到hdfs中的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

最近再学习spark streaming做实时计算这方面内容,过程中需要从后台数据库导出数据到hdfs中,经过调研发现需要使用sqoop进行操作,本次操作环境是Linux下。

首先确保环境安装了Hadoop和sqoop,安装只需要下载 ,解压 以及配置环境变量,这里不多说了,网上教程很多。

一、配置sqoop以及验证是否成功

切换到配置文件下:cd $SQOOP_HOME/conf

创建配置环境文件: cp sqoop-env-template.sh sqoop-env.sh

修改配置文件:conf/vi sqoop-env.sh:修改内容如下

配置完成后,执行命令sqoop-version ,检查是否成功,如图显示sqoop 1.4.7即成功。

二、添加postgresql驱动jar包

因为这里使用sqoop读取postgresql的数据,所以需要将数据库驱动包放到$SQOOP_HOME/lib 下即可 。

三、导入pg数据库中表到hdfs中

1、首先要启动Hadoop集群,不然会报错

执行语句 $HADOOP_HOME/sbin/./start-all.sh

2、执行sqoop语句进行数据导入到hdfs

sqoop import \
  --connect jdbc:postgresql:localhost:5432/test(数据库的名称)
  --username postgres (填自己的数据库用户名)
  --password 888888 (填自己数据库的密码)
  --table company (自己创建表的名称)
  --m 1 (mapreduce的个数)

执行结果如图:

3、检查hdfs上是否成功存储到表数据

$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(数据目录改成自己的)

结果如图所示:

显示使用sqoop 将 postgreql上的表格数据成功导入到hdfs中,这算今天也有点收获了!

补充:利用Sqoop从PostgreSQL导入数据时遇到的坑

sqoop import \
--connect "jdbc:postgresql://10.101.70.169:5432/db_name" \
--username "postgres" \
--password "123456" \
--table "test_user"\
--target-dir "/user/hive/warehouse/test.db/test_user" \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--incremental lastmodified \
--merge-key id \
--check-column update_time \
--last-value "2019-03-25" \
--m 1 \
-- --schema "schema_name" \
--null-string '\\N' \
--null-non-string '\\N' 

1、-- --schema 一定要放在后面,否则可能导致无运行日志或无法导入数据到指定目录且无法重新执行(报目录已存在)

2、PostgreSQL 须设置SET standard_conforming_strings = on;,否则--null-string和--null-non-string不起作用;

3、--null-string--null-non-string放在-- --schema后面,否则执行时报Can't parse input data: '\N'

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

相关文章

  • PostgreSQL有效地处理数据的加密和解密的常见方法

    PostgreSQL有效地处理数据的加密和解密的常见方法

    在信息化建设和等保建设中,都要求实现对用户数据的隐私保护,也就是我们常说的脱敏,那么在 PostgreSQL 数据库中有没有这样的方法或者策略可以实现呢,本文小编将给大家介绍一下PostgreSQL有效地处理数据的加密和解密的常见方法,需要的朋友可以参考下
    2025-03-03
  • PostgreSQL中查看当前时间和日期的几种常用方法

    PostgreSQL中查看当前时间和日期的几种常用方法

    在 PostgreSQL 中,有多个函数可以用来查看当前时间和日期,这些函数在处理时间戳、日期和时间的计算时非常有用,以下是几种常用的查看当前时间和日期的函数及示例,需要的朋友可以参考下
    2024-10-10
  • PostgreSQL中Slony-I同步复制部署教程

    PostgreSQL中Slony-I同步复制部署教程

    这篇文章主要给大家介绍了关于PostgreSQL中Slony-I同步复制部署的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用PostgreSQL具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-06-06
  • PostgreSQL教程(十二):角色和权限管理介绍

    PostgreSQL教程(十二):角色和权限管理介绍

    这篇文章主要介绍了PostgreSQL教程(十二):角色和权限管理介绍,本文讲解了数据库角色、角色属性、权限、角色成员,需要的朋友可以参考下
    2015-05-05
  • PostgreSQL的generate_series()函数的用法说明

    PostgreSQL的generate_series()函数的用法说明

    这篇文章主要介绍了PostgreSQL的generate_series()函数的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-01-01
  • PostgreSQL中常用的时间日期脚本使用教程

    PostgreSQL中常用的时间日期脚本使用教程

    PostgreSQL是一款简介而又性能强大的数据库应用程序,其在日期时间数据方面所支持的功能也都非常给力,下面就来看一下PostgreSQL中常用的日期时间脚本使用教程.
    2016-05-05
  • PostgreSQL+GeoHash地图点位聚合实现代码

    PostgreSQL+GeoHash地图点位聚合实现代码

    这篇文章主要介绍了PostgreSQL+GeoHash地图点位聚合,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-07-07
  • postgreSQL使用pgAdmin备份服务器数据的方法

    postgreSQL使用pgAdmin备份服务器数据的方法

    这篇文章主要介绍了postgreSQL使用pgAdmin备份服务器数据的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • PostgreSQL数据库中DISTINCT关键字的四种用法详解

    PostgreSQL数据库中DISTINCT关键字的四种用法详解

    PostgreSQL 不但高度兼容 SQL 标准,同时还对很多语法进行了扩展,可以用于实现一些特殊的功能,今天我们就来介绍一下 PostgreSQL 数据库中 DISTINCT 关键字的 4 种不同用法,需要的朋友可以参考下
    2024-04-04
  • PostgreSQL时间相差天数实例例子代码解析

    PostgreSQL时间相差天数实例例子代码解析

    在PostgreSQL数据库中计算两个日期或时间戳之间的差异可以通过多种方法实现,常用的有通过日期转换、AGE函数、INTERVAL和+运算符、DATE_PART函数以及利用CURRENT_DATE或NOW()函数,大家可以根据自己的需求选择合适的方式,需要的朋友可以参考下
    2024-11-11

最新评论