sqoop如何指定pg库的模式(方法详解)

 更新时间:2022年01月22日 11:47:58   作者:华为云开发者社区  
sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中,本文给大家介绍sqoop如何指定pg库的模式,一起看看吧

sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出,因此提供了很高的并行性能以及良好的容错性。

sqoop适合以下的人群使用:

  • 系统和应用开发者
  • 系统管理员
  • 数据库管理员
  • 数据分析师
  • 数据工程师

说明

使用sqoop导出导入数据非常的方便,但是对于postgresql(简称PG库)时就碰到了一个问题,pg库是三层结构的database——schema——table。如果想导入到某一个模式下,那就需要指定模式才可以。但是sqoop如何指定pg库的模式?

解决办法

碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址
文档已经说了,如果向指定schema需要添加-- --schema <name> 但是要注意的是必须在命令行的!!!!最后!!!添加才会生效。

但是,这是命令行的解决办法,如果我们使用的是java呢?在没解决之前,我的java代码是这样写的:

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
        try {
            LogUtils.logInfoPrint("开始任务",logger);
            List<String> list = new ArrayList<>();
            list.add("--connect");
            list.add(dbMap.get(Constant.DRIVERURL));
            list.add("--username");
            list.add(dbMap.get(Constant.USER));
            list.add("--password");
            list.add(dbMap.get(Constant.PASSWORD));
            list.add("--table");
            list.add(tableName);
            list.add("--columns");
            list.add(StringUtils.join(columns, ','));
            list.add("--fields-terminated-by");
            list.add("\t");
            list.add("--export-dir");
            list.add(hdfsDir);
            list.add("-m");
            list.add("1");
            ExportTool exporter = new ExportTool();
            Sqoop sqoop = new Sqoop(exporter);
            String[] data = list.toArray(new String[0]);
            if (0 == data.length) {
                LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
                return false;
            }
            if (0 == Sqoop.runSqoop(sqoop, data)){
                return true;
            }
        }catch (Exception e){
            LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
        }
        return false;
    }

结果当然是不成功。那我哦添加-- --schema 参数试一下

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
        try {
            LogUtils.logInfoPrint("开始任务",logger);
            List<String> list = new ArrayList<>();
            list.add("--connect");
            list.add(dbMap.get(Constant.DRIVERURL));
            list.add("--username");
            list.add(dbMap.get(Constant.USER));
            list.add("--password");
            list.add(dbMap.get(Constant.PASSWORD));
            list.add("--table");
            list.add(tableName);
            list.add("--columns");
            list.add(StringUtils.join(columns, ','));
            list.add("--fields-terminated-by");
            list.add("\t");
            list.add("--export-dir");
            list.add(hdfsDir);
            list.add("-m");
            list.add("1");
            list.add("-- --schema");
            list.add("HERO");
            ExportTool exporter = new ExportTool();
            Sqoop sqoop = new Sqoop(exporter);
            String[] data = list.toArray(new String[0]);
            if (0 == data.length) {
                LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
                return false;
            }
            if (0 == Sqoop.runSqoop(sqoop, data)){
                return true;
            }
        }catch (Exception e){
            LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
        }
        return false;
    }

结果也是不成功,显示报错不识别-- --schema 。。。为了能够使schema参数生效,废了我不少劲。。。也查了不少资料,但是查到的资料都没有关于java的schema的设置。所以。。。最终正确的解决办法是:

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
        try {
            LogUtils.logInfoPrint("开始sqoop将oracle的数据导出到HDFS目录",logger);
            List<String> list = new ArrayList<>();
            list.add("--connect");
            list.add(dbMap.get(Constant.DRIVERURL));
            list.add("--username");
            list.add(dbMap.get(Constant.USER));
            list.add("--password");
            list.add(dbMap.get(Constant.PASSWORD));
            list.add("--table");
            list.add(tableName);
            list.add("--columns");
            list.add(StringUtils.join(columns, ','));
            list.add("--fields-terminated-by");
            list.add("\t");
            list.add("--export-dir");
            list.add(hdfsDir);
            list.add("-m");
            list.add("1");
            // 注意这里是--是分开的,源码这里是通过--做判断的
            list.add("--");
            list.add("--schema");
            list.add("HERO");
            ExportTool exporter = new ExportTool();
            Sqoop sqoop = new Sqoop(exporter);
            String[] data = list.toArray(new String[0]);
            if (0 == data.length) {
                LogUtils.logErrorPrint("sqoop参数为空,请检查ExportCmd方法!",logger);
                return false;
            }
            if (0 == Sqoop.runSqoop(sqoop, data)){
                return true;
            }
        }catch (Exception e){
            LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
        }
        return false;
    }

当然你也可能会使用字符串数组,数组方式就要这样写了

// 这里只是举个示例
String[] string = new String[]{"--","--schema","HERO"}

so 问题解决,心情愉快。如果问题不解决,可能会憋一天。。。。

本文分享自华为云社区《【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题》,作者:Copy工程师 。

到此这篇关于sqoop如何指定pg库的模式的文章就介绍到这了,更多相关sqoop指定pg库的模式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 如何正确使用开源项目?

    如何正确使用开源项目?

    开源项目广受大家喜爱,其实我们在使用开源项目的过程中有不少注意的事项,今天就来给大家介绍下如何正确的使用开源项目。需要的朋友可以参考一下
    2018-09-09
  • VScode内接入deepseek包过程记录

    VScode内接入deepseek包过程记录

    在VSCode中集成本地部署的DeepSeek-R1模型,通过扩展商店下载并配置Continue插件,实现模型的添加、连接和使用,过程中包括配置文件的修改、模型的删除以及注意事项的处理,本文介绍VScode内接入deepseek包过程,感兴趣的朋友一起看看吧
    2025-02-02
  • 45个GIT经典操作场景使用详解

    45个GIT经典操作场景使用详解

    这篇文章主要介绍了45个GIT经典操作场景使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • Win10下为VSCode配置LaTex编辑器的方法

    Win10下为VSCode配置LaTex编辑器的方法

    这篇文章主要介绍了Win10下为VSCode配置LaTex编辑器的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05
  • Git里多种撤销操作的最佳方法

    Git里多种撤销操作的最佳方法

    这篇文章我们会给大家介绍关于Git里的多种撤销操作,我会讲解某些你需要“撤销”已做出的修改的常见场景,以及利用 Git 进行这些操作的最佳方法。下面来一起看看吧。
    2016-09-09
  • 解决IDEA中git拉取代码时出现Update canceled问题

    解决IDEA中git拉取代码时出现Update canceled问题

    这篇文章主要介绍了解决IDEA中git拉取代码时出现Update canceled问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-07-07
  • git工具常用命令及ssh操作方法

    git工具常用命令及ssh操作方法

    这篇文章主要介绍了git工具常用到的命令以及非常详细的ssh操作方法,有需要的朋友可以借鉴参考下,希望可以有所帮助,祝大家能够多多进步,早日升职加薪
    2021-09-09
  • 如何让vsCode显示中文界面

    如何让vsCode显示中文界面

    vscode默认的语言是英文,这给使用者带来了一定的挑战,现在小编就来告诉你如何将vscode设置成中文。
    2020-01-01
  • 使用SSH快速下载Git项目的实现方法

    使用SSH快速下载Git项目的实现方法

    下面小编就为大家分享一篇使用SSH快速下载Git项目的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12
  • Git如何实现撤销提交(命令行+IDEA)

    Git如何实现撤销提交(命令行+IDEA)

    这篇文章主要介绍了Git如何实现撤销提交(命令行+IDEA)问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12

最新评论