分析Mysql大量数据导入遇到的问题以及解决方案

 更新时间:2018年02月02日 11:11:14   作者:cooldream2009  
这篇文章主要介绍了Mysql大量数据导入遇到的问题以及解决方案,希望我们整理的内容能够帮助到大家。

在项目中,经常会碰到往数据库中导入大量数据,以便利用sql进行数据分析。在导入数据的过程中会碰到一些需要解决的问题,这里结合导入一个大约4G的txt数据的实践,把碰到的问题以及解决方法展现出来,一方面自己做个总结记录,另一方面希望对那些碰到相同问题的朋友有个参考。

我导入的数据是百科的txt文件,文件大小有4G多,数据有6500万余条,每条数据通过换行符分隔。每条数据包含三个字段,字段之间通过Tab分隔。将数据取出来的方法我采用的是用一个TripleData类来存放这三个字段,字段都用String,然后将多条数据存到List<TripleData>中,再将List<TripleData>存入mysql数据库,分批将所有数据存到mysql数据库中。

以上是一个大概的思路,下面是具体导入过程中碰到的问题。

1 数据库连接的乱码及兼容问题。

数据中如果有中文的话,一定要把链接数据库的url设置编码的参数,url设置为如下的形式。

URL="jdbc:mysql://"+IP+":"+PORT+"/"+DB_NAME+"?useSSL=false&useUnicode=true&characterEncoding=utf-8";

把编码设置为UTF-8是解决乱码问题,设置useSSL是解决JDBC与mysql的兼容问题。如果不设置useSSL,会报错。类似于

Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to 'false'. You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification.

这样的错误信息。主要是mysql版本比较高,JDBC版本比较低,需要兼容。

2 utf8mb4编码问题

在导入数据的过程中,还会碰到类似于

SQLException :Incorrect string value: '\xF0\xA1\x8B\xBE\xE5\xA2...' for column 'name'

这样的错误信息,这是由于mysql中设置的utf-8是默认3个字节的,对于一般的数据是没有问题的,如果是大的数据量,里面难免会包含一些微信表情,或者特殊字符,它们占了4个字节,utf-8不能处理,所以报错。解决的办法就是mysql在5.5.3以后的版本引入了4个字节的utf-8编码,也就是utf8mb4,需要对mysql的编码重新设置。

可以按照以下步骤进行操作,一是对要修改的数据库进行备份,虽然utf8mb4是向下兼容utf8的,但为了以防操作不当,还是需要防患于未然,做好备份工作。二是要修改数据库的字符集编码为utf8mb4—UTF-8 Unicode,排序规则utf8mb4_general_ci。以上修改我是使用navicat进行修改的,如何用命令行修改,大家可以自行查找。三是要修改配置文件my.ini,在mysql安装的根目录下。加入以下设置。

[client]
default-character-set = utf8mb4
[mysqld]
character-set-server=utf8mb4
collation-server=utf8mb4_general_ci
[mysql]
default-character-set = utf8mb4

修改完成后,需要重新启动mysql,使修改生效。

然后再进行数据的导入工作,应该就可以正常导入了。

3 大批量导入的时间效率问题

由于我们的数据量比较大,我们把数据进行了分割,我把6500万条数据分为500个文件,每个文件大约11万条数据,将这11万条数据放到ArrayList<TripleObject>中,然后批量导入。大概的思路是采用“insert into tb (...) values(...),(...)...;”的方法,用insert一次性插入,这样时间会节约很多时间。示例方法如下。

public static void insertSQL(String sql,List<TripleObject> tripleObjectList) throws SQLException{
    Connection conn=null;
    PreparedStatement psts=null;
    try {
      conn=DriverManager.getConnection(Common.URL, Common.DB_USERNAME, Common.DB_PASSWORD);
      conn.setAutoCommit(false); // 设置手动提交 
      // 保存sql后缀
      StringBuffer suffix = new StringBuffer();
      int count = 0; 
      psts=conn.prepareStatement("");
      String s="";
      String p="";
      String o="";
      while (count<tripleObjectList.size()) {
        s=tripleObjectList.get(count).getSubject().replaceAll(",", ".").replaceAll("\\(", "").replaceAll("\\)", "").replaceAll("\'", "").replaceAll("\\\\", "");
        p=tripleObjectList.get(count).getPredicate().replaceAll(",", ".").replaceAll("\\(", "").replaceAll("\\)", "").replaceAll("\'", "").replaceAll("\\\\", "");
        o=tripleObjectList.get(count).getObject().replaceAll(",", ".").replaceAll("\\(", "").replaceAll("\\)", "").replaceAll("\'", "").replaceAll("\\\\", "");
        suffix.append("('" +s +"','"+p+"','"+ o+"'),");
        count++;
      }
      // 构建完整SQL
      String allsql = sql + suffix.substring(0, suffix.length() - 1);
      // 添加执行SQL
      psts.addBatch(allsql);
      psts.executeBatch(); // 执行批量处理 
      conn.commit(); // 提交 
    } catch (Exception e) {
      e.printStackTrace();
    }finally{
      if(psts!=null){
        psts.close();
      }
      if(conn!=null){
        conn.close();
      }
    }
  }

这种方法的优点是导入数据花费的时间会很少,6500万条数据,用了正好1个小时。缺点是如果数据中有一大段的句子,需要对里面的逗号,括号,反斜线等进行处理,这里需要进行衡量,是否使用该方法。

如果正常插入,也就是使用“insert into tb (...) values(...);insert into tb (...) values(...);……”的形式,则不用处理特殊的符号,但花费的时间会很长,我测试了一下,11万条数据大约需要12分钟左右,导入6500万条数据大概要100个小时。

我们采用的是第一种方法,数据大概可以查看就可以,对数据要求没有那么严格,节约了时间。

以上是我在往mysql中导入大批量数据时碰到的问题,以及所想到的解决方法,如果大家有更好的解决方法,或者碰到其他的问题,希望一起讨论。

相关文章

  • mysql主键的缺少导致备库hang住

    mysql主键的缺少导致备库hang住

    最近线上频繁的出现slave延时的情况,经排查发现为用户在删除数据的时候,由于表主键的主键的缺少,同时删除条件没有索引,或或者删除的条件过滤性极差,导致slave出现hang住
    2016-05-05
  • MySQL中ONLY_FULL_GROUP_BY模式的使用

    MySQL中ONLY_FULL_GROUP_BY模式的使用

    ONLY_FULL_GROUP_BY是MySQL中一个重要的SQL模式,确保在使用GROUP BY时,所有非聚合函数列必须在GROUP BY子句中出现,避免数据歧义和不确定性,下面就来介绍一下具体使用
    2024-09-09
  • 避免MySQL中的隐式转换的方法小结

    避免MySQL中的隐式转换的方法小结

    在 MySQL 中,隐式转换可能导致索引失效、结果不符合预期或性能问题,以下是避免隐式转换的具体方法,从表设计、查询编写到配置优化,逐步减少隐式转换的发生,具体操作过程跟随小编一起看看吧
    2025-04-04
  • mysql服务启动不了解决方案

    mysql服务启动不了解决方案

    最近在Windows 2003上的MySQL出现过多次正常运行时无法连接数据库故障,现象是无法连接数据库,也无法停止MySQL或重启MYSQL,由于每次都是草草尝试各种方法搞定即可本文将详细介绍解决方法
    2012-11-11
  • MySQL 中日期相减的完整指南(最新推荐)

    MySQL 中日期相减的完整指南(最新推荐)

    在 MySQL 中,日期相减有几种不同的方法,具体取决于你想要得到的结果类型(天数差、时间差等),本文给大家介绍MySQL 中日期相减的完整指南,感兴趣的朋友一起看看吧
    2025-06-06
  • MySql学习笔记之事务隔离级别详解

    MySql学习笔记之事务隔离级别详解

    这篇文章主要给大家介绍了关于MySql学习笔记之事务隔离级别的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • MySQL CHAR和VARCHAR区别

    MySQL CHAR和VARCHAR区别

    本文主要介绍了MySQL CHAR和VARCHAR区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-06-06
  • mysql之如何查找配置文件my.ini的位置

    mysql之如何查找配置文件my.ini的位置

    这篇文章主要介绍了mysql之如何查找配置文件my.ini的位置问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-07-07
  • 一文搞定MySQL binlog/redolog/undolog区别

    一文搞定MySQL binlog/redolog/undolog区别

    这篇文章主要介绍了一文搞定MySQL binlog/redolog/undolog区别,作为开发,我们重点需要关注的是二进制日志(binlog)和事务日志(包括redo log和undo log),本文接下来会详细介绍这三种日志,需要的朋友可以参考下
    2023-04-04
  • Windows下修改mysql的data文件夹存放位置的方法

    Windows下修改mysql的data文件夹存放位置的方法

    这篇文章主要介绍了在Windows下修改mysql的data文件夹存放位置的方法,需要的朋友可以参考下
    2014-03-03

最新评论