MySQL下海量数据的迁移步骤分享

更新时间：2013年10月25日 19:07:04 作者：

一般mysql小数据的情况可以通过直接复制目录，或者通过帝国备份工具，如果是海量数据(6亿)该怎么处理呢，下面看下别人是怎么处理的参考一下

公司数据中心计划将海量数据做一次迁移，同时增加某时间字段（原来是datatime类型，现在增加一个date类型），单表数据量达到6亿多条记录，数据是基于时间（月）做的partition由于比较忙，一直没有总结，所以很细节的地方都记不清楚了，此处只是简单总结下当时的情形，备忘

乱打乱撞

最初接到任务，没有明确的入手点，直接就是select * from db limit 10000,动态修改翻页数量，通过控制台看耗时情况，慢

复制代码代码如下:

SELECT IR_SID,IR_HKEY,IR_GROUPNAME,IR_SITENAME,IR_CHANNEL,IR_MID,IR_URLNAME,IR_STATUS_CONTENT,IR_CREATED_AT,date_format(IR_CREATED_AT,'%Y.%m.%d'),IR_LASTTIME,IR_VIA,IR_THUMBNAIL_PIC,IR_RTTCOUNT,IR_COMMTCOUNT,IR_UID,IR_SCREEN_NAME,IR_RETWEETED_UID,IR_RETWEETED_SCREEN_NAME,IR_RETWEETED_MID,IR_RETWEETED_URL,IR_STATUS_BODY FROM TB_SINA_STATUS WHERE IR_SID>40000 AND IR_SID<50001 INTO OUTFILE '/home/mysql/data/data_outfile.txt'; LOAD DATA INFILE '/home/mysql/data/data_outfile.txt' INTO TABLE NEW_TB_SINA_STATUS; 

是否可以基于partition读数据呢

    既然数据库是按partition做分区，是否可以按partition读数据呢，如果可以改用怎样的语法读呢？时间上只要按月读数据，mysql会自动的基于partition读，具体可以用命令：explain partition即可看到具有基于哪个partition
    读大数据会十分耗时，对于数据进行到什么状态，我们可能十分想了解，可以用命令：show status查看，我印象中主要是sending data，writting to net之类的。
    innodb引擎的性能较myIsam引擎到底如何？
    导库实验中导出并导入一个月的数据（8G的文本量，2500w条记录），在myisam引擎下需要不到4h（测试环境为pc机），但是在innodb引擎下，却需要32小时，改善索引之类的，也需要28h，性能有8倍之差。

在网上找到了高人关于innodb与myisam区别，说需要修改innodb_buffer_pool_size、innodb_flush_log_at_trx_commit

可保证没有太大差别，尝试了没有明显改善，在本机倒是可以，为什么呢？？？这个折腾了我好长时间

innodb_flush_log_at_trx_commit

是否为Innodb比MyISAM慢1000倍而头大？看来也许你忘了修改这个参数了。默认值是 1，这意味着每次提交的更新事务（或者每个事务之外的语句）都会刷新到磁盘中，而这相当耗费资源，尤其是没有电池备用缓存时。很多应用程序，尤其是从 MyISAM转变过来的那些，把它的值设置为 2 就可以了，也就是不把日志刷新到磁盘上，而只刷新到操作系统的缓存上。日志仍然会每秒刷新到磁盘中去，因此通常不会丢失每秒1-2次更新的消耗。如果设置为 0 就快很多了，不过也相对不安全了 — MySQL服务器崩溃时就会丢失一些事务。设置为 2 只会丢失刷新到操作系统缓存的那部分事务。

innodb_buffer_pool_size

Innodb在默认的 innodb_buffer_pool_size 设置下跟蜗牛似的。由于Innodb把数据和索引都缓存起来，无需留给操作系统太多的内存，因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存。

最后千辛万苦的、跋山涉水的，找到了另外两个参数

innodb_log_file_size

在高写入负载尤其是大数据集的情况下很重要。这个值越大则性能相对越高，但是要注意到可能会增加恢复时间。我经常设置为 64-512MB，跟据服务器大小而异。

innodb_log_buffer_size
默认的设置在中等强度写入负载以及较短事务的情况下，服务器性能还可以。如果存在更新操作峰值或者负载较大，就应该考虑加大它的值了。如果它的值设置太高了，可能会浪费内存 — 它每秒都会刷新一次，因此无需设置超过1秒所需的内存空间。通常 8-16MB 就足够了。越小的系统它的值越小。

最终搞定，myisam与innodb的导数据的性能基本一致，2500的数据约需要3.5h，单库读数据需要2h，这个只是一个示意值仅供参考（pc上的测试），正式服务的上的测试结果更加明显

性能调优语句参考

复制代码代码如下:

set profiling = 1;
show profiles\G
SHOW profile CPU,BLOCK IO io FOR query 1;
show status
Show Processlist
explain

并行读取是否会更快？

如果基于partition导数据，还是不能达到既定目标，我最终是通过编写shell脚步，多进程并行基于partition导数据，即启动多个mysql -uroot -p db < exp201201.sql 、mysql -uroot -p db < exp201202.sql，每个sql下按天做读写（事件环境下是按月做partition的）

复制代码代码如下:

SELECT IR_SID,IR_HKEY,IR_GROUPNAME,IR_SITENAME,IR_CHANNEL,IR_MID,IR_URLNAME,IR_STATUS_CONTENT,IR_CREATED_AT,date_format(IR_CREATED_AT,'%Y.%m.%d'),IR_LASTTIME,IR_VIA,IR_THUMBNAIL_PIC,IR_RTTCOUNT,IR_COMMTCOUNT,IR_UID,IR_SCREEN_NAME,IR_RETWEETED_UID,IR_RETWEETED_SCREEN_NAME,IR_RETWEETED_MID,IR_RETWEETED_URL,IR_STATUS_BODY 
INTO OUTFILE '/home/mysql/data/sinawb20120724/111101.txt'
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '\\' 
LINES TERMINATED BY '\n'
FROM TB_SINA_STATUS  
WHERE ir_created_at >='2011-11-01 00:00:00' and ir_created_at <'2011-11-01 23:59:59'

LOAD DATA  LOCAL INFILE '/home/mysql/data/sinawb20120724/111101.txt' 
IGNORE INTO TABLE `NEW_TB_SINA_STATUS` 
CHARACTER SET UTF8  
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '\\' 
LINES TERMINATED BY '\n'

您可能感兴趣的文章:

Oracle 和 mysql的9点区别
这篇文章主要介绍了Oracle 和 mysql的9点区别,需要的朋友可以参考下
2014-04-04
分享下mysql各个主要版本之间的差异
因为mysql的版本较多，而且又被oracle公司收购，所有很多朋友不是很清楚各个版本的区别，这里简单介绍下，方便需要的朋友
2013-06-06
win10 安装 mysql 5.7 msi版的教程图文详解
这篇文章主要介绍了win10 安装 mysql 5.7 msi版的教程，本文通过图文并茂的形式给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2020-05-05
MySQL中冗余和重复索引的区别说明
这篇文章主要介绍了MySQL中冗余和重复索引的区别说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
mysql命令导出表结构和数据的操作方法
在日常使用中,我们经常需要对数据库进行备份和复制,因此必须了解如何导出表结构和表数据,以下是使用MySQL命令导出表结构和表数据的方法,感兴趣的朋友一起看看吧
2023-11-11
MYSQL初始化数据目录的实现步骤
本文主要介绍了MYSQL初始化数据目录的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2025-02-02
一文了解MYSQL三大范式和表约束
范式是"符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度",下面这篇文章主要给大家介绍了关于MYSQL三大范式和表约束的相关资料,需要的朋友可以参考下
2022-04-04
MySQL嵌套查询实现子查询的方法
本文主要介绍了MySQL嵌套查询实现子查询的方法，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-02-02
MySQL的锁机制使用详解
这篇文章主要介绍了MySQL的锁机制使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-04-04
SQL实现LeetCode(181.员工挣得比经理多)
这篇文章主要介绍了SQL实现LeetCode(181.员工挣得比经理多),本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
2021-08-08

MySQL下海量数据的迁移步骤分享

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具