如何使用分区处理MySQL的亿级数据优化

 更新时间:2021年06月16日 15:14:44   作者:godzla  
mysql在查询上千万级数据的时候,通过索引可以解决大部分查询优化问题。但是在处理上亿数据的时候,应该怎么解决,本文就是用分区来优化一下,感兴趣的一起来了解一下

mysql在查询上千万级数据的时候,通过索引可以解决大部分查询优化问题。但是在处理上亿数据的时候,索引就不那么友好了。

数据表(日志)是这样的:

  • 表大小:1T,约24亿行;
  • 表分区:按时间分区,每个月为一个分区,一个分区约2-3亿行数据(40-70G左右)。

由于数据不需要全量处理,经过与需求方讨论后,我们按时间段抽样一部分数据,比如抽样一个月的数据,约3.5亿行。
数据处理的思路:

1)建表引擎选择Innodb。由于数据是按月分区的,我们将该月分区的数据单独copy出来,源表为myisam引擎,因我们可能需要过滤部分数据,涉及到筛选的字段又没有索引,使用myisam引擎加索引的速度会比较慢;
2)按日分区。将copy出来的表加好索引后(约2-4个小时),过滤掉无用的数据,同时再次新生成一张表,抽取json中需要的字段,并对该表按日分区。

CREATE TABLE `tb_name` (
  `id_`,
  ...,
  KEY `idx_1` (`create_user_`) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='应用日志'
PARTITION BY RANGE(to_days(log_time_)) (
    PARTITION p1231 VALUES LESS THAN (737425),
    PARTITION p0101 VALUES LESS THAN (737426),
    PARTITION p0102 VALUES LESS THAN (737427),
    PARTITION p0103 VALUES LESS THAN (737428),
    PARTITION p0104 VALUES LESS THAN (737429),
......
);

3)对上面生成的表按每日进行聚合或者其他操作,并将结果存储到临时表中,尽量使用存储过程加工数据,由于加工相对复杂而且耗时较多(跑一次存储过程需要大概1-2小时),因此循环调用存储过程时应记录操作时间和执行过程中的参数等;

delimiter $$
create procedure proc_name(param varchar(50))
begin
 declare start_date date;
    declare end_date date;
    set start_date = '2018-12-31';
    set end_date = '2019-02-01';
    
    start transaction;
 truncate tmp_talbe;
 commit;
    
    while start_date < end_date do
  set @partition_name = date_format(start_date, '%m%d');
        set @start_time = now(); -- 记录当前分区操作起始时间
        
  start transaction;
  set @sqlstr = concat(
   "insert into tmp_talbe",
   "select field_names ",
            "from tb_name partition(p", @partition_name,") t ",
            "where conditions;"
   );
  -- select @sqlstr;
  prepare stmt from @sqlstr;  
  execute stmt;
  deallocate prepare stmt;
  commit;
        
        -- 插入日志
        set @finish_time = now(); -- 操作结束时间
        insert into oprerate_log values(param, @partition_name, @start_time, @finish_time, timestampdiff(second, @start_time, @finish_time));
        
  set start_date = date_add(start_date, interval 1 day);
    end while;
end
$$
delimiter ;

4)对上述生成的结果进行整理加工。

总的来说,处理过程相对繁琐,而且产生了很多中间表,对关键步骤还需要记录操作流程的元数据,这对SQL处理的要求会比较高,因此不建议使用MySQL处理这种任务(除非迫不得已),如果能将能处理过程放在大数据平台上处理,速度会更快,而且元数据管理会相对专业。

到此这篇关于如何使用分区处理MySQL的亿级数据优化的文章就介绍到这了,更多相关MySQL 亿级数据优化内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • MYSQL配置参数优化详解

    MYSQL配置参数优化详解

    MySQL是优化难度最大的一个部分,不但需要理解一些MySQL专业知识,同时还需要长时间的观察统计并且根据经验 进行判断,然后设置合理的参数。下面我们了解一下MySQL优化的一些基础
    2018-07-07
  • MySql连接不上问题及解决

    MySql连接不上问题及解决

    这篇文章主要介绍了MySql连接不上问题及解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • 详解MySQL中事务的持久性实现原理

    详解MySQL中事务的持久性实现原理

    这篇文章主要介绍了详解MySQL中事务的持久性实现原理,帮助大家更好的理解和使用MySQL数据库,感兴趣的朋友可以了解下
    2021-01-01
  • MySQL5.7 windows二进制安装教程

    MySQL5.7 windows二进制安装教程

    这篇文章主要为大家详细介绍了MySQL5.7 windows二进制安装教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • Mysql基础知识点汇总

    Mysql基础知识点汇总

    本文给大家汇总介绍了mysql的23个基础的知识点,这些都是学习mysql的必备知识,小伙伴们可以参考下。
    2015-09-09
  • MySQL 5.7升级8.0报异常:ONLY_FULL_GROUP_BY的问题解决

    MySQL 5.7升级8.0报异常:ONLY_FULL_GROUP_BY的问题解决

    本文主要介绍了MySQL 5.7升级8.0报异常的问题解决,主要是ONLY_FULL_GROUP_BY,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-11-11
  • MySQL报错ERROR 2002 (HY000): Canot connect to local MySQL server through socket

    MySQL报错ERROR 2002 (HY000): Canot connect to local MyS

    ERROR 2002是一个常见的错误,这可能会阻碍数据库的正常使用,本文就来介绍一下该错误的解决方法,具有一定的参考价值,感兴趣的可以了解一下
    2024-07-07
  • CentOS 6.5 i386 安装MySQL 5.7.18详细教程

    CentOS 6.5 i386 安装MySQL 5.7.18详细教程

    这篇文章主要介绍了CentOS 6.5 i386 安装MySQL 5.7.18详细教程,需要的朋友可以参考下
    2017-04-04
  • mysql5.7单实例自启动服务配置过程

    mysql5.7单实例自启动服务配置过程

    这篇文章主要介绍了mysql5.7单实例自启动服务配置的过程,附含配置源码,有需要的朋友可以借鉴参考下,希望可以有所帮助,感谢阅读
    2021-09-09
  • 获取 MySQL innodb B+tree 的高度的方法

    获取 MySQL innodb B+tree 的高度的方法

    这篇文章主要介绍了获取 MySQL innodb 的 B+tree 的高度的示例,帮助大家更好的理解和使用MySQL数据库,感兴趣的朋友可以了解下
    2020-10-10

最新评论