Mysql大表全表update的的实现

 更新时间:2024年08月20日 10:07:00   作者:最爱彩虹糖  
有些时候在进行一些业务迭代时需要我们对Mysql表中数据进行全表update,本文主要介绍了Mysql大表update的的实现

前言

有些时候在进行一些业务迭代时需要我们对Mysql表中数据进行全表update,如果是在数据量比较小的情况下(万级别),可以直接执行sql语句,但是如果数据量达到一个量级后,就会出现一些问题,比如主从架构部署的Mysql,主从同步需要需要binlog来完成,而binlog格式如下,其中使用statement和row格式的主从同步之间binlog在update情况下的展示:

格式内容
statement记录同步在主库上执行的每一条sql,日志量较少,减少io,但是部分函数sql会出现问题比如random
row记录每一条数据被修改或者删除的详情,日志量在特定条件下很大,如批量delete、update
mixed以上两种方式混用,一般的语句修改使用statement记录,其他函数式使用row

在这里插入图片描述

我们当前线上mysql是使用row格式binlog来进行的主从同步,因此如果在亿级数据的表中执行全表update,必然会在主库中产生大量的binlog,接着会在进行主从同步时,从库也需要阻塞执行大量sql,风险极高,因此直接update是不行的。本文就从我最开始的一个全表update sql开始,到最后上线的分批更新策略,如何优化和思考来展开说明。

正文

直接update的问题

我们前段时间需要将用户的一些基本信息存储从http转换为https,库中数据大概在几千w的级别,需要对一些大表进行全表update,最开始我试探性的跟dba同事抛出了一个简单的update语句,想着流量低的时候执行,如下:

update tb_user_info set user_img=replace(user_img,'http://','https://')

深度分页问题

上面肯定是不合理的会给主库生成binlog、从库接收binlog写数据带来很大的压力,于是就想使用脚本分批处理如下所示: 写一个这样的脚本,依次分批替换,limit的游标不断增加。大概一看是没有问题的,但是仔细一想mysql的limit游标进行的范围查找原理,是下沉到B+数的叶子节点进行的向后遍历查找,在limit数据比较小的情况下还好,limit数据量比较大的情况下,效率很低接近于全表扫描,这也就是我们常说的“深度分页问题”。

update tb_user_info set user_img=replace(user_img,'http://','https://') limit 1,1000;

in的效率

既然mysql的深分页有问题,那么我就把这批id全部查出来,然后更新的id in这些列表,进行批量更新可以吗?于是我又写了类似下面sql的脚本。结果是还不行,虽然mysql对于in这些查找有一些键值预测,但是仍然是很低效。

select * from tb_user_info where id> {index} limit 100;
update tb_user_info set user_img=replace(user_img,'http','https')where id in {id1,id3,id2};

最终版本

最终在与dba的多次沟通下,我们写了如下的sql及脚本,这里有几个问题需要注意,我们在select sql中使用了这个语法/*!40001 SQL_NO_CACHE */,这个语法的意思就是本次查询不使用innodb的buffer pool,也不会将本次查询的数据页放到buffer pool中作为热点数据的缓存。接着对于查询强制使用主键索引FORCE INDEX(PRIMARY),并且根据主键索引排序,排序后的数据进行id游标的筛选。最后执行update更新时,由于我们在前面的sql中查询到的就是已经排序后的主键,因此可以对id执行范围查找。

select /*!40001 SQL_NO_CACHE */ id from tb_user_info FORCE INDEX(`PRIMARY`) where id> "1" ORDER BY id limit 1000,1;
update tb_user_info set user_img=replace(user_img,'http','https') where id >"{1}" and id <"{2}";

我们可以仅关注第一个sql,如下图所示,是buffer pool大概内容,我们可以通过这个no cache的关键字,对批量处理的数据进行强制指定不走buffer pool,不把这些冷数据影响到正常使用的缓存内容,防止效率的降低,其实mysql在一些备份的动作中。使用的数据扫描sql也会带上这个关键字,防止影响到正常的业务缓存;接着需要强制对当前查询指定的主键索引,然后进行排序,否则mysql有可能在计算io成本进行索引选择时,选择其他的索引。

在这里插入图片描述

使用这样的方式对数据库进行批量更新可以通过一个接口来控制速率,对于数据库主从同步、iops、内存使用率等关键属性进行观察,手动调整刷库速率。这样看是单线程阻塞的操作,其实接口也可以定义线程个数等属性,接口中根据赋予的线程个数,通过线程池并行刷数据,从而提高全表更新速率的上限,同时对速率进行控制控制。

其他问题

如果我们使用snowflake雪花算法或者自增主键来生成主键id的话,插入的记录都是根据主键id顺序插入的,如果使用uuid这种我们怎么处理?当然是业务中就预先处理了,先把入库的数据提前进行替换,进行代码上线后再进行的全量数据更新了。

结语

刷数据本来是一个异常枯燥的工作内容,但是从这次数据量较大的数据更新从而与dba同事的多次沟通后,也对mysql有了一些新的理解,包括不限于下面几个,共同学习。

  • binlog格式带来的大数据量更新的主从同步问题;
  • Mysql深分页的效率问题;
  • 全表扫数据如何防止对buffer pool污染到我们业务正常的热点数据。

到此这篇关于Mysql大表update的的实现的文章就介绍到这了,更多相关Mysql大表update内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 

相关文章

  • MySQL 中处理 BLOB 和 CLOB 数据类型小结

    MySQL 中处理 BLOB 和 CLOB 数据类型小结

    在MySQL中,BLOB和CLOB 数据类型用于存储大量的二进制数据和字符数据,可以使用SQL 语句或编程语言将二进制数据和字符数据插入到BLOB 和CLOB列中,这篇文章主要介绍了MySQL 中处理 BLOB 和 CLOB 数据类型,需要的朋友可以参考下
    2025-03-03
  • mysql免安装制作使用说明

    mysql免安装制作使用说明

    mysql免安装版本的制作方法,需要的朋友可以参考下。
    2010-08-08
  • 解决mysql导入还原时乱码的问题

    解决mysql导入还原时乱码的问题

    sql文件,直接记事本方式打开,中文显示正常,还原导入后,发现中文是乱码
    2012-12-12
  • mysql 数据插入优化方法

    mysql 数据插入优化方法

    当一个线程对一个表执行一个DELAYED语句时,如果不存在这样的处理程序,一个处理器线程被创建以处理对于该表的所有DELAYED语句。
    2010-12-12
  • mysql 有关“InnoDB Error ib_logfile0 of different size”错误

    mysql 有关“InnoDB Error ib_logfile0 of different size”错误

    mysql 有关“InnoDB Error ib_logfile0 of different size”错误的解决方法,需要的朋友可以参考下。
    2011-06-06
  • MySQL读写分离服务配置方式

    MySQL读写分离服务配置方式

    通过Mycat代理实现MySQL的读写分离涉及准备工作、配置文件修改、权限设置、启动方式选择等关键步骤,首先,安装JDK1.8并配置环境变量;接着,对Mycat的server.xml和schema.xml进行配置,特别是schema.xml中对数据库的配置需关注
    2024-11-11
  • JDBC-idea导入mysql连接java的jar包(mac)的方法

    JDBC-idea导入mysql连接java的jar包(mac)的方法

    这篇文章主要介绍了JDBC-idea导入mysql连接java的jar包(mac)的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-09-09
  • MySQL中使用CTE获取时间段数据的技巧分享

    MySQL中使用CTE获取时间段数据的技巧分享

    在数据库操作中,获取特定时间段的数据是一项常见任务,MySQL自从8.0版本开始支持CTE(公共表表达式),使得我们可以更加灵活和高效地处理时间段数据,本文小编介绍了MySQL中使用CTE获取时间段数据的技巧分享,需要的朋友可以参考下
    2024-08-08
  • MySQL数据库十大优化技巧

    MySQL数据库十大优化技巧

    WEB开发者不光要解决程序的效率问题,对数据库的快速访问和相应也是一个大问题。希望本文能对大家掌握MySQL优化技巧有所帮助。
    2011-03-03
  • MySQL创建、修改和删除表操作指南

    MySQL创建、修改和删除表操作指南

    MySQL是最常用的数据库,在数据库操作中,基本都是增删改查操作,简称CRUD,下面这篇文章主要给大家介绍了关于MySQL创建、修改和删除表的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08

最新评论