Mysql去重的几种方式分步讲解

 更新时间:2022年12月06日 09:56:19   作者:leo825...  
SQL去重是数据分析工作中比较常见的一个场景,下面这篇文章主要给大家介绍了关于SQL去重的3种实用方法的相关资料,文中通过图文以及实例代码介绍的非常详细,需要的朋友可以参考下

前言

我们做数据分析的时候经常会遇到去重问题,下面总结 sql 去重的几种方式,后续如果还有再补充,大数据分析层面包括 hive、clickhouse 也可参考。

准备

本文以 mysql 作为作为例子进行 sql 去重的实现。首先准备一张表:

创建表

t_score

create table t_score(
ts datetime,
id varchar(10),
name varchar(255),
score int(3)
)

datetime: 入库时间

id :学号

name:姓名

soce :分数

测试数据

insert into t_score value(now(), '101','zhangsan', 90);
insert into t_score value(now(), '101','zhangsan', 92);
insert into t_score value(now(), '101','zhangsan', 96);
insert into t_score value(now(), '102','lisi', 90);
insert into t_score value(now(), '102','lisi', 92);
insert into t_score value(now(), '103','wangwu', 96);

目标

最终目标是根据时间去重,将入库时间最新的数据留下,id 重复的认为是重复数据。

最终期望得到的结果为:

探索

distinct 去重

首先想到的就是 distinct 关键字去重,先要了解一下这个关键字的含义和用法。

含义:distinct用来查询不重复记录的条数,即distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。

用法注意:

1.distinct【查询字段】,必须放在要查询字段的开头,即放在第一个参数;

2.只能在SELECT 语句中使用,不能在 INSERT, DELETE, UPDATE 中使用;

3.DISTINCT 表示对后面的所有参数的拼接取不重复的记录,即查出的参数拼接每行记录都是唯一的

4.不能与all同时使用,默认情况下,查询时返回的就是所有的结果。

使用 distinct 不能满足我们的去重需求:

SELECT DISTINCT
	( id ),
	NAME,
	score 
FROM
	t_score

group by去重

group by 是分组去重,但是仅仅使用group by 也达不到去重求最新的目的

SELECT
	id,
	name,
	score 
FROM
	t_score 
GROUP BY
	id,
	name,
	score

实现方案

方案一

首先,取出来每行数据的最大时间(即最新时间),然后让原表数据和最大时间做右连接,得到的就是最新的数据。

SELECT
  a0.*
FROM
  t_score a0
  RIGHT JOIN (
    SELECT
      max(ts) tsMax,
      id
    FROM
      t_score
    GROUP BY
      id
  ) b0 ON a0.ts = b0.tsMax
  AND a0.id = b0.id

方案二

方案二为方案一的变种,使用了exists 关键字来获取时间上最新的数据

SELECT
  a0.*
FROM
  t_score a0
WHERE
  EXISTS (
    SELECT
      *
    FROM
      (
        SELECT
          max(ts) tsMax,
          id
        FROM
          t_score
        GROUP BY
          id
      ) b0
    WHERE
      b0.tsMax = a0.ts
      AND b0.id = a0.id
  )

方案三

使用 row_number() over (parttion by 分组列 order by 排序列) 方式

SELECT
	* 
FROM
	( SELECT *, row_number() over ( PARTITION BY id ORDER BY ts DESC ) num FROM t_score ) a0 
WHERE
	a0.num = 1

需要注意的是:MySQL从8.0开始支持窗口函数

到此这篇关于Mysql去重的几种方式分步讲解的文章就介绍到这了,更多相关Mysql去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • MySql8.023安装过程图文详解(首次安装)

    MySql8.023安装过程图文详解(首次安装)

    这篇文章主要介绍了MySql8.023安装过程(首次安装),本文分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • 深入解析MySQL双写缓冲区

    深入解析MySQL双写缓冲区

    双写缓冲区是MySQL中的一种优化方式,主要用于提高数据的写性能,本文将介绍Doublewrite Buffer的原理和应用,帮助读者深入理解其如何提高MySQL的数据可靠性并防止可能的数据损坏,感兴趣的可以了解一下
    2024-02-02
  • 详解Mysql之mysqlbackup备份与恢复实践

    详解Mysql之mysqlbackup备份与恢复实践

    这篇文章主要介绍了详解Mysql之mysqlbackup备份与恢复实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • MySQL将CSV文件快速导入MySQL中的实现

    MySQL将CSV文件快速导入MySQL中的实现

    本文主要介绍了MySQL将CSV文件快速导入MySQL中的实现,主要包括navicat、workbench等软件中的导入向导手动导入或使用load data infile命令导入,感兴趣的可以了解一下
    2023-11-11
  • MySQL数值类型溢出的处理方法

    MySQL数值类型溢出的处理方法

    这篇文章主要给大家介绍了关于MySQL数值类型溢出的处理方法,文中通过示例代码介绍的非常详细,对大家学习或者使用MySQL具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-08-08
  • mysql 字符集的系统变量说明

    mysql 字符集的系统变量说明

    mysql 字符集的系统变量的一些说明,大家在使用过程中,可以作个参考。
    2009-07-07
  • ubuntu kylin 14.10下多个mysql 5.7.14安装教程

    ubuntu kylin 14.10下多个mysql 5.7.14安装教程

    这篇文章主要为大家分享了ubuntu kylin 14.10下多个mysql 5.7.14安装教程,感兴趣的朋友可以参考一下
    2016-08-08
  • MySQL压测工具mysqlslap的介绍与使用

    MySQL压测工具mysqlslap的介绍与使用

    mysqlslap是mysql自带的一个性能压测工具,mysqlslap用于和其它的一些性能压测工具一样可以自己造数据进行压测。mysqlslap的报告比较简单主要体现在执行的时间方面,没有sysbench那样的tps、qps等更详细的包括。下面来一起看看关于mysqlslap的介绍和简单的使用示例。
    2016-09-09
  • 删除MySQL数据库的简单教程

    删除MySQL数据库的简单教程

    这篇文章主要介绍了删除MySQL数据库的简单教程,是MySQL入门学习中的基础知识,需要的朋友可以参考下
    2015-05-05
  • MySQL server has gone away错误提示解决方法

    MySQL server has gone away错误提示解决方法

    今天遇到类似的情景,MySQL只是冷冷的说:MySQL server has gone away。
    2008-11-11

最新评论