SQL中去除重复数据的几种方法汇总(窗口函数对数据去重)

 更新时间:2023年05月05日 15:26:55   作者:Python数据开发  
以某电商公司的销售报表为例,常见的去重方法我们用到distinct 或者group by 语句, 今天介绍一种新的方法,利用窗口函数对数据去重,感兴趣的朋友跟随小编一起看看吧

使用SQL对数据进行提取和分析时,我们经常会遇到数据重复的场景,需要我们对数据进行去重后分析。

以某电商公司的销售报表为例,常见的去重方法我们用到distinct 或者group by 语句, 今天介绍一种新的方法,利用窗口函数对数据去重。

【字段解释】

访客id:进入店铺浏览宝贝的客户

浏览时间:访客进入店铺浏览页面的日期

浏览时常:访客进入店铺浏览页面的时长

现在需要知道店铺里每个访客和对应的浏览日期(每个访客同一天浏览多次算做一次记录)

【解题思路】

方法1:distinct

SQL书写如下:

select distinct 访客id ,浏览时间 
     from 淘宝日销售数据表;

查询结果:

这里用distinct语句多字段进行去重的时候,需要特别注意2点:

1)distinct语法规定对单字段、多字段去重,必须放在第一个查询字段前。

2)如果对表中多列字段进行去重,去重的过程就是将多字段作为整体去重,比如上面的例子,我们将访客id和浏览时间为整体去去重,而不是对访客id单独去重后再对姓名单独去重,所以会出现相同的访客id对应不同的浏览时间。

方法2:group by

SQL书写如下:

select 访客id ,浏览时间
     from 淘宝日销售数据表
group by 访客id ,浏览时间;

查询结果:

group by对访客id 和浏览时间进行分组,分组汇总后改变了表的行数,一行只有一个类别,这里使用group by后会将访客id 和浏览时间作为一个类别保留,重复的就会不显示。

方法3:窗口函数

使用窗口函数进行去重时,比distinct和group by稍微复杂些,窗口函数不会减少原表中的行数,而是对字段进行分组后排序。详细的窗口函数讲解

窗口函数的基本语法如下:

<窗口函数> over (partition by <用于分组的列名>
                order by <用于排序的列名>)

根据题目要求得出每个访客和对应的浏览日期,我们对访客id ,浏览时间进行分组,对浏览时长(秒)进行排序。

SQL书写如下:

select 访客id ,浏览时间 ,row_number()over(partition by 访客id ,浏览时间
order by 浏览时长(秒)) as 排名
     from 淘宝日销售数据表;

查询结果:

窗口函数查询按照每个客户和浏览日期分组,如果同一天有几次浏览,会根据点赞数排序,筛选排名为1,即可得出每个访客和对应的浏览日期。

SQL书写如下:

select 访客id ,浏览时间 ,row_number()over(partition by 访客id ,浏览时间
order by 浏览时长(秒)) as 排名
     from 淘宝日销售数据表;

查询结果:

去除重复项的三种操作,你get了吗?欢迎评论区补充你的去重办法~

到此这篇关于SQL中去除重复数据的几种方法,我一次性都告你​的文章就介绍到这了,更多相关sql去除重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • sql not in 与not exists使用中的细微差别

    sql not in 与not exists使用中的细微差别

    用的时候我们只注重查询的效率,但却往往会忽略一下比较细小的区别
    2013-02-02
  • SQL Server 常用函数使用方法小结

    SQL Server 常用函数使用方法小结

    这篇文章主要介绍了SQL Server 常用函数使用方法小结,需要的朋友可以参考下
    2017-05-05
  • Oracle与SqlServer的区别大吗

    Oracle与SqlServer的区别大吗

    这篇文章主要介绍了Oracle与SqlServer的区别大吗,差异主要表现在数据类型区别、数据表个数查询的区别以及oracle区分表字段的大小写,SQL Server 不区分表字段的大小写,具体细节跟随小编一起学习下吧
    2024-02-02
  • Sql Server之数据类型详解

    Sql Server之数据类型详解

    本文详细讲解了Sql Server中的数据类型,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-02-02
  • 人工智能自动sql优化工具--SQLTuning for SQL Server

    人工智能自动sql优化工具--SQLTuning for SQL Server

    SQL语句是对数据库进行操作的惟一途径,对数据库系统的性能起着决定性的作用。对于同一条件下的SQL语句写法有很多,其中一些写法往往对性能又有很大影响。但是每个人掌握SQL语言的水平不同,如何才能保证写出高性能的SQL呢?
    2014-08-08
  • 一段压缩MS SQLServer日志的语句

    一段压缩MS SQLServer日志的语句

    一段压缩MS SQL Server日志的语句,需要的朋友可以参考下。
    2010-11-11
  • sql server不存在 sql server拒绝访问

    sql server不存在 sql server拒绝访问

    总出现“SQL Server不存在或访问被拒绝”。1,SQL Server名称或IP地址拼写有误 2,服务器端网络配置有误3,客户端网络配置有误
    2007-12-12
  • 使用linux CentOS本地部署SQL Server数据库超详细步骤

    使用linux CentOS本地部署SQL Server数据库超详细步骤

    作为一名Linux爱好者,我们在使用Linux系统的时候,经常需要使用到数据库,下面这篇文章主要给大家介绍了关于使用linux CentOS本地部署SQL Server数据库的超详细步骤,需要的朋友可以参考下
    2024-01-01
  • SQLSERVER数据库中的5173错误解决方法

    SQLSERVER数据库中的5173错误解决方法

    修复因为客户那边需要这个数据库,当我附加数据库的时候报错,数据库是SQL2005,接下来将介绍详细解决方法
    2013-03-03
  • 海量数据库查询语句

    海量数据库查询语句

    在以下的文章中,我将以“办公自动化”系统为例,探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页。
    2009-10-10

最新评论