SQL对冗余数据的删除重复记录只保留单条的说明

 更新时间:2010年03月30日 15:28:53   作者:  
本文讲一下数据库中通常存在一些冗余数据,如重复记录就是一种,那这样的记录如何删除呢?
我们先看一下相关数据结构的知识。

在学习线性表的时候,曾有这样一个例题。

已知一个存储整数的顺序表La,试构造顺序表Lb,要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。
算法思路:
先把顺序表La的第一个元素付给顺序表Lb,然后从顺序表La的第2个元素起,每一个元素与顺序表Lb中的每一个元素进行比较,如果不相同,则把该元素附加到顺序表Lb的末尾。
复制代码 代码如下:

public SeqList<int> Purge(SeqList<int> La)
{
SeqList<int> Lb = new SeqList<int>(La.Maxsize);
//将a表中的第1个数据元素赋给b表
Lb.Append(La[0]);
//依次处理a表中的数据元素
for (int i = 1; i <= La.GetLength() - 1; ++i)
{
int j = 0;
//查看b表中有无与a表中相同的数据元素
for (j = 0; j <= Lb.GetLength() - 1; ++j)
{
//有相同的数据元素
if (La[i].CompareTo(Lb[j]) == 0)
{
break;
}
}
//没有相同的数据元素,将a表中的数据元素附加到b表的末尾。
if (j > Lb.GetLength() - 1)
{
Lb.Append(La[i]);
}
return Lb;
}
}

如果理解了这个思路,那么数据库中的处理就好办了。

我们可以做一个临时表来解决问题
复制代码 代码如下:

select distinct * into #Tmp from tableName
drop table tableName
select * into tableName from #Tmp
drop table #Tmp

发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。

但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,GUID,等)

上个问题先不讲,先看看这个问题。

我们分别在三种数据库中看一下处理办法,就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.

1. SQL Server 2000 构造序号列

方法一:
SELECT 序号=
(SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号),
客户编号,公司名称 FROM 客户 AS b ORDER BY 1;
方法二:

SELECT 序号= COUNT(*),
a.客户编号, a.公司名称FROM 客户 AS a, 客户 AS b
WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;
2. SQL Server 2005 构造序号列

方法一:
SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户;

方法二:
WITH TABLE AS
(SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户)
SELECT * FROM TABLE
WHERE 序号 BETWEEN 1 AND 3;
3. Oracle 里 rowid 也可看做默认标识列
在Oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。
复制代码 代码如下:

select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所以,我们还可以用游标来解决删除重复记录的问题。
declare @max int,
@id int
declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1
open cur_rows
fetch cur_rows into @id ,@max
while @@fetch_status=0
begin
select @max = @max -1
set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么
delete from test where id = @id
fetch cur_rows into @id ,@max
end
close cur_rows
set rowcount 0 以上是闪电查阅一些资料写出的想法,有考虑不周的地方,欢迎大家指出。

相关文章

  • CentOS 7.3上SQL Server vNext CTP 1.2安装教程

    CentOS 7.3上SQL Server vNext CTP 1.2安装教程

    这篇文章主要为大家详细介绍了CentOS 7.3上SQL Server vNext CTP 1.2安装教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-01-01
  • SQL Server 批量插入数据的完美解决方案

    SQL Server 批量插入数据的完美解决方案

    这篇文章主要介绍了SQL Server 批量插入数据的完美解决方案,需要的朋友可以参考下
    2020-12-12
  • SQL中查找某几个字段完全一样的数据

    SQL中查找某几个字段完全一样的数据

    本文分享SQL语句实现表中字段的组合累加排序的实例代码,希望能给大家做一个参考。
    2016-06-06
  • sql server安装及使用全流程(图文详解)

    sql server安装及使用全流程(图文详解)

    这篇文章主要介绍了sql server安装及使用全流程,本文通过图文并茂的形式给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2024-07-07
  • 通过navicat连接SQL Server数据库的详细步骤

    通过navicat连接SQL Server数据库的详细步骤

    本文介绍如何通过navicat连接SQL Server数据库,以往总是使SQL Server客户端来连接SQL Server数据库,但是SQL Server客户端一般有几百M的大小,而且安装繁琐配置麻烦,如果可以通过Navicat直接连接SQL Server则会非常轻松方便,需要的朋友可以参考下
    2023-12-12
  • SQL数据查询之DQL语言介绍

    SQL数据查询之DQL语言介绍

    首先对于数据库有一定的了解,会对于数据库的学习有一定的帮助; 数据库主要分为 DB(数据库),DBMS(数据库管理系统),SQL(结构化查询语言,用于和DBMS通信的语言);这篇要讲的DQL(数据查询语句)是属于SQL语言中的一种语言,因此是必学的语言,希望可以有一定的帮助
    2022-08-08
  • SqlServer公用表表达式(CTE)的具体使用

    SqlServer公用表表达式(CTE)的具体使用

    CTE是一种临时命名的结果集,,它在执行查询时存在,并且只在该查询执行期间有效,本文主要介绍了SqlServer公用表表达式的具体使用,感兴趣的可以了解一下
    2024-08-08
  • 详解SQL Server的聚焦过滤索引

    详解SQL Server的聚焦过滤索引

    本文主要讲解了通过过滤索引来提高查询性能,同时也给出了其不同的场景以及其使用优点和明显的缺点。简短的内容,深入的理解,有兴趣的朋友可以看下
    2016-12-12
  • SQL Server事务日志文件过大(已满)的解决方案

    SQL Server事务日志文件过大(已满)的解决方案

    随着数据库使用时间增长,日志文件也在不停的增大,这篇文章主要给大家介绍了关于SQL Server事务日志文件过大(已满)的解决方案,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-10-10
  • 只有mdf文件的数据库附加失败的修复方法分享(置疑、只读)

    只有mdf文件的数据库附加失败的修复方法分享(置疑、只读)

    有时候因为某些原因数据库只有mdf文件了,需要附加数据库,会出现一些问题,大家可以参考下面的方法试试
    2012-02-02

最新评论