Java集合List快速实现重复判断的10种方案

 更新时间:2025年12月26日 08:50:16   作者:.猫的树  
在Java开发中,List集合的重复判断是高频操作场景,不当的实现方式可能导致O(n²)时间复杂度,在百万级数据时产生分钟级延迟,本文通过10种实现方案对比,揭示不同场景下的最优选择,需要的朋友可以参考下

引言:为什么需要关注List重复判断?

在Java开发中,List集合的重复判断是高频操作场景。不当的实现方式可能导致O(n²)时间复杂度,在百万级数据时产生分钟级延迟。本文通过10种实现方案对比,揭示不同场景下的最优选择。

一、基础实现方法

1.1 暴力双循环法

public static boolean hasDuplicate(List<?> list) {
    for (int i = 0; i < list.size(); i++) {
        for (int j = i + 1; j < list.size(); j++) {
            if (list.get(i).equals(list.get(j))) {
                return true;
            }
        }
    }
    return false;
}

复杂度分析:

  • 时间复杂度:O(n²)
  • 空间复杂度:O(1)

1.2 HashSet法

public static boolean hasDuplicateByHashSet(List<?> list) {
    Set<Object> set = new HashSet<>(list.size());
    for (Object item : list) {
        if (!set.add(item)) { // add返回false表示存在重复
            return true;
        }
    }
    return false;
}

优化点:

  • 初始容量设置为list.size()避免扩容
  • 快速失败机制

二、进阶实现方案

2.1 Stream API实现

public static boolean hasDuplicateByStream(List<?> list) {
    return list.stream().distinct().count() < list.size();
}

特性:

  • 代码简洁
  • 支持并行处理

2.2 TreeSet排序法

public static boolean hasDuplicateByTreeSet(List<?> list) {
    Set<Object> set = new TreeSet<>(list);
    return set.size() < list.size();
}

适用场景:

  • 需要自然排序结果
  • 元素实现Comparable接口

三、高性能优化方案

3.1 并行流处理

public static boolean hasDuplicateParallel(List<?> list) {
    Set<Object> seen = ConcurrentHashMap.newKeySet();
    return list.parallelStream().anyMatch(e -> !seen.add(e));
}

优势:

  • 利用多核CPU加速
  • 线程安全的并发集合

3.2 BitSet位图法(仅限整数)

public static boolean hasDuplicateByBitSet(List<Integer> list) {
    BitSet bitSet = new BitSet();
    for (Integer num : list) {
        if (bitSet.get(num)) return true;
        bitSet.set(num);
    }
    return false;
}

限制:

  • 仅适用于正整数
  • 内存占用与最大数值相关

四、第三方库实现

4.1 Guava工具类

import com.google.common.collect.Sets;

public static boolean hasDuplicateByGuava(List<?> list) {
    return Sets.newHashSet(list).size() < list.size();
}

4.2 Apache Commons

import org.apache.commons.collections4.CollectionUtils;

public static boolean hasDuplicateByCommons(List<?> list) {
    return CollectionUtils.getCardinalityMap(list).values()
           .stream().anyMatch(count -> count > 1);
}

五、性能测试对比

5.1 测试环境配置

硬件规格
CPUIntel i7-12700H
内存32GB DDR5
JDKOracle JDK 17.0.2

5.2 百万级数据测试结果

方法10万元素(ms)100万元素(ms)线程安全
暴力双循环12,345超时(>5min)
HashSet18210
Stream25320
并行流1595
BitSet845

六、最佳实践指南

6.1 选择依据矩阵

6.2 避坑指南

  1. 对象必须正确重写equals/hashCode
class User {
    private Long id;
    
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (!(o instanceof User user)) return false;
        return Objects.equals(id, user.id);
    }
    
    @Override
    public int hashCode() {
        return Objects.hash(id);
    }
}
  1. 并发场景使用线程安全容器
Set<Object> safeSet = Collections.synchronizedSet(new HashSet<>());
  1. 避免在Stream中使用有状态操作
// 错误示例:并行流中可能导致漏判
list.parallelStream().forEach(e -> {
    if (set.contains(e)) flag = true;
    set.add(e);
});

七、特殊场景处理

7.1 自定义对象多字段判重

public static boolean hasDuplicateByMultiField(List<User> users) {
    Set<String> seen = new HashSet<>();
    return users.stream()
        .map(u -> u.getName() + "|" + u.getEmail())
        .anyMatch(key -> !seen.add(key));
}

7.2 大数据量分块处理

public static boolean hasDuplicateInChunks(List<?> list, int chunkSize) {
    for (int i = 0; i < list.size(); i += chunkSize) {
        List<?> subList = list.subList(i, Math.min(i + chunkSize, list.size()));
        if (hasDuplicateByHashSet(subList)) {
            return true;
        }
    }
    return false;
}

结语:高效去重的本质

选择最优重复判断方法的核心在于理解数据结构特性业务场景需求的匹配。通过本文的测试数据可知,合理选择算法可以将百万级数据的判断时间从分钟级压缩到毫秒级。

以上就是Java集合List快速实现重复判断的10种方案的详细内容,更多关于Java List实现重复判断的资料请关注脚本之家其它相关文章!

相关文章

  • java多线程编程必备volatile与synchronized深入理解

    java多线程编程必备volatile与synchronized深入理解

    这篇文章主要介绍了java多线程编程必备volatile与synchronized的深入理解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Java Thread中start()和run()的区别_动力节点Java学院整理

    Java Thread中start()和run()的区别_动力节点Java学院整理

    start() : 它的作用是启动一个新线程,新线程会执行相应的run()方法。start()不能被重复调用。而run() : run()就和普通的成员方法一样,可以被重复调用。下面通过示例代码给大家介绍了Java Thread中start()和run()的区别,感兴趣的朋友一起看看吧
    2017-05-05
  • Java 数据结构与算法系列精讲之背包问题

    Java 数据结构与算法系列精讲之背包问题

    背包问题是一个非常典型的考察动态规划应用的题目,对其加上不同的限制和条件,可以衍生出诸多变种,若要全面理解动态规划,就必须对背包问题了如指掌
    2022-02-02
  • 一文搞懂Spring中@Autowired和@Resource的区别

    一文搞懂Spring中@Autowired和@Resource的区别

    @Autowired 和 @Resource 都是 Spring/Spring Boot 项目中,用来进行依赖注入的注解。它们都提供了将依赖对象注入到当前对象的功能,但二者却有众多不同,并且这也是常见的面试题之一,所以我们今天就来盘它
    2022-08-08
  • MybatisPlus的LambdaQueryWrapper用法详解

    MybatisPlus的LambdaQueryWrapper用法详解

    LambdaQueryWrapper<Tag> 是 MyBatis-Plus 框架中的一个功能强大的查询构造器,它用于构建 SQL 查询条件,具有一定的参考价值,感兴趣的可以了解一下
    2024-10-10
  • Java垃圾回收之标记清除算法详解

    Java垃圾回收之标记清除算法详解

    今天小编就为大家分享一篇关于Java垃圾回收之标记清除算法详解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-10-10
  • Java在排序数组中查找元素的第一个和最后一个位置的方法详解

    Java在排序数组中查找元素的第一个和最后一个位置的方法详解

    相信大家在操作Java的时候经常会要在一个数组(无序)中查找元素的第一个和最后一个位置,下面这篇文章主要给大家介绍了关于Java在排序数组中查找元素的第一个和最后一个位置的相关资料,需要的朋友可以参考下
    2024-01-01
  • Scala数据库连接池的简单实现

    Scala数据库连接池的简单实现

    本文主要介绍了Scala数据库连接池的简单实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • 详解Spring如何整合Mybatis

    详解Spring如何整合Mybatis

    今天给大家带来的是关于Java的相关知识,文章围绕着Spring如何整合Mybatis展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • Java中Playwright 应用入门从基础到实践

    Java中Playwright 应用入门从基础到实践

    Playwright是微软开发的开源自动化工具,专注于现代Web应用的端到端测试、网页爬取和浏览器自动化,本文给大家介绍Java中Playwright 应用入门从基础到实践,感兴趣的朋友跟随小编一起看看吧
    2025-09-09

最新评论