Java中Elasticsearch的4种分页方式详解

 更新时间:2025年01月21日 08:41:14   作者:猿java  
在 Elasticsearch 中,有 4种常见的分页方法,本文将带大家分析一下每种方法的优缺点以及我们该如何选择,感兴趣的小伙伴可以参考一下

在 Elasticsearch 中,有 4种常见的分页方法,这篇文章,我们将分析每种方法的优缺点以及我们该如何选择。

1. 使用 from 和 size

使用 fromsize是最常用的分页方式,通过设置 from 参数指定从结果集的哪个位置开始,size 参数指定返回多少条记录。使用语法如下:

GET /index/_search
{
  "from": 10,
  "size": 10,
  "query": {
    "match": {
      "field": "value"
    }
  }
}

优点

简单易用:实现起来非常直观,适用于大多数基本的分页需求。

广泛支持:Elasticsearch 搜索 API 默认支持这种分页方式。

缺点

性能问题:对于深页(高 from 值),性能会显著下降,因为 Elasticsearch 需要跳过前面的 from 条记录。这会导致查询时间增加,尤其是当 from 值较大时。

资源消耗:高 from 值会消耗更多的内存和CPU资源,可能影响集群性能。

适用场景

  • 浅分页:适用于前几页的查询(例如,第1页到第10页)。
  • 小数据集:当数据量较小且分页需求不复杂时。

2. 使用 search_after

search_after基于排序值实现深度分页,通过提供上一个页面的排序值来继续检索下一页的数据。使用语法如下:

GET /index/_search
{
  "size": 10,
  "query": {
    "match": {
      "field": "value"
    }
  },
  "sort": [
    { "timestamp": "asc" },
    { "_id": "asc" }
  ],
  "search_after": [ "2023-01-01T00:00:00", "some_id" ]
}

优点

高效深度分页:相比 from/sizesearch_after 在处理深层分页时性能更好,不会随着页数增加而显著下降。

去重性强:结合唯一排序字段(如 _id),可以避免重复数据。

缺点

状态管理:需要在客户端保存上一次查询返回的排序值,增加了实现复杂度。

不可跳页:无法像传统分页那样直接跳转到任意页,只能顺序翻页。

适用场景

深度分页:适用于需要访问大量数据且需要高效性能的场景。

数据连续流:适合数据流式访问,如日志检索、实时数据分析等。

3. 使用 Scroll API

Scroll API适用于处理大量数据的批量检索,通过保持一个在查询时刻的快照,允许用户遍历整个结果集。使用语法如下:

POST /index/_search?scroll=1m
{
  "size": 100,
  "query": {
    "match_all": {}
  }
}

# 获取后续数据
POST /_search/scroll
{
  "scroll": "1m",
  "scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAA..."
}

优点

处理大量数据:适合导出或批量处理大量数据,性能稳定。

避免跳页问题:通过持续的快照避免数据在检索过程中变化影响结果。

缺点

资源消耗:保持 scroll 上下文会占用集群资源,尤其是在并发请求较高时。

不适合实时搜索:Scroll API 主要用于一次性检索,不适合用户交互的分页需求。

适用场景

批量数据导出:如数据迁移、备份等。

大规模分析:需要一次性处理大量文档的场景。

4. 使用 Point in Time

使用 Point in Time (PIT)提供了一种基于时间点的查询方式,允许在多个分页请求中维持一致的视图。使用语法如下:

POST /index/_search?pit=true&size=10
{
  "sort": [...],
  "query": { ... }
}

# 后续请求使用 pit_id
POST /index/_search
{
  "pit": {
    "id": "some_pit_id",
    "keep_alive": "1m"
  },
  "sort": [...],
  "query": { ... },
  "search_after": [ ... ]
}

优点

一致性视图:在多个分页请求中保持数据的一致性,即使索引发生变化。

结合 search_after 使用:提高深度分页的效率和一致性。

缺点

复杂度增加:需要管理 PIT 会话,包括生命周期和资源释放。

资源消耗:维持 PIT 会话会占用集群资源。

适用场景

需要一致性分页:如多用户同时分页浏览数据,确保每个用户看到的数据一致。

结合 search_after:需要高效的深度分页且保持一致视图的场景。

5. 如何选择

5.1 根据分页深度选择

浅分页(前几页):使用 fromsize,实现简单且性能可接受。

深度分页:使用 search_after 或结合 Point in Time,提高性能并避免资源浪费。

5.2 根据数据一致性要求

无需严格一致性fromsize 已足够,适用于数据不频繁变动的场景。

需要一致性视图:使用 Point in Time,确保分页过程中数据的一致性。

5.3 根据使用场景

用户交互分页:通常使用 fromsize,适合大多数 Web 应用分页需求。

批量处理或导出:使用 Scroll API,适合一次性处理大量数据的任务。

5.4 根据资源和性能考虑

资源有限:避免使用 Scroll API,尤其是在高并发环境下。

性能优化:对于频繁的深度分页,search_afterPoint in Time 是更优的选择。

6. 总结

  • from 和 size:适用于浅分页,简单易用,但不适合深度分页。
  • search_after:适合深度分页,性能更优,但实现复杂度略高,且不支持随机跳页。
  • Scroll API:适用于批量处理和导出,不适合实时用户交互的分页需求。
  • Point in Time (PIT):提供一致的分页视图,适合需要数据一致性的深度分页场景。

根据具体的业务需求、数据量、分页深度和系统资源,选择最合适的分页方法,以达到最佳的性能和用户体验。

到此这篇关于Java中Elasticsearch的4种分页方式详解的文章就介绍到这了,更多相关Java Elasticsearch分页内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java实现并查集

    Java实现并查集

    这篇文章主要为大家详细介绍了Java实现并查集,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-07-07
  • Java BigDecimal类用法详解

    Java BigDecimal类用法详解

    BigDecimal 由任意精度的整数非标度值 和32 位的整数标度 (scale) 组成。如果为零或正数,则标度是小数点后的位数。如果为负数,则将该数的非标度值乘以 10 的负scale 次幂。
    2016-06-06
  • SpringBoot实战项目之谷歌浏览器全屏效果实现

    SpringBoot实战项目之谷歌浏览器全屏效果实现

    这篇文章主要介绍了通过 Java SpringBoot来实现谷歌浏览器的全屏效果,希望页面展示时可以实现全屏效果以提高用户体验。感兴趣的小伙伴跟着小编往下看吧
    2021-09-09
  • SpringBoot+OCR 实现图片文字识别

    SpringBoot+OCR 实现图片文字识别

    本文主要介绍了SpringBoot+OCR 实现图片文字识别,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • SpringBoot使用Sharding-JDBC实现数据分片和读写分离的方法

    SpringBoot使用Sharding-JDBC实现数据分片和读写分离的方法

    本文主要介绍了SpringBoot使用Sharding-JDBC实现数据分片和读写分离,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • java+jsp+struts2实现发送邮件功能

    java+jsp+struts2实现发送邮件功能

    这篇文章主要为大家详细介绍了java+jsp+struts2实现发送邮件功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-03-03
  • Java实现将彩色PDF转为灰度PDF的示例代码

    Java实现将彩色PDF转为灰度PDF的示例代码

    本文以Java代码为例介绍如何实现将彩色PDF文件转为灰度(黑白)的PDF文件,文中的示例代码讲解详细,感兴趣的小伙伴快跟随小编一起学习一下吧
    2022-03-03
  • Java之mybatis使用limit实现分页案例讲解

    Java之mybatis使用limit实现分页案例讲解

    这篇文章主要介绍了Java之mybatis使用limit实现分页案例讲解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-08-08
  • JAVA时间戳-Calendar类使用(包括set,get,add方法)

    JAVA时间戳-Calendar类使用(包括set,get,add方法)

    这篇文章主要介绍了JAVA时间戳-Calendar类使用(包括set,get,add方法),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-04-04
  • 详解servlet的url-pattern匹配规则

    详解servlet的url-pattern匹配规则

    本篇文章主要介绍了=servlet的url-pattern匹配规则,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-12-12

最新评论