python 使用elasticsearch 实现翻页的三种方式

更新时间：2020年07月31日 09:56:39 作者：祢唿

这篇文章主要介绍了python 使用elasticsearch 实现翻页的三种方式，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

使用ES做搜索引擎拉取数据的时候，如果数据量太大，通过传统的from + size的方式并不能获取所有的数据（默认最大记录数10000），因为随着页数的增加，会消耗大量的内存，导致ES集群不稳定。因此延伸出了scroll，search_after等翻页方式。

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单，就是查询前20条数据，然后截断前10条，只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 20,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

from定义了目标数据的偏移值，size定义当前返回的数目。默认from为0，size为10，即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理：
因为es是基于分片的，假设有5个分片，from=100，size=10。则会根据排序规则从5个分片中各取回100条数据数据，然后汇总成500条数据后选择最后面的10条数据。

做过测试，越往后的分页，执行的效率越低。总体上会随着from的增加，消耗时间也会增加。而且数据量越大，就越明显！

二、scroll 深分页

from+size查询在10000-50000条数据（1000到5000页）以内的时候还是可以的，但是如果数据过多的话，就会出现深分页问题。为了解决上面的问题，elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor，使用scroll，每次只能获取一页的内容，然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容，所以scroll并不适用于有跳页的情景。

# -*- coding: utf-8 -*-
# @Time : 
# @Author :
 
from elasticsearch import Elasticsearch
 
es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)
 
# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
    index="source_keyword_message", doc_type="source_keyword_message",
    scroll='10m',
    size=100,
    body={
     "query": {"match_all": {}},
    }
   )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')
 
while (scroll_size > 0):
  page = es.scroll(scroll_id=sid, scroll='5m')
  sid = page['_scroll_id']
  scroll_size = len(page['hits']['hits'])
  datas = page.get('hits').get('hits')

scroll=5m表示设置scroll_id保留5分钟可用。
使用scroll必须要将from设置为0。默认0
size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式，官方的建议不用于实时的请求（一般用于数据导出），因为每一个 scroll_id 不仅会占用大量的资源，而且会生成历史快照，对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置，同时在分页请求的过程中，如果有索引数据的增删改查，这些变更也会实时的反映到游标上。但是需要注意，因为每一页的数据依赖于上一页最后一条数据，所以无法跳页请求。

为了找到每一页最后一条数据，每个文档必须有一个全局唯一值，官方推荐使用 _uid 作为全局唯一值，其实使用业务层的 id 也可以。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 20,
 "from": 0,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

使用search_after必须要设置from=0。
这里我使用timestamp和_id作为唯一值排序。
我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页：

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 0,
 "search_after": [
 1541495312521,
 "d0xH6GYBBtbwbQSP0j1A"
 ],
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

到此这篇关于python 使用elasticsearch 实现翻页的三种方式的文章就介绍到这了,更多相关python elasticsearch 翻页内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

如何以Winsows Service方式运行JupyterLab
这篇文章主要介绍了如何以Winsows Service方式运行JupyterLab的教程
2020-08-08
Python常见的pandas用法demo示例
这篇文章主要介绍了Python常见的pandas用法,结合实例形式总结分析了Python使用pandas模块的常见操作技巧与相关注意事项,需要的朋友可以参考下
2019-03-03
python 根据pid杀死相应进程的方法
下面小编就为大家带来一篇python 根据pid杀死相应进程的方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-01-01
Numpy的np.random随机模块详解
这篇文章主要介绍了Numpy的np.random随机模块详解,平时都会使用到随机模块,一般是torch.random或者是numpy.random,有或者是直接使用ramdom这个python内置的工具包,那么下面就简单记录一下numpy.random常用的函数,需要的朋友可以参考下
2023-08-08
Python为何不能用可变对象作为默认参数的值
这篇文章主要介绍了Python为何不能用可变对象作为默认参数的值,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
Python区块链交易类教程
这篇文章主要为大家介绍了Python区块链交易类的示例详解教程，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05
只用50行Python代码爬取网络美女高清图片
第一次写文章,技术不成熟之处望各位大神轻喷,今天教大家只用50行Python代码爬取网络美女图片是怎么操作的,文中有非常详细的代码示例,对正在学习python的小伙伴们很有帮助哦,需要的朋友可以参考下
2021-06-06
python设置中文界面实例方法
在本篇文章里小编给大家整理的是关于python设置中文界面实例方法，有兴趣的朋友们可以学习参考下。
2020-10-10
python用matplotlib绘制二维坐标轴,设置箭头指向,文本内容方式
这篇文章主要介绍了python用matplotlib绘制二维坐标轴,设置箭头指向,文本内容方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
Python进行添加,读取和删除Word文档属性
在Python中处理Word文档时,对文档属性进行操作是一项重要的任务,下面我们来看看如何使用Python实现对Word文档属性的添加,读取和删除操作吧
2025-02-02

python 使用elasticsearch 实现翻页的三种方式

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具