Elasticsearch之倒排索引及索引操作

更新时间：2022年04月19日 17:47:24 作者：Jeff的技术栈

这篇文章主要为大家介绍了Elasticsearch之倒排索引及索引操作示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

倒排索引

一倒排索引是什么

倒排索引源于实际应用中需要根据属性的值来查找记录，这种索引表中的每一个项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而成为倒排索引。带有倒排索引的文件我们称之为倒排索引文件，简称倒排文件

二举例

例如有如下三个文件：

文件A：通过Python django搭建网站

文件B：通过Python scrapy爬取网站数据

文件C：scrapy-redis分布式爬虫

现在我们要查询，带有Python的文件，正常是对每个文件进行遍历，每个文件遍历一次，如果文件特别大，每个文件有一亿个字符，总共有一亿各文件，每个我们都要遍历，非常消耗资源

在存储文件之前，先对文件进行分析，将文件分词，对分词建立索引，例如下面一句话

1 今天是星期天我们出去玩

2 明天是星期天，放假

3 今天天气很晴朗

4 xxx

5 他们出去玩了

关键词	文章
今天	文章1，文章3
星期天	文章2
出去玩	文章5，文章1

实际上es在做存储的时候，更详细，如下表

关键词	文章
今天	(文章1,<2，10>,2) (文章3,<8>,1)
星期天	(文章2,<12,25,100>,3)
出去玩	(文章5,<11,24,89>,3)(文章1,<8，19>,2)

今天出现在哪个文章，出现的位置和出现的次数

三倒排索引待解决的问题

1 大小写转换问题，如python和Python应该为同一个词

2 词干抽取，looking和look应该处理为同一个词

3 分词，如屏蔽系统是屏蔽和系统两个词还是为屏蔽系统一个词

4 倒排索引文件过大，需要压缩编码

索引操作

具体操作可以查看官方文档

https://www.elastic.co/guide/en/elasticsearch/reference/7.5/indices.html>

官方2版本的中文文档

https://www.elastic.co/guide/cn/elasticsearch/guide/current/index-settings.html

一索引初始化

#新建一个lqz2的索引，索引分片数量为5，索引副本数量为1
PUT lqz2
{
  "settings": {
    "index":{
      "number_of_shards":5,
      "number_of_replicas":1
    }
  }
}
'''
number_of_shards
每个索引的主分片数，默认值是 5 。这个配置在索引创建后不能修改。
number_of_replicas
每个主分片的副本数，默认值是 1 。对于活动的索引库，这个配置可以随时修改。
'''

二查询索引配置

#获取lqz2索引的配置信息
GET lqz2/_settings
#获取所有索引的配置信息
GET _all/_settings
#同上
GET _settings
#获取lqz和lqz2索引的配置信息
GET lqz,lqz2/_settings

三更新索引

#修改索引副本数量为2
PUT lqz/_settings
{
  "number_of_replicas": 2
}
#如遇到报错：cluster_block_exception，因为
#这是由于ES新节点的数据目录data存储空间不足，导致从master主节点接收同步数据的时候失败，此时ES集群为了保护数据，会自动把索引分片index置为只读read-only
PUT  _all/_settings
{
"index": {
  "blocks": {
    "read_only_allow_delete": false
    }
  }
}

四删除索引

#删除lqz索引
DELETE lqz

以上就是Elasticsearch之倒排索引及索引操作的详细内容，更多关于Elasticsearch倒排索引索引操作的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python数据结构之循环链表详解
循环链表 (Circular Linked List) 是链式存储结构的另一种形式，它将链表中最后一个结点的指针指向链表的头结点，使整个链表头尾相接形成一个环形，使链表的操作更加方便灵活。本文将详细介绍一下循环链表的相关知识，需要的可以参考一下
2022-01-01
python自动导入包的实现
本文主要介绍了python自动导入包的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-04-04
Python实现PS滤镜特效之扇形变换效果示例
这篇文章主要介绍了Python实现PS滤镜特效之扇形变换效果,结合实例形式分析了Python实现PS滤镜扇形变换效果的原理与相关操作技巧,需要的朋友可以参考下
2018-01-01
用Pelican搭建一个极简静态博客系统过程解析
这篇文章主要介绍了用Pelican搭建一个极简静态博客系统过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Pandas实现复制dataframe中的每一行
这篇文章主要介绍了Pandas实现复制dataframe中的每一行方式,
2024-02-02
Python实现视频去抖动功能
视频去抖动是视频处理中的一项重要技术,它可以有效地减少视频中由于相机震动或手持拍摄等原因而导致的画面抖动,提高视频的质量,本文将介绍如何利用 Python 中的 OpenCV 库实现视频去抖动的方法,并提供代码实例,感兴趣的朋友可以参考下
2024-04-04
python中hashlib模块用法示例
这篇文章主要介绍了python中hashlib模块用法示例，具有一定参考价值，需要的朋友可以了解下。
2017-10-10
通俗易懂了解Python装饰器原理
这篇文章主要介绍了通俗易懂了解Python装饰器原理,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Python3+Requests+Excel完整接口自动化测试框架的实现
这篇文章主要介绍了Python3+Requests+Excel完整接口自动化测试框架的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-10-10
tensorflow转换ckpt为savermodel模型的实现
这篇文章主要介绍了tensorflow转换ckpt为savermodel模型的实现，具有很好的参考价值，希望对大家有所帮助，一起跟随小编过来看看吧
2020-05-05