Python批量写入ES索引数据的示例代码

 更新时间:2024年02月28日 08:10:40   作者:1024点线面  
这篇文章主要为大家详细介绍了如何使用python脚本批量写ES数据(需要使用pip提前下载安装es依赖库),感兴趣的小伙伴可以学习一下

背景

由于使用官方性能压测工具esrally并不能随心所欲地控制创建索引的内容、索引的结构和数据量,无法创建指定的测试数据集,或者直接投入生产使用。使用java或者spark则需编译使用,修改麻烦,人生苦短,我用python。本文介绍使用python脚本批量写ES数据,需要使用pip提前下载安装es依赖库。

在线安装pip

这主要是为了安装python依赖。

wget [https://bootstrap.pypa.io/pip/2.7/get-pip.py](https://bootstrap.pypa.io/pip/2.7/get-pip.py)

python get-pip.py

[root@manager data]# pip --version

pip 20.3.4 from /usr/lib/python2.7/site-packages/pip (python 2.7)

pip install elasticsearch

Python脚本代码

数据实例如下图的效果:

代码全文如下(大多数字段的内容都会随机变化):

(注意,示例中大部分中文内容是为了增加存储使用量,否则100万条数据仅85MB,当前百万数据占用665MB,可酌情减少字段)

# coding: utf-8
from elasticsearch import Elasticsearch
from elasticsearch import helpers
import random
import time
import sys


reload(sys)
sys.setdefaultencoding('utf-8')
es = Elasticsearch(hosts='http://10.180.249.94:9200')
# print(es)

names = ['刘一', '陈二', '张三', '李四', '王五', '赵六', '孙七', '周八', '吴九', '郑十']
names2 = ['刘一没有曾用名', '陈二没有曾用名', '张三没有曾用名', '李四也没有曾用名啊', '王五没有曾用名', '赵六也没有曾用名']
sexs = ['男', '女']
subjects = ['语文', '数学', '英语', '生物', '地理','物理','化学','思想','历史']
grades = [85, 77, 96, 74, 85, 69, 84, 59, 67, 69, 86, 96, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86]
ages = [12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]
likes = ['接天莲叶无穷碧','映日荷花别样红','不识庐山真面目','只缘身在此山中','两个黄鹂鸣翠柳','一行白鹭上青天','姑苏城外寒山寺','夜半钟声到客船','窗含西岭千秋雪','门泊东吴万里船']
webs = ['https://api.paugram.com/help/acgm','https://docs.tenapi.cn/img.html','https://api.mz-moe.cn/img.php','https://www.jinrishici.com/doc/#instance-right','https://www.bookmarkearth.com','https://www.yijianlogo.com/template']
datas = ['西风吹老洞庭波,一夜湘君白发多。醉后不知天在水,满船清梦压星河。','凿破苍苔地,偷他一片天。白云生镜里,明月落阶前。','春风倚棹阖闾城,水国春寒阴复晴。细雨湿衣看不见,闲花落地听无声。','日斜江上孤帆影,草绿湖南万里情。东道若逢相识问,青袍今日误儒生。','浪花有意千里雪,桃李无言一队春。一壶酒,一竿身,快活如侬有几人?','岸阔樯稀波渺茫,独凭危槛思何长。萧萧远树疏林外 ,一半秋山带夕阳。']
dates = ['2002-10-12-11:00:02','2022-12-12-15:18:09','2023-12-08-11:00:02','2022-11-22-16:01:01','2021-09-19-13:55:55','2019-11-11-15:07:06','2010-08-09-11:56:09','2023-06-18-01:06:01','2022-12-12-19:06:04','2023-10-15-16:13:02']

start = time.time()
# 开始批量写入es数据库
# 批量写入数据
for j in range(2000):
    print(j)
    action = [
        {
            "_index": "grades_v3",
            "_type": "_doc",
            "_id": i,
            "_source": {
                "id": i,
                "name": random.choice(names),
                "old_name": random.choice(names2),
                "sex": random.choice(sexs),
                "subject": random.choice(subjects),
                "grade": random.choice(grades),
                "ages": random.choice(ages),
                "likes": random.choice(likes),
                "likes2": random.choice(likes),
                "others2": random.choice(datas),
                "websites": random.choice(webs),
                "others": random.choice(likes),
                "login_date":  random.choice(dates),
                "others3": random.choice(datas)
            }
        } for i in range(10000 * j, 10000 * j + 10000)
    ]
    helpers.bulk(es, action)
end = time.time()
print('Total Time Spent: ', end - start)

执行

python esgen.py

写入了2000万条数据约13GB,足以模拟大多数测试需求了,耗时6330秒。

指定创建索引的分片数

默认的索引自动创建只有一个分片,指定分片的代码如下:

# 定义要创建的索引及其设置,包括主分片数为3  
create_index_body = {  
    "settings": {  
        "index": {  
            "number_of_shards": 3,  # 设置主分片数为3  
            "number_of_replicas": 1  # 设置副本数为1,可以根据需要调整  
        }  
    }  
}  
  
# 创建索引  
if not es.indices.exists(index="my_index"):  
    es.indices.create(index="my_index", body=create_index_body)  

在后续写入时指定为这个"my_index"即可,名字随意。

到此这篇关于Python批量写入ES索引数据的示例代码的文章就介绍到这了,更多相关Python写入ES索引数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python第三方库jieba库与中文分词全面详解

    Python第三方库jieba库与中文分词全面详解

    jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,下面这篇文章主要给大家介绍了关于Python第三方库jieba库与中文分词的相关资料,需要的朋友可以参考下
    2022-07-07
  • python 输出列表元素实例(以空格/逗号为分隔符)

    python 输出列表元素实例(以空格/逗号为分隔符)

    今天小编就为大家分享一篇python 输出列表元素实例(以空格/逗号为分隔符),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python中Random和Math模块学习笔记

    Python中Random和Math模块学习笔记

    这篇文章主要介绍了Python中Random和Math模块学习笔记,本文讲解了math模块的数学常量、常用简单函数、三角函数等,讲解了random模块的常用函数、随机挑选和排序等内容,需要的朋友可以参考下
    2015-05-05
  • 如何使用Python逆向抓取APP数据

    如何使用Python逆向抓取APP数据

    今天给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-05-05
  • 如何用Python生成二维码、解析二维码

    如何用Python生成二维码、解析二维码

    这篇文章主要介绍了如何用Python生成二维码、解析二维码,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • Django ImageFiled上传照片并显示的方法

    Django ImageFiled上传照片并显示的方法

    今天小编就为大家分享一篇Django ImageFiled上传照片并显示的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Anaconda虚拟环境中安装cudatoolkit和cudnn包并配置pytorch-gpu的配置教程

    Anaconda虚拟环境中安装cudatoolkit和cudnn包并配置pytorch-gpu的配置教程

    这篇文章详细介绍了如何在Anaconda虚拟环境中安装和配置TensorFlow,特别是针对CUDA和cuDNN的版本管理,文章首先解释了为什么需要更新TensorFlow版本,然后指导如何创建新的虚拟环境,需要的朋友可以参考下
    2025-02-02
  • 以windows service方式运行Python程序的方法

    以windows service方式运行Python程序的方法

    这篇文章主要介绍了以windows service方式运行Python程序的方法,可实现将Python程序变成windows服务的功能,需要的朋友可以参考下
    2015-06-06
  • Python使用thread模块实现多线程的操作

    Python使用thread模块实现多线程的操作

    线程(Threads)是操作系统提供的一种轻量级的执行单元,可以在一个进程内并发执行多个任务,每个线程都有自己的执行上下文,包括栈、寄存器和程序计数器,本文给大家介绍了Python使用thread模块实现多线程的操作,需要的朋友可以参考下
    2024-10-10
  • CPython中处理is与is not语句示例详解

    CPython中处理is与is not语句示例详解

    这篇文章主要为大家介绍了CPython中处理is与is not语句示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07

最新评论