Python3爬虫里关于Splash负载均衡配置详解

更新时间：2020年07月10日 14:10:16 作者：爱喝马黛茶的安东尼

在本篇文章里小编给大家分享了关于Python3爬虫里关于Splash负载均衡配置的相关内容，需要的朋友们可以学习参考下。

用Splash做页面抓取时，如果爬取的量非常大，任务非常多，用一个Splash服务来处理的话，未免压力太大了，此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理，可以减小单个Splash服务的压力。

1. 配置Splash服务

要搭建Splash负载均衡，首先要有多个Splash服务。假如这里在4台远程主机的8050端口上都开启了Splash服务，它们的服务地址分别为41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050，这4个服务完全一致，都是通过Docker的Splash镜像开启的。访问其中任何一个服务时，都可以使用Splash服务。

2. 配置负载均衡

接下来，可以选用任意一台带有公网IP的主机来配置负载均衡。首先，在这台主机上装好Nginx，然后修改Nginx的配置文件nginx.conf，添加如下内容：

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
        }
    }
}

这样我们通过upstream字段定义了一个名字叫作splash的服务集群配置。其中least_conn代表最少链接负载均衡，它适合处理请求处理时间长短不一造成服务器过载的情况。

当然，我们也可以不指定配置，具体如下：

upstream splash {
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

这样默认以轮询策略实现负载均衡，每个服务器的压力相同。此策略适合服务器配置相当、无状态且短平快的服务使用。

另外，我们还可以指定权重，配置如下：

upstream splash {
    server 41.159.27.223:8050 weight=4;
    server 41.159.27.221:8050 weight=2;
    server 41.159.27.9:8050 weight=2;
    server 41.159.117.119:8050 weight=1;
}

这里weight参数指定各个服务的权重，权重越高，分配到处理的请求越多。假如不同的服务器配置差别比较大的话，可以使用此种配置。

最后，还有一种IP散列负载均衡，配置如下：

upstream splash {
    ip_hash;
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

服务器根据请求客户端的IP地址进行散列计算，确保使用同一个服务器响应请求，这种策略适合有状态的服务，比如用户登录后访问某个页面的情形。对于Splash来说，不需要应用此设置。

我们可以根据不同的情形选用不同的配置，配置完成后重启一下Nginx服务：

sudo nginx -s reload

这样直接访问Nginx所在服务器的8050端口，即可实现负载均衡了。

3. 配置认证

现在Splash是可以公开访问的，如果不想让其公开访问，还可以配置认证，这仍然借助于Nginx。可以在server的location字段中添加auth_basic和auth_basic_user_file字段，具体配置如下：

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
            auth_basic "Restricted";
            auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
        }
    }
}

这里使用的用户名和密码配置放置在/etc/nginx/conf.d目录下，我们需要使用htpasswd命令创建。例如，创建一个用户名为admin的文件，相关命令如下：

htpasswd -c .htpasswd admin

接下来就会提示我们输入密码，输入两次之后，就会生成密码文件，其内容如下：

cat .htpasswd 
admin:5ZBxQr0rCqwbc

配置完成后，重启一下Nginx服务：

sudo nginx -s reload

这样访问认证就成功配置好了。

4. 测试

最后，我们可以用代码来测试一下负载均衡的配置，看看到底是不是每次请求会切换IP。利用http://httpbin.org/get测试即可，实现代码如下：

import requests
from urllib.parse import quote
import re
lua = '''
function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
  return treat.as_string(response.body)
end
'''
url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin', 'admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)

这里URL中的splash字符串请自行替换成自己的Nginx服务器IP。这里我修改了Hosts，设置了splash为Nginx服务器IP。

多次运行代码之后，可以发现每次请求的IP都会变化，比如第一次的结果：

41.159.27.223

第二次的结果：

41.159.27.9

这就说明负载均衡已经成功实现了。

本节中，我们成功实现了负载均衡的配置。配置负载均衡后，可以多个Splash服务共同合作，减轻单个服务的负载，这还是比较有用的。

到此这篇关于Python3爬虫里关于Splash负载均衡配置详解的文章就介绍到这了,更多相关Python3 Splash负载均衡配置内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python中可以用三种方法判断文件是否存在
本文主要介绍了Python中可以用三种方法判断文件是否存在，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-06-06
python实现telnet客户端的方法
这篇文章主要介绍了python实现telnet客户端的方法,分析了Python中telnetlib模块实现telnet操作的方法,并实例叙述了Telnet客户端的实现技巧,需要的朋友可以参考下
2015-04-04
Python自动化之UnitTest框架实战记录
这篇文章主要给大家介绍了关于Python自动化之UnitTest框架实战的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
python字典各式各样操作从基础到高级全面示例详解
在Python中,字典（Dictionary）是一种强大而灵活的数据结构,它允许你存储和检索键值对,本文将深入探讨Python中各式各样的字典操作,包括基本操作、高级操作以及一些实用的技巧,通过全面的示例代码,将展示如何充分发挥字典在Python编程中的优势
2023-12-12
Python爬虫实战之12306抢票开源
今天小编就为大家分享一篇关于Python爬虫实战之12306抢票开源，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-01-01
Python使用socket的UDP协议实现FTP文件服务功能
这篇文章主要介绍了Python使用socket的UDP协议实现FTP文件服务,本示例主要是用Python的socket，使用UDP协议实现一个FTP服务端、FTP客户端，用来实现文件的传输，需要的朋友可以参考下
2023-10-10
Python生成ubuntu apt镜像地址实现
本文主要介绍了Python生成ubuntu apt镜像地址实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-05-05
使Python代码流畅无缝连接的链式调用技巧
链式调用是一种编程风格，它允许将多个方法调用连接在一起，形成一个连贯的操作链，在Python中，链式调用常常用于使代码更简洁、易读，尤其在处理数据处理和函数式编程中应用广泛
2024-01-01
python palywright库基本使用
这篇文章主要介绍了python palywright库的基本使用，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2021-01-01
浅谈keras中的目标函数和优化函数MSE用法
这篇文章主要介绍了浅谈keras中的目标函数和优化函数MSE用法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06

Python3爬虫里关于Splash负载均衡配置详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具