教你使用Nginx限制百度蜘蛛频繁抓取的问题

 更新时间:2022年01月23日 15:34:40   作者:ning235  
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Nginx限制蜘蛛频繁抓取相关知识感兴趣的朋友一起看看吧

百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息。最终采用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503。

limit_req_zone

语法: limit_req_zone $variable zone=name:size rate=rate;

默认值: none

配置段: http

设置一块共享内存限制域的参数,它可以用来保存键值的状态。 它特别保存了当前超出请求的数量。 键的值就是指定的变量(空值不会被计算)。

这里键值使用客户端的agent, 使用$http_user_agent变量。 如果限制域的存储空间耗尽了,对于后续所有请求,服务器都会返回 503 (Service Temporarily Unavailable)错误。

请求频率可以设置为每秒几次(r/s)。如果请求的频率不到每秒一次, 你可以设置每分钟几次(r/m)。比如每秒半次就是30r/m。

全局配置nginx.conf

limit_req_zone $ning_spider zone=ning_spider:10m rate=200r/m;

某个server中

if ($http_user_agent ~* "baiduspider|Googlebot") {
 set $ning_spider $http_user_agent;
 }
 limit_req zone=ning_spider burst=5 nodelay;

参数说明:

指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

指令limit_req 中的nodelay 表示当已经达到burst值时,再来新请求时,直接返回503IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$ning_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

测试,速率达不上可以同时开多个以下脚本测试

[root@localhost ~]# cat test.sh
#! /bin/bash  
sum=0;  
for i in {1..1000}  
do  
((sum = sum + i))  
curl -I -A "Baiduspider" http://www.hezongtianxia.com
curl -I -A "Sogou web spider" http://www.hezongtianxia.com
done  
echo $sum
tailf /home/wwwlog/access.log|grep 503

参考:http://tengine.taobao.org/nginx_docs/cn/docs/http/ngx_http_limit_req_module.html

到此这篇关于使用Nginx限制百度蜘蛛频繁抓取 的文章就介绍到这了,更多相关Nginx限制蜘蛛频繁抓取 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Nginx新增http_ssl_module模块的解决方案

    Nginx新增http_ssl_module模块的解决方案

    这篇文章主要介绍了Nginx新增http_ssl_module模块的解决方案,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2023-11-11
  • Nginx服务器下配置使用索引目录的教程

    Nginx服务器下配置使用索引目录的教程

    这篇文章主要介绍了Nginx服务器下配置使用索引目录的教程,包括自带的auto_index和使用fancy插件美化的用法,需要的朋友可以参考下
    2016-01-01
  • nginx获取真实的ip的方法

    nginx获取真实的ip的方法

    在实际应用中,我们可能需要获取用户的ip地址,比如做异地登陆的判断等等,本文主要介绍了nginx获取真实的ip的方法,具有一定的参考价值,感兴趣的可以了解一下
    2023-08-08
  • Nginx中常见header配置及修改

    Nginx中常见header配置及修改

    在nginx中,经常需要因为各种原因,修改header,本文就来介绍一下header配置及修改,具有一定的参考价值,感兴趣的可以了解一下
    2023-10-10
  • Nginx处理Web请求机制的方法详解

    Nginx处理Web请求机制的方法详解

    这篇文章主要介绍了Nginx处理Web请求机制的方法,通过对worker抢占机制、传统服务器事件处理机制以及Nginx事件处理机制的对比,详细解析Nginx在处理web请求机制时的逻辑,需要的朋友可以参考下
    2025-04-04
  • nginx报错:[emerg] getpwnam(“www“)failed问题及解决

    nginx报错:[emerg] getpwnam(“www“)failed问题及解决

    这篇文章主要介绍了nginx报错:[emerg] getpwnam(“www“)failed问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2025-03-03
  • Nginx配置SSL证书的全流程

    Nginx配置SSL证书的全流程

    文章详细介绍了如何通过阿里云或腾讯云申请免费SSL证书,并在Nginx中配置SSL以启用HTTPS,配置包括设置SSL会话缓存、超时、加密套件、优先级以及指定证书和密钥的位置,配置完成后,通过验证语法并重启Nginx,网站将启用HTTPS,用户访问时会看到浏览器地址栏的锁图标
    2025-02-02
  • Centos7下安装部署nginx的三种方式详解

    Centos7下安装部署nginx的三种方式详解

    Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器,这篇文章主要为大家介绍了Centos7下安装部署nginx的三种方式,希望对大家有所帮助
    2023-08-08
  • Nginx更改conf配置文件的代码详解

    Nginx更改conf配置文件的代码详解

    本文主要介绍了Nginx如何更改conf配置文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作有一定的参考学习价值,需要的朋友们下面跟着小编来一起来学习吧
    2024-02-02
  • Nginx限流配置详解

    Nginx限流配置详解

    限流是服务降级的一种方式,通过限制系统的输入和输出流量以达到保护系统的目的,本文主要介绍了Nginx限流配置详解,感兴趣的可以了解一下
    2023-11-11

最新评论