在Nginx中拦截特定用户代理的教程

 更新时间:2015年06月03日 09:32:38   投稿:goldensun  
这篇文章主要介绍了在Nginx中拦截特定用户代理的教程,并为这些被拦截的用户设置一个黑名单以方便管理,需要的朋友可以参考下

现代互联网滋生了大量各种各样的恶意机器人和网络爬虫,比如像恶意软件机器人、垃圾邮件程序或内容刮刀,这些恶意工具一直偷偷摸摸地扫描你的网站,干些诸如检测潜在网站漏洞、收获电子邮件地址,或者只是从你的网站偷取内容。大多数机器人能够通过它们的“用户代理”签名字符串来识别。

作为第一道防线,你可以尝试通过将这些机器人的用户代理字符串添加入robots.txt文件来阻止这些恶意软件机器人访问你的网站。但是,很不幸的是,该操作只针对那些“行为良好”的机器人,这些机器人被设计遵循robots.txt的规范。许多恶意软件机器人可以很容易地忽略掉robots.txt,然后随意扫描你的网站。

另一个用以阻挡特定机器人的途径,就是配置你的网络服务器,通过特定的用户代理字符串拒绝要求提供内容的请求。本文就是说明如何在nginx网络服务器上阻挡特定的用户代理。

在Nginx中将特定用户代理列入黑名单

要配置用户代理阻挡列表,请打开你的网站的nginx配置文件,找到server定义部分。该文件可能会放在不同的地方,这取决于你的nginx配置或Linux版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/<your-site>,/usr/local/nginx/conf/nginx.conf,/etc/nginx/conf.d/<your-site>)。

复制代码 代码如下:
    server {
        listen       80 default_server;
        server_name  xmodulo.com;
        root         /usr/share/nginx/html;
        ....
    }
  

在打开该配置文件并找到 server 部分后,添加以下 if 声明到该部分内的某个地方。

  

复制代码 代码如下:
    server {
        listen       80 default_server;
        server_name  xmodulo.com;
        root         /usr/share/nginx/html;
        # 大小写敏感的匹配
        if ($http_user_agent ~ (Antivirx|Arian) {
            return 403;
        }
  
        #大小写无关的匹配
      
复制代码 代码如下:
    if ($http_user_agent ~* (netcrawl|npbot|malicious)) {
            return 403;
        }
        ....
    }
  

如你所想,这些 if 声明使用正则表达式匹配了任意不良用户字符串,并向匹配的对象返回403 HTTP状态码。 $http_user_agent是HTTP请求中的一个包含有用户代理字符串的变量。‘~'操作符针对用户代理字符串进行大小写敏感匹配,而‘~*'操作符则进行大小写无关匹配。‘|'操作符是逻辑或,因此,你可以在 if 声明中放入众多的用户代理关键字,然后将它们全部阻挡掉。

在修改配置文件后,你必须重新加载nginx以激活阻挡:

  

 $ sudo /path/to/nginx -s reload

你可以通过使用带有 “--user-agent” 选项的 wget 测试用户代理阻挡。

  

 $ wget --user-agent "malicious bot" http://<nginx-ip-address>

  20156392400452.jpg (786×375)

    管理Nginx中的用户代理黑名单

目前为止,我已经展示了在nginx中如何阻挡一些用户代理的HTTP请求。如果你有许多不同类型的网络爬虫机器人要阻挡,又该怎么办呢?

由于用户代理黑名单会增长得很大,所以将它们放在nginx的server部分不是个好点子。取而代之的是,你可以创建一个独立的文件,在该文件中列出所有被阻挡的用户代理。例如,让我们创建/etc/nginx/useragent.rules,并定义以下面的格式定义所有被阻挡的用户代理的图谱。

  $ sudo vi /etc/nginx/useragent.rules

   

复制代码 代码如下:
   map $http_user_agent $badagent {
            default         0;
            ~*malicious     1;
            ~*backdoor      1;
            ~*netcrawler    1;
            ~Antivirx       1;
            ~Arian          1;
            ~webbandit      1;
    } 
 

与先前的配置类似,‘~*'将匹配以大小写不敏感的方式匹配关键字,而‘~'将使用大小写敏感的正则表达式匹配关键字。“default 0”行所表达的意思是,任何其它文件中未被列出的用户代理将被允许。

接下来,打开你的网站的nginx配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某个位置。

   

复制代码 代码如下:
   http {
        .....
        include /etc/nginx/useragent.rules
    } 
 

注意,该 include 声明必须出现在 server 部分之前(这就是为什么我们将它添加到了 http 部分里)。

现在,打开nginx配置定义你的服务器的部分,添加以下 if 声明:

   

复制代码 代码如下:
   server {
        ....
        if ($badagent) {
            return 403;
        }
        ....
    } 
 

最后,重新加载nginx。

  

 $ sudo /path/to/nginx -s reload

现在,任何包含有/etc/nginx/useragent.rules中列出的关键字的用户代理将被nginx自动禁止。

相关文章

  • 解决httpd占用80端口导致Nginx启动失败报错的解决办法

    解决httpd占用80端口导致Nginx启动失败报错的解决办法

    今天在建自己小网站时启动Nginx时,发现其报下列错误,意思是因为80端口被占用导致Nginx启动失败,所以本文小编给大家介绍介绍如何解决解决httpd占用80端口导致Nginx启动不成功报nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)
    2023-11-11
  • Nginx如何获取自定义请求header头和URL参数详解

    Nginx如何获取自定义请求header头和URL参数详解

    这篇文章主要给大家介绍了关于Nginx如何获取自定义请求header头和URL参数的相关资料,本文适用于需要在nginx里获取http请求头信息或者传递的参数进行一些计算和处理的情况,需要的朋友可以参考下
    2022-07-07
  • 一文教会你使用Nginx访问日志统计PV与UV

    一文教会你使用Nginx访问日志统计PV与UV

    做网站的都知道,平常经常要查询下网站PV、UV等网站的访问数据,所以下面这篇文章主要给大家介绍了关于如何使用Nginx访问日志统计PV与UV的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-05-05
  • nginx中path模式配置示例

    nginx中path模式配置示例

    这篇文章主要介绍了nginx中path模式配置示例,nginx服务器默认是不支持pathinfo模式的,需要修改配置才可以实现,本文即给出了配置示例,需要的朋友可以参考下
    2014-12-12
  • nginx编译安装后对nginx进行平滑升级的方法

    nginx编译安装后对nginx进行平滑升级的方法

    nginx编译安装后用了一段时间后发现当前版本有漏洞或需要新的功能时就需要对当前nginx版本进行版本升级,所以这时就需到对nginx的平滑升级,如何进行平滑升级,下面就一起来了解一下
    2018-12-12
  • Nginx-rewrite模块概述

    Nginx-rewrite模块概述

    从功能上看 rewrite 和 location 似乎有点像,都能实现跳转,主要区别在于 rewrite 是在同一域名内更改获取资源的路径,这篇文章主要介绍了Nginx-rewrite模块详细介绍,需要的朋友可以参考下
    2023-06-06
  • nginx中域名、目录的301重定向配置示例

    nginx中域名、目录的301重定向配置示例

    这篇文章主要介绍了nginx中域名、目录的301重定向配置示例,分为域名和域名间的跳转,目录跳转等,需要的朋友可以参考下
    2014-07-07
  • Nginx 防止被域名恶意解析的办法

    Nginx 防止被域名恶意解析的办法

    这篇文章主要介绍了Nginx 防止被域名恶意解析的方法的相关资料,希望通过本文能帮助到大家,让大家掌握理解这部分内容,需要的朋友可以参考下
    2017-10-10
  • WordPress与Drupal的Nginx配置rewrite重写规则示例

    WordPress与Drupal的Nginx配置rewrite重写规则示例

    这篇文章主要介绍了WordPress与Drupal的Nginx配置重写规则示例,文中介绍的rewrite写法简单而突出配置重点,需要的朋友可以参考下
    2016-01-01
  • 使用Nginx实现根据 IP 匹配指定 URL

    使用Nginx实现根据 IP 匹配指定 URL

    最近的一个项目,需要特定的IP访问某专题页面的时候跳转到网站首页,思考了下,直接使用NGINX实现,分享给大家。
    2014-09-09

最新评论