python中绕过反爬虫的方法总结

 更新时间:2020年11月25日 15:57:52   作者:小妮浅浅  
在本篇文章里小编给大家整理的是一篇关于python中绕过反爬虫的方法总结内容,需要的朋友们可以参考下。

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python获取apk文件URL地址实例

    Python获取apk文件URL地址实例

    需要提取apk文件的特定URL地址的朋友可以看一下这个代码实例。
    2013-11-11
  • Python练习之制作企业奖金计算器

    Python练习之制作企业奖金计算器

    在本篇博客中,我们将使用Python代码解决一个企业奖金计算的问题,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-06-06
  • python如何通过注册表动态管理组件

    python如何通过注册表动态管理组件

    使用注册表的主要优势是可以在运行时动态创建对象,从而实现高度可配置和可扩展的设计,这篇文章主要介绍了python如何通过注册表动态管理组件,需要的朋友可以参考下
    2024-05-05
  • python Flask框架之HTTP请求详解

    python Flask框架之HTTP请求详解

    Flask是一个使用 Python 编写的轻量级 Web 应用框架。其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 。Flask使用 BSD 授权,本篇我们来了解Flask框架中的HTTP请求
    2022-07-07
  • 详解如何为eclipse安装合适版本的python插件pydev

    详解如何为eclipse安装合适版本的python插件pydev

    这篇文章主要介绍了详解如何为eclipse安装合适版本的python插件pydev,pydev是一款优秀的Eclipse插件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-11-11
  • Python强化练习之PyTorch opp算法实现月球登陆器

    Python强化练习之PyTorch opp算法实现月球登陆器

    在面向对象出现之前,我们采用的开发方法都是面向过程的编程(OPP)。面向过程的编程中最常用的一个分析方法是“功能分解”。我们会把用户需求先分解成模块,然后把模块分解成大的功能,再把大的功能分解成小的功能,整个需求就是按照这样的方式,最终分解成一个一个的函数
    2021-10-10
  • python三引号输出方法

    python三引号输出方法

    在本文里我们给大家分析那个了关于python三引号输出方法以及相关知识点,需要的朋友们学习下。
    2019-02-02
  • 用 Python 元类的特性实现 ORM 框架

    用 Python 元类的特性实现 ORM 框架

    利用 Python 元类的特性实现 ORM 框架的 insert 功能,通过操作类对象,对数据表进行数据增加操作。由于 ORM 比较复杂,也不要重复造轮子,就完成一个 insert 相类似的ORM,理解其中的道理即可。
    2021-05-05
  • centos 安装Python3 及对应的pip教程详解

    centos 安装Python3 及对应的pip教程详解

    这篇文章主要介绍了centos 安装Python3 及对应的pip的教程,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-06-06
  • Python Arrow处理时间数据使用详解(标准库之外另一种选择)

    Python Arrow处理时间数据使用详解(标准库之外另一种选择)

    这篇文章主要介绍了Python标准库之外Arrow处理时间数据的另一种选择使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01

最新评论