详解selenium + chromedriver 被反爬的解决方法

 更新时间:2020年10月28日 11:09:42   作者:黑蚂蚁  
这篇文章主要介绍了详解selenium + chromedriver 被反爬的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

问题背景:这个问题是在爬取某夕夕商城遇到的问题,原本的方案是用selenium + chromedriver + mitmproxy开心的刷,但是几天之后,发现刷不出来了,会直接跳转到登陆界面(很明显,是遭遇反爬了)

讲实话,这还是第一次用硒被反爬的,于是进行大规模的测试对比。

同台机器,用铬浏览器正常访问是不用跳转到登陆界面的,所以不是IP的问题。再用提琴手抓包对比了一下两个请求头,请求头都是一样的,所以忽略标头的反爬。

最后通过分析,可能是硒被检测出来了。于是就去查资料。大概的查到是和webdriver的有关系的。因为这个在服务端是可以检测到的。于是通过fiddler抓包,全局搜索了一下webdriver,发现在js中果然是有判断的。导致selenium爬取的时候,被转到登陆界面。

解决方法:mitmproxy

因为mitmproxy可以拦截请求,所以在响应中,将包含的webdriver的JS中的关键字替换成其他的字符就可以了。

  if "/_next/static/js/common_pdd" in flow.request.url:
    flow.response.text = flow.response.text.replace("webdriver", "userAgent")

我是这样替换的。这样js解析的参数就变了,问题花刃而解。可以正常爬取数据了。

另外国外网上也有很多方法,比如修改webdriver里的一些特定参数名称,我尝试了一下,没有生效。

到此这篇关于详解selenium + chromedriver 被反爬的解决方法的文章就介绍到这了,更多相关selenium chromedriver反爬内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 

相关文章

  • python如何求两数之和及多数之和

    python如何求两数之和及多数之和

    这篇文章主要介绍了python如何求两数之和及多数之和问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • Python接口自动化浅析数据驱动原理

    Python接口自动化浅析数据驱动原理

    这篇文章主要介绍了Python接口自动化浅析数据驱动原理,文中会详细描述怎样使用openpyxl模块操作excel及结合ddt来实现数据驱动,有需要的朋友可以参考下
    2021-08-08
  • OpenCV图像处理之图像的二值化解读

    OpenCV图像处理之图像的二值化解读

    这篇文章主要介绍了OpenCV图像处理之图像的二值化解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • python实现Virginia无密钥解密

    python实现Virginia无密钥解密

    这篇文章主要为大家详细介绍了python实现Virginia无密钥解密,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • 利用Python编写一个蹭WiFi的软件

    利用Python编写一个蹭WiFi的软件

    这篇文章主要为大家详细介绍了如何利用Python编写一个简易的蹭WiFi的软件,文中的示例代码讲解详细,感兴趣的小伙伴可以学习一下
    2023-06-06
  • Python数据可视化Pyecharts库实现桑葚图效果

    Python数据可视化Pyecharts库实现桑葚图效果

    这篇文章主要介绍了Python数据可视化如何使用Pyecharts库来实现桑葚图效果图,文中给出实现的示例代码,有需要的朋友可以借鉴参考想,希望能够有所帮助
    2021-09-09
  • numpy数组之读写文件的实现

    numpy数组之读写文件的实现

    本文主要介绍了numpy数组之读写文件的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python算法的时间复杂度和空间复杂度(实例解析)

    Python算法的时间复杂度和空间复杂度(实例解析)

    算法复杂度分为时间复杂度和空间复杂度,简单而讲时间复杂度指的是语句执行次数,空间复杂度指的是算法所占的存储空间,本文通过代码给大家介绍Python算法的时间复杂度和空间复杂度问题,感兴趣的朋友一起看看吧
    2019-11-11
  • Python爬虫实战之爬取某宝男装信息

    Python爬虫实战之爬取某宝男装信息

    网络爬虫是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。本文将为大家介绍如何利用爬虫获取某宝男装信息,感兴趣的小伙伴可以了解一下
    2021-12-12
  • Python使用wget实现下载网络文件功能示例

    Python使用wget实现下载网络文件功能示例

    这篇文章主要介绍了Python使用wget实现下载网络文件功能,简单介绍了wget安装以及Python使用wget下载tar格式网络文件并进行解压处理相关操作技巧,需要的朋友可以参考下
    2018-05-05

最新评论