Python常见反爬虫机制解决方案

 更新时间:2020年06月01日 10:49:37   作者:其实还好啦  
这篇文章主要介绍了Python常见反爬虫机制解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1、使用代理

适用情况:限制IP地址情况,也可解决由于“频繁点击”而需要输入验证码登陆的情况。

这种情况最好的办法就是维护一个代理IP池,网上有很多免费的代理IP,良莠不齐,可以通过筛选找到能用的。对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests:
 import requests
 response = requests.get(url=url, proxies=proxies)
Urllib2:
 import urllib2
 proxy_support = urllib2.ProxyHandler(proxies)
 opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
 urllib2.install_opener(opener) # 安装opener,此后调用urlopen()时都会使用安装过的opener对象
 response = urllib2.urlopen(url)

2、时间设置

适用情况:限制频率情况。

Requests,Urllib2都可以使用time库的sleep()函数:

import time
time.sleep(1)

3、伪装成浏览器,或者反“反盗链”

有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还

会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问,适用于拒绝爬虫的网站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests:
 response = requests.get(url=url, headers=headers)
Urllib2:
 import urllib, urllib2  
 req = urllib2.Request(url=url, headers=headers)
 response = urllib2.urlopen(req)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 夯实基础python集合的应用场景及字符串定义和表示

    夯实基础python集合的应用场景及字符串定义和表示

    这篇文章主要为大家介绍了python集合的应用场景及字符串定义和表示,来帮大家夯实基础,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2023-10-10
  • 基于Python实现数据库表结构导出工具

    基于Python实现数据库表结构导出工具

    这篇文章主要为大家详细介绍了如何基于Python实现将数据库表结构导出到 Word 文档的实用工具,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-04-04
  • python PIL中ImageFilter模块图片滤波处理和使用方法

    python PIL中ImageFilter模块图片滤波处理和使用方法

    这篇文章主要介绍PIL中ImageFilter模块几种图片滤波处理和使用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-11-11
  • Python fileinput模块应用详解

    Python fileinput模块应用详解

    说到fileinput,可能90%的码农表示没用过,甚至没有听说过。这不奇怪,因为在python界,既然open可以走天下,何必要fileinput呢,今天我们来了解下它
    2022-09-09
  • Python动态生成多维数组的方法示例

    Python动态生成多维数组的方法示例

    这篇文章主要介绍了Python动态生成多维数组的方法,涉及Python数组动态遍历、添加、打印等相关操作技巧,需要的朋友可以参考下
    2018-08-08
  • 一篇文章带你学习Python3的高级特性(2)

    一篇文章带你学习Python3的高级特性(2)

    这篇文章主要为大家详细介绍了Python3的高阶函数,主要介绍什么是高级特性,高级特性的用法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • python数据解析BeautifulSoup爬取三国演义章节示例

    python数据解析BeautifulSoup爬取三国演义章节示例

    这篇文章主要介绍了python数据解析BeautifulSoup爬取三国演义章节示例,文中附含详细示例代码,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-09-09
  • Python 3.9的到来到底是意味着什么

    Python 3.9的到来到底是意味着什么

    本文主要介绍Python3.9的一些新特性比如说更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API,感兴趣的朋友跟随小编一起看看吧
    2020-10-10
  • TensorFlow Session会话控制&Variable变量详解

    TensorFlow Session会话控制&Variable变量详解

    今天小编就为大家分享一篇TensorFlow Session会话控制&Variable变量详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python中使用MySQL模糊查询的详细方法

    Python中使用MySQL模糊查询的详细方法

    这篇文章主要介绍了Python中使用MySQL模糊查询的方法,以下是一个使用pymysql进行模糊查询的详细示例,包括安装库、连接数据库、执行查询以及处理结果,需要的朋友可以参考下
    2024-06-06

最新评论